流式压缩#
- pylibcudf.stream_compaction.DuplicateKeepOption#
另请参阅
cudf::duplicate_keep_option
。枚举成员
保留任意一个
保留第一个
保留最后一个
不保留任何一个
- pylibcudf.stream_compaction.apply_boolean_mask(Table source_table, Column boolean_mask) Table #
根据布尔掩码过滤输入表中的行。
详情请参阅
apply_boolean_mask()
。- 参数:
- source_tableTable
要过滤的输入表。
- boolean_maskColumn
应用于输入表的布尔掩码。
- 返回:
- Table
根据布尔掩码移除行后的新表。
- pylibcudf.stream_compaction.distinct(Table input, list keys, duplicate_keep_option keep, null_equality nulls_equal, nan_equality nans_equal) Table #
获取输入表中的唯一行。
详情请参阅
distinct()
。- 参数:
- inputTable
要过滤的输入表。
- keyslist
用于唯一值过滤的列索引列表。
- keepduplicate_keep_option
指定在存在重复行时保留哪些行的选项。
- nulls_equalnull_equality
指定在比较中如何处理空值的选项。
- nans_equalnan_equality
指定在比较中如何处理 NaN 的选项。
- 返回:
- Table
包含输入表中唯一行的新表。输出顺序不一定与输入顺序相同。
- pylibcudf.stream_compaction.distinct_count(Column source, null_policy null_handling, nan_policy nan_handling) size_type #
返回输入列中唯一元素的数量。
详情请参阅
distinct_count()
。- 参数:
- sourceColumn
要计数唯一元素的输入列。
- null_handlingnull_policy
标志,用于指定是否将空值包含在计数中。
- nan_handlingnan_policy
标志,用于指定是否将 NaN 包含在计数中。
- 返回:
- size_type
输入列中唯一元素的数量。
- pylibcudf.stream_compaction.distinct_indices(Table input, duplicate_keep_option keep, null_equality nulls_equal, nan_equality nans_equal) Column #
获取输入表中唯一行的索引。
详情请参阅
distinct_indices()
。- 参数:
- inputTable
要过滤的输入表。
- keepduplicate_keep_option
指定在存在重复行时保留哪些行的选项。
- nulls_equalnull_equality
指定在比较中如何处理空值的选项。
- nans_equalnan_equality
指定在比较中如何处理 NaN 的选项。
- 返回:
- 列
包含输入表中唯一行索引的新列。
- pylibcudf.stream_compaction.drop_nans(Table source_table, list keys, size_type keep_threshold) Table #
根据 NaN 的存在过滤输入表中的行。
详情请参阅
drop_nans()
。- 参数:
- source_tableTable
要过滤的输入表。
- keysList[size_type]
用于 NaN 过滤的列索引列表。
- keep_thresholdsize_type
保留一行所需的非 NaN 的最小数量。
- 返回:
- Table
根据 NaN 移除行后的新表。
- pylibcudf.stream_compaction.drop_nulls(Table source_table, list keys, size_type keep_threshold) Table #
根据空值的存在过滤输入表中的行。
详情请参阅
drop_nulls()
。- 参数:
- source_tableTable
要过滤的输入表。
- keysList[size_type]
用于空值过滤的列索引列表。
- keep_thresholdsize_type
保留一行所需的非空值的最小数量。
- 返回:
- Table
根据空值计数移除行后的新表。
- pylibcudf.stream_compaction.stable_distinct(Table input, list keys, duplicate_keep_option keep, null_equality nulls_equal, nan_equality nans_equal) Table #
获取输入表中的唯一行,并保留输入顺序。
详情请参阅
stable_distinct()
。- 参数:
- inputTable
要过滤的输入表。
- keyslist
用于唯一值过滤的列索引列表。
- keepduplicate_keep_option
指定在存在重复行时保留哪些行的选项。
- nulls_equalnull_equality
指定在比较中如何处理空值的选项。
- nans_equalnan_equality
指定在比较中如何处理 NaN 的选项。
- 返回:
- Table
包含输入表中唯一行的新表,并保留输入表顺序。
- pylibcudf.stream_compaction.unique(Table input, list keys, duplicate_keep_option keep, null_equality nulls_equal) Table #
过滤输入表中连续的重复行。
详情请参阅
unique()
。- 参数:
- inputTable
要过滤的输入表
- keyslist[int]
用于过滤的列索引列表。
- keepduplicate_keep_option
指定在存在重复行时保留哪些行的选项。
- nulls_equalnull_equality
指定在比较中如何处理空值的选项。
- 返回:
- Table
根据 `keep` 指定,对每组等效行保留唯一行的新表。顺序与输入表相同。
注意
如果要过滤的输入列是已排序的,则 unique 可以产生与 stable_distinct 相同的结果,但速度更快。
- pylibcudf.stream_compaction.unique_count(Column source, null_policy null_handling, nan_policy nan_handling) size_type #
返回输入列中连续唯一元素的数量。
详情请参阅
unique_count()
。- 参数:
- sourceColumn
要计数唯一元素的输入列。
- null_handlingnull_policy
标志,用于指定是否将空值包含在计数中。
- nan_handlingnan_policy
标志,用于指定是否将 NaN 包含在计数中。
- 返回:
- size_type
输入列中连续唯一元素的数量。
注意
如果输入列是已排序的,则 unique_count 可以产生与 distinct_count 相同的结果,但速度更快。