流式压缩#

pylibcudf.stream_compaction.DuplicateKeepOption#

另请参阅 cudf::duplicate_keep_option

枚举成员

  • 保留任意一个

  • 保留第一个

  • 保留最后一个

  • 不保留任何一个

pylibcudf.stream_compaction.apply_boolean_mask(Table source_table, Column boolean_mask) Table#

根据布尔掩码过滤输入表中的行。

详情请参阅 apply_boolean_mask()

参数:
source_tableTable

要过滤的输入表。

boolean_maskColumn

应用于输入表的布尔掩码。

返回:
Table

根据布尔掩码移除行后的新表。

pylibcudf.stream_compaction.distinct(Table input, list keys, duplicate_keep_option keep, null_equality nulls_equal, nan_equality nans_equal) Table#

获取输入表中的唯一行。

详情请参阅 distinct()

参数:
inputTable

要过滤的输入表。

keyslist

用于唯一值过滤的列索引列表。

keepduplicate_keep_option

指定在存在重复行时保留哪些行的选项。

nulls_equalnull_equality

指定在比较中如何处理空值的选项。

nans_equalnan_equality

指定在比较中如何处理 NaN 的选项。

返回:
Table

包含输入表中唯一行的新表。输出顺序不一定与输入顺序相同。

pylibcudf.stream_compaction.distinct_count(Column source, null_policy null_handling, nan_policy nan_handling) size_type#

返回输入列中唯一元素的数量。

详情请参阅 distinct_count()

参数:
sourceColumn

要计数唯一元素的输入列。

null_handlingnull_policy

标志,用于指定是否将空值包含在计数中。

nan_handlingnan_policy

标志,用于指定是否将 NaN 包含在计数中。

返回:
size_type

输入列中唯一元素的数量。

pylibcudf.stream_compaction.distinct_indices(Table input, duplicate_keep_option keep, null_equality nulls_equal, nan_equality nans_equal) Column#

获取输入表中唯一行的索引。

详情请参阅 distinct_indices()

参数:
inputTable

要过滤的输入表。

keepduplicate_keep_option

指定在存在重复行时保留哪些行的选项。

nulls_equalnull_equality

指定在比较中如何处理空值的选项。

nans_equalnan_equality

指定在比较中如何处理 NaN 的选项。

返回:

包含输入表中唯一行索引的新列。

pylibcudf.stream_compaction.drop_nans(Table source_table, list keys, size_type keep_threshold) Table#

根据 NaN 的存在过滤输入表中的行。

详情请参阅 drop_nans()

参数:
source_tableTable

要过滤的输入表。

keysList[size_type]

用于 NaN 过滤的列索引列表。

keep_thresholdsize_type

保留一行所需的非 NaN 的最小数量。

返回:
Table

根据 NaN 移除行后的新表。

pylibcudf.stream_compaction.drop_nulls(Table source_table, list keys, size_type keep_threshold) Table#

根据空值的存在过滤输入表中的行。

详情请参阅 drop_nulls()

参数:
source_tableTable

要过滤的输入表。

keysList[size_type]

用于空值过滤的列索引列表。

keep_thresholdsize_type

保留一行所需的非空值的最小数量。

返回:
Table

根据空值计数移除行后的新表。

pylibcudf.stream_compaction.stable_distinct(Table input, list keys, duplicate_keep_option keep, null_equality nulls_equal, nan_equality nans_equal) Table#

获取输入表中的唯一行,并保留输入顺序。

详情请参阅 stable_distinct()

参数:
inputTable

要过滤的输入表。

keyslist

用于唯一值过滤的列索引列表。

keepduplicate_keep_option

指定在存在重复行时保留哪些行的选项。

nulls_equalnull_equality

指定在比较中如何处理空值的选项。

nans_equalnan_equality

指定在比较中如何处理 NaN 的选项。

返回:
Table

包含输入表中唯一行的新表,并保留输入表顺序。

pylibcudf.stream_compaction.unique(Table input, list keys, duplicate_keep_option keep, null_equality nulls_equal) Table#

过滤输入表中连续的重复行。

详情请参阅 unique()

参数:
inputTable

要过滤的输入表

keyslist[int]

用于过滤的列索引列表。

keepduplicate_keep_option

指定在存在重复行时保留哪些行的选项。

nulls_equalnull_equality

指定在比较中如何处理空值的选项。

返回:
Table

根据 `keep` 指定,对每组等效行保留唯一行的新表。顺序与输入表相同。

注意

如果要过滤的输入列是已排序的,则 unique 可以产生与 stable_distinct 相同的结果,但速度更快。

pylibcudf.stream_compaction.unique_count(Column source, null_policy null_handling, nan_policy nan_handling) size_type#

返回输入列中连续唯一元素的数量。

详情请参阅 unique_count()

参数:
sourceColumn

要计数唯一元素的输入列。

null_handlingnull_policy

标志,用于指定是否将空值包含在计数中。

nan_handlingnan_policy

标志,用于指定是否将 NaN 包含在计数中。

返回:
size_type

输入列中连续唯一元素的数量。

注意

如果输入列是已排序的,则 unique_count 可以产生与 distinct_count 相同的结果,但速度更快。