流式压缩#

pylibcudf.stream_compaction.DuplicateKeepOption#

另请参阅 cudf::duplicate_keep_option。

枚举成员

保留任意一个
保留第一个
保留最后一个
不保留任何一个

pylibcudf.stream_compaction.apply_boolean_mask(Table source_table, Column boolean_mask) → Table#

根据布尔掩码过滤输入表中的行。

详情请参阅 apply_boolean_mask()。

参数：

source_tableTable: 要过滤的输入表。
boolean_maskColumn: 应用于输入表的布尔掩码。

返回：

Table: 根据布尔掩码移除行后的新表。

pylibcudf.stream_compaction.distinct(Table input, list keys, duplicate_keep_option keep, null_equality nulls_equal, nan_equality nans_equal) → Table#

获取输入表中的唯一行。

详情请参阅 distinct()。

参数：

inputTable: 要过滤的输入表。
keyslist: 用于唯一值过滤的列索引列表。
keepduplicate_keep_option: 指定在存在重复行时保留哪些行的选项。
nulls_equalnull_equality: 指定在比较中如何处理空值的选项。
nans_equalnan_equality: 指定在比较中如何处理 NaN 的选项。

返回：

Table: 包含输入表中唯一行的新表。输出顺序不一定与输入顺序相同。

pylibcudf.stream_compaction.distinct_count(Column source, null_policy null_handling, nan_policy nan_handling) → size_type#

返回输入列中唯一元素的数量。

详情请参阅 distinct_count()。

参数：

sourceColumn: 要计数唯一元素的输入列。
null_handlingnull_policy: 标志，用于指定是否将空值包含在计数中。
nan_handlingnan_policy: 标志，用于指定是否将 NaN 包含在计数中。

返回：

size_type: 输入列中唯一元素的数量。

pylibcudf.stream_compaction.distinct_indices(Table input, duplicate_keep_option keep, null_equality nulls_equal, nan_equality nans_equal) → Column#

获取输入表中唯一行的索引。

详情请参阅 distinct_indices()。

参数：

inputTable: 要过滤的输入表。
keepduplicate_keep_option: 指定在存在重复行时保留哪些行的选项。
nulls_equalnull_equality: 指定在比较中如何处理空值的选项。
nans_equalnan_equality: 指定在比较中如何处理 NaN 的选项。

返回：

列: 包含输入表中唯一行索引的新列。

pylibcudf.stream_compaction.drop_nans(Table source_table, list keys, size_type keep_threshold) → Table#

根据 NaN 的存在过滤输入表中的行。

详情请参阅 drop_nans()。

参数：

source_tableTable: 要过滤的输入表。
keysList[size_type]: 用于 NaN 过滤的列索引列表。
keep_thresholdsize_type: 保留一行所需的非 NaN 的最小数量。

返回：

Table: 根据 NaN 移除行后的新表。

pylibcudf.stream_compaction.drop_nulls(Table source_table, list keys, size_type keep_threshold) → Table#

根据空值的存在过滤输入表中的行。

详情请参阅 drop_nulls()。

参数：

source_tableTable: 要过滤的输入表。
keysList[size_type]: 用于空值过滤的列索引列表。
keep_thresholdsize_type: 保留一行所需的非空值的最小数量。

返回：

Table: 根据空值计数移除行后的新表。

pylibcudf.stream_compaction.stable_distinct(Table input, list keys, duplicate_keep_option keep, null_equality nulls_equal, nan_equality nans_equal) → Table#

获取输入表中的唯一行，并保留输入顺序。

详情请参阅 stable_distinct()。

参数：

inputTable: 要过滤的输入表。
keyslist: 用于唯一值过滤的列索引列表。
keepduplicate_keep_option: 指定在存在重复行时保留哪些行的选项。
nulls_equalnull_equality: 指定在比较中如何处理空值的选项。
nans_equalnan_equality: 指定在比较中如何处理 NaN 的选项。

返回：

Table: 包含输入表中唯一行的新表，并保留输入表顺序。

pylibcudf.stream_compaction.unique(Table input, list keys, duplicate_keep_option keep, null_equality nulls_equal) → Table#

过滤输入表中连续的重复行。

详情请参阅 unique()。

参数：

inputTable: 要过滤的输入表
keyslist[int]: 用于过滤的列索引列表。
keepduplicate_keep_option: 指定在存在重复行时保留哪些行的选项。
nulls_equalnull_equality: 指定在比较中如何处理空值的选项。

返回：

Table: 根据 `keep` 指定，对每组等效行保留唯一行的新表。顺序与输入表相同。

注意

如果要过滤的输入列是已排序的，则 unique 可以产生与 stable_distinct 相同的结果，但速度更快。

pylibcudf.stream_compaction.unique_count(Column source, null_policy null_handling, nan_policy nan_handling) → size_type#

返回输入列中连续唯一元素的数量。

详情请参阅 unique_count()。

参数：

sourceColumn: 要计数唯一元素的输入列。
null_handlingnull_policy: 标志，用于指定是否将空值包含在计数中。
nan_handlingnan_policy: 标志，用于指定是否将 NaN 包含在计数中。

返回：

size_type: 输入列中连续唯一元素的数量。

注意

如果输入列是已排序的，则 unique_count 可以产生与 distinct_count 相同的结果，但速度更快。

流式压缩#

当前页面