分区#

pylibcudf.partitioning.hash_partition(Table input, list columns_to_hash, int num_partitions) → tuple#

将输入表中的行分区到多个输出表中。

详情请参阅 hash_partition()。

参数：

inputTable: 要分区的表
columns_to_hashlist[int]: 要进行哈希的输入列的索引
num_partitionsint: 使用的分区数

返回：

tuple[Table, list[int]]: 一个输出表和一个指向每个分区的行偏移量向量

pylibcudf.partitioning.partition(Table t, Column partition_map, int num_partitions) → tuple#

根据 `partition_map` 指定的映射对表 `t` 的行进行分区。

详情请参阅 partition()。

参数：

tTable: 要分区的表
partition_mapColumn: 非空整数值列，将表 `t` 中的每一行映射到其对应的分区。
num_partitionsint: 总分区数

返回：

tuple[Table, list[int]]: 一个输出表和指向每个分区的行偏移量列表

pylibcudf.partitioning.round_robin_partition(Table input, int num_partitions, int start_partition=0) → tuple#

轮询分区。

详情请参阅 round_robin_partition()。

参数：

inputTable: 要进行轮询分区的输入表
num_partitionsint: 表的总分区数
start_partitionint, default 0: 第一个分区的索引

返回：

tuple[Table, list[int]]: 分区后的表以及表中每个分区的偏移量。