分区#

pylibcudf.partitioning.hash_partition(Table input, list columns_to_hash, int num_partitions) tuple#

将输入表中的行分区到多个输出表中。

详情请参阅 hash_partition()

参数:
inputTable

要分区的表

columns_to_hashlist[int]

要进行哈希的输入列的索引

num_partitionsint

使用的分区数

返回:
tuple[Table, list[int]]

一个输出表和一个指向每个分区的行偏移量向量

pylibcudf.partitioning.partition(Table t, Column partition_map, int num_partitions) tuple#

根据 `partition_map` 指定的映射对表 `t` 的行进行分区。

详情请参阅 partition()

参数:
tTable

要分区的表

partition_mapColumn

非空整数值列,将表 `t` 中的每一行映射到其对应的分区。

num_partitionsint

总分区数

返回:
tuple[Table, list[int]]

一个输出表和指向每个分区的行偏移量列表

pylibcudf.partitioning.round_robin_partition(Table input, int num_partitions, int start_partition=0) tuple#

轮询分区。

详情请参阅 round_robin_partition()

参数:
inputTable

要进行轮询分区的输入表

num_partitionsint

表的总分区数

start_partitionint, default 0

第一个分区的索引

返回:
tuple[Table, list[int]]

分区后的表以及表中每个分区的偏移量。