分区#
- pylibcudf.partitioning.hash_partition(Table input, list columns_to_hash, int num_partitions) tuple #
将输入表中的行分区到多个输出表中。
详情请参阅
hash_partition()
。- 参数:
- inputTable
要分区的表
- columns_to_hashlist[int]
要进行哈希的输入列的索引
- num_partitionsint
使用的分区数
- 返回:
- tuple[Table, list[int]]
一个输出表和一个指向每个分区的行偏移量向量
- pylibcudf.partitioning.partition(Table t, Column partition_map, int num_partitions) tuple #
根据 `partition_map` 指定的映射对表 `t` 的行进行分区。
详情请参阅
partition()
。- 参数:
- tTable
要分区的表
- partition_mapColumn
非空整数值列,将表 `t` 中的每一行映射到其对应的分区。
- num_partitionsint
总分区数
- 返回:
- tuple[Table, list[int]]
一个输出表和指向每个分区的行偏移量列表
- pylibcudf.partitioning.round_robin_partition(Table input, int num_partitions, int start_partition=0) tuple #
轮询分区。
详情请参阅
round_robin_partition()
。- 参数:
- inputTable
要进行轮询分区的输入表
- num_partitionsint
表的总分区数
- start_partitionint, default 0
第一个分区的索引
- 返回:
- tuple[Table, list[int]]
分区后的表以及表中每个分区的偏移量。