groupby#
- class pylibcudf.groupby.GroupBy(Table keys, null_policy null_handling=null_policy.EXCLUDE, sorted keys_are_sorted=sorted.NO, list column_order=None, list null_precedence=None)#
按键对值进行分组并计算各种聚合量。
详情请参阅
cudf::groupby::groupby
。- 参数:
- keysTable
用于分组的列。
- null_handlingnull_policy, 可选
是否在 keys 中包含空行。默认值为
null_policy.EXCLUDE
。- keys_are_sortedsorted, 可选
键是否已排序。默认值为
sorted.NO
。- column_orderlist[order]
指示每列的顺序。默认值为
order.ASCENDING
。如果 keys_are_sorted 为sorted.NO
,则忽略。- null_precedencelist[null_order]
指示每列中空值的排序方式。默认值为
null_order.AFTER
。如果 keys_are_sorted 为sorted.NO
,则忽略。
方法
aggregate
(self, list requests)计算列上的聚合。
get_groups
(self, Table values=None)获取每行的分组键和值标签。
replace_nulls
(self, Table value, ...)替换列中的空值。
scan
(self, list requests)计算列上的扫描。
shift
(self, Table values, list offset, ...)计算列上的移位。
- aggregate(self, list requests) 元组 #
计算列上的聚合。
详情请参阅
cudf::groupby::groupby::aggregate()
。- 参数:
- requestsList[GroupByRequest]
~.pylibcudf.groupby.GroupByRequest 的列表,每个请求代表对给定值列执行的一组聚合。
- 返回:
- Tuple[Table, List[Table, …]]
一个元组,其第一个元素是唯一的键,第二个元素是聚合结果表。每个聚合请求返回一个表,列对应于请求中的聚合序列。
- get_groups(self, Table values=None) 元组 #
获取每行的分组键和值标签。
详情请参阅
cudf::groupby::groupby::get_groups()
。- 参数:
- valuesTable, 可选
需要获取组标签的列。如果未指定,则对于组值返回 None。
- 返回:
- Tuple[List[int], Table, Table]
- 包含三个元素的元组
一个整数偏移量列表,指向组键/值
一个组键表
一个组值表或 None
- replace_nulls(self, Table value, list replace_policies) 元组 #
替换列中的空值。
详情请参阅
cudf::groupby::groupby::replace_nulls()
。- 参数:
- valuesTable
需要替换空值的列。
- replace_policiesList[replace_policy]
用于替换空值的策略。
- 返回:
- Tuple[Table, Table]
一个元组,其第一个元素是组的键,第二个元素是替换了空值的表。
- scan(self, list requests) 元组 #
计算列上的扫描。
详情请参阅
cudf::groupby::groupby::scan()
。- 参数:
- requestsList[GroupByRequest]
~.pylibcudf.groupby.GroupByRequest 的列表,每个请求代表对给定值列执行的一组聚合。
- 返回:
- Tuple[Table, List[Table, …]]
一个元组,其第一个元素是唯一的键,第二个元素是聚合结果表。每个聚合请求返回一个表,列对应于请求中的聚合序列。
- shift(self, Table values, list offset, list fill_values) 元组 #
计算列上的移位。
详情请参阅
cudf::groupby::groupby::shift()
。- 参数:
- valuesTable
需要移位的列。
- offsetList[int]
移位的偏移量。
- fill_valuesList[Scalar]
用于填充缺失值的值。
- 返回:
- Tuple[Table, Table]
一个元组,其第一个元素是组的键,第二个元素是移位后的表。
- class pylibcudf.groupby.GroupByRequest(Column values, list aggregations)#
一个用于 groupby 聚合或扫描的请求。
此类在功能上具有多态性,根据使用的算法,可以表示聚合或扫描。有关其转换到的 libcudf 类型的详细信息,请参阅
cudf::groupby::aggregation_request
和cudf::groupby::scan_request
。- 参数:
- valuesColumn
需要聚合的列。
- aggregationsList[Aggregation]
需要执行的聚合列表。