groupby#

class pylibcudf.groupby.GroupBy(Table keys, null_policy null_handling=null_policy.EXCLUDE, sorted keys_are_sorted=sorted.NO, list column_order=None, list null_precedence=None)#

按键对值进行分组并计算各种聚合量。

详情请参阅 cudf::groupby::groupby

参数:
keysTable

用于分组的列。

null_handlingnull_policy, 可选

是否在 keys 中包含空行。默认值为 null_policy.EXCLUDE

keys_are_sortedsorted, 可选

键是否已排序。默认值为 sorted.NO

column_orderlist[order]

指示每列的顺序。默认值为 order.ASCENDING。如果 keys_are_sortedsorted.NO,则忽略。

null_precedencelist[null_order]

指示每列中空值的排序方式。默认值为 null_order.AFTER。如果 keys_are_sortedsorted.NO,则忽略。

方法

aggregate(self, list requests)

计算列上的聚合。

get_groups(self, Table values=None)

获取每行的分组键和值标签。

replace_nulls(self, Table value, ...)

替换列中的空值。

scan(self, list requests)

计算列上的扫描。

shift(self, Table values, list offset, ...)

计算列上的移位。

aggregate(self, list requests) 元组#

计算列上的聚合。

详情请参阅 cudf::groupby::groupby::aggregate()

参数:
requestsList[GroupByRequest]

~.pylibcudf.groupby.GroupByRequest 的列表,每个请求代表对给定值列执行的一组聚合。

返回:
Tuple[Table, List[Table, …]]

一个元组,其第一个元素是唯一的键,第二个元素是聚合结果表。每个聚合请求返回一个表,列对应于请求中的聚合序列。

get_groups(self, Table values=None) 元组#

获取每行的分组键和值标签。

详情请参阅 cudf::groupby::groupby::get_groups()

参数:
valuesTable, 可选

需要获取组标签的列。如果未指定,则对于组值返回 None

返回:
Tuple[List[int], Table, Table]
包含三个元素的元组
  • 一个整数偏移量列表,指向组键/值

  • 一个组键表

  • 一个组值表或 None

replace_nulls(self, Table value, list replace_policies) 元组#

替换列中的空值。

详情请参阅 cudf::groupby::groupby::replace_nulls()

参数:
valuesTable

需要替换空值的列。

replace_policiesList[replace_policy]

用于替换空值的策略。

返回:
Tuple[Table, Table]

一个元组,其第一个元素是组的键,第二个元素是替换了空值的表。

scan(self, list requests) 元组#

计算列上的扫描。

详情请参阅 cudf::groupby::groupby::scan()

参数:
requestsList[GroupByRequest]

~.pylibcudf.groupby.GroupByRequest 的列表,每个请求代表对给定值列执行的一组聚合。

返回:
Tuple[Table, List[Table, …]]

一个元组,其第一个元素是唯一的键,第二个元素是聚合结果表。每个聚合请求返回一个表,列对应于请求中的聚合序列。

shift(self, Table values, list offset, list fill_values) 元组#

计算列上的移位。

详情请参阅 cudf::groupby::groupby::shift()

参数:
valuesTable

需要移位的列。

offsetList[int]

移位的偏移量。

fill_valuesList[Scalar]

用于填充缺失值的值。

返回:
Tuple[Table, Table]

一个元组,其第一个元素是组的键,第二个元素是移位后的表。

class pylibcudf.groupby.GroupByRequest(Column values, list aggregations)#

一个用于 groupby 聚合或扫描的请求。

此类在功能上具有多态性,根据使用的算法,可以表示聚合或扫描。有关其转换到的 libcudf 类型的详细信息,请参阅 cudf::groupby::aggregation_requestcudf::groupby::scan_request

参数:
valuesColumn

需要聚合的列。

aggregationsList[Aggregation]

需要执行的聚合列表。