GroupBy#

GroupBy 对象由 groupby 调用返回:cudf.DataFrame.groupby()cudf.Series.groupby() 等。

索引,迭代#

GroupBy.__iter__()

GroupBy.groups

返回一个字典,将组键映射到行标签。

Grouper([key, level, freq, closed, label])

函数应用#

GroupBy.apply(func, *args[, engine, ...])

对分组后的块应用 Python 转换函数。

GroupBy.agg([func, engine, engine_kwargs])

对组应用聚合操作。

SeriesGroupBy.aggregate(func, *args[, ...])

对组应用聚合操作。

DataFrameGroupBy.aggregate([func, engine, ...])

对组应用聚合操作。

GroupBy.pipe(func, *args, **kwargs)

将带有参数的函数 func 应用于此 GroupBy 对象,并返回函数结果。

GroupBy.transform(func, *args[, engine, ...])

应用一个聚合操作,然后将结果广播到组的大小。

计算 / 描述性统计#

GroupBy.bfill([limit])

向后填充 NA 值。

GroupBy.count([dropna])

计算每列的值的数量。

GroupBy.cumcount([ascending])

返回每个组中键的累积计数。

GroupBy.cummax(*args, **kwargs)

计算每个组的累积最大值。

GroupBy.cummin(*args, **kwargs)

计算每个组的累积最小值。

GroupBy.cumsum(*args, **kwargs)

计算每个组的累积和。

GroupBy.diff([periods, axis])

获取每个组中值之间的差。

GroupBy.ffill([limit])

向前填充 NA 值。

GroupBy.first([numeric_only, min_count])

计算组中第一个值。

GroupBy.get_group(name[, obj])

从具有指定名称的组构建 DataFrame。

GroupBy.groups

返回一个字典,将组键映射到行标签。

GroupBy.idxmax([numeric_only, min_count])

计算组中值的 idxmax。

GroupBy.idxmin([numeric_only, min_count])

计算组中值的 idxmin。

GroupBy.last([numeric_only, min_count])

计算组中最后一个值。

GroupBy.max([numeric_only, min_count])

计算组中最大值。

GroupBy.mean([numeric_only, min_count])

计算组中平均值。

GroupBy.median([numeric_only, min_count])

计算组中中位数。

GroupBy.min([numeric_only, min_count])

计算组中最小值。

GroupBy.ngroup([ascending])

对每个组从 0 到 组数-1 进行编号。

GroupBy.nth(n[, dropna])

返回每个组中的第 n 行。

GroupBy.nunique([dropna])

返回组中唯一元素的数量。

GroupBy.prod([numeric_only, min_count])

计算组中值的乘积。

GroupBy.shift([periods, freq, axis, ...])

将每个组按 periods 位置进行移动。

GroupBy.size()

返回每个组的大小。

GroupBy.std([ddof, engine, engine_kwargs, ...])

计算每个组中值的列标准差。

GroupBy.sum([numeric_only, min_count])

计算组中值的和。

GroupBy.var([ddof, engine, engine_kwargs, ...])

计算每个组中值的列方差。

GroupBy.cov([min_periods, ddof, numeric_only])

计算 DataFrame 列之间的成对协方差,不包括 NA/null 值。

以下方法在 SeriesGroupByDataFrameGroupBy 对象中都可用,但可能略有不同,通常体现在 DataFrameGroupBy 版本通常允许指定轴参数,并且通常允许指定参数以指示是否将应用限制在特定数据类型的列。

DataFrameGroupBy.bfill([limit])

向后填充 NA 值。

DataFrameGroupBy.corr([method, min_periods, ...])

计算列的成对相关性,不包括 NA/null 值。

DataFrameGroupBy.count([dropna])

计算每列的值的数量。

DataFrameGroupBy.cumcount([ascending])

返回每个组中键的累积计数。

DataFrameGroupBy.cummax(*args, **kwargs)

计算每个组的累积最大值。

DataFrameGroupBy.cummin(*args, **kwargs)

计算每个组的累积最小值。

DataFrameGroupBy.cumsum(*args, **kwargs)

计算每个组的累积和。

DataFrameGroupBy.describe([percentiles, ...])

生成描述性统计信息,总结数据集分布的集中趋势、离散度和形状,不包括 NaN 值。

DataFrameGroupBy.diff([periods, axis])

获取每个组中值之间的差。

DataFrameGroupBy.ffill([limit])

向前填充 NA 值。

DataFrameGroupBy.fillna([value, method, ...])

使用指定的方法填充 NA 值。

DataFrameGroupBy.idxmax([numeric_only, ...])

计算组中值的 idxmax。

DataFrameGroupBy.idxmin([numeric_only, ...])

计算组中值的 idxmin。

DataFrameGroupBy.nunique([dropna])

返回组中唯一元素的数量。

DataFrameGroupBy.quantile([q, ...])

计算每个组中值的列分位数。

DataFrameGroupBy.shift([periods, freq, ...])

将每个组按 periods 位置进行移动。

DataFrameGroupBy.size()

返回每个组的大小。

以下方法仅适用于 SeriesGroupBy 对象。

SeriesGroupBy.corr(other[, method, min_periods])

SeriesGroupBy.nunique([dropna])

返回组中唯一元素的数量。

SeriesGroupBy.unique()

获取每个组中每列的唯一值列表。