Parquet 元数据#

class pylibcudf.io.parquet_metadata.ParquetColumnSchema#

Parquet 列的模式,包括嵌套列。

参数:
parquet_column_schema

方法

child(self, int idx)

返回指定索引的子模式。

children(self)

返回所有子列的模式。

name(self)

返回 Parquet 列名;可以为空。

num_children(self)

返回子列的数量。

child(self, int idx) ParquetColumnSchema#

返回指定索引的子模式。

参数:
idxint

子索引

返回:
ParquetColumnSchema

子模式

children(self) list#

返回所有子列的模式。

返回:
list[ParquetColumnSchema]

子模式。

name(self) unicode#

返回 Parquet 列名;可以为空。

返回:
str

列名

num_children(self) int#

返回子列的数量。

返回:
int

子数量

class pylibcudf.io.parquet_metadata.ParquetMetadata#

关于 Parquet 文件内容的信息。

参数:
parquet_metadata

方法

metadata(self)

返回文件页脚中的键值元数据。

num_rowgroups(self)

返回文件中的行组数量。

num_rows(self)

返回根列的行数。

rowgroup_metadata(self)

返回文件页脚中的行组元数据。

schema(self)

返回 Parquet 模式。

metadata(self) dict#

返回文件页脚中的键值元数据。

返回:
dict[str, str]

键值元数据,表示为一个映射。

num_rowgroups(self) int#

返回文件中的行组数量。

返回:
int

行组数量。

num_rows(self) int#

返回根列的行数。

返回:
int

行数量

rowgroup_metadata(self) list#

返回文件页脚中的行组元数据。

返回:
list[dict[str, int]]

行组元数据的向量,表示为映射。

schema(self) ParquetSchema#

返回 Parquet 模式。

返回:
ParquetSchema

Parquet 模式

class pylibcudf.io.parquet_metadata.ParquetSchema#

Parquet 文件的模式。

参数:
parquet_schema

方法

root(self)

返回包含所有列作为字段的结构体列的模式。

root(self) ParquetColumnSchema#

返回包含所有列作为字段的结构体列的模式。

返回:
ParquetColumnSchema

根列模式

pylibcudf.io.parquet_metadata.read_parquet_metadata(SourceInfo src_info) ParquetMetadata#

读取 Parquet 数据集的元数据。

参数:
src_infoSourceInfo

数据集源。

返回:
ParquetMetadata

包含 Parquet 模式、行数、行组数量和键值元数据的 Parquet 元数据。