Parquet 元数据#
- class pylibcudf.io.parquet_metadata.ParquetColumnSchema#
Parquet 列的模式,包括嵌套列。
- 参数:
- parquet_column_schema
方法
child(self, int idx)返回指定索引的子模式。
children(self)返回所有子列的模式。
name(self)返回 Parquet 列名;可以为空。
num_children(self)返回子列的数量。
- child(self, int idx) ParquetColumnSchema#
返回指定索引的子模式。
- 参数:
- idxint
子索引
- 返回:
- ParquetColumnSchema
子模式
- name(self) unicode#
返回 Parquet 列名;可以为空。
- 返回:
- str
列名
- class pylibcudf.io.parquet_metadata.ParquetMetadata#
关于 Parquet 文件内容的信息。
- 参数:
- parquet_metadata
方法
metadata(self)返回文件页脚中的键值元数据。
num_rowgroups(self)返回文件中的行组数量。
num_rows(self)返回根列的行数。
rowgroup_metadata(self)返回文件页脚中的行组元数据。
schema(self)返回 Parquet 模式。
- schema(self) ParquetSchema#
返回 Parquet 模式。
- 返回:
- ParquetSchema
Parquet 模式
- class pylibcudf.io.parquet_metadata.ParquetSchema#
Parquet 文件的模式。
- 参数:
- parquet_schema
方法
root(self)返回包含所有列作为字段的结构体列的模式。
- root(self) ParquetColumnSchema#
返回包含所有列作为字段的结构体列的模式。
- 返回:
- ParquetColumnSchema
根列模式
- pylibcudf.io.parquet_metadata.read_parquet_metadata(SourceInfo src_info) ParquetMetadata#
读取 Parquet 数据集的元数据。
- 参数:
- src_infoSourceInfo
数据集源。
- 返回:
- ParquetMetadata
包含 Parquet 模式、行数、行组数量和键值元数据的 Parquet 元数据。