Parquet 元数据#
- class pylibcudf.io.parquet_metadata.ParquetColumnSchema#
Parquet 列的模式,包括嵌套列。
- 参数:
- parquet_column_schema
方法
child
(self, int idx)返回指定索引的子模式。
children
(self)返回所有子列的模式。
name
(self)返回 Parquet 列名;可以为空。
num_children
(self)返回子列的数量。
- child(self, int idx) ParquetColumnSchema #
返回指定索引的子模式。
- 参数:
- idxint
子索引
- 返回:
- ParquetColumnSchema
子模式
- name(self) unicode #
返回 Parquet 列名;可以为空。
- 返回:
- str
列名
- class pylibcudf.io.parquet_metadata.ParquetMetadata#
关于 Parquet 文件内容的信息。
- 参数:
- parquet_metadata
方法
metadata
(self)返回文件页脚中的键值元数据。
num_rowgroups
(self)返回文件中的行组数量。
num_rows
(self)返回根列的行数。
rowgroup_metadata
(self)返回文件页脚中的行组元数据。
schema
(self)返回 Parquet 模式。
- schema(self) ParquetSchema #
返回 Parquet 模式。
- 返回:
- ParquetSchema
Parquet 模式
- class pylibcudf.io.parquet_metadata.ParquetSchema#
Parquet 文件的模式。
- 参数:
- parquet_schema
方法
root
(self)返回包含所有列作为字段的结构体列的模式。
- root(self) ParquetColumnSchema #
返回包含所有列作为字段的结构体列的模式。
- 返回:
- ParquetColumnSchema
根列模式
- pylibcudf.io.parquet_metadata.read_parquet_metadata(SourceInfo src_info) ParquetMetadata #
读取 Parquet 数据集的元数据。
- 参数:
- src_infoSourceInfo
数据集源。
- 返回:
- ParquetMetadata
包含 Parquet 模式、行数、行组数量和键值元数据的 Parquet 元数据。