Parquet#

class pylibcudf.io.parquet.ChunkedParquetReader(ParquetReaderOptions options, Stream stream=None, size_t chunk_read_limit=0, size_t pass_read_limit=1024000000)#

将 Parquet 文件的块读入 TableWithMetadata。

详情请参阅 chunked_parquet_reader。

参数:

optionsParquetReaderOptions: 用于控制读取行为的设置
chunk_read_limitsize_t, 默认值 0: 每次读取返回的总字节数限制，如果为 0 则表示无限制。
pass_read_limitsize_t, 默认值 1024000000: 用于读取和解压缩数据所使用的内存量限制，如果为 0 则表示无限制。

方法

`has_next`(self)	如果 Parquet 文件中还有其他块可供读取，则返回 True。
`read_chunk`(self)	将下一个块读入 `TableWithMetadata`

has_next(self) → bool#

如果 Parquet 文件中还有其他块可供读取，则返回 True。

返回:

如果我们尚未完成读取文件，则为 True。

read_chunk(self) → TableWithMetadata#

将下一个块读入 TableWithMetadata

返回:

TableWithMetadata: 已读取的 Table 及其相应的元数据（列名）。

class pylibcudf.io.parquet.ParquetReaderOptions#

用于 read_parquet 的设置。详情请参阅 cudf::io::parquet_reader_options

方法

`builder`(SourceInfo source)	创建一个 ParquetReaderOptionsBuilder 对象
`set_columns`(self, list col_names)	设置要读取的列名。
`set_filter`(self, Expression filter)	设置基于 AST 的过滤器，用于谓词下推。
`set_num_rows`(self, size_type nrows)	设置要读取的行数。
`set_row_groups`(self, list row_groups)	设置要读取的独立行组列表。
`set_skip_rows`(self, int64_t skip_rows)	设置要跳过的行数。

static builder(SourceInfo source)#

创建一个 ParquetReaderOptionsBuilder 对象

详情请参阅 cudf::io::parquet_reader_options::builder()

参数:

sourceSourceInfo: 读取 Parquet 文件的源。

返回:

ParquetReaderOptionsBuilder: 构建 ParquetReaderOptions 的构建器

set_columns(self, list col_names) → void#

设置要读取的列名。

参数:

col_nameslist: 列名列表

返回:

无

set_filter(self, Expression filter) → void#

设置基于 AST 的过滤器，用于谓词下推。

参数:

filterExpression: 用作过滤器的 AST 表达式

返回:

无

set_num_rows(self, size_type nrows) → void#

设置要读取的行数。

参数:

nrowssize_type: 跳过指定行数后要读取的行数

返回:

无

set_row_groups(self, list row_groups) → void#

设置要读取的独立行组列表。

参数:

row_groupslist: 要读取的行组列表

返回:

无

set_skip_rows(self, int64_t skip_rows) → void#

设置要跳过的行数。

参数:

skip_rowsint64_t: 从开头跳过的行数

返回:

无

pylibcudf.io.parquet.read_parquet(ParquetReaderOptions options, Stream stream=None)#

从 Parquet 格式读取。

读取源和选项由 options 对象封装。

详情请参阅 read_parquet()。

参数:

options: ParquetReaderOptions: 用于控制读取行为的设置
stream: Stream: 用于设备内存操作和内核启动的 CUDA 流

pylibcudf.io.parquet.write_parquet(ParquetWriterOptions options, Stream stream=None) → memoryview#

将一组列写入 parquet 格式。

参数:

optionsParquetWriterOptions: 用于控制写入行为的设置
stream: Stream: 用于设备内存操作和内核启动的 CUDA 流

返回:

memoryview: 一个包含文件元数据（parquet FileMetadata thrift 消息）的 blob，如果在 parquet_writer_options 中请求了元数据，则返回该 blob（否则返回空 blob）。

Parquet#

本页