Parquet#

class pylibcudf.io.parquet.ChunkedParquetReader(ParquetReaderOptions options, Stream stream=None, size_t chunk_read_limit=0, size_t pass_read_limit=1024000000)#

将 Parquet 文件的块读入 TableWithMetadata

详情请参阅 chunked_parquet_reader

参数:
optionsParquetReaderOptions

用于控制读取行为的设置

chunk_read_limitsize_t, 默认值 0

每次读取返回的总字节数限制,如果为 0 则表示无限制。

pass_read_limitsize_t, 默认值 1024000000

用于读取和解压缩数据所使用的内存量限制,如果为 0 则表示无限制。

方法

has_next(self)

如果 Parquet 文件中还有其他块可供读取,则返回 True。

read_chunk(self)

将下一个块读入 TableWithMetadata

has_next(self) bool#

如果 Parquet 文件中还有其他块可供读取,则返回 True。

返回:
如果我们尚未完成读取文件,则为 True。
read_chunk(self) TableWithMetadata#

将下一个块读入 TableWithMetadata

返回:
TableWithMetadata

已读取的 Table 及其相应的元数据(列名)。

class pylibcudf.io.parquet.ParquetReaderOptions#

用于 read_parquet 的设置。详情请参阅 cudf::io::parquet_reader_options

方法

builder(SourceInfo source)

创建一个 ParquetReaderOptionsBuilder 对象

set_columns(self, list col_names)

设置要读取的列名。

set_filter(self, Expression filter)

设置基于 AST 的过滤器,用于谓词下推。

set_num_rows(self, size_type nrows)

设置要读取的行数。

set_row_groups(self, list row_groups)

设置要读取的独立行组列表。

set_skip_rows(self, int64_t skip_rows)

设置要跳过的行数。

static builder(SourceInfo source)#

创建一个 ParquetReaderOptionsBuilder 对象

详情请参阅 cudf::io::parquet_reader_options::builder()

参数:
sourceSourceInfo

读取 Parquet 文件的源。

返回:
ParquetReaderOptionsBuilder

构建 ParquetReaderOptions 的构建器

set_columns(self, list col_names) void#

设置要读取的列名。

参数:
col_nameslist

列名列表

返回:
set_filter(self, Expression filter) void#

设置基于 AST 的过滤器,用于谓词下推。

参数:
filterExpression

用作过滤器的 AST 表达式

返回:
set_num_rows(self, size_type nrows) void#

设置要读取的行数。

参数:
nrowssize_type

跳过指定行数后要读取的行数

返回:
set_row_groups(self, list row_groups) void#

设置要读取的独立行组列表。

参数:
row_groupslist

要读取的行组列表

返回:
set_skip_rows(self, int64_t skip_rows) void#

设置要跳过的行数。

参数:
skip_rowsint64_t

从开头跳过的行数

返回:
pylibcudf.io.parquet.read_parquet(ParquetReaderOptions options, Stream stream=None)#

从 Parquet 格式读取。

读取源和选项由 options 对象封装。

详情请参阅 read_parquet()

参数:
options: ParquetReaderOptions

用于控制读取行为的设置

stream: Stream

用于设备内存操作和内核启动的 CUDA 流

pylibcudf.io.parquet.write_parquet(ParquetWriterOptions options, Stream stream=None) memoryview#

将一组列写入 parquet 格式。

参数:
optionsParquetWriterOptions

用于控制写入行为的设置

stream: Stream

用于设备内存操作和内核启动的 CUDA 流

返回:
memoryview

一个包含文件元数据(parquet FileMetadata thrift 消息)的 blob,如果在 parquet_writer_options 中请求了元数据,则返回该 blob(否则返回空 blob)。