Parquet#
- class pylibcudf.io.parquet.ChunkedParquetReader(ParquetReaderOptions options, Stream stream=None, size_t chunk_read_limit=0, size_t pass_read_limit=1024000000)#
将 Parquet 文件的块读入
TableWithMetadata
。详情请参阅
chunked_parquet_reader
。- 参数:
- optionsParquetReaderOptions
用于控制读取行为的设置
- chunk_read_limitsize_t, 默认值 0
每次读取返回的总字节数限制,如果为 0 则表示无限制。
- pass_read_limitsize_t, 默认值 1024000000
用于读取和解压缩数据所使用的内存量限制,如果为 0 则表示无限制。
方法
has_next
(self)如果 Parquet 文件中还有其他块可供读取,则返回 True。
read_chunk
(self)将下一个块读入
TableWithMetadata
- read_chunk(self) TableWithMetadata #
将下一个块读入
TableWithMetadata
- 返回:
- TableWithMetadata
已读取的 Table 及其相应的元数据(列名)。
- class pylibcudf.io.parquet.ParquetReaderOptions#
用于
read_parquet
的设置。详情请参阅cudf::io::parquet_reader_options
方法
builder
(SourceInfo source)创建一个 ParquetReaderOptionsBuilder 对象
set_columns
(self, list col_names)设置要读取的列名。
set_filter
(self, Expression filter)设置基于 AST 的过滤器,用于谓词下推。
set_num_rows
(self, size_type nrows)设置要读取的行数。
set_row_groups
(self, list row_groups)设置要读取的独立行组列表。
set_skip_rows
(self, int64_t skip_rows)设置要跳过的行数。
- static builder(SourceInfo source)#
创建一个 ParquetReaderOptionsBuilder 对象
详情请参阅
cudf::io::parquet_reader_options::builder()
- 参数:
- sourceSourceInfo
读取 Parquet 文件的源。
- 返回:
- ParquetReaderOptionsBuilder
构建 ParquetReaderOptions 的构建器
- set_columns(self, list col_names) void #
设置要读取的列名。
- 参数:
- col_nameslist
列名列表
- 返回:
- 无
- set_filter(self, Expression filter) void #
设置基于 AST 的过滤器,用于谓词下推。
- 参数:
- filterExpression
用作过滤器的 AST 表达式
- 返回:
- 无
- set_num_rows(self, size_type nrows) void #
设置要读取的行数。
- 参数:
- nrowssize_type
跳过指定行数后要读取的行数
- 返回:
- 无
- set_row_groups(self, list row_groups) void #
设置要读取的独立行组列表。
- 参数:
- row_groupslist
要读取的行组列表
- 返回:
- 无
- set_skip_rows(self, int64_t skip_rows) void #
设置要跳过的行数。
- 参数:
- skip_rowsint64_t
从开头跳过的行数
- 返回:
- 无
- pylibcudf.io.parquet.read_parquet(ParquetReaderOptions options, Stream stream=None)#
从 Parquet 格式读取。
读取源和选项由 options 对象封装。
详情请参阅
read_parquet()
。- 参数:
- options: ParquetReaderOptions
用于控制读取行为的设置
- stream: Stream
用于设备内存操作和内核启动的 CUDA 流
- pylibcudf.io.parquet.write_parquet(ParquetWriterOptions options, Stream stream=None) memoryview #
将一组列写入 parquet 格式。
- 参数:
- optionsParquetWriterOptions
用于控制写入行为的设置
- stream: Stream
用于设备内存操作和内核启动的 CUDA 流
- 返回:
- memoryview
一个包含文件元数据(parquet FileMetadata thrift 消息)的 blob,如果在 parquet_writer_options 中请求了元数据,则返回该 blob(否则返回空 blob)。