I/O#
I/O 实用类#
- pylibcudf.io.types.ColumnEncoding#
另请参见
cudf::column_encoding
。枚举成员
USE_DEFAULT
DICTIONARY
PLAIN
DELTA_BINARY_PACKED
DELTA_LENGTH_BYTE_ARRAY
DELTA_BYTE_ARRAY
BYTE_STREAM_SPLIT
DIRECT
DIRECT_V2
DICTIONARY_V2
- class pylibcudf.io.types.ColumnInMetadata#
列的元数据
方法
child
(self, size_type i)获取此列子级的引用。
get_name
(self)获取此列的名称。
set_decimal_precision
(self, uint8_t precision)设置此列的小数精度。
set_encoding
(self, column_encoding encoding)指定此列是否不应压缩,无论压缩类型如何。
set_int96_timestamps
(self, bool req)指定此时间戳列是否应使用已弃用的 int96 进行编码。
set_list_column_as_map
(self)指定此列表列在写入文件中应编码为 map。
set_name
(self, unicode name)设置此列的名称。
set_nullability
(self, bool nullable)设置此列的可空性。
set_output_as_binary
(self, bool binary)指定此列应作为二进制数据还是字符串数据写入。
set_skip_compression
(self, bool skip)指定此列是否不应压缩,无论压缩类型如何。
set_type_length
(self, int32_t type_length)设置固定长度数据的长度。
- child(self, size_type i) ColumnInMetadata #
获取此列子级的引用。
- 参数:
- iint
要获取的子级的索引。
- 返回值:
- ColumnInMetadata
- get_name(self) unicode #
获取此列的名称。
- 返回值:
- str
此列的名称
- set_decimal_precision(self, uint8_t precision) ColumnInMetadata #
设置此列的小数精度。仅当此列是十进制(定点)类型时有效。
- 参数:
- precisionint
为此十进制列设置的整数精度
- 返回值:
- Self
- set_encoding(self, column_encoding encoding) ColumnInMetadata #
指定此列是否不应压缩,无论压缩类型如何。
- 参数:
- encodingColumnEncoding
要使用的编码
- 返回值:
- ColumnInMetadata
- set_int96_timestamps(self, bool req) ColumnInMetadata #
指定此时间戳列是否应使用已弃用的 int96 进行编码。
- 参数:
- reqbool
True = 使用 int96 物理类型。False = 使用 int64 物理类型。
- 返回值:
- Self
- set_list_column_as_map(self) ColumnInMetadata #
指定此列表列在写入文件中应编码为 map。
- 返回值:
- Self
- set_name(self, unicode name) ColumnInMetadata #
设置此列的名称。
- 参数:
- namestr
列的名称
- 返回值:
- Self
- set_nullability(self, bool nullable) ColumnInMetadata #
设置此列的可空性。
- 参数:
- nullablebool
此列是否可空
- 返回值:
- Self
- set_output_as_binary(self, bool binary) ColumnInMetadata #
指定此列应作为二进制数据还是字符串数据写入。
- 参数:
- binarybool
True = 使用二进制数据类型。False = 使用字符串数据类型
- 返回值:
- Self
- set_skip_compression(self, bool skip) ColumnInMetadata #
指定此列是否不应压缩,无论压缩类型如何。
- 参数:
- skipbool
如果为 true,则不压缩此列
- 返回值:
- Self
- set_type_length(self, int32_t type_length) ColumnInMetadata #
设置固定长度数据的长度。
- 参数:
- type_lengthint
数据类型的大小(字节)
- 返回值:
- Self
- pylibcudf.io.types.CompressionType#
另请参见
cudf::compression_type
。枚举成员
NONE
AUTO
SNAPPY
GZIP
BZIP2
BROTLI
ZIP
XZ
ZLIB
LZ4
LZO
ZSTD
- pylibcudf.io.types.DictionaryPolicy#
另请参见
cudf::dictionary_policy
。枚举成员
NEVER
ADAPTIVE
ALWAYS
- pylibcudf.io.types.JSONRecoveryMode#
另请参见
cudf::json_recovery_mode_t
。枚举成员
FAIL
RECOVER_WITH_NULL
- class pylibcudf.io.types.PartitionInfo(size_type start_row, size_type num_rows)#
写入分区数据集时使用的信息。
- 参数:
- start_rowint
分区的起始行。
- num_rowsint
分区中的行数。
- pylibcudf.io.types.QuoteStyle#
另请参见
cudf::quote_style
。枚举成员
MINIMAL
ALL
NONNUMERIC
NONE
- class pylibcudf.io.types.SinkInfo(list sinks)#
包含要写入数据的目标(sink)详细信息的类。
更多详细信息,请参见
cudf::io::sink_info
。- 参数:
- sinksstr、PathLike 或 io.IOBase 实例的列表
要写入数据的 sink 列表。每个 sink 可以是
表示文件名的字符串。
PathLike 对象。
作为 io.IOBase 子类的 Python I/O 类实例(例如 io.BytesIO、io.StringIO)。
该列表必须类型一致,除非所有 sink 都是 io.IOBase 子类的实例。混合不同类型的 sink(并非都是 io.IOBase 实例)将引发 ValueError。
- class pylibcudf.io.types.SourceInfo(list sources)#
包含要读取的源详细信息的类。
详细信息,请参见
cudf::io::source_info
。- 参数:
- sourcesList[Union[str, os.PathLike, bytes, io.BytesIO, DataSource]]
同构的源列表,用于读取数据。
混合不同类型的源将引发 ValueError。
- pylibcudf.io.types.StatisticsFreq#
另请参见
cudf::statistics_freq
。枚举成员
STATISTICS_NONE
STATISTICS_ROWGROUP
STATISTICS_PAGE
STATISTICS_COLUMN
- class pylibcudf.io.types.TableInputMetadata(Table table)#
表的元数据
- 参数:
- tableTable
用于构建元数据的表
属性
column_metadata
- class pylibcudf.io.types.TableWithMetadata(Table tbl, list column_names) 包含表及其关联元数据(例如列名)的容器)#
包含表及其关联元数据(例如列名)的容器
详细信息,请参见
cudf::io::table_with_metadata
。- 参数:
- tblTable
输入表。
- column_nameslist
一个元组列表,每个元组包含每列的名称及其子列的名称(采用相同格式)。例如 [(“id”, []), (“name”, [(“first”, []), (“last”, [])])]
属性
返回一个字典,将包含子列的列的名称映射到其子列的名称
返回包含表列的列表
返回所有数据源中输入的 Parquet 行组总数。
返回应用 Bloom 过滤器后剩余的 Parquet 行组数。
返回应用统计过滤器后剩余的 Parquet 行组数。
返回一个列表,其中包含每个正在读取的文件的行数。
返回一个列表,其中包含一个字典,该字典包含每个正在读取的文件的特定文件格式元数据。
tbl: pylibcudf.table.Table
方法
column_names
(self[, include_children])返回包含表列名的列表
- child_names#
返回一个字典,将包含子列的列的名称映射到其子列的名称
- column_names(self, include_children=False)#
返回包含表列名的列表
- columns#
返回包含表列的列表
- num_input_row_groups#
返回所有数据源中输入的 Parquet 行组总数。
- num_row_groups_after_bloom_filter#
返回应用 Bloom 过滤器后剩余的 Parquet 行组数。如果未进行过滤,则为 None。
- num_row_groups_after_stats_filter#
返回应用统计过滤器后剩余的 Parquet 行组数。如果未进行过滤,则为 None。
- num_rows_per_source#
返回一个列表,其中包含每个正在读取的文件的行数。
- per_file_user_data#
返回一个列表,其中包含一个字典,该字典包含每个正在读取的文件的特定文件格式元数据。
- tbl#
tbl: pylibcudf.table.Table