I/O#

I/O 实用类#

pylibcudf.io.types.ColumnEncoding#

另请参见 cudf::column_encoding。

枚举成员

USE_DEFAULT
DICTIONARY
PLAIN
DELTA_BINARY_PACKED
DELTA_LENGTH_BYTE_ARRAY
DELTA_BYTE_ARRAY
BYTE_STREAM_SPLIT
DIRECT
DIRECT_V2
DICTIONARY_V2

class pylibcudf.io.types.ColumnInMetadata#

列的元数据

方法

`child`(self, size_type i)	获取此列子级的引用。
`get_name`(self)	获取此列的名称。
`set_decimal_precision`(self, uint8_t precision)	设置此列的小数精度。
`set_encoding`(self, column_encoding encoding)	指定此列是否不应压缩，无论压缩类型如何。
`set_int96_timestamps`(self, bool req)	指定此时间戳列是否应使用已弃用的 int96 进行编码。
`set_list_column_as_map`(self)	指定此列表列在写入文件中应编码为 map。
`set_name`(self, unicode name)	设置此列的名称。
`set_nullability`(self, bool nullable)	设置此列的可空性。
`set_output_as_binary`(self, bool binary)	指定此列应作为二进制数据还是字符串数据写入。
`set_skip_compression`(self, bool skip)	指定此列是否不应压缩，无论压缩类型如何。
`set_type_length`(self, int32_t type_length)	设置固定长度数据的长度。

child(self, size_type i) → ColumnInMetadata#

获取此列子级的引用。

参数:

iint: 要获取的子级的索引。

返回值:

ColumnInMetadata

get_name(self) → unicode#

获取此列的名称。

返回值:

str: 此列的名称

set_decimal_precision(self, uint8_t precision) → ColumnInMetadata#

设置此列的小数精度。仅当此列是十进制（定点）类型时有效。

参数:

precisionint: 为此十进制列设置的整数精度

返回值:

Self

set_encoding(self, column_encoding encoding) → ColumnInMetadata#

指定此列是否不应压缩，无论压缩类型如何。

参数:

encodingColumnEncoding: 要使用的编码

返回值:

ColumnInMetadata

set_int96_timestamps(self, bool req) → ColumnInMetadata#

指定此时间戳列是否应使用已弃用的 int96 进行编码。

参数:

reqbool: True = 使用 int96 物理类型。False = 使用 int64 物理类型。

返回值:

Self

set_list_column_as_map(self) → ColumnInMetadata#

指定此列表列在写入文件中应编码为 map。

返回值:

Self

set_name(self, unicode name) → ColumnInMetadata#

设置此列的名称。

参数:

namestr: 列的名称

返回值:

Self

set_nullability(self, bool nullable) → ColumnInMetadata#

设置此列的可空性。

参数:

nullablebool: 此列是否可空

返回值:

Self

set_output_as_binary(self, bool binary) → ColumnInMetadata#

指定此列应作为二进制数据还是字符串数据写入。

参数:

binarybool: True = 使用二进制数据类型。False = 使用字符串数据类型

返回值:

Self

set_skip_compression(self, bool skip) → ColumnInMetadata#

指定此列是否不应压缩，无论压缩类型如何。

参数:

skipbool: 如果为 true，则不压缩此列

返回值:

Self

set_type_length(self, int32_t type_length) → ColumnInMetadata#

设置固定长度数据的长度。

参数:

type_lengthint: 数据类型的大小（字节）

返回值:

Self

pylibcudf.io.types.CompressionType#

另请参见 cudf::compression_type。

枚举成员

NONE
AUTO
SNAPPY
GZIP
BZIP2
BROTLI
ZIP
XZ
ZLIB
LZ4
LZO
ZSTD

pylibcudf.io.types.DictionaryPolicy#

另请参见 cudf::dictionary_policy。

枚举成员

NEVER
ADAPTIVE
ALWAYS

pylibcudf.io.types.JSONRecoveryMode#

另请参见 cudf::json_recovery_mode_t。

枚举成员

FAIL
RECOVER_WITH_NULL

class pylibcudf.io.types.PartitionInfo(size_type start_row, size_type num_rows)#

写入分区数据集时使用的信息。

参数:

start_rowint: 分区的起始行。
num_rowsint: 分区中的行数。

pylibcudf.io.types.QuoteStyle#

另请参见 cudf::quote_style。

枚举成员

MINIMAL
ALL
NONNUMERIC
NONE

class pylibcudf.io.types.SinkInfo(list sinks)#

包含要写入数据的目标（sink）详细信息的类。

更多详细信息，请参见 cudf::io::sink_info。

参数:

sinksstr、PathLike 或 io.IOBase 实例的列表

要写入数据的 sink 列表。每个 sink 可以是

表示文件名的字符串。
PathLike 对象。
作为 io.IOBase 子类的 Python I/O 类实例（例如 io.BytesIO、io.StringIO）。

该列表必须类型一致，除非所有 sink 都是 io.IOBase 子类的实例。混合不同类型的 sink（并非都是 io.IOBase 实例）将引发 ValueError。

class pylibcudf.io.types.SourceInfo(list sources)#

包含要读取的源详细信息的类。

详细信息，请参见 cudf::io::source_info。

参数:

sourcesList[Union[str, os.PathLike, bytes, io.BytesIO, DataSource]]

同构的源列表，用于读取数据。

混合不同类型的源将引发 ValueError。

pylibcudf.io.types.StatisticsFreq#

另请参见 cudf::statistics_freq。

枚举成员

STATISTICS_NONE
STATISTICS_ROWGROUP
STATISTICS_PAGE
STATISTICS_COLUMN

class pylibcudf.io.types.TableInputMetadata(Table table)#

表的元数据

参数:

tableTable: 用于构建元数据的表

属性

column_metadata

class pylibcudf.io.types.TableWithMetadata(Table tbl, list column_names) 包含表及其关联元数据（例如列名）的容器)#

包含表及其关联元数据（例如列名）的容器

详细信息，请参见 cudf::io::table_with_metadata。

参数:

tblTable: 输入表。
column_nameslist: 一个元组列表，每个元组包含每列的名称及其子列的名称（采用相同格式）。例如 [(“id”, []), (“name”, [(“first”, []), (“last”, [])])]

属性

`child_names`	返回一个字典，将包含子列的列的名称映射到其子列的名称
`columns`	返回包含表列的列表
`num_input_row_groups`	返回所有数据源中输入的 Parquet 行组总数。
`num_row_groups_after_bloom_filter`	返回应用 Bloom 过滤器后剩余的 Parquet 行组数。
`num_row_groups_after_stats_filter`	返回应用统计过滤器后剩余的 Parquet 行组数。
`num_rows_per_source`	返回一个列表，其中包含每个正在读取的文件的行数。
`per_file_user_data`	返回一个列表，其中包含一个字典，该字典包含每个正在读取的文件的特定文件格式元数据。
`tbl`	tbl: pylibcudf.table.Table

方法

column_names(self[, include_children])

返回包含表列名的列表

child_names#: 返回一个字典，将包含子列的列的名称映射到其子列的名称

column_names(self, include_children=False)#: 返回包含表列名的列表

columns#: 返回包含表列的列表

num_input_row_groups#: 返回所有数据源中输入的 Parquet 行组总数。

num_row_groups_after_bloom_filter#: 返回应用 Bloom 过滤器后剩余的 Parquet 行组数。如果未进行过滤，则为 None。

num_row_groups_after_stats_filter#: 返回应用统计过滤器后剩余的 Parquet 行组数。如果未进行过滤，则为 None。

num_rows_per_source#: 返回一个列表，其中包含每个正在读取的文件的行数。

per_file_user_data#: 返回一个列表，其中包含一个字典，该字典包含每个正在读取的文件的特定文件格式元数据。

tbl#: tbl: pylibcudf.table.Table

I/O#

I/O 实用类#

I/O 函数#

本页