I/O#

I/O 实用类#

pylibcudf.io.types.ColumnEncoding#

另请参见 cudf::column_encoding

枚举成员

  • USE_DEFAULT

  • DICTIONARY

  • PLAIN

  • DELTA_BINARY_PACKED

  • DELTA_LENGTH_BYTE_ARRAY

  • DELTA_BYTE_ARRAY

  • BYTE_STREAM_SPLIT

  • DIRECT

  • DIRECT_V2

  • DICTIONARY_V2

class pylibcudf.io.types.ColumnInMetadata#

列的元数据

方法

child(self, size_type i)

获取此列子级的引用。

get_name(self)

获取此列的名称。

set_decimal_precision(self, uint8_t precision)

设置此列的小数精度。

set_encoding(self, column_encoding encoding)

指定此列是否不应压缩,无论压缩类型如何。

set_int96_timestamps(self, bool req)

指定此时间戳列是否应使用已弃用的 int96 进行编码。

set_list_column_as_map(self)

指定此列表列在写入文件中应编码为 map。

set_name(self, unicode name)

设置此列的名称。

set_nullability(self, bool nullable)

设置此列的可空性。

set_output_as_binary(self, bool binary)

指定此列应作为二进制数据还是字符串数据写入。

set_skip_compression(self, bool skip)

指定此列是否不应压缩,无论压缩类型如何。

set_type_length(self, int32_t type_length)

设置固定长度数据的长度。

child(self, size_type i) ColumnInMetadata#

获取此列子级的引用。

参数:
iint

要获取的子级的索引。

返回值:
ColumnInMetadata
get_name(self) unicode#

获取此列的名称。

返回值:
str

此列的名称

set_decimal_precision(self, uint8_t precision) ColumnInMetadata#

设置此列的小数精度。仅当此列是十进制(定点)类型时有效。

参数:
precisionint

为此十进制列设置的整数精度

返回值:
Self
set_encoding(self, column_encoding encoding) ColumnInMetadata#

指定此列是否不应压缩,无论压缩类型如何。

参数:
encodingColumnEncoding

要使用的编码

返回值:
ColumnInMetadata
set_int96_timestamps(self, bool req) ColumnInMetadata#

指定此时间戳列是否应使用已弃用的 int96 进行编码。

参数:
reqbool

True = 使用 int96 物理类型。False = 使用 int64 物理类型。

返回值:
Self
set_list_column_as_map(self) ColumnInMetadata#

指定此列表列在写入文件中应编码为 map。

返回值:
Self
set_name(self, unicode name) ColumnInMetadata#

设置此列的名称。

参数:
namestr

列的名称

返回值:
Self
set_nullability(self, bool nullable) ColumnInMetadata#

设置此列的可空性。

参数:
nullablebool

此列是否可空

返回值:
Self
set_output_as_binary(self, bool binary) ColumnInMetadata#

指定此列应作为二进制数据还是字符串数据写入。

参数:
binarybool

True = 使用二进制数据类型。False = 使用字符串数据类型

返回值:
Self
set_skip_compression(self, bool skip) ColumnInMetadata#

指定此列是否不应压缩,无论压缩类型如何。

参数:
skipbool

如果为 true,则不压缩此列

返回值:
Self
set_type_length(self, int32_t type_length) ColumnInMetadata#

设置固定长度数据的长度。

参数:
type_lengthint

数据类型的大小(字节)

返回值:
Self
pylibcudf.io.types.CompressionType#

另请参见 cudf::compression_type

枚举成员

  • NONE

  • AUTO

  • SNAPPY

  • GZIP

  • BZIP2

  • BROTLI

  • ZIP

  • XZ

  • ZLIB

  • LZ4

  • LZO

  • ZSTD

pylibcudf.io.types.DictionaryPolicy#

另请参见 cudf::dictionary_policy

枚举成员

  • NEVER

  • ADAPTIVE

  • ALWAYS

pylibcudf.io.types.JSONRecoveryMode#

另请参见 cudf::json_recovery_mode_t

枚举成员

  • FAIL

  • RECOVER_WITH_NULL

class pylibcudf.io.types.PartitionInfo(size_type start_row, size_type num_rows)#

写入分区数据集时使用的信息。

参数:
start_rowint

分区的起始行。

num_rowsint

分区中的行数。

pylibcudf.io.types.QuoteStyle#

另请参见 cudf::quote_style

枚举成员

  • MINIMAL

  • ALL

  • NONNUMERIC

  • NONE

class pylibcudf.io.types.SinkInfo(list sinks)#

包含要写入数据的目标(sink)详细信息的类。

更多详细信息,请参见 cudf::io::sink_info

参数:
sinksstr、PathLike 或 io.IOBase 实例的列表

要写入数据的 sink 列表。每个 sink 可以是

  • 表示文件名的字符串。

  • PathLike 对象。

  • 作为 io.IOBase 子类的 Python I/O 类实例(例如 io.BytesIO、io.StringIO)。

该列表必须类型一致,除非所有 sink 都是 io.IOBase 子类的实例。混合不同类型的 sink(并非都是 io.IOBase 实例)将引发 ValueError。

class pylibcudf.io.types.SourceInfo(list sources)#

包含要读取的源详细信息的类。

详细信息,请参见 cudf::io::source_info

参数:
sourcesList[Union[str, os.PathLike, bytes, io.BytesIO, DataSource]]

同构的源列表,用于读取数据。

混合不同类型的源将引发 ValueError

pylibcudf.io.types.StatisticsFreq#

另请参见 cudf::statistics_freq

枚举成员

  • STATISTICS_NONE

  • STATISTICS_ROWGROUP

  • STATISTICS_PAGE

  • STATISTICS_COLUMN

class pylibcudf.io.types.TableInputMetadata(Table table)#

表的元数据

参数:
tableTable

用于构建元数据的表

属性

column_metadata

class pylibcudf.io.types.TableWithMetadata(Table tbl, list column_names) 包含表及其关联元数据(例如列名)的容器)#

包含表及其关联元数据(例如列名)的容器

详细信息,请参见 cudf::io::table_with_metadata

参数:
tblTable

输入表。

column_nameslist

一个元组列表,每个元组包含每列的名称及其子列的名称(采用相同格式)。例如 [(“id”, []), (“name”, [(“first”, []), (“last”, [])])]

属性

child_names

返回一个字典,将包含子列的列的名称映射到其子列的名称

columns

返回包含表列的列表

num_input_row_groups

返回所有数据源中输入的 Parquet 行组总数。

num_row_groups_after_bloom_filter

返回应用 Bloom 过滤器后剩余的 Parquet 行组数。

num_row_groups_after_stats_filter

返回应用统计过滤器后剩余的 Parquet 行组数。

num_rows_per_source

返回一个列表,其中包含每个正在读取的文件的行数。

per_file_user_data

返回一个列表,其中包含一个字典,该字典包含每个正在读取的文件的特定文件格式元数据。

tbl

tbl: pylibcudf.table.Table

方法

column_names(self[, include_children])

返回包含表列名的列表

child_names#

返回一个字典,将包含子列的列的名称映射到其子列的名称

column_names(self, include_children=False)#

返回包含表列名的列表

columns#

返回包含表列的列表

num_input_row_groups#

返回所有数据源中输入的 Parquet 行组总数。

num_row_groups_after_bloom_filter#

返回应用 Bloom 过滤器后剩余的 Parquet 行组数。如果未进行过滤,则为 None。

num_row_groups_after_stats_filter#

返回应用统计过滤器后剩余的 Parquet 行组数。如果未进行过滤,则为 None。

num_rows_per_source#

返回一个列表,其中包含每个正在读取的文件的行数。

per_file_user_data#

返回一个列表,其中包含一个字典,该字典包含每个正在读取的文件的特定文件格式元数据。

tbl#

tbl: pylibcudf.table.Table

I/O 函数#