文件 | | 类型定义 | 枚举 | 函数
IO 类型

文件

 
文件  orc_types.hpp
 
 
文件  io/types.hpp
 cuDF-IO API 类型定义
 

结构体  cudf::io::raw_orc_statistics
 包含原始文件级和条带级统计信息的列名和缓冲区。更多...
 
结构体  cudf::io::minmax_statistics< T >
 包含可选最小值和最大值的列统计信息的基类。更多...
 
结构体  cudf::io::sum_statistics< T >
 包含可选总和的列统计信息的基类。更多...
 
结构体  cudf::io::integer_statistics
 整数列的统计信息。更多...
 
结构体  cudf::io::double_statistics
 浮点数列的统计信息。更多...
 
结构体  cudf::io::string_statistics
 字符串列的统计信息。更多...
 
结构体  cudf::io::bucket_statistics
 布尔列的统计信息。更多...
 
结构体  cudf::io::decimal_statistics
 Decimal 列的统计信息。更多...
 
结构体  cudf::io::timestamp_statistics
 时间戳列的统计信息。更多...
 
结构体  cudf::io::column_statistics
 包含每列的 ORC 统计信息。更多...
 
结构体  cudf::io::parsed_orc_statistics
 包含列名以及解析后的文件级和条带级统计信息。更多...
 
结构体  cudf::io::orc_column_schema
 ORC 列的 Schema,包括嵌套列。更多...
 
结构体  cudf::io::orc_schema
 ORC 文件的 Schema。更多...
 
类  cudf::io::orc_metadata
 关于 ORC 文件内容的信息。更多...
 
结构体  cudf::io::parquet_column_schema
 Parquet 列的 Schema,包括嵌套列。更多...
 
结构体  cudf::io::parquet_schema
 Parquet 文件的 Schema。更多...
 
类  cudf::io::parquet_metadata
 关于 Parquet 文件内容的信息。更多...
 
类  cudf::io::writer_compression_statistics
 写入器执行的压缩统计信息。更多...
 
结构体  cudf::io::column_name_info
 输出列的详细名称(以及可选的可空性)信息。更多...
 
结构体  cudf::io::table_metadata
 IO 读取器返回的表元数据。更多...
 
结构体  cudf::io::table_with_metadata
 包含表元数据的表,IO 读取器用于按值返回元数据。更多...
 
结构体  cudf::io::host_buffer
 主机内存缓冲区的非拥有视图。更多...
 
结构体  cudf::io::source_info
 读取接口的源信息。更多...
 
结构体  cudf::io::sink_info
 写入接口的目标信息。更多...
 
类  cudf::io::column_in_metadata
 列的元数据。更多...
 
类  cudf::io::table_input_metadata
 表的元数据。更多...
 
结构体  cudf::io::partition_info
 写入分区数据集时使用的信息。更多...
 
类  cudf::io::reader_column_schema
 读取器的 schema 元素更多...
 

类型定义

using cudf::io::no_statistics = std::monostate
 统计变体类型的单状态类型别名。
 
using cudf::io::date_statistics = minmax_statistics< int32_t >
 日期(时间)列的统计信息。
 
using cudf::io::binary_statistics = sum_statistics< int64_t >
 二进制列的统计信息。更多...
 
using cudf::io::statistics_type = std::variant< no_statistics, integer_statistics, double_statistics, string_statistics, bucket_statistics, decimal_statistics, date_statistics, binary_statistics, timestamp_statistics >
 ORC 类型特定列统计信息的变体类型。更多...
 

枚举

enum  cudf::io::orc::CompressionKind : uint8_t {
  NONE = 0 , ZLIB = 1 , SNAPPY = 2 , LZO = 3 ,
  LZ4 = 4 , ZSTD = 5
}
 标识压缩算法。
 
enum  cudf::io::orc::TypeKind : int8_t {
  INVALID_TYPE_KIND = -1 , BOOLEAN = 0 , BYTE = 1 , SHORT = 2 ,
  INT = 3 , LONG = 4 , FLOAT = 5 , DOUBLE = 6 ,
  STRING = 7 , BINARY = 8 , TIMESTAMP = 9 , LIST = 10 ,
  MAP = 11 , STRUCT = 12 , UNION = 13 , DECIMAL = 14 ,
  DATE = 15 , VARCHAR = 16 , CHAR = 17
}
 标识 orc 文件中的数据类型。
 
enum  cudf::io::orc::StreamKind : int8_t {
  INVALID_STREAM_KIND = -1 , PRESENT = 0 , DATA = 1 , LENGTH = 2 ,
  DICTIONARY_DATA = 3 , DICTIONARY_COUNT = 4 , SECONDARY = 5 , ROW_INDEX = 6 ,
  BLOOM_FILTER = 7 , BLOOM_FILTER_UTF8 = 8
}
 标识数据流类型。
 
enum  cudf::io::orc::ColumnEncodingKind : int8_t {
  INVALID_ENCODING_KIND = -1 , DIRECT = 0 , DICTIONARY = 1 , DIRECT_V2 = 2 ,
  DICTIONARY_V2 = 3
}
 标识列的编码。
 
enum  cudf::io::orc::ProtofType : uint8_t {
  VARINT = 0 , FIXED64 = 1 , FIXEDLEN = 2 , START_GROUP = 3 ,
  END_GROUP = 4 , FIXED32 = 5 , INVALID_6 = 6 , INVALID_7 = 7
}
 标识协议缓冲区中的编码类型。
 
enum class  cudf::io::compression_type : int32_t {
  cudf::io::NONE , cudf::io::AUTO , cudf::io::SNAPPY , cudf::io::GZIP ,
  cudf::io::BZIP2 , cudf::io::BROTLI , cudf::io::ZIP , cudf::io::XZ ,
  cudf::io::ZLIB , cudf::io::LZ4 , cudf::io::LZO , cudf::io::ZSTD
}
 压缩算法。更多...
 
enum class  cudf::io::io_type : int32_t {
  cudf::io::FILEPATH , cudf::io::HOST_BUFFER , cudf::io::DEVICE_BUFFER , cudf::io::VOID ,
  cudf::io::USER_IMPLEMENTED
}
 数据源或目标类型。更多...
 
enum class  cudf::io::quote_style : int32_t { cudf::io::MINIMAL , cudf::io::ALL , cudf::io::NONNUMERIC , cudf::io::NONE }
 处理字段数据中的引号时的行为。更多...
 
enum  cudf::io::statistics_freq : int32_t { cudf::io::STATISTICS_NONE = 0 , cudf::io::STATISTICS_ROWGROUP = 1 , cudf::io::STATISTICS_PAGE = 2 , cudf::io::STATISTICS_COLUMN = 3 }
 Parquet/ORC 写入器的列统计信息粒度类型。更多...
 
enum class  cudf::io::column_encoding : int32_t {
  cudf::io::USE_DEFAULT = -1 , cudf::io::DICTIONARY , cudf::io::PLAIN , cudf::io::DELTA_BINARY_PACKED ,
  cudf::io::DELTA_LENGTH_BYTE_ARRAY , cudf::io::DELTA_BYTE_ARRAY , cudf::io::BYTE_STREAM_SPLIT , cudf::io::DIRECT ,
  cudf::io::DIRECT_V2 , cudf::io::DICTIONARY_V2
}
 可用于 column_in_metadata::set_encoding() 的有效编码。更多...
 
enum  cudf::io::dictionary_policy : int32_t { cudf::io::NEVER = 0 , cudf::io::ADAPTIVE = 1 , cudf::io::ALWAYS = 2 }
 控制 Parquet 写入器是否使用字典编码。更多...
 

函数

template<typename T >
constexpr auto cudf::io::is_byte_like_type ()
 如果类型是字节类,表示可以合理地作为字节指针传递,则返回 true更多...
 

详细描述

类型定义文档

◆ binary_statistics

using cudf::io::binary_statistics = typedef sum_statistics<int64_t>

二进制列的统计信息。

sum 是所有元素的总字节数。

定义在文件 orc_metadata.hpp143 行。

◆ statistics_type

ORC 类型特定列统计信息的变体类型。

该变体可以容纳任何支持的列统计信息类型。

定义在文件 orc_metadata.hpp163 行。

枚举类型文档

◆ column_encoding

enum cudf::io::column_encoding : int32_t
strong

可用于 column_in_metadata::set_encoding() 的有效编码。

枚举成员
USE_DEFAULT 

未请求编码,使用默认编码。

DICTIONARY 

使用字典编码。

PLAIN 

使用纯文本编码。

DELTA_BINARY_PACKED 

使用 DELTA_BINARY_PACKED 编码(仅对整数列有效)。

DELTA_LENGTH_BYTE_ARRAY 

使用 DELTA_LENGTH_BYTE_ARRAY 编码(仅对 BYTE_ARRAY 列有效)。

DELTA_BYTE_ARRAY 

使用 DELTA_BYTE_ARRAY 编码(仅对 BYTE_ARRAY 和 FIXED_LEN_BYTE_ARRAY 列有效)。

BYTE_STREAM_SPLIT 

使用 BYTE_STREAM_SPLIT 编码(对所有固定宽度类型有效)。

DIRECT 

使用 DIRECT 编码。

DIRECT_V2 

使用 DIRECT_V2 编码。

DICTIONARY_V2 

使用 DICTIONARY_V2 编码。

定义在文件 io/types.hpp106 行。

◆ compression_type

enum cudf::io::compression_type : int32_t
strong

压缩算法。

枚举成员
NONE 

无压缩。

AUTO 

自动检测或选择压缩格式。

SNAPPY 

Snappy 格式,使用面向字节的 LZ77。

GZIP 

GZIP 格式,使用 DEFLATE 算法。

BZIP2 

BZIP2 格式,使用 Burrows-Wheeler 变换。

BROTLI 

BROTLI 格式,使用 LZ77 + Huffman + 二阶上下文建模。

ZIP 

ZIP 格式,使用 DEFLATE 算法。

XZ 

XZ 格式,使用 LZMA(2) 算法。

ZLIB 

ZLIB 格式,使用 DEFLATE 算法。

LZ4 

LZ4 格式,使用 LZ77。

LZO 

Lempel–Ziv–Oberhumer 格式。

ZSTD 

Zstandard 格式。

定义在文件 io/types.hpp57 行。

◆ dictionary_policy

控制 Parquet 写入器是否使用字典编码。

枚举成员
NEVER 

从不使用字典编码。

ADAPTIVE 

在不影响压缩的情况下使用字典。

ALWAYS 

无论是否影响压缩,始终使用字典。

定义在文件 io/types.hpp225 行。

◆ io_type

enum cudf::io::io_type : int32_t
strong

数据源或目标类型。

枚举成员
FILEPATH 

输入/输出是一个文件路径。

HOST_BUFFER 

输入/输出是主机内存中的一个缓冲区。

DEVICE_BUFFER 

输入/输出是设备内存中的一个缓冲区。

VOID 

无输入/输出。不做任何工作。对基准测试有用。

USER_IMPLEMENTED 

输入/输出由用户自定义类处理。

定义在文件 io/types.hpp75 行。

◆ quote_style

enum cudf::io::quote_style : int32_t
strong

处理字段数据中的引号时的行为。

枚举成员
MINIMAL 

仅引用包含特殊字符的字段。

ALL 

引用所有字段。

NONNUMERIC 

引用所有非数字字段。

NONE 

从不引用字段;禁用引号解析。

定义在文件 io/types.hpp86 行。

◆ statistics_freq

enum cudf::io::statistics_freq : int32_t

Parquet/ORC 写入器的列统计信息粒度类型。

枚举成员
STATISTICS_NONE 

无列统计信息。

STATISTICS_ROWGROUP 

每行组列统计信息。

STATISTICS_PAGE 

每页列统计信息。

STATISTICS_COLUMN 

完整的列和偏移索引。这隐含了 STATISTICS_ROWGROUP。

定义在文件 io/types.hpp96 行。

函数文档

◆ is_byte_like_type()

template<typename T >
constexpr auto cudf::io::is_byte_like_type ( )
内联constexpr

如果类型是字节类,表示可以合理地作为字节指针传递,则返回 true

模板参数
T表示类型
返回值
如果类型被认为是字节类类型,则返回 true

定义在文件 io/types.hpp337 行。