命名空间 | | 类型别名 | 枚举 | 函数 | 变量
cudf::io 命名空间参考

I/O 接口。 更多...

命名空间

 parquet
 Parquet I/O 接口。
 

class  avro_reader_options
 用于 read_avro() 的设置。 更多...
 
class  avro_reader_options_builder
 用于构建 read_avro() 选项的构建器。 更多...
 
class  csv_reader_options
 用于 read_csv() 的设置。 更多...
 
class  csv_reader_options_builder
 用于构建 read_csv() 选项的构建器。 更多...
 
class  csv_writer_options
 用于 write_csv() 的设置。 更多...
 
class  csv_writer_options_builder
 用于构建 writer_csv() 选项的构建器 更多...
 
class  data_sink
 用于存储写操作输出数据的接口类。 更多...
 
class  datasource
 用于向读操作提供输入数据的接口类。 更多...
 
struct  schema_element
 允许通过 json_reader_optionsset_dtypes 方法指定嵌套 JSON 数据的目标类型。 更多...
 
class  json_reader_options
 read_json 接口的输入参数。 更多...
 
class  json_reader_options_builder
 用于构建 read_json() 设置的构建器。 更多...
 
class  json_writer_options
 用于 write_json() 的设置。 更多...
 
class  json_writer_options_builder
 用于构建 writer_json() 选项的构建器 更多...
 
class  orc_reader_options
 用于 read_orc() 的设置。 更多...
 
class  orc_reader_options_builder
 用于构建 read_orc() 设置的构建器。 更多...
 
class  chunked_orc_reader
 分块 ORC 读取器类,用于将 ORC 文件迭代地分块读取为一系列表格。 更多...
 
class  orc_writer_options
 用于 write_orc() 的设置。 更多...
 
class  orc_writer_options_builder
 用于构建 write_orc() 设置的构建器。 更多...
 
class  chunked_orc_writer_options
 用于 write_orc_chunked() 的设置。 更多...
 
class  chunked_orc_writer_options_builder
 用于构建 write_orc_chunked() 设置的构建器。 更多...
 
class  orc_chunked_writer
 分块 ORC 写入器类,用于以分块/流式形式写入 ORC 文件。 更多...
 
struct  raw_orc_statistics
 包含列名和原始文件级和条纹级统计信息缓冲区的结构体。 更多...
 
struct  minmax_statistics
 包含可选最小值和最大值的列统计信息基类。 更多...
 
struct  sum_statistics
 包含可选总和的列统计信息基类。 更多...
 
struct  integer_statistics
 整数列的统计信息。 更多...
 
struct  double_statistics
 浮点数列的统计信息。 更多...
 
struct  string_statistics
 字符串列的统计信息。 更多...
 
struct  bucket_statistics
 布尔列的统计信息。 更多...
 
struct  decimal_statistics
 十进制列的统计信息。 更多...
 
struct  timestamp_statistics
 时间戳列的统计信息。 更多...
 
struct  column_statistics
 包含每列的 ORC 统计信息。 更多...
 
struct  parsed_orc_statistics
 包含列名和已解析的文件级和条纹级统计信息的结构体。 更多...
 
struct  orc_column_schema
 ORC 列的 Schema,包括嵌套列。 更多...
 
struct  orc_schema
 ORC 文件的 Schema。 更多...
 
class  orc_metadata
 关于 ORC 文件内容的详细信息。 更多...
 
class  parquet_reader_options
 用于 read_parquet() 的设置。 更多...
 
class  parquet_reader_options_builder
 用于构建 parquet_reader_options 以用于 read_parquet() 的构建器。 更多...
 
class  chunked_parquet_reader
 分块 Parquet 读取器类,用于将 Parquet 文件迭代地分块读取为一系列表格。 更多...
 
struct  sorting_column
 用于描述列排序元数据的结构体。 更多...
 
class  parquet_writer_options_base
 write_parquet()parquet_chunked_writer 的基本设置。 更多...
 
class  parquet_writer_options_builder_base
 Parquet 选项构建器的基类。 更多...
 
class  parquet_writer_options
 用于 write_parquet() 的设置。 更多...
 
class  parquet_writer_options_builder
 用于构建 parquet_writer_options 的类。 更多...
 
class  chunked_parquet_writer_options
 用于 parquet_chunked_writer 的设置。 更多...
 
class  chunked_parquet_writer_options_builder
 用于构建 chunked_parquet_writer_options 的类。 更多...
 
class  parquet_chunked_writer
 分块 Parquet 写入器类,用于处理选项并分块写入表格。 更多...
 
struct  parquet_column_schema
 Parquet 列的 Schema,包括嵌套列。 更多...
 
struct  parquet_schema
 Parquet 文件的 Schema。 更多...
 
class  parquet_metadata
 关于 Parquet 文件内容的详细信息。 更多...
 
class  writer_compression_statistics
 关于写入器执行的压缩的统计信息。 更多...
 
struct  column_name_info
 输出列的详细名称(以及可选的可空性)信息。 更多...
 
struct  table_metadata
 IO 读取器返回的表格元数据。 更多...
 
struct  table_with_metadata
 包含表格元数据的表格,供 IO 读取器按值返回元数据。 更多...
 
struct  host_buffer
 主机内存缓冲区的非拥有视图。 更多...
 
struct  source_info
 读接口的源信息。 更多...
 
struct  sink_info
 写接口的目标信息。 更多...
 
class  column_in_metadata
 列的元数据。 更多...
 
class  table_input_metadata
 表格的元数据。 更多...
 
struct  partition_info
 在写入分区数据集时使用的信息。 更多...
 
class  reader_column_schema
 读取器的 schema 元素 更多...
 

类型别名

using no_statistics = std::monostate
 统计信息变体的 Monostate 类型别名。
 
using date_statistics = minmax_statistics< int32_t >
 日期(时间)列的统计信息。
 
using binary_statistics = sum_statistics< int64_t >
 二进制列的统计信息。 更多...
 
using statistics_type = std::variant< no_statistics, integer_statistics, double_statistics, string_statistics, bucket_statistics, decimal_statistics, date_statistics, binary_statistics, timestamp_statistics >
 ORC 类型特定列统计信息的变体类型。 更多...
 

枚举

enum class  json_recovery_mode_t { FAIL , RECOVER_WITH_NULL }
 控制 JSON 解析器的错误恢复行为。 更多...
 
enum class  compression_type : int32_t {
  NONE , AUTO , SNAPPY , GZIP ,
  BZIP2 , BROTLI , ZIP , XZ ,
  ZLIB , LZ4 , LZO , ZSTD
}
 压缩算法。 更多...
 
enum class  io_type : int32_t {
  FILEPATH , HOST_BUFFER , DEVICE_BUFFER , VOID ,
  USER_IMPLEMENTED
}
 数据源或目标类型。 更多...
 
enum class  quote_style : int32_t { MINIMAL , ALL , NONNUMERIC , NONE }
 处理字段数据中引用的行为。 更多...
 
enum  statistics_freq : int32_t { STATISTICS_NONE = 0 , STATISTICS_ROWGROUP = 1 , STATISTICS_PAGE = 2 , STATISTICS_COLUMN = 3 }
 Parquet/ORC 写入器的列统计信息粒度类型。 更多...
 
enum class  column_encoding : int32_t {
  USE_DEFAULT = -1 , DICTIONARY , PLAIN , DELTA_BINARY_PACKED ,
  DELTA_LENGTH_BYTE_ARRAY , DELTA_BYTE_ARRAY , BYTE_STREAM_SPLIT , DIRECT ,
  DIRECT_V2 , DICTIONARY_V2
}
 column_in_metadata::set_encoding() 一起使用的有效编码 更多...
 
enum  dictionary_policy : int32_t { NEVER = 0 , ADAPTIVE = 1 , ALWAYS = 2 }
 控制 Parquet 写入器使用字典编码。 更多...
 

函数

table_with_metadata read_avro (avro_reader_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 将 Avro 数据集读取到一组列中。 更多...
 
table_with_metadata read_csv (csv_reader_options options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 将 CSV 数据集读取到一组列中。 更多...
 
void write_csv (csv_writer_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream())
 将一组列写入 CSV 格式。 更多...
 
table_with_metadata read_json (json_reader_options options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 将 JSON 数据集读取到一组列中。 更多...
 
void write_json (json_writer_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream())
 将一组列写入 JSON 格式。 更多...
 
table_with_metadata read_orc (orc_reader_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 将 ORC 数据集读取到一组列中。 更多...
 
void write_orc (orc_writer__options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream())
 将一组列写入 ORC 格式。 更多...
 
raw_orc_statistics read_raw_orc_statistics (source_info const &src_info, rmm::cuda_stream_view stream=cudf::get_default_stream())
 读取 ORC 数据集的文件级和条纹级统计信息。 更多...
 
parsed_orc_statistics read_parsed_orc_statistics (source_info const &src_info, rmm::cuda_stream_view stream=cudf::get_default_stream())
 读取 ORC 数据集的文件级和条纹级统计信息。 更多...
 
orc_metadata read_orc_metadata (source_info const &src_info, rmm::cuda_stream_view stream=cudf::get_default_stream())
 读取 ORC 数据集的元数据。 更多...
 
table_with_metadata read_parquet (parquet_reader_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 将 Parquet 数据集读取到一组列中。 更多...
 
std::unique_ptr< std::vector< uint8_t > > write_parquet (parquet_writer_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream())
 将一组列写入 Parquet 格式。 更多...
 
std::unique_ptr< std::vector< uint8_t > > merge_row_group_metadata (std::vector< std::unique_ptr< std::vector< uint8_t >>> const &metadata_list)
 将由 write_parquet 创建的多个原始元数据 Blob 合并为一个元数据 Blob。 更多...
 
parquet_metadata read_parquet_metadata (source_info const &src_info)
 读取 Parquet 数据集的元数据。 更多...
 
template<typename T >
constexpr auto is_byte_like_type ()
 如果类型是字节类似类型(即合理地可以作为指向字节的指针传递),则返回 true更多...
 

变量

constexpr size_t default_stripe_size_bytes = 64 * 1024 * 1024
 64MB 默认 ORC 条纹大小
 
constexpr size_type default_stripe_size_rows = 1000000
 1M 行默认 ORC 条纹行数
 
constexpr size_type default_row_index_stride = 10000
 10K 行默认 ORC 行索引步长
 
constexpr size_t default_row_group_size_bytes
 每行组无限字节。 更多...
 
constexpr size_type default_row_group_size_rows = 1'000'000
 每行组 1 百万行
 
constexpr size_t default_max_page_size_bytes = 512 * 1024
 每页 512KB
 
constexpr size_type default_max_page_size_rows = 20000
 每页 20k 行
 
constexpr int32_t default_column_index_truncate_length = 64
 截断为 64 字节
 
constexpr size_t default_max_dictionary_size = 1024 * 1024
 1MB 字典大小
 
constexpr size_type default_max_page_fragment_size = 5000
 每页片段 5000 行
 

详细描述

I/O 接口。