I/O 接口。更多...

命名空间
	parquet
	Parquet I/O 接口。

类
class	avro_reader_options
	用于 `read_avro()` 的设置。更多...

class	avro_reader_options_builder
	用于构建 `read_avro()` 选项的构建器。更多...

class	csv_reader_options
	用于 `read_csv()` 的设置。更多...

class	csv_reader_options_builder
	用于构建 `read_csv()` 选项的构建器。更多...

class	csv_writer_options
	用于 `write_csv()` 的设置。更多...

class	csv_writer_options_builder
	用于构建 `writer_csv()` 选项的构建器更多...

class	data_sink
	用于存储写操作输出数据的接口类。更多...

class	datasource
	用于向读操作提供输入数据的接口类。更多...

struct	schema_element
	允许通过 json_reader_options 的 `set_dtypes` 方法指定嵌套 JSON 数据的目标类型。更多...

class	json_reader_options
	`read_json` 接口的输入参数。更多...

class	json_reader_options_builder
	用于构建 `read_json()` 设置的构建器。更多...

class	json_writer_options
	用于 `write_json()` 的设置。更多...

class	json_writer_options_builder
	用于构建 `writer_json()` 选项的构建器更多...

class	orc_reader_options
	用于 `read_orc()` 的设置。更多...

class	orc_reader_options_builder
	用于构建 `read_orc()` 设置的构建器。更多...

class	chunked_orc_reader
	分块 ORC 读取器类，用于将 ORC 文件迭代地分块读取为一系列表格。更多...

class	orc_writer_options
	用于 `write_orc()` 的设置。更多...

class	orc_writer_options_builder
	用于构建 `write_orc()` 设置的构建器。更多...

class	chunked_orc_writer_options
	用于 `write_orc_chunked()` 的设置。更多...

class	chunked_orc_writer_options_builder
	用于构建 `write_orc_chunked()` 设置的构建器。更多...

class	orc_chunked_writer
	分块 ORC 写入器类，用于以分块/流式形式写入 ORC 文件。更多...

struct	raw_orc_statistics
	包含列名和原始文件级和条纹级统计信息缓冲区的结构体。更多...

struct	minmax_statistics
	包含可选最小值和最大值的列统计信息基类。更多...

struct	sum_statistics
	包含可选总和的列统计信息基类。更多...

struct	integer_statistics
	整数列的统计信息。更多...

struct	double_statistics
	浮点数列的统计信息。更多...

struct	string_statistics
	字符串列的统计信息。更多...

struct	bucket_statistics
	布尔列的统计信息。更多...

struct	decimal_statistics
	十进制列的统计信息。更多...

struct	timestamp_statistics
	时间戳列的统计信息。更多...

struct	column_statistics
	包含每列的 ORC 统计信息。更多...

struct	parsed_orc_statistics
	包含列名和已解析的文件级和条纹级统计信息的结构体。更多...

struct	orc_column_schema
	ORC 列的 Schema，包括嵌套列。更多...

struct	orc_schema
	ORC 文件的 Schema。更多...

class	orc_metadata
	关于 ORC 文件内容的详细信息。更多...

class	parquet_reader_options
	用于 `read_parquet()` 的设置。更多...

class	parquet_reader_options_builder
	用于构建 `parquet_reader_options` 以用于 `read_parquet()` 的构建器。更多...

class	chunked_parquet_reader
	分块 Parquet 读取器类，用于将 Parquet 文件迭代地分块读取为一系列表格。更多...

struct	sorting_column
	用于描述列排序元数据的结构体。更多...

class	parquet_writer_options_base
	`write_parquet()` 和 `parquet_chunked_writer` 的基本设置。更多...

class	parquet_writer_options_builder_base
	Parquet 选项构建器的基类。更多...

class	parquet_writer_options
	用于 `write_parquet()` 的设置。更多...

class	parquet_writer_options_builder
	用于构建 `parquet_writer_options` 的类。更多...

class	chunked_parquet_writer_options
	用于 `parquet_chunked_writer` 的设置。更多...

class	chunked_parquet_writer_options_builder
	用于构建 `chunked_parquet_writer_options` 的类。更多...

class	parquet_chunked_writer
	分块 Parquet 写入器类，用于处理选项并分块写入表格。更多...

struct	parquet_column_schema
	Parquet 列的 Schema，包括嵌套列。更多...

struct	parquet_schema
	Parquet 文件的 Schema。更多...

class	parquet_metadata
	关于 Parquet 文件内容的详细信息。更多...

class	writer_compression_statistics
	关于写入器执行的压缩的统计信息。更多...

struct	column_name_info
	输出列的详细名称（以及可选的可空性）信息。更多...

struct	table_metadata
	IO 读取器返回的表格元数据。更多...

struct	table_with_metadata
	包含表格元数据的表格，供 IO 读取器按值返回元数据。更多...

struct	host_buffer
	主机内存缓冲区的非拥有视图。更多...

struct	source_info
	读接口的源信息。更多...

struct	sink_info
	写接口的目标信息。更多...

class	column_in_metadata
	列的元数据。更多...

class	table_input_metadata
	表格的元数据。更多...

struct	partition_info
	在写入分区数据集时使用的信息。更多...

class	reader_column_schema
	读取器的 schema 元素更多...

类型别名
using	no_statistics = std::monostate
	统计信息变体的 Monostate 类型别名。

using	date_statistics = minmax_statistics< int32_t >
	日期(时间)列的统计信息。

using	binary_statistics = sum_statistics< int64_t >
	二进制列的统计信息。更多...

using	statistics_type = std::variant< no_statistics, integer_statistics, double_statistics, string_statistics, bucket_statistics, decimal_statistics, date_statistics, binary_statistics, timestamp_statistics >
	ORC 类型特定列统计信息的变体类型。更多...

枚举
enum class	json_recovery_mode_t { FAIL , RECOVER_WITH_NULL }
	控制 JSON 解析器的错误恢复行为。更多...

enum class	compression_type : int32_t { NONE , AUTO , SNAPPY , GZIP , BZIP2 , BROTLI , ZIP , XZ , ZLIB , LZ4 , LZO , ZSTD }
	压缩算法。更多...

enum class	io_type : int32_t { FILEPATH , HOST_BUFFER , DEVICE_BUFFER , VOID , USER_IMPLEMENTED }
	数据源或目标类型。更多...

enum class	quote_style : int32_t { MINIMAL , ALL , NONNUMERIC , NONE }
	处理字段数据中引用的行为。更多...

enum	statistics_freq : int32_t { STATISTICS_NONE = 0 , STATISTICS_ROWGROUP = 1 , STATISTICS_PAGE = 2 , STATISTICS_COLUMN = 3 }
	Parquet/ORC 写入器的列统计信息粒度类型。更多...

enum class	column_encoding : int32_t { USE_DEFAULT = -1 , DICTIONARY , PLAIN , DELTA_BINARY_PACKED , DELTA_LENGTH_BYTE_ARRAY , DELTA_BYTE_ARRAY , BYTE_STREAM_SPLIT , DIRECT , DIRECT_V2 , DICTIONARY_V2 }
	与 `column_in_metadata::set_encoding()` 一起使用的有效编码更多...

enum	dictionary_policy : int32_t { NEVER = 0 , ADAPTIVE = 1 , ALWAYS = 2 }
	控制 Parquet 写入器使用字典编码。更多...

函数
table_with_metadata	read_avro (avro_reader_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
	将 Avro 数据集读取到一组列中。更多...

table_with_metadata	read_csv (csv_reader_options options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
	将 CSV 数据集读取到一组列中。更多...

void	write_csv (csv_writer_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream())
	将一组列写入 CSV 格式。更多...

table_with_metadata	read_json (json_reader_options options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
	将 JSON 数据集读取到一组列中。更多...

void	write_json (json_writer_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream())
	将一组列写入 JSON 格式。更多...

table_with_metadata	read_orc (orc_reader_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
	将 ORC 数据集读取到一组列中。更多...

void	write_orc (orc_writer__options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream())
	将一组列写入 ORC 格式。更多...

raw_orc_statistics	read_raw_orc_statistics (source_info const &src_info, rmm::cuda_stream_view stream=cudf::get_default_stream())
	读取 ORC 数据集的文件级和条纹级统计信息。更多...

parsed_orc_statistics	read_parsed_orc_statistics (source_info const &src_info, rmm::cuda_stream_view stream=cudf::get_default_stream())
	读取 ORC 数据集的文件级和条纹级统计信息。更多...

orc_metadata	read_orc_metadata (source_info const &src_info, rmm::cuda_stream_view stream=cudf::get_default_stream())
	读取 ORC 数据集的元数据。更多...

table_with_metadata	read_parquet (parquet_reader_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
	将 Parquet 数据集读取到一组列中。更多...

std::unique_ptr< std::vector< uint8_t > >	write_parquet (parquet_writer_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream())
	将一组列写入 Parquet 格式。更多...

std::unique_ptr< std::vector< uint8_t > >	merge_row_group_metadata (std::vector< std::unique_ptr< std::vector< uint8_t >>> const &metadata_list)
	将由 write_parquet 创建的多个原始元数据 Blob 合并为一个元数据 Blob。更多...

parquet_metadata	read_parquet_metadata (source_info const &src_info)
	读取 Parquet 数据集的元数据。更多...

template<typename T >
constexpr auto	is_byte_like_type ()
	如果类型是字节类似类型（即合理地可以作为指向字节的指针传递），则返回 `true`。更多...

变量
constexpr size_t	default_stripe_size_bytes = 64 * 1024 * 1024
	64MB 默认 ORC 条纹大小

constexpr size_type	default_stripe_size_rows = 1000000
	1M 行默认 ORC 条纹行数

constexpr size_type	default_row_index_stride = 10000
	10K 行默认 ORC 行索引步长

constexpr size_t	default_row_group_size_bytes
	每行组无限字节。更多...

constexpr size_type	default_row_group_size_rows = 1'000'000
	每行组 1 百万行

constexpr size_t	default_max_page_size_bytes = 512 * 1024
	每页 512KB

constexpr size_type	default_max_page_size_rows = 20000
	每页 20k 行

constexpr int32_t	default_column_index_truncate_length = 64
	截断为 64 字节

constexpr size_t	default_max_dictionary_size = 1024 * 1024
	1MB 字典大小

constexpr size_type	default_max_page_fragment_size = 5000
	每页片段 5000 行

详细描述

I/O 接口。

命名空间

类

类型别名

枚举

函数

变量

详细描述