文件 | | 枚举 | 函数 | 变量
读取器

文件

文件  avro.hpp
 
文件  csv.hpp
 
文件  io/json.hpp
 
文件  orc.hpp
 
文件  parquet.hpp
 
文件  byte_range_info.hpp
 
文件  data_chunk_source.hpp
 
文件  multibyte_split.hpp
 

类  cudf::io::avro_reader_options
 用于 read_avro() 的设置。 更多...
 
类  cudf::io::avro_reader_options_builder
 用于构建 read_avro() 选项的构建器。 更多...
 
类  cudf::io::csv_reader_options
 用于 read_csv() 的设置。 更多...
 
类  cudf::io::csv_reader_options_builder
 用于构建 read_csv() 选项的构建器。 更多...
 
结构体  cudf::io::schema_element
 允许通过 json_reader_optionsset_dtypes 方法指定嵌套 JSON 数据的目标类型。 更多...
 
类  cudf::io::json_reader_options
 read_json 接口的输入参数。 更多...
 
类  cudf::io::json_reader_options_builder
 用于构建 read_json() 设置的构建器。 更多...
 
类  cudf::io::orc_reader_options
 用于 read_orc() 的设置。 更多...
 
类  cudf::io::orc_reader_options_builder
 用于构建 read_orc() 设置的构建器。 更多...
 
类  cudf::io::chunked_orc_reader
 分块 ORC 读取器类,用于将 ORC 文件迭代读取到一系列表格中,一次读取一个分块。 更多...
 
类  cudf::io::parquet_reader_options
 用于 read_parquet() 的设置。 更多...
 
类  cudf::io::parquet_reader_options_builder
 用于构建用于 read_parquet()parquet_reader_options更多...
 
类  cudf::io::chunked_parquet_reader
 分块 Parquet 读取器类,用于将 Parquet 文件迭代读取到一系列表格中,一次读取一个分块。 更多...
 
类  cudf::io::text::byte_range_info
 存储用于指示字节范围的偏移量和大小 更多...
 
类  cudf::io::text::device_data_chunk
 一个保证对底层设备数据进行流顺序内存访问的约定。 更多...
 
类  cudf::io::text::data_chunk_reader
 一个能够在设备内存上生成视图的读取器。 更多...
 
类  cudf::io::text::data_chunk_source
 一个数据源,能够创建一个读取器,该读取器可以在设备内存中生成数据源的视图。 更多...
 
结构体  cudf::io::text::parse_options
 multibyte_split 的解析选项。 更多...
 

枚举

枚举类  cudf::io::json_recovery_mode_t { cudf::io::FAIL , cudf::io::RECOVER_WITH_NULL }
 控制 json 解析器的错误恢复行为。 更多...
 

函数

table_with_metadata cudf::io::read_avro (avro_reader_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 将 Avro 数据集读取到一组列中。 更多...
 
table_with_metadata cudf::io::read_csv (csv_reader_options options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 将 CSV 数据集读取到一组列中。 更多...
 
table_with_metadata cudf::io::read_json (json_reader_options options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 将 JSON 数据集读取到一组列中。 更多...
 
table_with_metadata cudf::io::read_orc (orc_reader_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 将 ORC 数据集读取到一组列中。 更多...
 
raw_orc_statistics cudf::io::read_raw_orc_statistics (source_info const &src_info, rmm::cuda_stream_view stream=cudf::get_default_stream())
 读取 ORC 数据集的文件级别和条带级别统计信息。 更多...
 
parsed_orc_statistics cudf::io::read_parsed_orc_statistics (source_info const &src_info, rmm::cuda_stream_view stream=cudf::get_default_stream())
 读取 ORC 数据集的文件级别和条带级别统计信息。 更多...
 
orc_metadata cudf::io::read_orc_metadata (source_info const &src_info, rmm::cuda_stream_view stream=cudf::get_default_stream())
 读取 ORC 数据集的元数据。 更多...
 
table_with_metadata cudf::io::read_parquet (parquet_reader_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 将 Parquet 数据集读取到一组列中。 更多...
 
parquet_metadata cudf::io::read_parquet_metadata (source_info const &src_info)
 读取 parquet 数据集的元数据。 更多...
 
std::vector< byte_range_infocudf::io::text::create_byte_range_infos_consecutive (int64_t total_bytes, int64_t range_count)
 创建 [0, total_bytes) 之间的一系列连续范围。 更多...
 
byte_range_info cudf::io::text::create_byte_range_info_max ()
 创建一个 byte_range_info,它表示文件中尽可能多的部分。具体来说,是 [0, numeric_limits<int64_t>:\:max())更多...
 
std::unique_ptr< cudf::columncudf::io::text::multibyte_split (data_chunk_source const &source, std::string_view delimiter, parse_options options={}, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 使用多字节分隔符将源文本拆分为字符串列。 更多...
 

变量

constexpr size_t cudf::io::default_stripe_size_bytes = 64 * 1024 * 1024
 默认 ORC 条带大小 64MB
 
constexpr size_type cudf::io::default_stripe_size_rows = 1000000
 默认 ORC 条带行数 100 万行
 
constexpr size_type cudf::io::default_row_index_stride = 10000
 默认 ORC 行索引步长 1 万行
 
constexpr size_t cudf::io::default_row_group_size_bytes
 每个行组的字节数无限大。 更多...
 
constexpr size_type cudf::io::default_row_group_size_rows = 1'000'000
 每个行组 100 万行
 
constexpr size_t cudf::io::default_max_page_size_bytes = 512 * 1024
 每页 512KB
 
constexpr size_type cudf::io::default_max_page_size_rows = 20000
 每页 2 万行
 
constexpr int32_t cudf::io::default_column_index_truncate_length = 64
 截断至 64 字节
 
constexpr size_t cudf::io::default_max_dictionary_size = 1024 * 1024
 字典大小 1MB
 
constexpr size_type cudf::io::default_max_page_fragment_size = 5000
 每个页面片段 5000 行
 

详细描述

枚举类型文档

◆ json_recovery_mode_t

控制 json 解析器的错误恢复行为。

枚举成员
FAIL 

遇到无效格式时不从错误中恢复。

RECOVER_WITH_NULL 

从错误中恢复,将无效记录替换为 null。

定义于文件 io/json.hpp67 行。

函数文档

◆ create_byte_range_info_max()

byte_range_info cudf::io::text::create_byte_range_info_max ( )

创建一个 byte_range_info,它表示文件中尽可能多的部分。具体来说,是 [0, numeric_limits<int64_t>:\:max())

返回值
大小为 [0, numeric_limits<int64_t>:\:max()) 的字节范围信息

◆ create_byte_range_infos_consecutive()

std::vector<byte_range_info> cudf::io::text::create_byte_range_infos_consecutive ( int64_t  total_bytes,
int64_t  range_count 
)

创建 [0, total_bytes) 之间的一系列连续范围。

每个范围的大小将相同,除非 total_bytes 不能被 range_count 整除,在这种情况下,最后一个范围的大小将是余数。

参数
total_bytes所有范围中的总字节数
range_count将字节分割成的总范围数量
返回值
范围对象的向量

◆ multibyte_split()

std::unique_ptr<cudf::column> cudf::io::text::multibyte_split ( data_chunk_source const &  source,
std::string_view  delimiter,
parse_options  options = {},
rmm::cuda_stream_view  stream = cudf::get_default_stream(),
rmm::device_async_resource_ref  mr = cudf::get_current_device_resource_ref() 
)

使用多字节分隔符将源文本拆分为字符串列。

提供字节范围允许 multibyte_split 部分读取文件,仅返回在范围内部开始的分隔符的偏移量。如果按照“记录”来思考,其中每个分隔符决定了记录的结束,则将返回在提供的字节范围内部开始的所有记录,包括可能在范围内开始但在范围外结束的任何记录。在范围外开始的记录将被忽略,即使这些记录在范围内部结束也是如此。

示例
source: "abc..def..ghi..jkl.."
delimiter: ".."
byte_range: nullopt
return: ["abc..", "def..", "ghi..", jkl..", ""]
byte_range: [0, 2)
return: ["abc.."]
byte_range: [2, 9)
return: ["def..", "ghi.."]
byte_range: [11, 2)
return: []
byte_range: [13, 7)
return: ["jkl..", ""]
参数
source源字符串
delimiterUTF-8 编码字符串,用于在源中查找偏移量
选项要使用的解析选项(包括字节范围)
用于设备内存操作和内核启动的 CUDA 流
mr用于设备内存分配的内存资源
返回值
通过在相关字节范围内使用分隔符拆分源找到的字符串。

◆ read_avro()

将 Avro 数据集读取到一组列中。

以下代码片段演示如何从文件读取数据集

auto source = cudf::io::source_info("dataset.avro");
auto result = cudf::io::read_avro(options);
static avro_reader_options_builder builder(source_info src)
创建将构建 avro_reader_options 的 avro_reader_options_builder。
table_with_metadata read_avro(avro_reader_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
将 Avro 数据集读取到一组列中。
读取接口的源信息。
定义于: io/types.hpp:348
参数
选项控制读取行为的设置
用于设备内存操作和内核启动的 CUDA 流
mr用于分配返回的 table_with_metadata 中表的设备内存的设备内存资源
返回值
列集合以及元数据

◆ read_csv()

将 CSV 数据集读取到一组列中。

以下代码片段演示如何从文件读取数据集

auto source = cudf::io::source_info("dataset.csv");
auto result = cudf::io::read_csv(options);
static csv_reader_options_builder builder(source_info src)
创建一个 csv_reader_options_builder,它将构建 csv_reader_options。
table_with_metadata read_csv(csv_reader_options options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
将 CSV 数据集读取到一组列中。
参数
选项控制读取行为的设置
用于设备内存操作和内核启动的 CUDA 流
mr用于分配返回的 table_with_metadata 中表的设备内存的设备内存资源
返回值
列集合以及元数据

◆ read_json()

将 JSON 数据集读取到一组列中。

以下代码片段演示如何从文件读取数据集

auto source = cudf::io::source_info("dataset.json");
auto options = cudf::io::read_json_options::builder(source);
auto result = cudf::io::read_json(options);
table_with_metadata read_json(json_reader_options options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
将 JSON 数据集读取到一组列中。
参数
选项控制读取行为的设置
用于设备内存操作和内核启动的 CUDA 流
mr用于分配返回的 table_with_metadata 中表的设备内存的设备内存资源。
返回值
列集合以及元数据

◆ read_orc()

将 ORC 数据集读取到一组列中。

以下代码片段演示如何从文件读取数据集

auto source = cudf::io::source_info("dataset.orc");
auto result = cudf::io::read_orc(options);
static orc_reader_options_builder builder(source_info src)
创建一个 orc_reader_options_builder,它将构建 orc_reader_options。
table_with_metadata read_orc(orc_reader_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
将 ORC 数据集读取到一组列中。
参数
选项控制读取行为的设置
用于设备内存操作和内核启动的 CUDA 流
mr用于分配返回的 table_with_metadata 中表的设备内存的设备内存资源。
返回值
列集合

◆ read_orc_metadata()

orc_metadata cudf::io::read_orc_metadata ( source_info const &  src_info,
rmm::cuda_stream_view  stream = cudf::get_default_stream() 
)

读取 ORC 数据集的元数据。

参数
src_info数据集源
用于设备内存操作和内核启动的 CUDA 流
返回值
包含 ORC 模式、行数和条带数的 orc_metadata

◆ read_parquet()

将 Parquet 数据集读取到一组列中。

以下代码片段演示如何从文件读取数据集

auto source = cudf::io::source_info("dataset.parquet");
auto result = cudf::io::read_parquet(options);
static parquet_reader_options_builder builder(source_info src)
创建一个 parquet_reader_options_builder,它将构建 parquet_reader_options。
table_with_metadata read_parquet(parquet_reader_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
将 Parquet 数据集读取到一组列中。
参数
选项控制读取行为的设置
用于设备内存操作和内核启动的 CUDA 流
mr用于分配返回的 table_with_metadata 中表的设备内存的设备内存资源
返回值
列集合以及元数据

◆ read_parquet_metadata()

parquet_metadata cudf::io::read_parquet_metadata ( source_info const &  src_info)

读取 parquet 数据集的元数据。

参数
src_info数据集源
返回值
包含 parquet 模式、行数、行组数和键值元数据的 parquet_metadata

◆ read_parsed_orc_statistics()

parsed_orc_statistics cudf::io::read_parsed_orc_statistics ( source_info const &  src_info,
rmm::cuda_stream_view  stream = cudf::get_default_stream() 
)

读取 ORC 数据集的文件级别和条带级别统计信息。

参数
src_info数据集源
用于设备内存操作和内核启动的 CUDA 流
返回值
列名和已解码的 ORC 统计信息

◆ read_raw_orc_statistics()

raw_orc_statistics cudf::io::read_raw_orc_statistics ( source_info const &  src_info,
rmm::cuda_stream_view  stream = cudf::get_default_stream() 
)

读取 ORC 数据集的文件级别和条带级别统计信息。

以下代码片段演示如何从文件读取数据集的统计信息

auto result = cudf::read_raw_orc_statistics(cudf::source_info("dataset.orc"));
raw_orc_statistics read_raw_orc_statistics(source_info const &src_info, rmm::cuda_stream_view stream=cudf::get_default_stream())
读取 ORC 数据集的文件级别和条带级别统计信息。
参数
src_info数据集源
用于设备内存操作和内核启动的 CUDA 流
返回值
列名和已编码的 ORC 统计信息

变量文档

◆ default_row_group_size_bytes

constexpr size_t cudf::io::default_row_group_size_bytes
constexpr
初始值
=
std::numeric_limits<size_t>::max()

每个行组的字节数无限大。 更多...

定义于文件 parquet.hpp42 行。