构建 parquet_reader_options，用于 read_parquet()。更多...

#include <parquet.hpp>

公共成员函数
	parquet_reader_options_builder ()=default
	默认构造函数。更多...

	parquet_reader_options_builder (source_info src)
	从源信息构建。更多...

parquet_reader_options_builder &	columns (std::vector< std::string > col_names)
	设置要读取的列的名称。更多...

parquet_reader_options_builder &	row_groups (std::vector< std::vector< size_type >> row_groups)
	设置要读取的各个行组的向量。更多...

parquet_reader_options_builder &	filter (ast::expression const &filter)
	设置基于 AST 的过滤器用于谓词下推。更多...

parquet_reader_options_builder &	convert_strings_to_categories (bool val)
	设置是否启用字符串转换为类别。更多...

parquet_reader_options_builder &	use_pandas_metadata (bool val)
	设置是否启用使用 pandas 元数据进行读取。更多...

parquet_reader_options_builder &	use_arrow_schema (bool val)
	设置是否启用使用 arrow schema 进行读取。更多...

parquet_reader_options_builder &	allow_mismatched_pq_schemas (bool val)
	设置是否允许从不匹配的 Parquet 源读取匹配的 projected 和 filter 列。更多...

parquet_reader_options_builder &	set_column_schema (std::vector< reader_column_schema > val)
	设置读取器元数据。更多...

parquet_reader_options_builder &	skip_rows (int64_t val)
	设置要跳过的行数。更多...

parquet_reader_options_builder &	num_rows (size_type val)
	设置要读取的行数。更多...

parquet_reader_options_builder &	timestamp_type (data_type type)
	用于转换时间戳列的时间戳类型。更多...

	operator parquet_reader_options && ()
	在构建后移动 parquet_reader_options 成员。

parquet_reader_options &&	build ()
	在构建后移动 parquet_reader_options 成员。更多...

详细描述

构建 parquet_reader_options，用于 read_parquet()。

定义于文件 parquet.hpp 的 319 行。

构造函数与析构函数文档

◆ parquet_reader_options_builder() [1/2]

cudf::io::parquet_reader_options_builder::parquet_reader_options_builder ( )

默认

默认构造函数。

添加此构造函数是因为 Cython 需要一个默认构造函数来在栈上创建对象。

◆ parquet_reader_options_builder() [2/2]

cudf::io::parquet_reader_options_builder::parquet_reader_options_builder ( source_info src )

inlineexplicit

从源信息构建。

参数

src	用于读取 parquet 文件的源信息

定义于文件 parquet.hpp 的 335 行。

成员函数文档

◆ allow_mismatched_pq_schemas()

parquet_reader_options_builder& cudf::io::parquet_reader_options_builder::allow_mismatched_pq_schemas ( bool val )

inline

设置是否允许从不匹配的 Parquet 源读取匹配的 projected 和 filter 列。

参数

val	布尔值，表示是否允许从不匹配的 Parquet 源读取匹配的 projected 和 filter 列。

返回: 用于链式调用的 this 指针。

定义于文件 parquet.hpp 的 416 行。

◆ build()

parquet_reader_options&& cudf::io::parquet_reader_options_builder::build ( )

inline

在构建后移动 parquet_reader_options 成员。

添加此函数是因为 Cython 不支持重载转换操作符。

返回: 已构建的 parquet_reader_options 对象的右值引用

定义于文件 parquet.hpp 的 482 行。

◆ columns()

parquet_reader_options_builder& cudf::io::parquet_reader_options_builder::columns ( std::vector< std::string > col_names )

inline

设置要读取的列的名称。

参数

col_names 列名向量

返回: 用于链式调用的 this 指针

定义于文件 parquet.hpp 的 343 行。

◆ convert_strings_to_categories()

parquet_reader_options_builder& cudf::io::parquet_reader_options_builder::convert_strings_to_categories ( bool val )

inline

设置是否启用字符串转换为类别。

参数

val	布尔值，用于启用/禁用字符串列转换为类别

返回: 用于链式调用的 this 指针

定义于文件 parquet.hpp 的 377 行。

◆ filter()

parquet_reader_options_builder& cudf::io::parquet_reader_options_builder::filter ( ast::expression const & filter )

inline

设置基于 AST 的过滤器用于谓词下推。

过滤器可以使用 cudf::ast::column_name_reference 通过名称引用列，即使该列不一定存在于请求的投影列中。要引用输出列索引，可以使用 cudf::ast::column_reference。

对于包含列 ["A", "B", "C", ... "X", "Y", "Z"] 的 parquet 文件，示例 1：带/不带列投影

use_columns({"A", "X", "Z"})

.filter(operation(ast_operator::LESS, column_name_reference{"C"}, literal{100}));

cudf::io::parquet_reader_options_builder::filter

parquet_reader_options_builder & filter(ast::expression const &filter)

设置基于 AST 的过滤器用于谓词下推。

定义： parquet.hpp:365

列 "C" 无需存在于输出表中。示例 2：不带列投影

filter(operation(ast_operator::LESS, column_reference{1}, literal{100}));

在此，1 将引用列 "B"，因为输出将包含所有列，顺序为 ["A", ..., "Z"]。示例 3：带列投影

use_columns({"A", "Z", "X"})

.filter(operation(ast_operator::LESS, column_reference{1}, literal{100}));

在此，1 将引用列 "Z"，因为输出将包含 3 列，顺序为 ["A", "Z", "X"]。

参数

filter 用作过滤器的 AST 表达式

返回: 用于链式调用的 this 指针

定义于文件 parquet.hpp 的 365 行。

◆ num_rows()

parquet_reader_options_builder& cudf::io::parquet_reader_options_builder::num_rows ( size_type val )

inline

设置要读取的行数。

参数

val 跳过后的读取行数

返回: 用于链式调用的 this 指针

定义于文件 parquet.hpp 的 452 行。

◆ row_groups()

parquet_reader_options_builder& cudf::io::parquet_reader_options_builder::row_groups ( std::vector< std::vector< size_type >> row_groups )

inline

设置要读取的各个行组的向量。

参数

row_groups 要读取的行组向量

返回: 用于链式调用的 this 指针

定义于文件 parquet.hpp 的 355 行。

◆ set_column_schema()

parquet_reader_options_builder& cudf::io::parquet_reader_options_builder::set_column_schema ( std::vector< reader_column_schema > val )

inline

设置读取器元数据。

参数

val 元信息树。

返回: 用于链式调用的 this 指针

定义于文件 parquet.hpp 的 428 行。

◆ skip_rows()

parquet_reader_options_builder& cudf::io::parquet_reader_options_builder::skip_rows ( int64_t val )

inline

设置要跳过的行数。

参数

val 从开头跳过的行数

返回: 用于链式调用的 this 指针

定义于文件 parquet.hpp 的 440 行。

◆ timestamp_type()

parquet_reader_options_builder& cudf::io::parquet_reader_options_builder::timestamp_type ( data_type type )

inline

用于转换时间戳列的时间戳类型。

参数

type	所有时间戳列需要转换到的时间戳 data_type

返回: 用于链式调用的 this 指针

定义于文件 parquet.hpp 的 464 行。

◆ use_arrow_schema()

parquet_reader_options_builder& cudf::io::parquet_reader_options_builder::use_arrow_schema ( bool val )

inline

设置是否启用使用 arrow schema 进行读取。

参数

val	布尔值，表示是否使用 arrow schema

返回: 用于链式调用的 this 指针

定义于文件 parquet.hpp 的 401 行。

◆ use_pandas_metadata()

parquet_reader_options_builder& cudf::io::parquet_reader_options_builder::use_pandas_metadata ( bool val )

inline

设置是否启用使用 pandas 元数据进行读取。

参数

val	布尔值，表示是否使用 pandas 元数据

返回: 用于链式调用的 this 指针

定义于文件 parquet.hpp 的 389 行。

本类的文档生成于以下文件

parquet.hpp

公共成员函数

详细描述

构造函数与析构函数文档

◆ parquet_reader_options_builder() [1/2]

◆ parquet_reader_options_builder() [2/2]

成员函数文档

◆ allow_mismatched_pq_schemas()

◆ build()

◆ columns()

◆ convert_strings_to_categories()

◆ filter()

◆ num_rows()

◆ row_groups()

◆ set_column_schema()

◆ skip_rows()

◆ timestamp_type()

◆ use_arrow_schema()

◆ use_pandas_metadata()