read_parquet() 的设置。更多...

#include <parquet.hpp>

公有成员函数
	parquet_reader_options ()=default
	默认构造函数。更多...

source_info const &	get_source () const
	返回源信息。更多...

bool	is_enabled_convert_strings_to_categories () const
	根据字符串是否应转换为类别返回 true/false。更多...

bool	is_enabled_use_pandas_metadata () const
	根据读取时是否使用 pandas 元数据返回 true/false。更多...

bool	is_enabled_use_arrow_schema () const
	根据读取时是否使用 arrow schema 返回 true/false。更多...

bool	is_enabled_allow_mismatched_pq_schemas () const
	根据是否读取不匹配 Parquet 源中的匹配投影和过滤列返回 true/false。更多...

std::optional< std::vector< reader_column_schema > >	get_column_schema () const
	返回可选的元数据树。更多...

int64_t	get_skip_rows () const
	返回从开始跳过的行数。更多...

std::optional< size_type > const &	get_num_rows () const
	返回要读取的行数。更多...

auto const &	get_columns () const
	返回要读取的列名（如果已设置）。更多...

auto const &	get_row_groups () const
	返回要读取的独立行组列表。更多...

auto const &	get_filter () const
	返回用于谓词下推的 AST 基础过滤器。更多...

data_type	get_timestamp_type () const
	返回用于转换时间戳列的时间戳类型。更多...

void	set_columns (std::vector< std::string > col_names)
	设置要读取的列名。更多...

void	set_row_groups (std::vector< std::vector< size_type >> row_groups)
	设置要读取的独立行组向量。更多...

void	set_filter (ast::expression const &filter)
	设置用于谓词下推的 AST 基础过滤器。更多...

void	enable_convert_strings_to_categories (bool val)
	设置启用/禁用字符串到类别的转换。更多...

void	enable_use_pandas_metadata (bool val)
	设置启用/禁用读取时使用 pandas 元数据。更多...

void	enable_use_arrow_schema (bool val)
	设置启用/禁用读取时使用 arrow schema。更多...

void	enable_allow_mismatched_pq_schemas (bool val)
	设置启用/禁用读取不匹配 Parquet 源中的匹配投影和过滤列。更多...

void	set_column_schema (std::vector< reader_column_schema > val)
	设置读取器列 schema。更多...

void	set_skip_rows (int64_t val)
	设置要跳过的行数。更多...

void	set_num_rows (size_type val)
	设置要读取的行数。更多...

void	set_timestamp_type (data_type type)
	设置用于转换时间戳列的 timestamp_type。更多...

静态公有成员函数
static parquet_reader_options_builder	builder (source_info src)
	创建一个 parquet_reader_options_builder，用于构建 parquet_reader_options。更多...

详细描述

read_parquet() 的设置。

定义于文件 parquet.hpp 的 56 行。

构造函数和析构函数文档

◆ parquet_reader_options()

cudf::io::parquet_reader_options::parquet_reader_options ( )

explicitdefault

默认构造函数。

添加此构造函数是因为 Cython 需要一个默认构造函数来在堆栈上创建对象。

成员函数文档

◆ builder()

static parquet_reader_options_builder cudf::io::parquet_reader_options::builder ( source_info src )

static

创建一个 parquet_reader_options_builder，用于构建 parquet_reader_options。

参数

src	用于读取 parquet 文件的源信息

返回: 用于构建读取器选项的构建器

◆ enable_allow_mismatched_pq_schemas()

void cudf::io::parquet_reader_options::enable_allow_mismatched_pq_schemas ( bool val )

inline

设置启用/禁用读取不匹配 Parquet 源中的匹配投影和过滤列。

参数

val	布尔值，表示是否读取不匹配 Parquet 源中的匹配投影和过滤列。

定义于文件 parquet.hpp 的 281 行。

◆ enable_convert_strings_to_categories()

void cudf::io::parquet_reader_options::enable_convert_strings_to_categories ( bool val )

inline

设置启用/禁用字符串到类别的转换。

参数

val	布尔值，用于启用/禁用字符串列到类别的转换

定义于文件 parquet.hpp 的 258 行。

◆ enable_use_arrow_schema()

void cudf::io::parquet_reader_options::enable_use_arrow_schema ( bool val )

inline

设置启用/禁用读取时使用 arrow schema。

参数

val	布尔值，表示是否使用 arrow schema

定义于文件 parquet.hpp 的 272 行。

◆ enable_use_pandas_metadata()

void cudf::io::parquet_reader_options::enable_use_pandas_metadata ( bool val )

inline

设置启用/禁用读取时使用 pandas 元数据。

参数

val	布尔值，表示是否使用 pandas 元数据

定义于文件 parquet.hpp 的 265 行。

◆ get_column_schema()

std::optional<std::vector<reader_column_schema> > cudf::io::parquet_reader_options::get_column_schema ( ) const

inline

返回可选的元数据树。

返回: reader_column_schema 对象的向量。

定义于文件 parquet.hpp 的 159 行。

◆ get_columns()

auto const& cudf::io::parquet_reader_options::get_columns ( ) const

inline

返回要读取的列名（如果已设置）。

返回: 要读取的列名；如果选项未设置，则为 nullopt

定义于文件 parquet.hpp 的 184 行。

◆ get_filter()

auto const& cudf::io::parquet_reader_options::get_filter ( ) const

inline

返回用于谓词下推的 AST 基础过滤器。

返回: 用作过滤器的 AST 表达式

定义于文件 parquet.hpp 的 198 行。

◆ get_num_rows()

std::optional<size_type> const& cudf::io::parquet_reader_options::get_num_rows ( ) const

inline

返回要读取的行数。

返回: 要读取的行数；如果选项未设置（在这种情况下将读取到文件末尾），则为 nullopt

定义于文件 parquet.hpp 的 177 行。

◆ get_row_groups()

auto const& cudf::io::parquet_reader_options::get_row_groups ( ) const

inline

返回要读取的独立行组列表。

返回: 要读取的独立行组列表

定义于文件 parquet.hpp 的 191 行。

◆ get_skip_rows()

int64_t cudf::io::parquet_reader_options::get_skip_rows ( ) const

inline

返回从开始跳过的行数。

返回: 从开始跳过的行数

定义于文件 parquet.hpp 的 169 行。

◆ get_source()

source_info const& cudf::io::parquet_reader_options::get_source ( ) const

inline

返回源信息。

返回: 源信息

定义于文件 parquet.hpp 的 115 行。

◆ get_timestamp_type()

data_type cudf::io::parquet_reader_options::get_timestamp_type ( ) const

inline

返回用于转换时间戳列的时间戳类型。

返回: 所有时间戳列需要转换到的时间戳类型

定义于文件 parquet.hpp 的 205 行。

◆ is_enabled_allow_mismatched_pq_schemas()

bool cudf::io::parquet_reader_options::is_enabled_allow_mismatched_pq_schemas ( ) const

inline

根据是否读取不匹配 Parquet 源中的匹配投影和过滤列返回 true/false。

返回: 如果将从不匹配 Parquet 源中读取不匹配的投影列和过滤列，则为 true。

定义于文件 parquet.hpp 的 149 行。

◆ is_enabled_convert_strings_to_categories()

bool cudf::io::parquet_reader_options::is_enabled_convert_strings_to_categories ( ) const

inline

根据字符串是否应转换为类别返回 true/false。

返回: 如果字符串应转换为类别，则为 true

定义于文件 parquet.hpp 的 123 行。

◆ is_enabled_use_arrow_schema()

bool cudf::io::parquet_reader_options::is_enabled_use_arrow_schema ( ) const

inline

根据读取时是否使用 arrow schema 返回 true/false。

返回: 如果读取时使用 arrow schema，则为 true

定义于文件 parquet.hpp 的 140 行。

◆ is_enabled_use_pandas_metadata()

bool cudf::io::parquet_reader_options::is_enabled_use_pandas_metadata ( ) const

inline

根据读取时是否使用 pandas 元数据返回 true/false。

返回: 如果读取时使用 pandas 元数据，则为 true

定义于文件 parquet.hpp 的 133 行。

◆ set_column_schema()

void cudf::io::parquet_reader_options::set_column_schema ( std::vector< reader_column_schema > val )

inline

Sets reader column schema.

参数

val	Schema 节点的树，用于启用/禁用二进制到字符串列的转换。请注意，默认是转换为字符串列。

定义于文件 parquet.hpp 的 289 行。

◆ set_columns()

void cudf::io::parquet_reader_options::set_columns ( std::vector< std::string > col_names )

inline

设置要读取的列名。

参数

col_names 列名向量

定义于文件 parquet.hpp 的 212 行。

◆ set_filter()

void cudf::io::parquet_reader_options::set_filter ( ast::expression const & filter )

inline

设置用于谓词下推的 AST 基础过滤器。

过滤器可以使用 cudf::ast::column_name_reference 按名称引用列，即使该列不一定存在于请求的投影列中。要引用输出列索引，您可以使用 cudf::ast::column_reference。

对于列为 ["A", "B", "C", ... "X", "Y", "Z"] 的 parquet 文件，示例 1：带/不带列投影

use_columns({"A", "X", "Z"})

.filter(operation(ast_operator::LESS, column_name_reference{"C"}, literal{100}));

列 "C" 不需要出现在输出表中。示例 2：不带列投影

filter(operation(ast_operator::LESS, column_reference{1}, literal{100}));

在这里，1 将指向列 "B"，因为输出将按 ["A", ..., "Z"] 的顺序包含所有列。示例 3：带列投影

use_columns({"A", "Z", "X"})

.filter(operation(ast_operator::LESS, column_reference{1}, literal{100}));

在这里，1 将指向列 "Z"，因为输出将按 ["A", "Z", "X"] 的顺序包含 3 列。

参数

filter 用作过滤器的 AST 表达式

定义于文件 parquet.hpp 的 251 行。

◆ set_num_rows()

void cudf::io::parquet_reader_options::set_num_rows ( size_type val )

设置要读取的行数。

参数

val	跳过指定行数后要读取的行数

◆ set_row_groups()

void cudf::io::parquet_reader_options::set_row_groups ( std::vector< std::vector< size_type >> row_groups )

设置要读取的独立行组向量。

参数

row_groups 要读取的行组向量

◆ set_skip_rows()

void cudf::io::parquet_reader_options::set_skip_rows ( int64_t val )

设置要跳过的行数。

参数

val 从开始跳过的行数

◆ set_timestamp_type()

void cudf::io::parquet_reader_options::set_timestamp_type ( data_type type )

inline

设置用于转换时间戳列的 timestamp_type。

参数

type	所有时间戳列需要转换到的时间戳 data_type

定义于文件 parquet.hpp 的 313 行。

此类的文档由以下文件生成

parquet.hpp

公有成员函数

静态公有成员函数

详细描述

构造函数和析构函数文档

◆ parquet_reader_options()

成员函数文档

◆ builder()

◆ enable_allow_mismatched_pq_schemas()

◆ enable_convert_strings_to_categories()

◆ enable_use_arrow_schema()

◆ enable_use_pandas_metadata()

◆ get_column_schema()

◆ get_columns()

◆ get_filter()

◆ get_num_rows()

◆ get_row_groups()

◆ get_skip_rows()

◆ get_source()

◆ get_timestamp_type()

◆ is_enabled_allow_mismatched_pq_schemas()

◆ is_enabled_convert_strings_to_categories()

◆ is_enabled_use_arrow_schema()

◆ is_enabled_use_pandas_metadata()

◆ set_column_schema()

◆ set_columns()

◆ set_filter()

◆ set_num_rows()

◆ set_row_groups()

◆ set_skip_rows()

◆ set_timestamp_type()