公有成员函数 | 静态公有成员函数 | 所有成员列表
cudf::io::parquet_reader_options 类参考

read_parquet() 的设置。 更多...

#include <parquet.hpp>

公有成员函数

 parquet_reader_options ()=default
 默认构造函数。 更多...
 
source_info const & get_source () const
 返回源信息。 更多...
 
bool is_enabled_convert_strings_to_categories () const
 根据字符串是否应转换为类别返回 true/false。 更多...
 
bool is_enabled_use_pandas_metadata () const
 根据读取时是否使用 pandas 元数据返回 true/false。 更多...
 
bool is_enabled_use_arrow_schema () const
 根据读取时是否使用 arrow schema 返回 true/false。 更多...
 
bool is_enabled_allow_mismatched_pq_schemas () const
 根据是否读取不匹配 Parquet 源中的匹配投影和过滤列返回 true/false。 更多...
 
std::optional< std::vector< reader_column_schema > > get_column_schema () const
 返回可选的元数据树。 更多...
 
int64_t get_skip_rows () const
 返回从开始跳过的行数。 更多...
 
std::optional< size_type > const & get_num_rows () const
 返回要读取的行数。 更多...
 
auto const & get_columns () const
 返回要读取的列名(如果已设置)。 更多...
 
auto const & get_row_groups () const
 返回要读取的独立行组列表。 更多...
 
auto const & get_filter () const
 返回用于谓词下推的 AST 基础过滤器。 更多...
 
data_type get_timestamp_type () const
 返回用于转换时间戳列的时间戳类型。 更多...
 
void set_columns (std::vector< std::string > col_names)
 设置要读取的列名。 更多...
 
void set_row_groups (std::vector< std::vector< size_type >> row_groups)
 设置要读取的独立行组向量。 更多...
 
void set_filter (ast::expression const &filter)
 设置用于谓词下推的 AST 基础过滤器。 更多...
 
void enable_convert_strings_to_categories (bool val)
 设置启用/禁用字符串到类别的转换。 更多...
 
void enable_use_pandas_metadata (bool val)
 设置启用/禁用读取时使用 pandas 元数据。 更多...
 
void enable_use_arrow_schema (bool val)
 设置启用/禁用读取时使用 arrow schema。 更多...
 
void enable_allow_mismatched_pq_schemas (bool val)
 设置启用/禁用读取不匹配 Parquet 源中的匹配投影和过滤列。 更多...
 
void set_column_schema (std::vector< reader_column_schema > val)
 设置读取器列 schema。 更多...
 
void set_skip_rows (int64_t val)
 设置要跳过的行数。 更多...
 
void set_num_rows (size_type val)
 设置要读取的行数。 更多...
 
void set_timestamp_type (data_type type)
 设置用于转换时间戳列的 timestamp_type。 更多...
 

静态公有成员函数

static parquet_reader_options_builder builder (source_info src)
 创建一个 parquet_reader_options_builder,用于构建 parquet_reader_options更多...
 

详细描述

read_parquet() 的设置。

定义于文件 parquet.hpp56 行。

构造函数和析构函数文档

◆ parquet_reader_options()

cudf::io::parquet_reader_options::parquet_reader_options ( )
explicitdefault

默认构造函数。

添加此构造函数是因为 Cython 需要一个默认构造函数来在堆栈上创建对象。

成员函数文档

◆ builder()

static parquet_reader_options_builder cudf::io::parquet_reader_options::builder ( source_info  src)
static

创建一个 parquet_reader_options_builder,用于构建 parquet_reader_options

参数
src用于读取 parquet 文件的源信息
返回
用于构建读取器选项的构建器

◆ enable_allow_mismatched_pq_schemas()

void cudf::io::parquet_reader_options::enable_allow_mismatched_pq_schemas ( bool  val)
inline

设置启用/禁用读取不匹配 Parquet 源中的匹配投影和过滤列。

参数
val布尔值,表示是否读取不匹配 Parquet 源中的匹配投影和过滤列。

定义于文件 parquet.hpp281 行。

◆ enable_convert_strings_to_categories()

void cudf::io::parquet_reader_options::enable_convert_strings_to_categories ( bool  val)
inline

设置启用/禁用字符串到类别的转换。

参数
val布尔值,用于启用/禁用字符串列到类别的转换

定义于文件 parquet.hpp258 行。

◆ enable_use_arrow_schema()

void cudf::io::parquet_reader_options::enable_use_arrow_schema ( bool  val)
inline

设置启用/禁用读取时使用 arrow schema。

参数
val布尔值,表示是否使用 arrow schema

定义于文件 parquet.hpp272 行。

◆ enable_use_pandas_metadata()

void cudf::io::parquet_reader_options::enable_use_pandas_metadata ( bool  val)
inline

设置启用/禁用读取时使用 pandas 元数据。

参数
val布尔值,表示是否使用 pandas 元数据

定义于文件 parquet.hpp265 行。

◆ get_column_schema()

std::optional<std::vector<reader_column_schema> > cudf::io::parquet_reader_options::get_column_schema ( ) const
inline

返回可选的元数据树。

返回
reader_column_schema 对象的向量。

定义于文件 parquet.hpp159 行。

◆ get_columns()

auto const& cudf::io::parquet_reader_options::get_columns ( ) const
inline

返回要读取的列名(如果已设置)。

返回
要读取的列名;如果选项未设置,则为 nullopt

定义于文件 parquet.hpp184 行。

◆ get_filter()

auto const& cudf::io::parquet_reader_options::get_filter ( ) const
inline

返回用于谓词下推的 AST 基础过滤器。

返回
用作过滤器的 AST 表达式

定义于文件 parquet.hpp198 行。

◆ get_num_rows()

std::optional<size_type> const& cudf::io::parquet_reader_options::get_num_rows ( ) const
inline

返回要读取的行数。

返回
要读取的行数;如果选项未设置(在这种情况下将读取到文件末尾),则为 nullopt

定义于文件 parquet.hpp177 行。

◆ get_row_groups()

auto const& cudf::io::parquet_reader_options::get_row_groups ( ) const
inline

返回要读取的独立行组列表。

返回
要读取的独立行组列表

定义于文件 parquet.hpp191 行。

◆ get_skip_rows()

int64_t cudf::io::parquet_reader_options::get_skip_rows ( ) const
inline

返回从开始跳过的行数。

返回
从开始跳过的行数

定义于文件 parquet.hpp169 行。

◆ get_source()

source_info const& cudf::io::parquet_reader_options::get_source ( ) const
inline

返回源信息。

返回
源信息

定义于文件 parquet.hpp115 行。

◆ get_timestamp_type()

data_type cudf::io::parquet_reader_options::get_timestamp_type ( ) const
inline

返回用于转换时间戳列的时间戳类型。

返回
所有时间戳列需要转换到的时间戳类型

定义于文件 parquet.hpp205 行。

◆ is_enabled_allow_mismatched_pq_schemas()

bool cudf::io::parquet_reader_options::is_enabled_allow_mismatched_pq_schemas ( ) const
inline

根据是否读取不匹配 Parquet 源中的匹配投影和过滤列返回 true/false。

返回
如果将从不匹配 Parquet 源中读取不匹配的投影列和过滤列,则为 true

定义于文件 parquet.hpp149 行。

◆ is_enabled_convert_strings_to_categories()

bool cudf::io::parquet_reader_options::is_enabled_convert_strings_to_categories ( ) const
inline

根据字符串是否应转换为类别返回 true/false。

返回
如果字符串应转换为类别,则为 true

定义于文件 parquet.hpp123 行。

◆ is_enabled_use_arrow_schema()

bool cudf::io::parquet_reader_options::is_enabled_use_arrow_schema ( ) const
inline

根据读取时是否使用 arrow schema 返回 true/false。

返回
如果读取时使用 arrow schema,则为 true

定义于文件 parquet.hpp140 行。

◆ is_enabled_use_pandas_metadata()

bool cudf::io::parquet_reader_options::is_enabled_use_pandas_metadata ( ) const
inline

根据读取时是否使用 pandas 元数据返回 true/false。

返回
如果读取时使用 pandas 元数据,则为 true

定义于文件 parquet.hpp133 行。

◆ set_column_schema()

void cudf::io::parquet_reader_options::set_column_schema ( std::vector< reader_column_schema val)
inline

Sets reader column schema.

参数
valSchema 节点的树,用于启用/禁用二进制到字符串列的转换。请注意,默认是转换为字符串列。

定义于文件 parquet.hpp289 行。

◆ set_columns()

void cudf::io::parquet_reader_options::set_columns ( std::vector< std::string >  col_names)
inline

设置要读取的列名。

参数
col_names列名向量

定义于文件 parquet.hpp212 行。

◆ set_filter()

void cudf::io::parquet_reader_options::set_filter ( ast::expression const &  filter)
inline

设置用于谓词下推的 AST 基础过滤器。

过滤器可以使用 cudf::ast::column_name_reference 按名称引用列,即使该列不一定存在于请求的投影列中。要引用输出列索引,您可以使用 cudf::ast::column_reference

对于列为 ["A", "B", "C", ... "X", "Y", "Z"] 的 parquet 文件,示例 1:带/不带列投影

use_columns({"A", "X", "Z"})
.filter(operation(ast_operator::LESS, column_name_reference{"C"}, literal{100}));

列 "C" 不需要出现在输出表中。示例 2:不带列投影

filter(operation(ast_operator::LESS, column_reference{1}, literal{100}));

在这里,1 将指向列 "B",因为输出将按 ["A", ..., "Z"] 的顺序包含所有列。示例 3:带列投影

use_columns({"A", "Z", "X"})
.filter(operation(ast_operator::LESS, column_reference{1}, literal{100}));

在这里,1 将指向列 "Z",因为输出将按 ["A", "Z", "X"] 的顺序包含 3 列。

参数
filter用作过滤器的 AST 表达式

定义于文件 parquet.hpp251 行。

◆ set_num_rows()

void cudf::io::parquet_reader_options::set_num_rows ( size_type  val)

设置要读取的行数。

参数
val跳过指定行数后要读取的行数

◆ set_row_groups()

void cudf::io::parquet_reader_options::set_row_groups ( std::vector< std::vector< size_type >>  row_groups)

设置要读取的独立行组向量。

参数
row_groups要读取的行组向量

◆ set_skip_rows()

void cudf::io::parquet_reader_options::set_skip_rows ( int64_t  val)

设置要跳过的行数。

参数
val从开始跳过的行数

◆ set_timestamp_type()

void cudf::io::parquet_reader_options::set_timestamp_type ( data_type  type)
inline

设置用于转换时间戳列的 timestamp_type。

参数
type所有时间戳列需要转换到的时间戳 data_type

定义于文件 parquet.hpp313 行。


此类的文档由以下文件生成