公共成员函数 | 所有成员列表
cudf::io::parquet_reader_options_builder 类参考

构建 parquet_reader_options,用于 read_parquet()更多...

#include <parquet.hpp>

公共成员函数

 parquet_reader_options_builder ()=default
 默认构造函数。 更多...
 
 parquet_reader_options_builder (source_info src)
 从源信息构建。 更多...
 
parquet_reader_options_buildercolumns (std::vector< std::string > col_names)
 设置要读取的列的名称。 更多...
 
parquet_reader_options_builderrow_groups (std::vector< std::vector< size_type >> row_groups)
 设置要读取的各个行组的向量。 更多...
 
parquet_reader_options_builderfilter (ast::expression const &filter)
 设置基于 AST 的过滤器用于谓词下推。 更多...
 
parquet_reader_options_builderconvert_strings_to_categories (bool val)
 设置是否启用字符串转换为类别。 更多...
 
parquet_reader_options_builderuse_pandas_metadata (bool val)
 设置是否启用使用 pandas 元数据进行读取。 更多...
 
parquet_reader_options_builderuse_arrow_schema (bool val)
 设置是否启用使用 arrow schema 进行读取。 更多...
 
parquet_reader_options_builderallow_mismatched_pq_schemas (bool val)
 设置是否允许从不匹配的 Parquet 源读取匹配的 projected 和 filter 列。 更多...
 
parquet_reader_options_builderset_column_schema (std::vector< reader_column_schema > val)
 设置读取器元数据。 更多...
 
parquet_reader_options_builderskip_rows (int64_t val)
 设置要跳过的行数。 更多...
 
parquet_reader_options_buildernum_rows (size_type val)
 设置要读取的行数。 更多...
 
parquet_reader_options_buildertimestamp_type (data_type type)
 用于转换时间戳列的时间戳类型。 更多...
 
 operator parquet_reader_options && ()
 在构建后移动 parquet_reader_options 成员。
 
parquet_reader_options && build ()
 在构建后移动 parquet_reader_options 成员。 更多...
 

详细描述

构建 parquet_reader_options,用于 read_parquet()

定义于文件 parquet.hpp319 行。

构造函数与析构函数文档

◆ parquet_reader_options_builder() [1/2]

cudf::io::parquet_reader_options_builder::parquet_reader_options_builder ( )
默认

默认构造函数。

添加此构造函数是因为 Cython 需要一个默认构造函数来在栈上创建对象。

◆ parquet_reader_options_builder() [2/2]

cudf::io::parquet_reader_options_builder::parquet_reader_options_builder ( source_info  src)
inlineexplicit

从源信息构建。

参数
src用于读取 parquet 文件的源信息

定义于文件 parquet.hpp335 行。

成员函数文档

◆ allow_mismatched_pq_schemas()

parquet_reader_options_builder& cudf::io::parquet_reader_options_builder::allow_mismatched_pq_schemas ( bool  val)
inline

设置是否允许从不匹配的 Parquet 源读取匹配的 projected 和 filter 列。

参数
val布尔值,表示是否允许从不匹配的 Parquet 源读取匹配的 projected 和 filter 列。
返回
用于链式调用的 this 指针。

定义于文件 parquet.hpp416 行。

◆ build()

parquet_reader_options&& cudf::io::parquet_reader_options_builder::build ( )
inline

在构建后移动 parquet_reader_options 成员。

添加此函数是因为 Cython 不支持重载转换操作符。

返回
已构建的 parquet_reader_options 对象的右值引用

定义于文件 parquet.hpp482 行。

◆ columns()

parquet_reader_options_builder& cudf::io::parquet_reader_options_builder::columns ( std::vector< std::string >  col_names)
inline

设置要读取的列的名称。

参数
col_names列名向量
返回
用于链式调用的 this 指针

定义于文件 parquet.hpp343 行。

◆ convert_strings_to_categories()

parquet_reader_options_builder& cudf::io::parquet_reader_options_builder::convert_strings_to_categories ( bool  val)
inline

设置是否启用字符串转换为类别。

参数
val布尔值,用于启用/禁用字符串列转换为类别
返回
用于链式调用的 this 指针

定义于文件 parquet.hpp377 行。

◆ filter()

parquet_reader_options_builder& cudf::io::parquet_reader_options_builder::filter ( ast::expression const &  filter)
inline

设置基于 AST 的过滤器用于谓词下推。

过滤器可以使用 cudf::ast::column_name_reference 通过名称引用列,即使该列不一定存在于请求的投影列中。要引用输出列索引,可以使用 cudf::ast::column_reference

对于包含列 ["A", "B", "C", ... "X", "Y", "Z"] 的 parquet 文件,示例 1:带/不带列投影

use_columns({"A", "X", "Z"})
.filter(operation(ast_operator::LESS, column_name_reference{"C"}, literal{100}));
parquet_reader_options_builder & filter(ast::expression const &filter)
设置基于 AST 的过滤器用于谓词下推。
定义: parquet.hpp:365

列 "C" 无需存在于输出表中。示例 2:不带列投影

filter(operation(ast_operator::LESS, column_reference{1}, literal{100}));

在此,1 将引用列 "B",因为输出将包含所有列,顺序为 ["A", ..., "Z"]。示例 3:带列投影

use_columns({"A", "Z", "X"})
.filter(operation(ast_operator::LESS, column_reference{1}, literal{100}));

在此,1 将引用列 "Z",因为输出将包含 3 列,顺序为 ["A", "Z", "X"]。

参数
filter用作过滤器的 AST 表达式
返回
用于链式调用的 this 指针

定义于文件 parquet.hpp365 行。

◆ num_rows()

parquet_reader_options_builder& cudf::io::parquet_reader_options_builder::num_rows ( size_type  val)
inline

设置要读取的行数。

参数
val跳过后的读取行数
返回
用于链式调用的 this 指针

定义于文件 parquet.hpp452 行。

◆ row_groups()

parquet_reader_options_builder& cudf::io::parquet_reader_options_builder::row_groups ( std::vector< std::vector< size_type >>  row_groups)
inline

设置要读取的各个行组的向量。

参数
row_groups要读取的行组向量
返回
用于链式调用的 this 指针

定义于文件 parquet.hpp355 行。

◆ set_column_schema()

parquet_reader_options_builder& cudf::io::parquet_reader_options_builder::set_column_schema ( std::vector< reader_column_schema val)
inline

设置读取器元数据。

参数
val元信息树。
返回
用于链式调用的 this 指针

定义于文件 parquet.hpp428 行。

◆ skip_rows()

parquet_reader_options_builder& cudf::io::parquet_reader_options_builder::skip_rows ( int64_t  val)
inline

设置要跳过的行数。

参数
val从开头跳过的行数
返回
用于链式调用的 this 指针

定义于文件 parquet.hpp440 行。

◆ timestamp_type()

parquet_reader_options_builder& cudf::io::parquet_reader_options_builder::timestamp_type ( data_type  type)
inline

用于转换时间戳列的时间戳类型。

参数
type所有时间戳列需要转换到的时间戳 data_type
返回
用于链式调用的 this 指针

定义于文件 parquet.hpp464 行。

◆ use_arrow_schema()

parquet_reader_options_builder& cudf::io::parquet_reader_options_builder::use_arrow_schema ( bool  val)
inline

设置是否启用使用 arrow schema 进行读取。

参数
val布尔值,表示是否使用 arrow schema
返回
用于链式调用的 this 指针

定义于文件 parquet.hpp401 行。

◆ use_pandas_metadata()

parquet_reader_options_builder& cudf::io::parquet_reader_options_builder::use_pandas_metadata ( bool  val)
inline

设置是否启用使用 pandas 元数据进行读取。

参数
val布尔值,表示是否使用 pandas 元数据
返回
用于链式调用的 this 指针

定义于文件 parquet.hpp389 行。


本类的文档生成于以下文件