公有成员函数 | 保护成员函数 | 所有成员列表
cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT > 类模板参考

Parquet 选项构建器的基类。 更多...

#include <parquet.hpp>

公有成员函数

 parquet_writer_options_builder_base ()=default
 默认构造函数。 更多...
 
BuilderT & metadata (table_input_metadata metadata)
 设置元数据。 更多...
 
BuilderT & key_value_metadata (std::vector< std::map< std::string, std::string >> metadata)
 设置键值对页脚元数据。 更多...
 
BuilderT & stats_level (statistics_freq sf)
 设置统计信息的级别。 更多...
 
BuilderT & compression (compression_type compression)
 设置压缩类型。 更多...
 
BuilderT & row_group_size_bytes (size_t val)
 设置最大行组大小,以字节为单位。 更多...
 
BuilderT & row_group_size_rows (size_type val)
 设置输出行组中的最大行数。 更多...
 
BuilderT & max_page_size_bytes (size_t val)
 设置最大未压缩页大小,以字节为单位。 更多...
 
BuilderT & max_page_size_rows (size_type val)
 设置最大页大小,以行为单位。仅计算顶级行,忽略任何嵌套。不能大于行组中的行数,如果大于,将进行调整以匹配。 更多...
 
BuilderT & column_index_truncate_length (int32_t val)
 设置列索引中最小值和最大值的所需最大大小(以字节为单位)。 更多...
 
BuilderT & dictionary_policy (enum dictionary_policy val)
 设置字典使用的策略。 更多...
 
BuilderT & max_dictionary_size (size_t val)
 设置最大字典大小,以字节为单位。 更多...
 
BuilderT & max_page_fragment_size (size_type val)
 设置最大页片段大小,以行为单位。 更多...
 
BuilderT & compression_statistics (std::shared_ptr< writer_compression_statistics > const &comp_stats)
 设置指向输出压缩统计信息的指针。 更多...
 
BuilderT & int96_timestamps (bool enabled)
 设置是否写入 int96 时间戳。 更多...
 
BuilderT & utc_timestamps (bool enabled)
 如果时间戳要写入为 UTC,则设置为 true。 更多...
 
BuilderT & write_arrow_schema (bool enabled)
 如果要写入 arrow schema,则设置为 true。 更多...
 
BuilderT & write_v2_headers (bool enabled)
 如果要写入 V2 页眉,则设置为 true。 更多...
 
BuilderT & sorting_columns (std::vector< sorting_column > sorting_columns)
 设置列排序元数据。 更多...
 
 operator OptionsT && ()
 构建完成后移动选项成员。
 
OptionsT && build ()
 构建完成后移动选项成员。 更多...
 

保护成员函数

OptionsT & get_options ()
 返回正在构建的选项对象的引用。 更多...
 
 parquet_writer_options_builder_base (OptionsT options)
 从选项构造。 更多...
 

详细描述

template<class BuilderT, class OptionsT>
class cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >

Parquet 选项构建器的基类。

定义在文件 parquet.hpp 的第 965 行。

构造函数与析构函数文档

◆ parquet_writer_options_builder_base() [1/2]

template<class BuilderT , class OptionsT >
cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::parquet_writer_options_builder_base ( OptionsT  options)
explicitprotected

从选项构造。

参数
options要构建的选项对象

◆ parquet_writer_options_builder_base() [2/2]

template<class BuilderT , class OptionsT >
cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::parquet_writer_options_builder_base ( )
explicitdefault

默认构造函数。

此项已添加,因为 Cython 需要默认构造函数才能在栈上创建对象。

成员函数文档

◆ build()

template<class BuilderT , class OptionsT >
OptionsT&& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::build ( )

构建完成后移动选项成员。

此项已添加,因为 Cython 不支持转换运算符重载。

返回
构建好的 parquet_writer_options 对象的右值引用

◆ column_index_truncate_length()

template<class BuilderT , class OptionsT >
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::column_index_truncate_length ( int32_t  val)

设置列索引中最小值和最大值的所需最大大小(以字节为单位)。

超过此限制的值将被截断,但会进行修改,使其仍为有效的下限和上限。这仅适用于可变长度类型,例如字符串。如果没有合适的截断能够产生有效的上限,则最大值不会被截断。

默认值为 64。

参数
val最小值/最大值将被截断到的长度,0 表示不截断
返回
用于链式调用

◆ compression()

template<class BuilderT , class OptionsT >
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::compression ( compression_type  compression)

设置压缩类型。

参数
compression要使用的压缩类型
返回
用于链式调用

◆ compression_statistics()

template<class BuilderT , class OptionsT >
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::compression_statistics ( std::shared_ptr< writer_compression_statistics > const &  comp_stats)

设置指向输出压缩统计信息的指针。

参数
comp_stats写入器完成后填充压缩统计信息的指针
返回
用于链式调用

◆ dictionary_policy()

template<class BuilderT , class OptionsT >
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::dictionary_policy ( enum dictionary_policy  val)

设置字典使用的策略。

某些压缩算法(例如 Zstandard)对可压缩的缓冲区大小有限制。在某些情况下,字典可能会增长超出此限制,这将阻止列被压缩。此设置控制写入器在此类情况下的行为方式。设置为 dictionary_policy::ADAPTIVE 将对字典超出限制的列禁用字典编码。设置为 dictionary_policy::NEVER 将全局禁用字典编码的使用。设置为 dictionary_policy::ALWAYS 将允许使用字典编码,即使这会导致对原本应被压缩的列禁用压缩。

默认值为 dictionary_policy::ADAPTIVE。

参数
val字典使用策略
返回
用于链式调用

◆ get_options()

template<class BuilderT , class OptionsT >
OptionsT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::get_options ( )
inlineprotected

返回正在构建的选项对象的引用。

返回
选项对象

定义在文件 parquet.hpp 的第 974 行。

◆ int96_timestamps()

template<class BuilderT , class OptionsT >
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::int96_timestamps ( bool  enabled)

设置是否写入 int96 时间戳。

参数
enabled用于启用/禁用 int96 时间戳的布尔值
返回
用于链式调用

◆ key_value_metadata()

template<class BuilderT , class OptionsT >
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::key_value_metadata ( std::vector< std::map< std::string, std::string >>  metadata)

设置键值对页脚元数据。

参数
metadata键值对页脚元数据
返回
用于链式调用

◆ max_dictionary_size()

template<class BuilderT , class OptionsT >
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::max_dictionary_size ( size_t  val)

设置最大字典大小,以字节为单位。

对于任何字典超出此限制的列块,禁用字典编码。仅在 dictionary_policy 设置为 'ADAPTIVE' 时使用。

默认值为 1048576 (1MiB)。

参数
val最大字典大小
返回
用于链式调用

◆ max_page_fragment_size()

template<class BuilderT , class OptionsT >
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::max_page_fragment_size ( size_type  val)

设置最大页片段大小,以行为单位。

具有嵌套 schema 或非常长字符串的文件可能需要小于默认值 5000 的页片段大小,以确保单个片段不会超过所需的以字节为单位的最大页大小。

参数
val最大页片段大小
返回
用于链式调用

◆ max_page_size_bytes()

template<class BuilderT , class OptionsT >
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::max_page_size_bytes ( size_t  val)

设置最大未压缩页大小,以字节为单位。

作为对写入器的提示,在某些情况下可能超出。不能大于行组大小(以字节为单位),如果大于,将进行调整以匹配。

参数
val最大页大小
返回
用于链式调用

◆ max_page_size_rows()

template<class BuilderT , class OptionsT >
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::max_page_size_rows ( size_type  val)

设置最大页大小,以行为单位。仅计算顶级行,忽略任何嵌套。不能大于行组中的行数,如果大于,将进行调整以匹配。

参数
val每页最大行数
返回
用于链式调用

◆ metadata()

template<class BuilderT , class OptionsT >
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::metadata ( table_input_metadata  metadata)

设置元数据。

参数
metadata相关的元数据
返回
用于链式调用

◆ row_group_size_bytes()

template<class BuilderT , class OptionsT >
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::row_group_size_bytes ( size_t  val)

设置最大行组大小,以字节为单位。

参数
val最大行组大小
返回
用于链式调用

◆ row_group_size_rows()

template<class BuilderT , class OptionsT >
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::row_group_size_rows ( size_type  val)

设置输出行组中的最大行数。

参数
val最大行数
返回
用于链式调用

◆ sorting_columns()

template<class BuilderT , class OptionsT >
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::sorting_columns ( std::vector< sorting_column sorting_columns)

设置列排序元数据。

参数
sorting_columns列排序元数据
返回
用于链式调用

◆ stats_level()

template<class BuilderT , class OptionsT >
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::stats_level ( statistics_freq  sf)

设置统计信息的级别。

参数
sf输出文件中请求的统计信息级别
返回
用于链式调用

◆ utc_timestamps()

template<class BuilderT , class OptionsT >
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::utc_timestamps ( bool  enabled)

如果时间戳要写入为 UTC,则设置为 true。

参数
enabled用于启用/禁用将时间戳写入为 UTC 的布尔值。
返回
用于链式调用

◆ write_arrow_schema()

template<class BuilderT , class OptionsT >
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::write_arrow_schema ( bool  enabled)

如果要写入 arrow schema,则设置为 true。

参数
enabled用于启用/禁用写入 arrow schema 的布尔值
返回
用于链式调用

◆ write_v2_headers()

template<class BuilderT , class OptionsT >
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::write_v2_headers ( bool  enabled)

如果要写入 V2 页眉,则设置为 true。

参数
enabled用于启用/禁用写入 V2 页眉的布尔值。
返回
用于链式调用

此类的文档生成自以下文件