Parquet 选项构建器的基类。 更多...
#include <parquet.hpp>
公有成员函数 | |
parquet_writer_options_builder_base ()=default | |
默认构造函数。 更多... | |
BuilderT & | metadata (table_input_metadata metadata) |
设置元数据。 更多... | |
BuilderT & | key_value_metadata (std::vector< std::map< std::string, std::string >> metadata) |
设置键值对页脚元数据。 更多... | |
BuilderT & | stats_level (statistics_freq sf) |
设置统计信息的级别。 更多... | |
BuilderT & | compression (compression_type compression) |
设置压缩类型。 更多... | |
BuilderT & | row_group_size_bytes (size_t val) |
设置最大行组大小,以字节为单位。 更多... | |
BuilderT & | row_group_size_rows (size_type val) |
设置输出行组中的最大行数。 更多... | |
BuilderT & | max_page_size_bytes (size_t val) |
设置最大未压缩页大小,以字节为单位。 更多... | |
BuilderT & | max_page_size_rows (size_type val) |
设置最大页大小,以行为单位。仅计算顶级行,忽略任何嵌套。不能大于行组中的行数,如果大于,将进行调整以匹配。 更多... | |
BuilderT & | column_index_truncate_length (int32_t val) |
设置列索引中最小值和最大值的所需最大大小(以字节为单位)。 更多... | |
BuilderT & | dictionary_policy (enum dictionary_policy val) |
设置字典使用的策略。 更多... | |
BuilderT & | max_dictionary_size (size_t val) |
设置最大字典大小,以字节为单位。 更多... | |
BuilderT & | max_page_fragment_size (size_type val) |
设置最大页片段大小,以行为单位。 更多... | |
BuilderT & | compression_statistics (std::shared_ptr< writer_compression_statistics > const &comp_stats) |
设置指向输出压缩统计信息的指针。 更多... | |
BuilderT & | int96_timestamps (bool enabled) |
设置是否写入 int96 时间戳。 更多... | |
BuilderT & | utc_timestamps (bool enabled) |
如果时间戳要写入为 UTC,则设置为 true。 更多... | |
BuilderT & | write_arrow_schema (bool enabled) |
如果要写入 arrow schema,则设置为 true。 更多... | |
BuilderT & | write_v2_headers (bool enabled) |
如果要写入 V2 页眉,则设置为 true。 更多... | |
BuilderT & | sorting_columns (std::vector< sorting_column > sorting_columns) |
设置列排序元数据。 更多... | |
operator OptionsT && () | |
构建完成后移动选项成员。 | |
OptionsT && | build () |
构建完成后移动选项成员。 更多... | |
保护成员函数 | |
OptionsT & | get_options () |
返回正在构建的选项对象的引用。 更多... | |
parquet_writer_options_builder_base (OptionsT options) | |
从选项构造。 更多... | |
Parquet 选项构建器的基类。
定义在文件 parquet.hpp 的第 965 行。
|
explicitprotected |
从选项构造。
options | 要构建的选项对象 |
|
explicitdefault |
默认构造函数。
此项已添加,因为 Cython 需要默认构造函数才能在栈上创建对象。
OptionsT&& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::build | ( | ) |
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::column_index_truncate_length | ( | int32_t | val | ) |
设置列索引中最小值和最大值的所需最大大小(以字节为单位)。
超过此限制的值将被截断,但会进行修改,使其仍为有效的下限和上限。这仅适用于可变长度类型,例如字符串。如果没有合适的截断能够产生有效的上限,则最大值不会被截断。
默认值为 64。
val | 最小值/最大值将被截断到的长度,0 表示不截断 |
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::compression | ( | compression_type | compression | ) |
设置压缩类型。
compression | 要使用的压缩类型 |
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::compression_statistics | ( | std::shared_ptr< writer_compression_statistics > const & | comp_stats | ) |
设置指向输出压缩统计信息的指针。
comp_stats | 写入器完成后填充压缩统计信息的指针 |
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::dictionary_policy | ( | enum dictionary_policy | val | ) |
设置字典使用的策略。
某些压缩算法(例如 Zstandard)对可压缩的缓冲区大小有限制。在某些情况下,字典可能会增长超出此限制,这将阻止列被压缩。此设置控制写入器在此类情况下的行为方式。设置为 dictionary_policy::ADAPTIVE 将对字典超出限制的列禁用字典编码。设置为 dictionary_policy::NEVER 将全局禁用字典编码的使用。设置为 dictionary_policy::ALWAYS 将允许使用字典编码,即使这会导致对原本应被压缩的列禁用压缩。
默认值为 dictionary_policy::ADAPTIVE。
val | 字典使用策略 |
|
inlineprotected |
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::int96_timestamps | ( | bool | enabled | ) |
设置是否写入 int96 时间戳。
enabled | 用于启用/禁用 int96 时间戳的布尔值 |
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::key_value_metadata | ( | std::vector< std::map< std::string, std::string >> | metadata | ) |
设置键值对页脚元数据。
metadata | 键值对页脚元数据 |
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::max_dictionary_size | ( | size_t | val | ) |
设置最大字典大小,以字节为单位。
对于任何字典超出此限制的列块,禁用字典编码。仅在 dictionary_policy 设置为 'ADAPTIVE' 时使用。
默认值为 1048576 (1MiB)。
val | 最大字典大小 |
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::max_page_fragment_size | ( | size_type | val | ) |
设置最大页片段大小,以行为单位。
具有嵌套 schema 或非常长字符串的文件可能需要小于默认值 5000 的页片段大小,以确保单个片段不会超过所需的以字节为单位的最大页大小。
val | 最大页片段大小 |
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::max_page_size_bytes | ( | size_t | val | ) |
设置最大未压缩页大小,以字节为单位。
作为对写入器的提示,在某些情况下可能超出。不能大于行组大小(以字节为单位),如果大于,将进行调整以匹配。
val | 最大页大小 |
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::max_page_size_rows | ( | size_type | val | ) |
设置最大页大小,以行为单位。仅计算顶级行,忽略任何嵌套。不能大于行组中的行数,如果大于,将进行调整以匹配。
val | 每页最大行数 |
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::metadata | ( | table_input_metadata | metadata | ) |
设置元数据。
metadata | 相关的元数据 |
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::row_group_size_bytes | ( | size_t | val | ) |
设置最大行组大小,以字节为单位。
val | 最大行组大小 |
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::row_group_size_rows | ( | size_type | val | ) |
设置输出行组中的最大行数。
val | 最大行数 |
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::sorting_columns | ( | std::vector< sorting_column > | sorting_columns | ) |
设置列排序元数据。
sorting_columns | 列排序元数据 |
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::stats_level | ( | statistics_freq | sf | ) |
设置统计信息的级别。
sf | 输出文件中请求的统计信息级别 |
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::utc_timestamps | ( | bool | enabled | ) |
如果时间戳要写入为 UTC,则设置为 true。
enabled | 用于启用/禁用将时间戳写入为 UTC 的布尔值。 |
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::write_arrow_schema | ( | bool | enabled | ) |
如果要写入 arrow schema,则设置为 true。
enabled | 用于启用/禁用写入 arrow schema 的布尔值 |
BuilderT& cudf::io::parquet_writer_options_builder_base< BuilderT, OptionsT >::write_v2_headers | ( | bool | enabled | ) |
如果要写入 V2 页眉,则设置为 true。
enabled | 用于启用/禁用写入 V2 页眉的布尔值。 |