用于 write_parquet()
和 parquet_chunked_writer
的基本设置。 更多...
#include <parquet.hpp>
公有成员函数 | |
parquet_writer_options_base ()=default | |
默认构造函数。 更多... | |
sink_info const & | get_sink () const |
返回 sink 信息。 更多... | |
compression_type | get_compression () const |
返回使用的压缩格式。 更多... | |
statistics_freq | get_stats_level () const |
返回输出文件中请求的统计信息级别。 更多... | |
auto const & | get_metadata () const |
返回关联的元数据。 更多... | |
std::vector< std::map< std::string, std::string > > const & | get_key_value_metadata () const |
返回 Key-Value 脚注元数据信息。 更多... | |
bool | is_enabled_int96_timestamps () const |
如果时间戳将写入为 INT96,则返回 true 。 更多... | |
auto | is_enabled_utc_timestamps () const |
如果时间戳将写入为 UTC,则返回 `true`。 更多... | |
auto | is_enabled_write_arrow_schema () const |
如果 arrow 模式将写入,则返回 `true`。 更多... | |
auto | get_row_group_size_bytes () const |
返回最大行组大小(以字节为单位)。 更多... | |
auto | get_row_group_size_rows () const |
返回最大行组大小(以行为单位)。 更多... | |
auto | get_max_page_size_bytes () const |
返回最大未压缩页大小(以字节为单位)。 更多... | |
auto | get_max_page_size_rows () const |
返回最大页大小(以行为单位)。 更多... | |
auto | get_column_index_truncate_length () const |
返回列索引中最小值或最大值的最大长度(以字节为单位)。 更多... | |
dictionary_policy | get_dictionary_policy () const |
返回字典使用策略。 更多... | |
auto | get_max_dictionary_size () const |
返回最大字典大小(以字节为单位)。 更多... | |
auto | get_max_page_fragment_size () const |
返回最大页片段大小(以行为单位)。 更多... | |
std::shared_ptr< writer_compression_statistics > | get_compression_statistics () const |
返回指向用户提供的压缩统计信息的共享指针。 更多... | |
auto | is_enabled_write_v2_headers () const |
如果应写入 V2 页头,则返回 `true`。 更多... | |
auto const & | get_sorting_columns () const |
返回排序列。 更多... | |
void | set_metadata (table_input_metadata metadata) |
设置元数据。 更多... | |
void | set_key_value_metadata (std::vector< std::map< std::string, std::string >> metadata) |
设置元数据。 更多... | |
void | set_stats_level (statistics_freq sf) |
设置统计信息级别。 更多... | |
void | set_compression (compression_type compression) |
设置压缩类型。 更多... | |
void | enable_int96_timestamps (bool req) |
设置时间戳写入首选项。如果为 `true`,则写入 INT96 时间戳;如果为 `false`,则写入 TIMESTAMP_MICROS。 更多... | |
void | enable_utc_timestamps (bool val) |
设置将时间戳写入为 UTC 的首选项。如果设置为 `true`,则将时间戳写入为 UTC。 更多... | |
void | enable_write_arrow_schema (bool val) |
设置写入 arrow 模式的首选项。如果设置为 `true`,则写入 arrow 模式。 更多... | |
void | set_row_group_size_bytes (size_t size_bytes) |
设置最大行组大小(以字节为单位)。 更多... | |
void | set_row_group_size_rows (size_type size_rows) |
设置最大行组大小(以行为单位)。 更多... | |
void | set_max_page_size_bytes (size_t size_bytes) |
设置最大未压缩页大小(以字节为单位)。 更多... | |
void | set_max_page_size_rows (size_type size_rows) |
设置最大页大小(以行为单位)。 更多... | |
void | set_column_index_truncate_length (int32_t size_bytes) |
设置列索引中最小值或最大值的最大长度(以字节为单位)。 更多... | |
void | set_dictionary_policy (dictionary_policy policy) |
设置字典使用策略。 更多... | |
void | set_max_dictionary_size (size_t size_bytes) |
设置最大字典大小(以字节为单位)。 更多... | |
void | set_max_page_fragment_size (size_type size_rows) |
设置最大页片段大小(以行为单位)。 更多... | |
void | set_compression_statistics (std::shared_ptr< writer_compression_statistics > comp_stats) |
设置指向输出压缩统计信息的指针。 更多... | |
void | enable_write_v2_headers (bool val) |
设置 V2 页头的首选项。如果设置为 `true`,则写入 V2 页头。 更多... | |
void | set_sorting_columns (std::vector< sorting_column > sorting_columns) |
设置排序列。 更多... | |
保护成员函数 | |
parquet_writer_options_base (sink_info sink) | |
从 sink 构造函数。 更多... | |
用于 write_parquet()
和 parquet_chunked_writer
的基本设置。
定义于文件 parquet.hpp 的第 623 行。
|
inlineexplicitprotected |
|
default |
默认构造函数。
添加此构造函数是因为 Cython 需要默认构造函数才能在栈上创建对象。
void cudf::io::parquet_writer_options_base::enable_int96_timestamps | ( | bool | req | ) |
设置时间戳写入首选项。如果为 `true`,则写入 INT96 时间戳;如果为 `false`,则写入 TIMESTAMP_MICROS。
req | 用于启用/禁用写入 INT96 时间戳的布尔值 |
void cudf::io::parquet_writer_options_base::enable_utc_timestamps | ( | bool | val | ) |
设置将时间戳写入为 UTC 的首选项。如果设置为 `true`,则将时间戳写入为 UTC。
val | 用于启用/禁用将时间戳写入为 UTC 的布尔值。 |
void cudf::io::parquet_writer_options_base::enable_write_arrow_schema | ( | bool | val | ) |
设置写入 arrow 模式的首选项。如果设置为 `true`,则写入 arrow 模式。
val | 用于启用/禁用写入 arrow 模式的布尔值。 |
void cudf::io::parquet_writer_options_base::enable_write_v2_headers | ( | bool | val | ) |
设置 V2 页头的首选项。如果设置为 `true`,则写入 V2 页头。
val | 用于启用/禁用写入 V2 页头的布尔值。 |
|
inline |
|
inline |
|
inline |
|
inline |
|
inline |
|
inline |
|
inline |
|
inline |
|
inline |
|
inline |
|
inline |
|
inline |
|
inline |
|
inline |
|
inline |
|
inline |
|
inline |
|
inline |
|
inline |
void cudf::io::parquet_writer_options_base::set_column_index_truncate_length | ( | int32_t | size_bytes | ) |
设置列索引中最小值或最大值的最大长度(以字节为单位)。
size_bytes | min/max 将被截断到的长度 |
void cudf::io::parquet_writer_options_base::set_compression | ( | compression_type | compression | ) |
设置压缩类型。
compression | 要使用的压缩类型 |
void cudf::io::parquet_writer_options_base::set_compression_statistics | ( | std::shared_ptr< writer_compression_statistics > | comp_stats | ) |
设置指向输出压缩统计信息的指针。
comp_stats | 写入后要更新的压缩统计信息指针 |
void cudf::io::parquet_writer_options_base::set_dictionary_policy | ( | dictionary_policy | policy | ) |
设置字典使用策略。
policy | 字典使用策略 |
void cudf::io::parquet_writer_options_base::set_key_value_metadata | ( | std::vector< std::map< std::string, std::string >> | metadata | ) |
设置元数据。
metadata | Key-Value 脚注元数据 |
void cudf::io::parquet_writer_options_base::set_max_dictionary_size | ( | size_t | size_bytes | ) |
设置最大字典大小(以字节为单位)。
size_bytes | 最大字典大小(以字节为单位) |
void cudf::io::parquet_writer_options_base::set_max_page_fragment_size | ( | size_type | size_rows | ) |
设置最大页片段大小(以行为单位)。
size_rows | 最大页片段大小(以行为单位)。 |
void cudf::io::parquet_writer_options_base::set_max_page_size_bytes | ( | size_t | size_bytes | ) |
设置最大未压缩页大小(以字节为单位)。
size_bytes | 要设置的最大未压缩页大小(以字节为单位) |
void cudf::io::parquet_writer_options_base::set_max_page_size_rows | ( | size_type | size_rows | ) |
设置最大页大小(以行为单位)。
size_rows | 要设置的最大页大小(以行为单位) |
void cudf::io::parquet_writer_options_base::set_metadata | ( | table_input_metadata | metadata | ) |
设置元数据。
metadata | 关联的元数据 |
void cudf::io::parquet_writer_options_base::set_row_group_size_bytes | ( | size_t | size_bytes | ) |
设置最大行组大小(以字节为单位)。
size_bytes | 要设置的最大行组大小(以字节为单位) |
void cudf::io::parquet_writer_options_base::set_row_group_size_rows | ( | size_type | size_rows | ) |
设置最大行组大小(以行为单位)。
size_rows | 要设置的最大行组大小(以行为单位) |
void cudf::io::parquet_writer_options_base::set_sorting_columns | ( | std::vector< sorting_column > | sorting_columns | ) |
设置排序列。
sorting_columns | 列排序顺序元数据 |
void cudf::io::parquet_writer_options_base::set_stats_level | ( | statistics_freq | sf | ) |
设置统计信息级别。
sf | 输出文件中请求的统计信息级别 |