公有成员函数 | 保护成员函数 | 所有成员列表
cudf::io::parquet_writer_options_base 类参考

用于 write_parquet()parquet_chunked_writer 的基本设置。 更多...

#include <parquet.hpp>

cudf::io::parquet_writer_options_base 的继承图
cudf::io::chunked_parquet_writer_options cudf::io::parquet_writer_options

公有成员函数

 parquet_writer_options_base ()=default
 默认构造函数。 更多...
 
sink_info const & get_sink () const
 返回 sink 信息。 更多...
 
compression_type get_compression () const
 返回使用的压缩格式。 更多...
 
statistics_freq get_stats_level () const
 返回输出文件中请求的统计信息级别。 更多...
 
auto const & get_metadata () const
 返回关联的元数据。 更多...
 
std::vector< std::map< std::string, std::string > > const & get_key_value_metadata () const
 返回 Key-Value 脚注元数据信息。 更多...
 
bool is_enabled_int96_timestamps () const
 如果时间戳将写入为 INT96,则返回 true更多...
 
auto is_enabled_utc_timestamps () const
 如果时间戳将写入为 UTC,则返回 `true`。 更多...
 
auto is_enabled_write_arrow_schema () const
 如果 arrow 模式将写入,则返回 `true`。 更多...
 
auto get_row_group_size_bytes () const
 返回最大行组大小(以字节为单位)。 更多...
 
auto get_row_group_size_rows () const
 返回最大行组大小(以行为单位)。 更多...
 
auto get_max_page_size_bytes () const
 返回最大未压缩页大小(以字节为单位)。 更多...
 
auto get_max_page_size_rows () const
 返回最大页大小(以行为单位)。 更多...
 
auto get_column_index_truncate_length () const
 返回列索引中最小值或最大值的最大长度(以字节为单位)。 更多...
 
dictionary_policy get_dictionary_policy () const
 返回字典使用策略。 更多...
 
auto get_max_dictionary_size () const
 返回最大字典大小(以字节为单位)。 更多...
 
auto get_max_page_fragment_size () const
 返回最大页片段大小(以行为单位)。 更多...
 
std::shared_ptr< writer_compression_statisticsget_compression_statistics () const
 返回指向用户提供的压缩统计信息的共享指针。 更多...
 
auto is_enabled_write_v2_headers () const
 如果应写入 V2 页头,则返回 `true`。 更多...
 
auto const & get_sorting_columns () const
 返回排序列。 更多...
 
void set_metadata (table_input_metadata metadata)
 设置元数据。 更多...
 
void set_key_value_metadata (std::vector< std::map< std::string, std::string >> metadata)
 设置元数据。 更多...
 
void set_stats_level (statistics_freq sf)
 设置统计信息级别。 更多...
 
void set_compression (compression_type compression)
 设置压缩类型。 更多...
 
void enable_int96_timestamps (bool req)
 设置时间戳写入首选项。如果为 `true`,则写入 INT96 时间戳;如果为 `false`,则写入 TIMESTAMP_MICROS。 更多...
 
void enable_utc_timestamps (bool val)
 设置将时间戳写入为 UTC 的首选项。如果设置为 `true`,则将时间戳写入为 UTC。 更多...
 
void enable_write_arrow_schema (bool val)
 设置写入 arrow 模式的首选项。如果设置为 `true`,则写入 arrow 模式。 更多...
 
void set_row_group_size_bytes (size_t size_bytes)
 设置最大行组大小(以字节为单位)。 更多...
 
void set_row_group_size_rows (size_type size_rows)
 设置最大行组大小(以行为单位)。 更多...
 
void set_max_page_size_bytes (size_t size_bytes)
 设置最大未压缩页大小(以字节为单位)。 更多...
 
void set_max_page_size_rows (size_type size_rows)
 设置最大页大小(以行为单位)。 更多...
 
void set_column_index_truncate_length (int32_t size_bytes)
 设置列索引中最小值或最大值的最大长度(以字节为单位)。 更多...
 
void set_dictionary_policy (dictionary_policy policy)
 设置字典使用策略。 更多...
 
void set_max_dictionary_size (size_t size_bytes)
 设置最大字典大小(以字节为单位)。 更多...
 
void set_max_page_fragment_size (size_type size_rows)
 设置最大页片段大小(以行为单位)。 更多...
 
void set_compression_statistics (std::shared_ptr< writer_compression_statistics > comp_stats)
 设置指向输出压缩统计信息的指针。 更多...
 
void enable_write_v2_headers (bool val)
 设置 V2 页头的首选项。如果设置为 `true`,则写入 V2 页头。 更多...
 
void set_sorting_columns (std::vector< sorting_column > sorting_columns)
 设置排序列。 更多...
 

保护成员函数

 parquet_writer_options_base (sink_info sink)
 从 sink 构造函数。 更多...
 

详细描述

用于 write_parquet()parquet_chunked_writer 的基本设置。

定义于文件 parquet.hpp 的第 623 行。

构造函数和析构函数文档

◆ parquet_writer_options_base() [1/2]

cudf::io::parquet_writer_options_base::parquet_writer_options_base ( sink_info  sink)
inlineexplicitprotected

从 sink 构造函数。

参数
sink用于写入器输出的 sink

定义于文件 parquet.hpp 的第 671 行。

◆ parquet_writer_options_base() [2/2]

cudf::io::parquet_writer_options_base::parquet_writer_options_base ( )
default

默认构造函数。

添加此构造函数是因为 Cython 需要默认构造函数才能在栈上创建对象。

成员函数文档

◆ enable_int96_timestamps()

void cudf::io::parquet_writer_options_base::enable_int96_timestamps ( bool  req)

设置时间戳写入首选项。如果为 `true`,则写入 INT96 时间戳;如果为 `false`,则写入 TIMESTAMP_MICROS。

参数
req用于启用/禁用写入 INT96 时间戳的布尔值

◆ enable_utc_timestamps()

void cudf::io::parquet_writer_options_base::enable_utc_timestamps ( bool  val)

设置将时间戳写入为 UTC 的首选项。如果设置为 `true`,则将时间戳写入为 UTC。

参数
val用于启用/禁用将时间戳写入为 UTC 的布尔值。

◆ enable_write_arrow_schema()

void cudf::io::parquet_writer_options_base::enable_write_arrow_schema ( bool  val)

设置写入 arrow 模式的首选项。如果设置为 `true`,则写入 arrow 模式。

参数
val用于启用/禁用写入 arrow 模式的布尔值。

◆ enable_write_v2_headers()

void cudf::io::parquet_writer_options_base::enable_write_v2_headers ( bool  val)

设置 V2 页头的首选项。如果设置为 `true`,则写入 V2 页头。

参数
val用于启用/禁用写入 V2 页头的布尔值。

◆ get_column_index_truncate_length()

auto cudf::io::parquet_writer_options_base::get_column_index_truncate_length ( ) const
inline

返回列索引中最小值或最大值的最大长度(以字节为单位)。

返回值
min/max 将被截断到的长度

定义于文件 parquet.hpp 的第 784 行。

◆ get_compression()

compression_type cudf::io::parquet_writer_options_base::get_compression ( ) const
inline

返回使用的压缩格式。

返回值
压缩格式

定义于文件 parquet.hpp 的第 693 行。

◆ get_compression_statistics()

std::shared_ptr<writer_compression_statistics> cudf::io::parquet_writer_options_base::get_compression_statistics ( ) const
inline

返回指向用户提供的压缩统计信息的共享指针。

返回值
压缩统计信息

定义于文件 parquet.hpp 的第 815 行。

◆ get_dictionary_policy()

dictionary_policy cudf::io::parquet_writer_options_base::get_dictionary_policy ( ) const
inline

返回字典使用策略。

返回值
字典使用策略

定义于文件 parquet.hpp 的第 794 行。

◆ get_key_value_metadata()

std::vector<std::map<std::string, std::string> > const& cudf::io::parquet_writer_options_base::get_key_value_metadata ( ) const
inline

返回 Key-Value 脚注元数据信息。

返回值
Key-Value 脚注元数据信息

定义于文件 parquet.hpp 的第 714 行。

◆ get_max_dictionary_size()

auto cudf::io::parquet_writer_options_base::get_max_dictionary_size ( ) const
inline

返回最大字典大小(以字节为单位)。

返回值
最大字典大小(以字节为单位)。

定义于文件 parquet.hpp 的第 801 行。

◆ get_max_page_fragment_size()

auto cudf::io::parquet_writer_options_base::get_max_page_fragment_size ( ) const
inline

返回最大页片段大小(以行为单位)。

返回值
最大页片段大小(以行为单位)。

定义于文件 parquet.hpp 的第 808 行。

◆ get_max_page_size_bytes()

auto cudf::io::parquet_writer_options_base::get_max_page_size_bytes ( ) const
inline

返回最大未压缩页大小(以字节为单位)。

如果设置的值大于行组大小,则此函数将返回行组大小。

返回值
最大未压缩页大小(以字节为单位)

定义于文件 parquet.hpp 的第 762 行。

◆ get_max_page_size_rows()

auto cudf::io::parquet_writer_options_base::get_max_page_size_rows ( ) const
inline

返回最大页大小(以行为单位)。

如果设置的值大于行组大小,则此函数将返回行组大小。

返回值
最大页大小(以行为单位)

定义于文件 parquet.hpp 的第 774 行。

◆ get_metadata()

auto const& cudf::io::parquet_writer_options_base::get_metadata ( ) const
inline

返回关联的元数据。

返回值
关联的元数据

定义于文件 parquet.hpp 的第 707 行。

◆ get_row_group_size_bytes()

auto cudf::io::parquet_writer_options_base::get_row_group_size_bytes ( ) const
inline

返回最大行组大小(以字节为单位)。

返回值
最大行组大小(以字节为单位)

定义于文件 parquet.hpp 的第 746 行。

◆ get_row_group_size_rows()

auto cudf::io::parquet_writer_options_base::get_row_group_size_rows ( ) const
inline

返回最大行组大小(以行为单位)。

返回值
最大行组大小(以行为单位)

定义于文件 parquet.hpp 的第 753 行。

◆ get_sink()

sink_info const& cudf::io::parquet_writer_options_base::get_sink ( ) const
inline

返回 sink 信息。

返回值
Sink 信息

定义于文件 parquet.hpp 的第 686 行。

◆ get_sorting_columns()

auto const& cudf::io::parquet_writer_options_base::get_sorting_columns ( ) const
inline

返回排序列。

返回值
列排序顺序元数据

定义于文件 parquet.hpp 的第 832 行。

◆ get_stats_level()

statistics_freq cudf::io::parquet_writer_options_base::get_stats_level ( ) const
inline

返回输出文件中请求的统计信息级别。

返回值
输出文件中请求的统计信息级别

定义于文件 parquet.hpp 的第 700 行。

◆ is_enabled_int96_timestamps()

bool cudf::io::parquet_writer_options_base::is_enabled_int96_timestamps ( ) const
inline

如果时间戳将写入为 INT96,则返回 `true`。

返回值
如果时间戳将写入为 INT96,则为 `true`

定义于文件 parquet.hpp 的第 725 行。

◆ is_enabled_utc_timestamps()

auto cudf::io::parquet_writer_options_base::is_enabled_utc_timestamps ( ) const
inline

如果时间戳将写入为 UTC,则返回 `true`。

返回值
如果时间戳将写入为 UTC,则为 `true`

定义于文件 parquet.hpp 的第 732 行。

◆ is_enabled_write_arrow_schema()

auto cudf::io::parquet_writer_options_base::is_enabled_write_arrow_schema ( ) const
inline

如果 arrow 模式将写入,则返回 `true`。

返回值
如果 arrow 模式将写入,则为 `true`

定义于文件 parquet.hpp 的第 739 行。

◆ is_enabled_write_v2_headers()

auto cudf::io::parquet_writer_options_base::is_enabled_write_v2_headers ( ) const
inline

如果应写入 V2 页头,则返回 `true`。

返回值
如果应写入 V2 页头,则为 `true`。

定义于文件 parquet.hpp 的第 825 行。

◆ set_column_index_truncate_length()

void cudf::io::parquet_writer_options_base::set_column_index_truncate_length ( int32_t  size_bytes)

设置列索引中最小值或最大值的最大长度(以字节为单位)。

参数
size_bytesmin/max 将被截断到的长度

◆ set_compression()

void cudf::io::parquet_writer_options_base::set_compression ( compression_type  compression)

设置压缩类型。

参数
compression要使用的压缩类型

◆ set_compression_statistics()

void cudf::io::parquet_writer_options_base::set_compression_statistics ( std::shared_ptr< writer_compression_statistics comp_stats)

设置指向输出压缩统计信息的指针。

参数
comp_stats写入后要更新的压缩统计信息指针

◆ set_dictionary_policy()

void cudf::io::parquet_writer_options_base::set_dictionary_policy ( dictionary_policy  policy)

设置字典使用策略。

参数
policy字典使用策略

◆ set_key_value_metadata()

void cudf::io::parquet_writer_options_base::set_key_value_metadata ( std::vector< std::map< std::string, std::string >>  metadata)

设置元数据。

参数
metadataKey-Value 脚注元数据

◆ set_max_dictionary_size()

void cudf::io::parquet_writer_options_base::set_max_dictionary_size ( size_t  size_bytes)

设置最大字典大小(以字节为单位)。

参数
size_bytes最大字典大小(以字节为单位)

◆ set_max_page_fragment_size()

void cudf::io::parquet_writer_options_base::set_max_page_fragment_size ( size_type  size_rows)

设置最大页片段大小(以行为单位)。

参数
size_rows最大页片段大小(以行为单位)。

◆ set_max_page_size_bytes()

void cudf::io::parquet_writer_options_base::set_max_page_size_bytes ( size_t  size_bytes)

设置最大未压缩页大小(以字节为单位)。

参数
size_bytes要设置的最大未压缩页大小(以字节为单位)

◆ set_max_page_size_rows()

void cudf::io::parquet_writer_options_base::set_max_page_size_rows ( size_type  size_rows)

设置最大页大小(以行为单位)。

参数
size_rows要设置的最大页大小(以行为单位)

◆ set_metadata()

void cudf::io::parquet_writer_options_base::set_metadata ( table_input_metadata  metadata)

设置元数据。

参数
metadata关联的元数据

◆ set_row_group_size_bytes()

void cudf::io::parquet_writer_options_base::set_row_group_size_bytes ( size_t  size_bytes)

设置最大行组大小(以字节为单位)。

参数
size_bytes要设置的最大行组大小(以字节为单位)

◆ set_row_group_size_rows()

void cudf::io::parquet_writer_options_base::set_row_group_size_rows ( size_type  size_rows)

设置最大行组大小(以行为单位)。

参数
size_rows要设置的最大行组大小(以行为单位)

◆ set_sorting_columns()

void cudf::io::parquet_writer_options_base::set_sorting_columns ( std::vector< sorting_column sorting_columns)

设置排序列。

参数
sorting_columns列排序顺序元数据

◆ set_stats_level()

void cudf::io::parquet_writer_options_base::set_stats_level ( statistics_freq  sf)

设置统计信息级别。

参数
sf输出文件中请求的统计信息级别

本类的文档生成自以下文件