公有成员函数 | 静态公有成员函数 | 所有成员列表
cudf::io::parquet_writer_options Class Reference

用于 write_parquet() 的设置。 更多...

#include <parquet.hpp>

cudf::io::parquet_writer_options 的继承图
cudf::io::parquet_writer_options_base

公有成员函数

 parquet_writer_options ()=default
 默认构造函数。 更多...
 
table_view get_table () const
 返回 table_view更多...
 
std::vector< partition_info > const & get_partitions () const
 返回 partitions。 更多...
 
std::vector< std::string > const & get_column_chunks_file_paths () const
 返回要在原始输出元数据中设置的列块文件路径。 更多...
 
void set_partitions (std::vector< partition_info > partitions)
 设置 partitions。 更多...
 
void set_column_chunks_file_paths (std::vector< std::string > file_paths)
 设置要在原始输出元数据中设置的列块文件路径。 更多...
 
- 继承自 cudf::io::parquet_writer_options_base 的公有成员函数
 parquet_writer_options_base ()=default
 默认构造函数。 更多...
 
sink_info const & get_sink () const
 返回 sink 信息。 更多...
 
compression_type get_compression () const
 返回使用的压缩格式。 更多...
 
statistics_freq get_stats_level () const
 返回输出文件中请求的统计信息级别。 更多...
 
auto const & get_metadata () const
 返回关联的元数据。 更多...
 
std::vector< std::map< std::string, std::string > > const & get_key_value_metadata () const
 返回键值对页脚元数据信息。 更多...
 
bool is_enabled_int96_timestamps () const
 如果时间戳将以 INT96 格式写入,则返回 true更多...
 
auto is_enabled_utc_timestamps () const
 如果时间戳将以 UTC 格式写入,则返回 true更多...
 
auto is_enabled_write_arrow_schema () const
 如果 arrow schema 将被写入,则返回 true更多...
 
auto get_row_group_size_bytes () const
 返回最大行组大小,以字节为单位。 更多...
 
auto get_row_group_size_rows () const
 返回最大行组大小,以行为单位。 更多...
 
auto get_max_page_size_bytes () const
 返回最大未压缩页大小,以字节为单位。 更多...
 
auto get_max_page_size_rows () const
 返回最大页大小,以行为单位。 更多...
 
auto get_column_index_truncate_length () const
 返回列索引中最小值或最大值的最大长度,以字节为单位。 更多...
 
dictionary_policy get_dictionary_policy () const
 返回字典使用策略。 更多...
 
auto get_max_dictionary_size () const
 返回最大字典大小,以字节为单位。 更多...
 
auto get_max_page_fragment_size () const
 返回最大页片段大小,以行为单位。 更多...
 
std::shared_ptr< writer_compression_statisticsget_compression_statistics () const
 返回指向用户提供的压缩统计信息的共享指针。 更多...
 
auto is_enabled_write_v2_headers () const
 如果应写入 V2 页眉,则返回 true更多...
 
auto const & get_sorting_columns () const
 返回 sorting_columns。 更多...
 
void set_metadata (table_input_metadata metadata)
 设置元数据。 更多...
 
void set_key_value_metadata (std::vector< std::map< std::string, std::string >> metadata)
 设置元数据。 更多...
 
void set_stats_level (statistics_freq sf)
 设置统计信息级别。 更多...
 
void set_compression (compression_type compression)
 设置压缩类型。 更多...
 
void enable_int96_timestamps (bool req)
 设置时间戳写入首选项。如果为 true,则写入 INT96 时间戳;如果为 false,则写入 TIMESTAMP_MICROS。 更多...
 
void enable_utc_timestamps (bool val)
 设置以 UTC 格式写入时间戳的首选项。如果设置为 true,则以 UTC 格式写入时间戳。 更多...
 
void enable_write_arrow_schema (bool val)
 设置写入 arrow schema 的首选项。如果设置为 true,则写入 arrow schema。 更多...
 
void set_row_group_size_bytes (size_t size_bytes)
 设置最大行组大小,以字节为单位。 更多...
 
void set_row_group_size_rows (size_type size_rows)
 设置最大行组大小,以行为单位。 更多...
 
void set_max_page_size_bytes (size_t size_bytes)
 设置最大未压缩页大小,以字节为单位。 更多...
 
void set_max_page_size_rows (size_type size_rows)
 设置最大页大小,以行为单位。 更多...
 
void set_column_index_truncate_length (int32_t size_bytes)
 设置列索引中最小值或最大值的最大长度,以字节为单位。 更多...
 
void set_dictionary_policy (dictionary_policy policy)
 设置字典使用策略。 更多...
 
void set_max_dictionary_size (size_t size_bytes)
 设置最大字典大小,以字节为单位。 更多...
 
void set_max_page_fragment_size (size_type size_rows)
 设置最大页片段大小,以行为单位。 更多...
 
void set_compression_statistics (std::shared_ptr< writer_compression_statistics > comp_stats)
 设置指向输出压缩统计信息的指针。 更多...
 
void enable_write_v2_headers (bool val)
 设置 V2 页眉的首选项。如果设置为 true,则写入 V2 页眉。 更多...
 
void set_sorting_columns (std::vector< sorting_column > sorting_columns)
 设置 sorting_columns。 更多...
 

静态公有成员函数

static parquet_writer_options_builder builder (sink_info const &sink, table_view const &table)
 创建用于创建 parquet_writer_options 的构建器。 更多...
 
static parquet_writer_options_builder builder ()
 创建用于创建 parquet_writer_options 的构建器。 更多...
 

其他继承成员

- 继承自 cudf::io::parquet_writer_options_base 的保护成员函数
 parquet_writer_options_base (sink_info sink)
 从 sink 构造。 更多...
 

详细描述

用于 write_parquet() 的设置。 更多...

定义于文件 parquet.hpp 的第 1188 行。

构造函数和析构函数文档

◆ parquet_writer_options()

cudf::io::parquet_writer_options::parquet_writer_options ( )
default

默认构造函数。

添加此构造函数是因为 Cython 需要默认构造函数来在栈上创建对象。

成员函数文档

◆ builder() [1/2]

static parquet_writer_options_builder cudf::io::parquet_writer_options::builder ( )
static

创建用于创建 parquet_writer_options 的构建器。

返回
parquet_writer_options_builder

◆ builder() [2/2]

static parquet_writer_options_builder cudf::io::parquet_writer_options::builder ( sink_info const &  sink,
table_view const &  table 
)
static

创建用于创建 parquet_writer_options 的构建器。

参数
sink用于写入器输出的 sink
table要写入输出的表
返回
构建器,用于构建 parquet_writer_options

◆ get_column_chunks_file_paths()

std::vector<std::string> const& cudf::io::parquet_writer_options::get_column_chunks_file_paths ( ) const
inline

返回要在原始输出元数据中设置的列块文件路径。

返回
要在原始输出元数据中设置的列块文件路径

定义于文件 parquet.hpp 的第 1250 行。

◆ get_partitions()

std::vector<partition_info> const& cudf::io::parquet_writer_options::get_partitions ( ) const
inline

返回 partitions。

返回
分区

定义于文件 parquet.hpp 的第 1243 行。

◆ get_table()

table_view cudf::io::parquet_writer_options::get_table ( ) const
inline

返回 table_view

返回
表视图

定义于文件 parquet.hpp 的第 1236 行。

◆ set_column_chunks_file_paths()

void cudf::io::parquet_writer_options::set_column_chunks_file_paths ( std::vector< std::string >  file_paths)

设置要在原始输出元数据中设置的列块文件路径。

参数
file_paths表示文件路径的字符串向量。必须与 sink info 中数据 sink 的数量大小相同。

◆ set_partitions()

void cudf::io::parquet_writer_options::set_partitions ( std::vector< partition_info partitions)

设置 partitions。

参数
partitions输入表的以 {start_row, num_rows} 对表示的分区。如果指定,则必须与 sink_info 中的 sink 数量大小相同。

此类的文档由以下文件生成