libcudf: parquet.hpp 源文件

 /*

  * Copyright (c) 2020-2024, NVIDIA CORPORATION.

  *

  * Licensed under the Apache License, Version 2.0 (the "License");

  * you may not use this file except in compliance with the License.

  * You may obtain a copy of the License at

  *

  * https://apache.ac.cn/licenses/LICENSE-2.0

  *

  * Unless required by applicable law or agreed to in writing, software

  * distributed under the License is distributed on an "AS IS" BASIS,

  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

  * See the License for the specific language governing permissions and

  * limitations under the License.

  */


 #pragma once


 #include <cudf/ast/expressions.hpp>

 #include <cudf/io/detail/parquet.hpp>

 #include <cudf/io/types.hpp>

 #include <cudf/table/table_view.hpp>

 #include <cudf/types.hpp>

 #include <cudf/utilities/export.hpp>

 #include <cudf/utilities/memory_resource.hpp>


 #include <iostream>

 #include <memory>

 #include <optional>

 #include <string>

 #include <utility>

 #include <vector>


 namespace CUDF_EXPORT cudf {

 namespace io {

 constexpr size_t default_row_group_size_bytes =

  std::numeric_limits<size_t>::max();

 constexpr size_type default_row_group_size_rows = 1'000'000;

 constexpr size_t default_max_page_size_bytes = 512 * 1024;

 constexpr size_type default_max_page_size_rows = 20000;

 constexpr int32_t default_column_index_truncate_length = 64;

 constexpr size_t default_max_dictionary_size = 1024 * 1024;

 constexpr size_type default_max_page_fragment_size = 5000;


 class parquet_reader_options_builder;


 /*! \brief Parquet 读取器选项

  *  \param src 数据源

  */

 class parquet_reader_options {

  source_info _source;


  // 要读取的列在 schema 中的路径；`nullopt` 表示全部

  std::optional<std::vector<std::string>> _columns;


  // 要读取的行组列表（如果为空则忽略）

  std::vector<std::vector<size_type>> _row_groups;

  // 从开头跳过的行数；Parquet 将行数存储为 int64_t

  int64_t _skip_rows = 0;

  // 要读取的行数；`nullopt` 表示全部

  std::optional<size_type> _num_rows;


  // 用作抽象语法树 (AST) 的谓词过滤器，用于过滤输出行。

  std::optional<std::reference_wrapper<ast::expression const>> _filter;


  // 是否将字符串数据存储为分类类型

  bool _convert_strings_to_categories = false;

  // 是否使用 PANDAS 元数据加载列

  bool _use_pandas_metadata = true;

  // 是否读取并使用 ARROW schema

  bool _use_arrow_schema = true;

  // 是否允许从不匹配的 Parquet 文件中读取匹配的选中列。

  bool _allow_mismatched_pq_schemas = false;

  // 将时间戳列转换为特定类型

  data_type _timestamp_type{type_id::EMPTY};


  std::optional<std::vector<reader_column_schema>> _reader_column_schema;


  /*! \brief Parquet reader options

  *  \param src Data source

  */

  explicit parquet_reader_options(source_info src) : _source{std::move(src)} {}


  friend parquet_reader_options_builder;


  public

  /*! \brief 默认构造函数 */

  explicit parquet_reader_options() = default;


  /*! \brief 创建 builder 的工厂函数

  *  \param src 源

  */

  static parquet_reader_options_builder builder(source_info src);


  /*! \brief 返回数据源

  *  \return 源

  */

  [[nodiscard]] source_info const& get_source() const { return _source; }


  /*! \brief 返回是否将字符串转换为分类类型

  *  \return 如果启用则为 true

  */

  [[nodiscard]] bool is_enabled_convert_strings_to_categories() const

  {

  return _convert_strings_to_categories;

  }


  /*! \brief 返回是否使用 PANDAS 元数据

  *  \return 如果启用则为 true

  */

  [[nodiscard]] bool is_enabled_use_pandas_metadata() const { return _use_pandas_metadata; }


  /*! \brief 返回是否使用 ARROW schema

  *  \return 如果启用则为 true

  */

  [[nodiscard]] bool is_enabled_use_arrow_schema() const { return _use_arrow_schema; }


  /*! \brief 返回是否允许从不匹配的 Parquet 文件中读取匹配的选中列。

  *  \return 如果启用则为 true

  */

  [[nodiscard]] bool is_enabled_allow_mismatched_pq_schemas() const

  {

  return _allow_mismatched_pq_schemas;

  }


  /*! \brief 返回请求的列 schema

  *  \return 请求的列 schema

  */

  [[nodiscard]] std::optional<std::vector<reader_column_schema>> get_column_schema() const

  {

  return _reader_column_schema;

  }


  /*! \brief 返回要跳过的起始行数

  *  \return 行数

  */

  [[nodiscard]] int64_t get_skip_rows() const { return _skip_rows; }


  /*! \brief 返回要读取的行数

  *  \return 行数

  */

  [[nodiscard]] std::optional<size_type> const& get_num_rows() const { return _num_rows; }


  /*! \brief 返回要读取的列列表

  *  \return 列名列表

  */

  [[nodiscard]] auto const& get_columns() const { return _columns; }


  /*! \brief 返回要读取的行组列表

  *  \return 行组索引列表

  */

  [[nodiscard]] auto const& get_row_groups() const { return _row_groups; }


  /*! \brief 返回谓词过滤器

  *  \return 谓词过滤器

  */

  [[nodiscard]] auto const& get_filter() const { return _filter; }


  /*! \brief 返回时间戳类型

  *  \return 时间戳类型

  */

  [[nodiscard]] data_type get_timestamp_type() const { return _timestamp_type; }


  /*! \brief 设置要读取的列

  *  \param col_names 列名列表

  */

  void set_columns(std::vector<std::string> col_names) { _columns = std::move(col_names); }


  /*! \brief 设置要读取的单个行组

  *  \param row_groups 行组索引列表

  */

  void set_row_groups(std::vector<std::vector<size_type>> row_groups);


  /*! \brief 设置应用于输出行的过滤器

  *  \param filter 作为 AST 的谓词过滤器

  */

  void set_filter(ast::expression const& filter) { _filter = filter; }


  /*! \brief 启用/禁用将字符串转换为分类类型

  *  \param val true 为启用，false 为禁用

  */

  void enable_convert_strings_to_categories(bool val) { _convert_strings_to_categories = val; }


  /*! \brief 启用/禁用使用 PANDAS 元数据

  *  \param val true 为启用，false 为禁用

  */

  void enable_use_pandas_metadata(bool val) { _use_pandas_metadata = val; }


  /*! \brief 启用/禁用使用 ARROW schema

  *  \param val true 为启用，false 为禁用

  */

  void enable_use_arrow_schema(bool val) { _use_arrow_schema = val; }


  /*! \brief 启用/禁用允许从不匹配的 Parquet 文件中读取匹配的选中列。

  *  \param val true 为启用，false 为禁用

  */

  void enable_allow_mismatched_pq_schemas(bool val) { _allow_mismatched_pq_schemas = val; }


  /*! \brief 设置自定义列 schema

  *  \param val 自定义列 schema

  */

  void set_column_schema(std::vector<reader_column_schema> val)

  {

  _reader_column_schema = std::move(val);

  }


  /*! \brief 设置要跳过的起始行数

  *  \param val 行数

  */

  void set_skip_rows(int64_t val);


  /*! \brief 设置要读取的行数

  *  \param val 行数

  */

  void set_num_rows(size_type val);


  /*! \brief 设置时间戳类型

  *  \param type 时间戳类型

  */

  void set_timestamp_type(data_type type) { _timestamp_type = type; }

 };


 /*! \brief Parquet 读取器选项 builder */

 class parquet_reader_options_builder {

  parquet_reader_options options;


  public

  /*! \brief 默认构造函数 */

  parquet_reader_options_builder() = default;


  /*! \brief 带源的构造函数

  *  \param src 数据源

  */

  explicit parquet_reader_options_builder(source_info src) : options{std::move(src)} {}


  /*! \brief 设置要读取的列

  *  \param col_names 列名列表

  *  \return 此 builder 对象

  */

  parquet_reader_options_builder& columns(std::vector<std::string> col_names)

  {

  options._columns = std::move(col_names);

  return *this;

  }


  /*! \brief 设置要读取的单个行组

  *  \param row_groups 行组索引列表

  *  \return 此 builder 对象

  */

  parquet_reader_options_builder& row_groups(std::vector<std::vector<size_type>> row_groups)

  {

  options.set_row_groups(std::move(row_groups));

  return *this;

  }


  /*! \brief 设置应用于输出行的过滤器

  *  \param filter 作为 AST 的谓词过滤器

  *  \return 此 builder 对象

  */

  parquet_reader_options_builder& filter(ast::expression const& filter)

  {

  options.set_filter(filter);

  return *this;

  }


  /*! \brief 启用/禁用将字符串转换为分类类型

  *  \param val true 为启用，false 为禁用

  *  \return 此 builder 对象

  */

  parquet_reader_options_builder& convert_strings_to_categories(bool val)

  {

  options._convert_strings_to_categories = val;

  return *this;

  }


  /*! \brief 启用/禁用使用 PANDAS 元数据

  *  \param val true 为启用，false 为禁用

  *  \return 此 builder 对象

  */

  parquet_reader_options_builder& use_pandas_metadata(bool val)

  {

  options._use_pandas_metadata = val;

  return *this;

  }


  /*! \brief 启用/禁用使用 ARROW schema

  *  \param val true 为启用，false 为禁用

  *  \return 此 builder 对象

  */

  parquet_reader_options_builder& use_arrow_schema(bool val)

  {

  options._use_arrow_schema = val;

  return *this;

  }


  /*! \brief 启用/禁用允许从不匹配的 Parquet 文件中读取匹配的选中列。

  *  \param val true 为启用，false 为禁用

  *  \return 此 builder 对象

  */

  parquet_reader_options_builder& allow_mismatched_pq_schemas(bool val)

  {

  options._allow_mismatched_pq_schemas = val;

  return *this;

  }


  /*! \brief 设置自定义列 schema

  *  \param val 自定义列 schema

  *  \return This builder object

  */

  parquet_reader_options_builder& set_column_schema(std::vector<reader_column_schema> val)

  {

  options._reader_column_schema = std::move(val);

  return *this;

  }


  /*! \brief 设置要跳过的起始行数

  *  \param val 行数

  *  \return 此 builder 对象

  */

  parquet_reader_options_builder& skip_rows(int64_t val)

  {

  options.set_skip_rows(val);

  return *this;

  }


  /*! \brief 设置要读取的行数

  *  \param val 行数

  *  \return 此 builder 对象

  */

  parquet_reader_options_builder& num_rows(size_type val)

  {

  options.set_num_rows(val);

  return *this;

  }


  /*! \brief 设置时间戳类型

  *  \param type 时间戳类型

  *  \return 此 builder 对象

  */

  parquet_reader_options_builder& timestamp_type(data_type type)

  {

  options._timestamp_type = type;

  return *this;

  }


  /*! \brief 转换为 options 对象

  *  \return parquet_reader_options 对象

  */

  operator parquet_reader_options&&() { return std::move(options); }


  /*! \brief 构建 options 对象

  *  \return parquet_reader_options 对象

  */

  parquet_reader_options&& build() { return std::move(options); }

 };


  /*! \brief 读取 Parquet 数据集并返回带元数据的表。

  *

  *  \param options 控制读取行为的设置。

  *  \param stream 用于设备内存操作和内核启动的 CUDA 流。

  *  \param mr 用于分配返回的表及其列的设备内存资源。

  *  \return 表和元数据

  */

 table_with_metadata read_parquet(

  parquet_reader_options const& options,

  rmm::cuda_stream_view stream = cudf::get_default_stream(),

  rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref());


  /*! \brief 分块读取 Parquet 数据集。

  */

 class chunked_parquet_reader {

  public

  /*! \brief 默认构造函数 */

  chunked_parquet_reader();


  /*! \brief 带分块读取限制的构造函数。

  *

  *  \param chunk_read_limit 每块要读取的最大字节数。

  *  \param options 控制读取行为的设置。

  *  \param stream 用于设备内存操作和内核启动的 CUDA 流。

  *  \param mr 用于分配返回的表及其列的设备内存资源。

  */

  chunked_parquet_reader(

  std::size_t chunk_read_limit,

  parquet_reader_options const& options,

  rmm::cuda_stream_view stream = cudf::get_default_stream(),

  rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref());


  /*! \brief 带分块读取限制和 pass 读取限制的构造函数。

  *

  *  \param chunk_read_limit 每块要读取的最大字节数。

  *  \param pass_read_limit 每列每 pass 要读取的最大字节数。如果在 pass 内达到 chunk_read_limit，将使用 chunk_read_limit。否则，将使用 pass_read_limit。

  *  \param options 控制读取行为的设置。

  *  \param stream 用于设备内存操作和内核启动的 CUDA 流。

  *  \param mr 用于分配返回的表及其列的设备内存资源。

  */

  chunked_parquet_reader(

  std::size_t chunk_read_limit,

  std::size_t pass_read_limit,

  parquet_reader_options const& options,

  rmm::cuda_stream_view stream = cudf::get_default_stream(),

  rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref());


  /*! \brief 析构函数 */

  ~chunked_parquet_reader();


  /*! \brief 如果还有更多块可读，则返回 true。

  *  \return 如果还有更多块可读，则为 true。

  */

  [[nodiscard]] bool has_next() const;


  /*! \brief 从 Parquet 数据集中读取下一块。

  *  \return 带元数据的表

  */

  [[nodiscard]] table_with_metadata read_chunk() const;


  private

  std::unique_ptr<cudf::io::parquet::detail::chunked_reader> reader;

 };

  // group 结束

 /*! \brief 用于排序的列的描述 */

 struct sorting_column {

  int column_idx{};

  bool is_descending{false};

  bool is_nulls_first{true};

 };


 /*! \brief Parquet writer 选项 */

 class parquet_writer_options_base {

  // 指定用于 writer 输出的 sink

  sink_info _sink;

  // 指定要使用的压缩格式

  compression_type _compression = compression_type::SNAPPY;

  // 指定输出文件中的统计信息级别

  statistics_freq _stats_level = statistics_freq::STATISTICS_ROWGROUP;

  // 可选的关联元数据

  std::optional<table_input_metadata> _metadata;

  // 可选的页脚 key_value_metadata

  std::vector<std::map<std::string, std::string>> _user_data;

  // Parquet writer 可以写入 INT96 或 TIMESTAMP_MICROS。默认为 TIMESTAMP_MICROS。

  // 如果为 true，则覆盖 _metadata 中的任何按列设置。

  bool _write_timestamps_as_int96 = false;

  // Parquet writer 可以将时间戳写入为 UTC

  // 默认为 true，因为 libcudf 时间戳隐式为 UTC

  bool _write_timestamps_as_UTC = true;

  BuilderT& sorting_columns(std::vector<sorting_column> sorting_columns);


  operator OptionsT&&();


  OptionsT&& build();

 };


 class parquet_writer_options_builder;


 class parquet_writer_options : public parquet_writer_options_base {

  // Sets of columns to output

  table_view _table;

  // Partitions described as {start_row, num_rows} pairs

  std::vector<partition_info> _partitions;

  // Column chunks file paths to be set in the raw output metadata. One per output file

  std::vector<std::string> _column_chunks_file_paths;


  friend parquet_writer_options_builder;


  explicit parquet_writer_options(sink_info const& sink, table_view table);


  public

  parquet_writer_options() = default;


  static parquet_writer_options_builder builder(sink_info const& sink, table_view const& table);


  static parquet_writer_options_builder builder();


  [[nodiscard]] table_view get_table() const { return _table; }


  [[nodiscard]] std::vector<partition_info> const& get_partitions() const { return _partitions; }


  [[nodiscard]] std::vector<std::string> const& get_column_chunks_file_paths() const

  {

  return _column_chunks_file_paths;

  }


  void set_partitions(std::vector<partition_info> partitions);


  void set_column_chunks_file_paths(std::vector<std::string> file_paths);

 };


 class parquet_writer_options_builder

  : public parquet_writer_options_builder_base<parquet_writer_options_builder,

  parquet_writer_options> {

  public

  explicit parquet_writer_options_builder() = default;


  explicit parquet_writer_options_builder(sink_info const& sink, table_view const& table);


  parquet_writer_options_builder& partitions(std::vector<partition_info> partitions);


  parquet_writer_options_builder& column_chunks_file_paths(std::vector<std::string> file_paths);

 };


 std::unique_ptr<std::vector<uint8_t>> write_parquet(

  parquet_writer_options const& options, rmm::cuda_stream_view stream = cudf::get_default_stream());


 std::unique_ptr<std::vector<uint8_t>> merge_row_group_metadata(

  std::vector<std::unique_ptr<std::vector<uint8_t>>> const& metadata_list);


 class chunked_parquet_writer_options_builder;


 class chunked_parquet_writer_options : public parquet_writer_options_base {

  explicit chunked_parquet_writer_options(sink_info sink);


  friend chunked_parquet_writer_options_builder;


  public

  chunked_parquet_writer_options() = default;


  static chunked_parquet_writer_options_builder builder(sink_info const& sink);

 };


 class chunked_parquet_writer_options_builder

  : public parquet_writer_options_builder_base<chunked_parquet_writer_options_builder,

  chunked_parquet_writer_options> {

  public

  chunked_parquet_writer_options_builder() = default;


  chunked_parquet_writer_options_builder(sink_info const& sink);

 };


 class parquet_chunked_writer {

  public

  parquet_chunked_writer();


  parquet_chunked_writer(chunked_parquet_writer_options const& options,

  rmm::cuda_stream_view stream = cudf::get_default_stream());

  ~parquet_chunked_writer();


  parquet_chunked_writer& write(table_view const& table,

  std::vector<partition_info> const& partitions = {});


  std::unique_ptr<std::vector<uint8_t>> close(

  std::vector<std::string> const& column_chunks_file_paths = {});


  std::unique_ptr<parquet::detail::writer> writer;

 };

  // end of group


 } // namespace io

 } // namespace CUDF_EXPORT cudf

cudf::data_type
列中元素的逻辑数据类型的指示符。
定义: types.hpp:243

cudf::io::chunked_parquet_reader
用于将 Parquet 文件迭代读取到一系列表格的 chunked parquet reader 类，...
定义: parquet.hpp:516

cudf::io::chunked_parquet_reader::read_chunk
table_with_metadata read_chunk() const
读取给定 Parquet 文件中的行块。

cudf::io::chunked_parquet_reader::has_next
bool has_next() const
检查给定文件中是否有尚未读取的数据。

cudf::io::chunked_parquet_reader::chunked_parquet_reader
chunked_parquet_reader(std::size_t chunk_read_limit, std::size_t pass_read_limit, parquet_reader_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
分块读取器构造函数。

cudf::io::chunked_parquet_reader::chunked_parquet_reader
chunked_parquet_reader(std::size_t chunk_read_limit, parquet_reader_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
分块读取器构造函数。

cudf::io::chunked_parquet_reader::~chunked_parquet_reader
~chunked_parquet_reader()
析构函数，销毁内部读取器实例。

cudf::io::chunked_parquet_reader::chunked_parquet_reader
chunked_parquet_reader()
默认构造函数，不应使用。

cudf::io::chunked_parquet_writer_options_builder
用于构建 chunked_parquet_writer_options 的类。
定义: parquet.hpp:1382

cudf::io::chunked_parquet_writer_options_builder::chunked_parquet_writer_options_builder
chunked_parquet_writer_options_builder()=default
默认构造函数。

cudf::io::chunked_parquet_writer_options_builder::chunked_parquet_writer_options_builder
chunked_parquet_writer_options_builder(sink_info const &sink)
从 sink 构造。

cudf::io::chunked_parquet_writer_options
parquet_chunked_writer 的设置。
定义: parquet.hpp:1349

cudf::io::chunked_parquet_writer_options::builder
static chunked_parquet_writer_options_builder builder(sink_info const &sink)
创建用于构建 chunked_parquet_writer_options 的构建器。

cudf::io::chunked_parquet_writer_options::chunked_parquet_writer_options
chunked_parquet_writer_options()=default
默认构造函数。

cudf::io::parquet_chunked_writer
分块 parquet 写入器类，用于处理选项并分块写入表格。
定义: parquet.hpp:1418

cudf::io::parquet_chunked_writer::close
std::unique_ptr< std::vector< uint8_t > > close(std::vector< std::string > const &column_chunks_file_paths={})
完成分块/流式写入过程。

cudf::io::parquet_chunked_writer::parquet_chunked_writer
parquet_chunked_writer()
默认构造函数，不应使用。添加此构造函数仅为满足 cython。...。

cudf::io::parquet_chunked_writer::~parquet_chunked_writer
~parquet_chunked_writer()
默认析构函数。添加此析构函数是为了不泄露 detail API。

cudf::io::parquet_chunked_writer::writer
std::unique_ptr< parquet::detail::writer > writer
指向 impl writer 类的唯一指针。
定义: parquet.hpp:1467

cudf::io::parquet_chunked_writer::write
parquet_chunked_writer & write(table_view const &table, std::vector< partition_info > const &partitions={})
将表格写入输出。

cudf::io::parquet_chunked_writer::parquet_chunked_writer
parquet_chunked_writer(chunked_parquet_writer_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream())
带有分块写入器选项的构造函数。

cudf::io::parquet_reader_options_builder
构建用于 read_parquet() 的 parquet_reader_options。
定义: parquet.hpp:319

cudf::io::parquet_reader_options_builder::use_arrow_schema
parquet_reader_options_builder & use_arrow_schema(bool val)
设置是否启用/禁用使用 arrow schema 进行读取。
定义: parquet.hpp:401

cudf::io::parquet_reader_options_builder::parquet_reader_options_builder
parquet_reader_options_builder(source_info src)
从 source info 构造。
定义: parquet.hpp:335

cudf::io::parquet_reader_options_builder::skip_rows
parquet_reader_options_builder & skip_rows(int64_t val)
设置要跳过的行数。
定义: parquet.hpp:440

cudf::io::parquet_reader_options_builder::allow_mismatched_pq_schemas
parquet_reader_options_builder & allow_mismatched_pq_schemas(bool val)
设置是否启用/禁用从不匹配的 Parquet 源读取匹配的投影列和过滤列...。
定义: parquet.hpp:416

cudf::io::parquet_reader_options_builder::columns
parquet_reader_options_builder & columns(std::vector< std::string > col_names)
设置要读取的列的名称。
定义: parquet.hpp:343

cudf::io::parquet_reader_options_builder::timestamp_type
parquet_reader_options_builder & timestamp_type(data_type type)
用于转换时间戳列的 timestamp_type。
定义: parquet.hpp:464

cudf::io::parquet_reader_options_builder::use_pandas_metadata
parquet_reader_options_builder & use_pandas_metadata(bool val)
设置是否启用/禁用使用 pandas metadata 进行读取。
定义: parquet.hpp:389

cudf::io::parquet_reader_options_builder::parquet_reader_options_builder
parquet_reader_options_builder()=default
默认构造函数。

cudf::io::parquet_reader_options_builder::row_groups
parquet_reader_options_builder & row_groups(std::vector< std::vector< size_type >> row_groups)
设置要读取的单个行组向量。
定义: parquet.hpp:355

cudf::io::parquet_reader_options_builder::set_column_schema
parquet_reader_options_builder & set_column_schema(std::vector< reader_column_schema > val)
设置读取器元数据。
定义: parquet.hpp:428

cudf::io::parquet_reader_options_builder::build
parquet_reader_options && build()
构建完成后移动 parquet_reader_options 成员。
定义: parquet.hpp:482

cudf::io::parquet_reader_options_builder::filter
parquet_reader_options_builder & filter(ast::expression const &filter)
设置基于 AST 的过滤器用于谓词下推。
定义: parquet.hpp:365

cudf::io::parquet_reader_options_builder::num_rows
parquet_reader_options_builder & num_rows(size_type val)
设置要读取的行数。
定义: parquet.hpp:452

cudf::io::parquet_reader_options_builder::convert_strings_to_categories
parquet_reader_options_builder & convert_strings_to_categories(bool val)
设置是否启用/禁用将字符串转换为 categorical 类型。
定义: parquet.hpp:377

cudf::io::parquet_reader_options
read_parquet() 的设置。
定义: parquet.hpp:56

cudf::io::parquet_reader_options::get_timestamp_type
data_type get_timestamp_type() const
返回用于转换时间戳列的时间戳类型。
定义: parquet.hpp:205

cudf::io::parquet_reader_options::parquet_reader_options
parquet_reader_options()=default
默认构造函数。

cudf::io::parquet_reader_options::builder
static parquet_reader_options_builder builder(source_info src)
创建将构建 parquet_reader_options 的 parquet_reader_options_builder。

cudf::io::parquet_reader_options::enable_allow_mismatched_pq_schemas
void enable_allow_mismatched_pq_schemas(bool val)
设置是否启用/禁用从不匹配的 Parquet 源读取匹配的投影列和过滤列...。
定义: parquet.hpp:281

cudf::io::parquet_reader_options::set_skip_rows
void set_skip_rows(int64_t val)
设置要跳过的行数。

cudf::io::parquet_reader_options::set_columns
void set_columns(std::vector< std::string > col_names)
设置要读取的列的名称。
定义: parquet.hpp:212

cudf::io::parquet_reader_options::enable_convert_strings_to_categories
void enable_convert_strings_to_categories(bool val)
设置是否启用/禁用将字符串转换为 categorical 类型。
定义: parquet.hpp:258

cudf::io::parquet_reader_options::get_column_schema
std::optional< std::vector< reader_column_schema > > get_column_schema() const
返回可选的元数据树。
定义: parquet.hpp:159

cudf::io::parquet_reader_options::get_source
source_info const & get_source() const
返回 source info。
定义: parquet.hpp:115

cudf::io::parquet_reader_options::get_row_groups
auto const & get_row_groups() const
返回要读取的单个行组列表。
定义: parquet.hpp:191

cudf::io::parquet_reader_options::get_num_rows
std::optional< size_type > const & get_num_rows() const
返回要读取的行数。
定义: parquet.hpp:177

cudf::io::parquet_reader_options::set_row_groups
void set_row_groups(std::vector< std::vector< size_type >> row_groups)
设置要读取的单个行组向量。

cudf::io::parquet_reader_options::set_num_rows
void set_num_rows(size_type val)
设置要读取的行数。

cudf::io::parquet_reader_options::get_columns
auto const & get_columns() const
如果已设置，则返回要读取的列的名称。
定义: parquet.hpp:184

cudf::io::parquet_reader_options::set_timestamp_type
void set_timestamp_type(data_type type)
设置用于转换时间戳列的 timestamp_type。
定义: parquet.hpp:313

cudf::io::parquet_reader_options::is_enabled_convert_strings_to_categories
bool is_enabled_convert_strings_to_categories() const
根据是否应将字符串转换为 categorical 类型返回 true/false。
定义: parquet.hpp:123

cudf::io::parquet_reader_options::enable_use_pandas_metadata
void enable_use_pandas_metadata(bool val)
设置是否启用/禁用使用 pandas metadata 进行读取。
定义: parquet.hpp:265

cudf::io::parquet_reader_options::enable_use_arrow_schema
void enable_use_arrow_schema(bool val)
设置是否启用/禁用使用 arrow schema 进行读取。
定义: parquet.hpp:272

cudf::io::parquet_reader_options::is_enabled_use_pandas_metadata
bool is_enabled_use_pandas_metadata() const
根据读取时是否使用 pandas metadata 返回 true/false。
定义: parquet.hpp:133

cudf::io::parquet_reader_options::is_enabled_allow_mismatched_pq_schemas
bool is_enabled_allow_mismatched_pq_schemas() const
根据是否从不匹配的源 Parquet 文件读取匹配的投影列和过滤列返回 true/false...。
定义: parquet.hpp:149

cudf::io::parquet_reader_options::set_column_schema
void set_column_schema(std::vector< reader_column_schema > val)
设置读取器列 schema。
定义: parquet.hpp:289

cudf::io::parquet_reader_options::is_enabled_use_arrow_schema
bool is_enabled_use_arrow_schema() const
根据读取时是否使用 arrow schema 返回 true/false。
定义: parquet.hpp:140

cudf::io::parquet_reader_options::set_filter
void set_filter(ast::expression const &filter)
设置基于 AST 的过滤器用于谓词下推。
定义: parquet.hpp:251

cudf::io::parquet_reader_options::get_filter
auto const & get_filter() const
返回基于 AST 的过滤器用于谓词下推。
定义: parquet.hpp:198

cudf::io::parquet_reader_options::get_skip_rows
int64_t get_skip_rows() const
返回从开始跳过的行数。
定义: parquet.hpp:169

cudf::io::parquet_writer_options_base
write_parquet() 和 parquet_chunked_writer 的基础设置。
定义: parquet.hpp:623

cudf::io::parquet_writer_options_base::enable_utc_timestamps
void enable_utc_timestamps(bool val)
设置将时间戳写入为 UTC 的偏好。如果设置为 true，则将时间戳写入为 UTC。

cudf::io::parquet_writer_options_base::enable_write_v2_headers
void enable_write_v2_headers(bool val)
设置 V2 页头偏好。如果设置为 true，则写入 V2 页头。

cudf::io::parquet_writer_options_base::get_sorting_columns
auto const & get_sorting_columns() const
返回 sorting_columns。
定义: parquet.hpp:832

cudf::io::parquet_writer_options_base::get_row_group_size_bytes
auto get_row_group_size_bytes() const
返回最大行组大小（字节）。
定义: parquet.hpp:746

cudf::io::parquet_writer_options_base::is_enabled_int96_timestamps
bool is_enabled_int96_timestamps() const
如果时间戳将写入为 INT96，则返回 true。
定义: parquet.hpp:725

cudf::io::parquet_writer_options_base::set_metadata
void set_metadata(table_input_metadata metadata)
设置元数据。

cudf::io::parquet_writer_options_base::set_row_group_size_rows
void set_row_group_size_rows(size_type size_rows)
设置最大行组大小（行数）。

cudf::io::parquet_writer_options_base::parquet_writer_options_base
parquet_writer_options_base(sink_info sink)
从 sink 构造。
定义: parquet.hpp:671

cudf::io::parquet_writer_options_base::set_stats_level
void set_stats_level(statistics_freq sf)
设置统计级别。

cudf::io::parquet_writer_options_base::get_row_group_size_rows
auto get_row_group_size_rows() const
返回最大行组大小（行数）。
定义: parquet.hpp:753

cudf::io::parquet_writer_options_base::parquet_writer_options_base
parquet_writer_options_base()=default
默认构造函数。

cudf::io::parquet_writer_options_base::set_max_page_size_bytes
void set_max_page_size_bytes(size_t size_bytes)
设置最大未压缩页大小（字节）。

cudf::io::parquet_writer_options_base::set_sorting_columns
void set_sorting_columns(std::vector< sorting_column > sorting_columns)
设置排序列。

cudf::io::parquet_writer_options_base::is_enabled_write_arrow_schema
auto is_enabled_write_arrow_schema() const
如果将写入 arrow schema，则返回 true。
定义: parquet.hpp:739

cudf::io::parquet_writer_options_base::is_enabled_write_v2_headers
auto is_enabled_write_v2_headers() const
如果应写入 V2 页头，则返回 true。
定义: parquet.hpp:825

cudf::io::parquet_writer_options_base::set_dictionary_policy
void set_dictionary_policy(dictionary_policy policy)
设置字典使用策略。

cudf::io::parquet_writer_options_base::get_max_page_size_bytes
auto get_max_page_size_bytes() const
返回最大未压缩页大小（字节）。
定义: parquet.hpp:762

cudf::io::parquet_writer_options_base::set_max_dictionary_size
void set_max_dictionary_size(size_t size_bytes)
设置最大字典大小（字节）。

cudf::io::parquet_writer_options_base::get_compression
compression_type get_compression() const
返回使用的压缩格式。
定义: parquet.hpp:693

cudf::io::parquet_writer_options_base::get_max_dictionary_size
auto get_max_dictionary_size() const
返回最大字典大小（字节）。
定义: parquet.hpp:801

cudf::io::parquet_writer_options_base::set_compression
void set_compression(compression_type compression)
设置压缩类型。

cudf::io::parquet_writer_options_base::get_dictionary_policy
dictionary_policy get_dictionary_policy() const
返回字典使用策略。
定义: parquet.hpp:794

cudf::io::parquet_writer_options_base::set_compression_statistics
void set_compression_statistics(std::shared_ptr< writer_compression_statistics > comp_stats)
设置指向输出压缩统计信息的指针。

cudf::io::parquet_writer_options_base::get_compression_statistics
std::shared_ptr< writer_compression_statistics > get_compression_statistics() const
返回指向用户提供的压缩统计信息的共享指针。
定义: parquet.hpp:815

cudf::io::parquet_writer_options_base::set_max_page_size_rows
void set_max_page_size_rows(size_type size_rows)
设置最大页大小（行数）。

cudf::io::parquet_writer_options_base::get_max_page_fragment_size
auto get_max_page_fragment_size() const
返回最大页片段大小（行数）。
定义: parquet.hpp:808

cudf::io::parquet_writer_options_base::set_key_value_metadata
void set_key_value_metadata(std::vector< std::map< std::string, std::string >> metadata)
设置元数据。

cudf::io::parquet_writer_options_base::set_max_page_fragment_size
void set_max_page_fragment_size(size_type size_rows)
设置最大页片段大小（行数）。

cudf::io::parquet_writer_options_base::enable_write_arrow_schema
void enable_write_arrow_schema(bool val)
设置写入 arrow schema 的偏好。如果设置为 true，则写入 arrow schema。

cudf::io::parquet_writer_options_base::is_enabled_utc_timestamps
auto is_enabled_utc_timestamps() const
如果时间戳将写入为 UTC，则返回 true。
定义: parquet.hpp:732

cudf::io::parquet_writer_options_base::set_row_group_size_bytes
void set_row_group_size_bytes(size_t size_bytes)
设置最大行组大小（字节）。

cudf::io::parquet_writer_options_base::enable_int96_timestamps
void enable_int96_timestamps(bool req)
设置时间戳写入偏好。如果为 true，则写入 INT96 时间戳；如果...。

cudf::io::parquet_writer_options_base::get_stats_level
statistics_freq get_stats_level() const
返回输出文件中请求的统计信息级别。
定义: parquet.hpp:700

cudf::io::parquet_writer_options_base::get_key_value_metadata
std::vector< std::map< std::string, std::string > > const & get_key_value_metadata() const
返回键值 footer 元数据信息。
定义: parquet.hpp:714

cudf::io::parquet_writer_options_base::get_metadata
auto const & get_metadata() const
返回关联的元数据。
定义: parquet.hpp:707

cudf::io::parquet_writer_options_base::get_max_page_size_rows
auto get_max_page_size_rows() const
返回最大页大小（行数）。
定义: parquet.hpp:774

cudf::io::parquet_writer_options_base::get_column_index_truncate_length
auto get_column_index_truncate_length() const
返回列索引中 min 或 max 值的最大长度（字节）。
定义: parquet.hpp:784

cudf::io::parquet_writer_options_base::set_column_index_truncate_length
void set_column_index_truncate_length(int32_t size_bytes)
设置列索引中 min 或 max 值的最大长度（字节）。

cudf::io::parquet_writer_options_base::get_sink
sink_info const & get_sink() const
返回 sink info。
定义: parquet.hpp:686

cudf::io::parquet_writer_options_builder_base
Parquet options 构建器的基类。
定义: parquet.hpp:965

cudf::io::parquet_writer_options_builder_base::compression
BuilderT & compression(compression_type compression)
设置压缩类型。

cudf::io::parquet_writer_options_builder_base::key_value_metadata
BuilderT & key_value_metadata(std::vector< std::map< std::string, std::string >> metadata)
设置键值 footer 元数据。

cudf::io::parquet_writer_options_builder_base::get_options
OptionsT & get_options()
返回正在构建的 options 对象的引用。
定义: parquet.hpp:974

cudf::io::parquet_writer_options_builder_base::utc_timestamps
BuilderT & utc_timestamps(bool enabled)
如果时间戳要写入为 UTC，则设置为 true。

cudf::io::parquet_writer_options_builder_base::max_dictionary_size
BuilderT & max_dictionary_size(size_t val)
设置最大字典大小（字节）。

cudf::io::parquet_writer_options_builder_base::max_page_size_bytes
BuilderT & max_page_size_bytes(size_t val)
设置最大未压缩页大小（字节）。

cudf::io::parquet_writer_options_builder_base::build
OptionsT && build()
构建完成后移动 options 成员。

cudf::io::parquet_writer_options_builder_base::stats_level
BuilderT & stats_level(statistics_freq sf)
设置统计级别。

cudf::io::parquet_writer_options_builder_base::column_index_truncate_length
BuilderT & column_index_truncate_length(int32_t val)
设置列索引中 min 和 max 值的所需最大大小（字节）。

cudf::io::parquet_writer_options_builder_base::compression_statistics
BuilderT & compression_statistics(std::shared_ptr< writer_compression_statistics > const &comp_stats)
设置指向输出压缩统计信息的指针。

cudf::io::parquet_writer_options_builder_base::metadata
BuilderT & metadata(table_input_metadata metadata)
设置元数据。

cudf::io::parquet_writer_options_builder_base::dictionary_policy
BuilderT & dictionary_policy(enum dictionary_policy val)
设置字典使用策略。

cudf::io::parquet_writer_options_builder_base::parquet_writer_options_builder_base
parquet_writer_options_builder_base(OptionsT options)
从 options 构造。

cudf::io::parquet_writer_options_builder_base::int96_timestamps
BuilderT & int96_timestamps(bool enabled)
设置是否写入 int96 时间戳。

cudf::io::parquet_writer_options_builder_base::row_group_size_bytes
BuilderT & row_group_size_bytes(size_t val)
设置最大行组大小（字节）。

cudf::io::parquet_writer_options_builder_base::sorting_columns
BuilderT & sorting_columns(std::vector< sorting_column > sorting_columns)
设置列排序元数据。

cudf::io::parquet_writer_options_builder_base::write_arrow_schema
BuilderT & write_arrow_schema(bool enabled)
如果要写入 arrow schema，则设置为 true。

cudf::io::parquet_writer_options_builder_base::parquet_writer_options_builder_base
parquet_writer_options_builder_base()=default
默认构造函数。

cudf::io::parquet_writer_options_builder_base::write_v2_headers
BuilderT & write_v2_headers(bool enabled)
如果要写入 V2 页头，则设置为 true。

cudf::io::parquet_writer_options_builder_base::max_page_fragment_size
BuilderT & max_page_fragment_size(size_type val)
设置最大页片段大小（行数）。

cudf::io::parquet_writer_options_builder_base::row_group_size_rows
BuilderT & row_group_size_rows(size_type val)
设置输出行组中的最大行数。

cudf::io::parquet_writer_options_builder_base::max_page_size_rows
BuilderT & max_page_size_rows(size_type val)
设置最大页大小（行数）。仅计算顶层行，忽略任何嵌套。...。

cudf::io::parquet_writer_options_builder
用于构建 parquet_writer_options 的类。
定义: parquet.hpp:1277

cudf::io::parquet_writer_options_builder::parquet_writer_options_builder
parquet_writer_options_builder(sink_info const &sink, table_view const &table)
从 sink 和 table 构造。

cudf::io::parquet_writer_options_builder::parquet_writer_options_builder
parquet_writer_options_builder()=default
默认构造函数。

cudf::io::parquet_writer_options_builder::partitions
parquet_writer_options_builder & partitions(std::vector< partition_info > partitions)
在 parquet_writer_options 中设置分区。

cudf::io::parquet_writer_options_builder::column_chunks_file_paths
parquet_writer_options_builder & column_chunks_file_paths(std::vector< std::string > file_paths)
设置要在原始输出元数据中设置的列块文件路径。

cudf::io::parquet_writer_options
write_parquet() 的设置。
定义: parquet.hpp:1188

cudf::io::parquet_writer_options::set_partitions
void set_partitions(std::vector< partition_info > partitions)
设置分区。

cudf::io::parquet_writer_options::builder
static parquet_writer_options_builder builder(sink_info const &sink, table_view const &table)
创建用于创建 parquet_writer_options 的构建器。

cudf::io::parquet_writer_options::parquet_writer_options
parquet_writer_options()=default
默认构造函数。

cudf::io::parquet_writer_options::get_column_chunks_file_paths
std::vector< std::string > const & get_column_chunks_file_paths() const
返回要在原始输出元数据中设置的列块文件路径。
定义: parquet.hpp:1250

cudf::io::parquet_writer_options::get_table
table_view get_table() const
返回 table_view。
定义: parquet.hpp:1236

cudf::io::parquet_writer_options::set_column_chunks_file_paths
void set_column_chunks_file_paths(std::vector< std::string > file_paths)
设置要在原始输出元数据中设置的列块文件路径。

cudf::io::parquet_writer_options::builder
static parquet_writer_options_builder builder()
创建用于创建 parquet_writer_options 的构建器。

cudf::io::parquet_writer_options::get_partitions
std::vector< partition_info > const & get_partitions() const
返回分区。
定义: parquet.hpp:1243

cudf::io::table_input_metadata
表的元数据。
定义: io/types.hpp:945

cudf::table_view
一组大小相同的 cudf::column_view。
定义: table_view.hpp:200

cudf::table
一组大小相同的 cudf::column。
定义: table.hpp:40

rmm::cuda_stream_view

expressions.hpp

cudf::get_default_stream
rmm::cuda_stream_view const get_default_stream()
获取当前默认流。

cudf::io::default_row_group_size_rows
constexpr size_type default_row_group_size_rows
每行组 1 百万行
定义: parquet.hpp:44

cudf::io::default_column_index_truncate_length
constexpr int32_t default_column_index_truncate_length
截断为 64 字节
定义: parquet.hpp:47

cudf::io::default_row_group_size_bytes
constexpr size_t default_row_group_size_bytes
每行组无限字节。
定义: parquet.hpp:42

cudf::io::default_max_page_fragment_size
constexpr size_type default_max_page_fragment_size
每页片段 5000 行
定义: parquet.hpp:49

cudf::io::default_max_dictionary_size
constexpr size_t default_max_dictionary_size
1MB 字典大小
定义: parquet.hpp:48

cudf::io::read_parquet
table_with_metadata read_parquet(parquet_reader_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
将 Parquet 数据集读取到一组列中。

cudf::io::default_max_page_size_bytes
constexpr size_t default_max_page_size_bytes
每页 512KB
定义: parquet.hpp:45

cudf::io::default_max_page_size_rows
constexpr size_type default_max_page_size_rows
每页 20k 行
定义: parquet.hpp:46

cudf::io::statistics_freq
statistics_freq
parquet/orc 写入器的列统计信息粒度类型。
定义: io/types.hpp:96

cudf::io::dictionary_policy
dictionary_policy
控制 parquet 写入器是否使用字典编码。
定义: io/types.hpp:225

cudf::io::compression_type
compression_type
压缩算法。
定义: io/types.hpp:57

cudf::io::STATISTICS_ROWGROUP
@ STATISTICS_ROWGROUP
每行组列统计信息。
定义: io/types.hpp:98

cudf::io::ADAPTIVE
@ ADAPTIVE
在不影响压缩时使用字典。
定义: io/types.hpp:227

cudf::io::merge_row_group_metadata
std::unique_ptr< std::vector< uint8_t > > merge_row_group_metadata(std::vector< std::unique_ptr< std::vector< uint8_t >>> const &metadata_list)
合并之前由 write_parquet 创建的多个原始元数据 blob 到一个元数据中...。

cudf::io::write_parquet
std::unique_ptr< std::vector< uint8_t > > write_parquet(parquet_writer_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream())
将一组列写入 parquet 格式。

cudf::get_current_device_resource_ref
rmm::device_async_resource_ref get_current_device_resource_ref()
获取当前设备内存资源引用。
定义: memory_resource.hpp:47

device_async_resource_ref
cuda::mr::async_resource_ref< cuda::mr::device_accessible > device_async_resource_ref

cudf::size_type
int32_t size_type
列和表的行索引类型。
定义: types.hpp:95

types.hpp
cuDF-IO API 类型定义

memory_resource.hpp

cudf
cuDF 接口
定义: host_udf.hpp:37

cudf::ast::expression
可以求值以返回值的一般表达式。
定义: expressions.hpp:48

cudf::io::sink_info
写入接口的目标信息。
定义: io/types.hpp:523

cudf::io::sorting_column
用于描述列排序元数据的结构体。
定义: parquet.hpp:614

cudf::io::source_info
读取接口的源信息。
定义: io/types.hpp:348

cudf::io::table_with_metadata
io 读取器用于按值返回元数据的带表格元数据的表格。
定义: io/types.hpp:303

table_view.hpp
(mutable)_table_view 的类定义

types.hpp
libcudf 的类型声明。