公共类型 | 公共成员函数 | 静态公共成员函数 | 所有成员列表
cudf::io::json_reader_options 类参考

read_json 接口的输入参数。 更多...

#include <json.hpp>

公共类型

using dtype_variant = std::variant< std::vector< data_type >, std::map< std::string, data_type >, std::map< std::string, schema_element >, schema_element >
 持有列数据类型信息的变体类型。
 

公共成员函数

 json_reader_options ()=default
 默认构造函数。 更多...
 
source_info const & get_source () const
 返回源信息。 更多...
 
dtype_variant const & get_dtypes () const
 返回列的数据类型。 更多...
 
compression_type get_compression () const
 返回源的压缩格式。 更多...
 
size_t get_byte_range_offset () const
 返回从源开头跳过的字节数。 更多...
 
size_t get_byte_range_size () const
 返回要读取的字节数。 更多...
 
size_t get_byte_range_size_with_padding () const
 返回带填充的要读取的字节数。 更多...
 
size_t get_byte_range_padding () const
 返回读取时要填充的字节数。 更多...
 
char get_delimiter () const
 返回分隔 JSON 行中记录的分隔符。 更多...
 
bool is_enabled_lines () const
 是否将文件作为每行一个 JSON 对象读取。 更多...
 
bool is_enabled_mixed_types_as_string () const
 是否将混合类型解析为字符串列。 更多...
 
bool is_enabled_prune_columns () const
 是否在读取时剪除列,根据 set_dtypes 选项选择。 更多...
 
bool is_enabled_experimental () const
 是否启用实验性功能。 更多...
 
bool is_enabled_dayfirst () const
 是否将日期解析为 DD/MM 而非 MM/DD。 更多...
 
bool is_enabled_keep_quotes () const
 读取器是否应保留字符串值的引号。 更多...
 
bool is_enabled_normalize_single_quotes () const
 读取器是否应规范化字符串周围的单引号。 更多...
 
bool is_enabled_normalize_whitespace () const
 读取器是否应规范化未加引号的空白字符。 更多...
 
json_recovery_mode_t recovery_mode () const
 查询 JSON 读取器在无效 JSON 行上的行为。 更多...
 
bool is_strict_validation () const
 是否应严格执行 JSON 验证。 更多...
 
bool is_allowed_numeric_leading_zeros () const
 数值中是否允许前导零。 更多...
 
bool is_allowed_nonnumeric_numbers () const
 是否允许未加引号的数值为 NaN, +INF, -INF, +Infinity, Infinity 和 -Infinity。 更多...
 
bool is_allowed_unquoted_control_chars () const
 在带引号的字符串中是否允许大于等于 0 且小于 32 的字符,而无需某种形式的转义。 更多...
 
std::vector< std::string > const & get_na_values () const
 返回要识别为 null 值的额外值。 更多...
 
void set_dtypes (std::vector< data_type > types)
 设置要读取的列的数据类型。 更多...
 
void set_dtypes (std::map< std::string, data_type > types)
 设置要读取的列的数据类型。 更多...
 
void set_dtypes (std::map< std::string, schema_element > types)
 设置可能嵌套的列层次结构的数据类型。 更多...
 
void set_dtypes (schema_element types)
 设置可能嵌套的列层次结构的数据类型。 更多...
 
void set_compression (compression_type comp_type)
 设置压缩类型。 更多...
 
void set_byte_range_offset (size_t offset)
 设置从源开头跳过的字节数。 更多...
 
void set_byte_range_size (size_t size)
 设置要读取的字节数。 更多...
 
void set_delimiter (char delimiter)
 设置分隔 JSON 行中记录的分隔符。 更多...
 
void enable_lines (bool val)
 设置是否将文件作为每行一个 JSON 对象读取。 更多...
 
void enable_mixed_types_as_string (bool val)
 设置是否将混合类型解析为字符串列。还支持使用模式强制将结构体读取为字符串列。 更多...
 
void enable_prune_columns (bool val)
 设置是否在读取时剪除列,根据 set_dtypes 选项选择。 更多...
 
void enable_experimental (bool val)
 设置是否启用实验性功能。 更多...
 
void enable_dayfirst (bool val)
 设置是否将日期解析为 DD/MM 而非 MM/DD。 更多...
 
void enable_keep_quotes (bool val)
 设置读取器是否应保留字符串值的引号。 更多...
 
void enable_normalize_single_quotes (bool val)
 设置读取器是否应启用字符串周围单引号的规范化。 更多...
 
void enable_normalize_whitespace (bool val)
 设置读取器是否应启用未加引号空白的规范化。 更多...
 
void set_recovery_mode (json_recovery_mode_t val)
 指定 JSON 读取器在无效 JSON 行上的行为。 更多...
 
void set_strict_validation (bool val)
 设置是否启用严格验证。 更多...
 
void allow_numeric_leading_zeros (bool val)
 设置数值中是否允许前导零。必须启用严格验证此选项才有效。 更多...
 
void allow_nonnumeric_numbers (bool val)
 设置是否允许未加引号的数值为 NaN, +INF, -INF, +Infinity, Infinity 和 -Infinity。必须启用严格验证此选项才有效。 更多...
 
void allow_unquoted_control_chars (bool val)
 设置在带引号的字符串中是否允许大于等于 0 且小于 32 的字符,而无需某种形式的转义。必须启用严格验证此选项才有效。 更多...
 
void set_na_values (std::vector< std::string > vals)
 设置要识别为 null 值的额外值。 更多...
 

静态公共成员函数

static json_reader_options_builder builder (source_info src)
 创建 json_reader_options_builder,它将构建 json_reader_options更多...
 

详细描述

read_json 接口的输入参数。

可用参数紧密模仿 PANDAS 的 read_json API。并非所有参数都受支持。如果对应的 PANDAS 参数的默认值为 None,则可能使用默认值 -10 作为等价值。

PANDAS 中在 cudf 中不可用或不同的参数

名称描述
orient 当前为固定格式
typ 数据始终作为 cudf::table 返回
convert_axes 应改用列函数进行轴操作
convert_dates 日期自动检测
keep_default_dates 日期自动检测
numpy 数据始终作为 cudf::table 返回
precise_float 只有一个转换器可用
date_unit 仅支持毫秒单位
encoding 仅支持 ASCII 编码的数据
chunksize 应改用 byte_range_xxx 进行分块

定义于文件 io/json.hpp 的第 95 行。

构造函数与析构函数文档

◆ json_reader_options()

cudf::io::json_reader_options::json_reader_options ( )
默认

默认构造函数。

此构造函数已添加,因为 Cython 要求默认构造函数才能在栈上创建对象。

成员函数文档

◆ allow_nonnumeric_numbers()

void cudf::io::json_reader_options::allow_nonnumeric_numbers ( bool  val)
内联

设置是否允许未加引号的数值为 NaN, +INF, -INF, +Infinity, Infinity 和 -Infinity。必须启用严格验证此选项才有效。

异常
cudf::logic_error如果在设置此选项之前未启用 strict_validation
参数
val布尔值,指示数值中是否允许前导零

定义于文件 io/json.hpp 的第 558 行。

◆ allow_numeric_leading_zeros()

void cudf::io::json_reader_options::allow_numeric_leading_zeros ( bool  val)
内联

设置数值中是否允许前导零。必须启用严格验证此选项才有效。

异常
cudf::logic_error如果在设置此选项之前未启用 strict_validation
参数
val布尔值,指示数值中是否允许前导零

定义于文件 io/json.hpp 的第 544 行。

◆ allow_unquoted_control_chars()

void cudf::io::json_reader_options::allow_unquoted_control_chars ( bool  val)
内联

设置在带引号的字符串中是否允许大于等于 0 且小于 32 的字符,而无需某种形式的转义。必须启用严格验证此选项才有效。

异常
cudf::logic_error如果在设置此选项之前未启用 strict_validation
参数
val若为 true,表示允许未加引号的控制字符。

定义于文件 io/json.hpp 的第 573 行。

◆ builder()

static json_reader_options_builder cudf::io::json_reader_options::builder ( source_info  src)
静态

创建 json_reader_options_builder,它将构建 json_reader_options

参数
src用于读取 JSON 文件的源信息
返回
用于构建选项的 builder

◆ enable_dayfirst()

void cudf::io::json_reader_options::enable_dayfirst ( bool  val)
内联

设置是否将日期解析为 DD/MM 而非 MM/DD。

参数
val布尔值,用于启用/禁用日优先解析格式

定义于文件 io/json.hpp 的第 496 行。

◆ enable_experimental()

void cudf::io::json_reader_options::enable_experimental ( bool  val)
内联

设置是否启用实验性功能。

当设置为 true 时,将启用实验性功能,例如新的列树构建、字段名的 utf-8 匹配。

参数
val布尔值,用于启用/禁用实验性功能

定义于文件 io/json.hpp 的第 489 行。

◆ enable_keep_quotes()

void cudf::io::json_reader_options::enable_keep_quotes ( bool  val)
内联

设置读取器是否应保留字符串值的引号。

参数
val布尔值,指示读取器是否应保留字符串值的引号

定义于文件 io/json.hpp 的第 504 行。

◆ enable_lines()

void cudf::io::json_reader_options::enable_lines ( bool  val)
内联

设置是否将文件作为每行一个 JSON 对象读取。

参数
val布尔值,用于启用/禁用将每行读取为 JSON 对象的选项

定义于文件 io/json.hpp 的第 460 行。

◆ enable_mixed_types_as_string()

void cudf::io::json_reader_options::enable_mixed_types_as_string ( bool  val)
内联

设置是否将混合类型解析为字符串列。还支持使用模式强制将结构体读取为字符串列。

参数
val布尔值,用于启用/禁用将混合类型解析为字符串列

定义于文件 io/json.hpp 的第 468 行。

◆ enable_normalize_single_quotes()

void cudf::io::json_reader_options::enable_normalize_single_quotes ( bool  val)
内联

设置读取器是否应启用字符串周围单引号的规范化。

参数
val布尔值,指示读取器是否应规范化字符串周围的单引号

定义于文件 io/json.hpp 的第 512 行。

◆ enable_normalize_whitespace()

void cudf::io::json_reader_options::enable_normalize_whitespace ( bool  val)
内联

设置读取器是否应启用未加引号空白的规范化。

参数
val布尔值,指示读取器是否应规范化未加引号的空白字符,即制表符和空格

定义于文件 io/json.hpp 的第 520 行。

◆ enable_prune_columns()

void cudf::io::json_reader_options::enable_prune_columns ( bool  val)
内联

设置是否在读取时剪除列,根据 set_dtypes 选项选择。

当设置为 true 时,如果读取器选项包含 set_dtypes,则读取器将仅返回 set_dtypes 中提及的列。如果为 false,则返回所有列,与 set_dtypes 设置无关。

参数
val布尔值,用于启用/禁用列剪除

定义于文件 io/json.hpp 的第 479 行。

◆ get_byte_range_offset()

size_t cudf::io::json_reader_options::get_byte_range_offset ( ) 常量
内联

返回从源开头跳过的字节数。

返回
从源开头跳过的字节数

定义于文件 io/json.hpp 的第 206 行。

◆ get_byte_range_padding()

size_t cudf::io::json_reader_options::get_byte_range_padding ( ) 常量
内联

返回读取时要填充的字节数。

返回
填充的字节数

定义于文件 io/json.hpp 的第 234 行。

◆ get_byte_range_size()

size_t cudf::io::json_reader_options::get_byte_range_size ( ) 常量
内联

返回要读取的字节数。

返回
要读取的字节数

定义于文件 io/json.hpp 的第 213 行。

◆ get_byte_range_size_with_padding()

size_t cudf::io::json_reader_options::get_byte_range_size_with_padding ( ) 常量
内联

返回带填充的要读取的字节数。

返回
带填充的要读取的字节数

定义于文件 io/json.hpp 的第 220 行。

◆ get_compression()

compression_type cudf::io::json_reader_options::get_compression ( ) 常量
内联

返回源的压缩格式。

返回
源的压缩格式

定义于文件 io/json.hpp 的第 199 行。

◆ get_delimiter()

char cudf::io::json_reader_options::get_delimiter ( ) 常量
内联

返回分隔 JSON 行中记录的分隔符。

返回
分隔 JSON 行中记录的分隔符

定义于文件 io/json.hpp 的第 260 行。

◆ get_dtypes()

dtype_variant const& cudf::io::json_reader_options::get_dtypes ( ) 常量
内联

返回列的数据类型。

返回
列的数据类型

定义于文件 io/json.hpp 的第 192 行。

◆ get_na_values()

std::vector<std::string> const& cudf::io::json_reader_options::get_na_values ( ) 常量
内联

返回要识别为 null 值的额外值。

返回
要识别为 null 值的额外值

定义于文件 io/json.hpp 的第 379 行。

◆ get_source()

source_info const& cudf::io::json_reader_options::get_source ( ) 常量
内联

返回源信息。

返回
源信息

定义于文件 io/json.hpp 的第 185 行。

◆ is_allowed_nonnumeric_numbers()

bool cudf::io::json_reader_options::is_allowed_nonnumeric_numbers ( ) 常量
内联

是否允许未加引号的数值为 NaN, +INF, -INF, +Infinity, Infinity 和 -Infinity。

注意
: 仅当启用严格验证时才强制执行此验证。
返回
若为 true,表示数值中允许前导零

定义于文件 io/json.hpp 的第 359 行。

◆ is_allowed_numeric_leading_zeros()

bool cudf::io::json_reader_options::is_allowed_numeric_leading_zeros ( ) 常量
内联

数值中是否允许前导零。

注意
: 仅当启用严格验证时才强制执行此验证。
返回
若为 true,表示数值中允许前导零

定义于文件 io/json.hpp 的第 346 行。

◆ is_allowed_unquoted_control_chars()

bool cudf::io::json_reader_options::is_allowed_unquoted_control_chars ( ) 常量
内联

在带引号的字符串中是否允许大于等于 0 且小于 32 的字符,而无需某种形式的转义。

注意
: 仅当启用严格验证时才强制执行此验证。
返回
若为 true,表示允许未加引号的控制字符。

定义于文件 io/json.hpp 的第 369 行。

◆ is_enabled_dayfirst()

bool cudf::io::json_reader_options::is_enabled_dayfirst ( ) 常量
内联

是否将日期解析为 DD/MM 而非 MM/DD。

返回
若为 true,则日期解析为 DD/MM;若为 false,则解析为 MM/DD

定义于文件 io/json.hpp 的第 302 行。

◆ is_enabled_experimental()

bool cudf::io::json_reader_options::is_enabled_experimental ( ) 常量
内联

是否启用实验性功能。

当设置为 true 时,将启用实验性功能,例如新的列树构建、字段名的 utf-8 匹配。

返回
若为 true,表示实验性功能已启用

定义于文件 io/json.hpp 的第 295 行。

◆ is_enabled_keep_quotes()

bool cudf::io::json_reader_options::is_enabled_keep_quotes ( ) 常量
内联

读取器是否应保留字符串值的引号。

返回
若为 true,则读取器应保留引号;否则为 false

定义于文件 io/json.hpp 的第 309 行。

◆ is_enabled_lines()

bool cudf::io::json_reader_options::is_enabled_lines ( ) 常量
内联

是否将文件作为每行一个 JSON 对象读取。

返回
true 若为 true,则将文件作为每行一个 JSON 对象读取

定义于文件 io/json.hpp 的第 267 行。

◆ is_enabled_mixed_types_as_string()

bool cudf::io::json_reader_options::is_enabled_mixed_types_as_string ( ) 常量
内联

是否将混合类型解析为字符串列。

返回
true 若为 true,则混合类型解析为字符串列

定义于文件 io/json.hpp 的第 274 行。

◆ is_enabled_normalize_single_quotes()

bool cudf::io::json_reader_options::is_enabled_normalize_single_quotes ( ) 常量
内联

读取器是否应规范化字符串周围的单引号。

返回
若为 true,则读取器应规范化单引号;否则为 false

定义于文件 io/json.hpp 的第 316 行。

◆ is_enabled_normalize_whitespace()

bool cudf::io::json_reader_options::is_enabled_normalize_whitespace ( ) 常量
内联

读取器是否应规范化未加引号的空白字符。

返回
若为 true,则读取器应规范化空白;否则为 false

定义于文件 io/json.hpp 的第 323 行。

◆ is_enabled_prune_columns()

bool cudf::io::json_reader_options::is_enabled_prune_columns ( ) 常量
内联

是否在读取时剪除列,根据 set_dtypes 选项选择。

当设置为 true 时,如果读取器选项包含 set_dtypes,则读取器将仅返回 set_dtypes 中提及的列。如果为 false,则返回所有列,与 set_dtypes 设置无关。

返回
若为 true,表示列剪除已启用

定义于文件 io/json.hpp 的第 286 行。

◆ is_strict_validation()

bool cudf::io::json_reader_options::is_strict_validation ( ) 常量
内联

是否应严格执行 JSON 验证。

返回
若为 true,表示应严格执行。

定义于文件 io/json.hpp 的第 337 行。

◆ recovery_mode()

json_recovery_mode_t cudf::io::json_reader_options::recovery_mode ( ) 常量
内联

查询 JSON 读取器在无效 JSON 行上的行为。

返回
一个枚举,指定 JSON 读取器在无效 JSON 行上的行为。

定义于文件 io/json.hpp 的第 330 行。

◆ set_byte_range_offset()

void cudf::io::json_reader_options::set_byte_range_offset ( size_t  offset)
内联

设置从源开头跳过的字节数。

参数
offset偏移量字节数

定义于文件 io/json.hpp 的第 422 行。

◆ set_byte_range_size()

void cudf::io::json_reader_options::set_byte_range_size ( size_t  size)
内联

设置要读取的字节数。

参数
size要读取的字节数

定义于文件 io/json.hpp 的第 429 行。

◆ set_compression()

void cudf::io::json_reader_options::set_compression ( compression_type  comp_type)
内联

设置压缩类型。

参数
comp_type使用的压缩类型

定义于文件 io/json.hpp 的第 415 行。

◆ set_delimiter()

void cudf::io::json_reader_options::set_delimiter ( char  delimiter)
内联

设置分隔 JSON 行中记录的分隔符。

参数
delimiter分隔 JSON 行中记录的分隔符

定义于文件 io/json.hpp 的第 436 行。

◆ set_dtypes() [1/4] 重载

void cudf::io::json_reader_options::set_dtypes ( schema_element  types)

设置可能嵌套的列层次结构的数据类型。

参数
types带有列名和列顺序的 schema 元素,支持任意嵌套的数据类型

◆ set_dtypes() [2/4] 重载

void cudf::io::json_reader_options::set_dtypes ( std::map< std::string, data_type types)
内联

设置要读取的列的数据类型。

参数
types字符串格式的 dtypes 向量

定义于文件 io/json.hpp 的第 393 行。

◆ set_dtypes() [3/4] 重载

void cudf::io::json_reader_options::set_dtypes ( std::map< std::string, schema_element types)
内联

设置可能嵌套的列层次结构的数据类型。

参数
types列名到 schema_element 的映射,支持任意嵌套的数据类型

定义于文件 io/json.hpp 的第 400 行。

◆ set_dtypes() [4/4] 重载

void cudf::io::json_reader_options::set_dtypes ( std::vector< data_type types)
内联

设置要读取的列的数据类型。

参数
typesdtypes 向量

定义于文件 io/json.hpp 的第 386 行。

◆ set_na_values()

void cudf::io::json_reader_options::set_na_values ( std::vector< std::string >  vals)
内联

设置要识别为 null 值的额外值。

参数
vals要视为 null 的值向量

定义于文件 io/json.hpp 的第 584 行。

◆ set_recovery_mode()

void cudf::io::json_reader_options::set_recovery_mode ( json_recovery_mode_t  val)
内联

指定 JSON 读取器在无效 JSON 行上的行为。

参数
val一个枚举值,指示 JSON 读取器在无效 JSON 行上的行为。

定义于文件 io/json.hpp 的第 527 行。

◆ set_strict_validation()

void cudf::io::json_reader_options::set_strict_validation ( bool  val)
内联

设置是否启用严格验证。

参数
val布尔值,指示是否启用严格验证。

定义于文件 io/json.hpp 的第 534 行。


此类的文档生成自以下文件