| 枚举 | 函数
cudf::strings 命名空间参考

字符串列 API。更多...

结构体  regex_program
 正则表达式程序类。更多...
 

枚举

枚举  string_character_types : uint32_t {
  DECIMAL = 1 << 0 , NUMERIC = 1 << 1 , DIGIT = 1 << 2 , ALPHA = 1 << 3 ,
  SPACE = 1 << 4 , UPPER = 1 << 5 , LOWER = 1 << 6 , ALPHANUM = DECIMAL | NUMERIC | DIGIT | ALPHA ,
  CASE_TYPES = UPPER | LOWER , ALL_TYPES = ALPHANUM | CASE_TYPES | SPACE
}
 字符类型值。这些类型可以通过或运算来检查任意类型的组合。更多...
 
枚举类  separator_on_nulls { YES , NO }
 用于指定如何将分隔符添加到空字符串元素的设置。更多...
 
枚举类  output_if_empty_list { EMPTY_STRING , NULL_ELEMENT }
 用于指定当输入列表为空时 join_list_elements 函数将输出什么的设置。更多...
 
枚举  regex_flags : uint32_t {
  DEFAULT = 0 , MULTILINE = 8 , DOTALL = 16 , ASCII = 256 ,
  EXT_NEWLINE = 512
}
 正则表达式标志。更多...
 
枚举类  capture_groups : uint32_t { EXTRACT , NON_CAPTURE }
 捕获组设置。更多...
 
枚举类  side_type { LEFT , RIGHT , BOTH }
 cudf::strings::stripcudf::strings::pad 函数的方向标识符。更多...
 
枚举类  filter_type : bool { KEEP , REMOVE }
 cudf::strings::filter_characters 中移除或保留指定的字符范围。更多...
 

函数

std::unique_ptr< count_characters (字符串列视图 const &input, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 返回一个列,其中包含给定列中每个字符串的字符长度。更多...
 
std::unique_ptr< count_bytes (字符串列视图 const &input, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 返回一个列,其中包含给定列中每个字符串的字节长度。更多...
 
std::unique_ptr< code_points (字符串列视图 const &input, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 为每个字符串的每个字符创建一个带有码点值(整数)的数字列。更多...
 
std::unique_ptr< capitalize (字符串列视图 const &input, 字符串标量 const &delimiters=string_scalar("", true, cudf::get_default_stream()), rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 返回首字母大写的字符串列。更多...
 
std::unique_ptr< title (字符串列视图 const &input, string_character_types sequence_type=string_character_types::ALPHA, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 将每个单词的首字母改为大写,其余改为小写。更多...
 
std::unique_ptr< is_title (字符串列视图 const &input, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 检查输入列中的字符串是否为标题格式。更多...
 
std::unique_ptr< to_lower (字符串列视图 const &strings, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 将字符串列转换为小写。更多...
 
std::unique_ptr< to_upper (字符串列视图 const &strings, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 将字符串列转换为大写。更多...
 
std::unique_ptr< swapcase (字符串列视图 const &strings, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 返回将小写字符转换为大写、大写字符转换为小写的字符串列。更多...
 
std::unique_ptr< all_characters_of_type (字符串列视图 const &input, string_character_types types, string_character_types verify_types=string_character_types::ALL_TYPES, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 返回布尔列,用于标识所有字符都属于指定类型的字符串条目。更多...
 
std::unique_ptr< filter_characters_of_type (字符串列视图 const &input, string_character_types types_to_remove, 字符串标量 const &replacement=string_scalar(""), string_character_types types_to_keep=string_character_types::ALL_TYPES, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 从字符串列中过滤特定字符类型。更多...
 
constexpr string_character_types operator| (string_character_types lhs, string_character_types rhs)
 用于组合 string_character_types 的或运算符。更多...
 
constexpr string_character_typesoperator|= (string_character_types &lhs, string_character_types rhs)
 用于组合 string_character_types 的复合赋值或运算符。更多...
 
std::unique_ptr< join_strings (字符串列视图 const &input, 字符串标量 const &separator=string_scalar(""), 字符串标量 const &narep=string_scalar("", false), rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 将列中的所有字符串连接成一个新的字符串,使用可选分隔符分隔。更多...
 
std::unique_ptr< concatenate (表视图 const &strings_columns, 字符串列视图 const &separators, 字符串标量 const &separator_narep=string_scalar("", false), 字符串标量 const &col_narep=string_scalar("", false), separator_on_nulls separate_nulls=separator_on_nulls::YES, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 使用每行的分隔符连接字符串列列表,并将结果作为字符串列返回。更多...
 
std::unique_ptr< concatenate (表视图 const &strings_columns, 字符串标量 const &separator=string_scalar(""), 字符串标量 const &narep=string_scalar("", false), separator_on_nulls separate_nulls=separator_on_nulls::YES, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 按行连接给定的字符串列列表,并返回单个字符串列结果。更多...
 
std::unique_ptr< join_list_elements (列表列视图 const &lists_strings_column, 字符串列视图 const &separators, 字符串标量 const &separator_narep=string_scalar("", false), 字符串标量 const &string_narep=string_scalar("", false), separator_on_nulls separate_nulls=separator_on_nulls::YES, output_if_empty_list empty_list_policy=output_if_empty_list::EMPTY_STRING, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 给定一个字符串列表列(每行是一个字符串列表),连接每行中的字符串,并返回单个字符串列结果。更多...
 
std::unique_ptr< join_list_elements (列表列视图 const &lists_strings_column, 字符串标量 const &separator=string_scalar(""), 字符串标量 const &narep=string_scalar("", false), separator_on_nulls separate_nulls=separator_on_nulls::YES, output_if_empty_list empty_list_policy=output_if_empty_list::EMPTY_STRING, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 给定一个字符串列表列(每行是一个字符串列表),连接每行中的字符串,并返回单个字符串列结果。更多...
 
std::unique_ptr< contains_re (字符串列视图 const &input, regex_program const &prog, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 返回布尔列,用于标识与给定 regex_program 对象匹配的行。更多...
 
std::unique_ptr< matches_re (字符串列视图 const &input, regex_program const &prog, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 返回布尔列,用于标识与给定 regex_program 对象匹配但仅在字符串开头的行。更多...
 
std::unique_ptr< count_re (字符串列视图 const &input, regex_program const &prog, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 返回给定 regex_program 的模式在每个字符串中匹配的次数。更多...
 
std::unique_ptr< like (字符串列视图 const &input, 字符串标量 const &pattern, 字符串标量 const &escape_character=string_scalar(""), rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 返回布尔列,用于标识与给定 like 模式匹配的行。更多...
 
std::unique_ptr< like (字符串列视图 const &input, 字符串列视图 const &patterns, 字符串标量 const &escape_character=string_scalar(""), rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 返回布尔列,用于标识与给定模式集中相应 like 模式匹配的行。更多...
 
std::unique_ptr< to_booleans (字符串列视图 const &input, 字符串标量 const &true_string, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 通过解析给定字符串列中的布尔值,返回新的 BOOL8 列。更多...
 
std::unique_ptr< from_booleans (列视图 const &booleans, 字符串标量 const &true_string, 字符串标量 const &false_string, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 将给定列中的布尔值转换为字符串,返回新的字符串列。更多...
 
std::unique_ptr< to_timestamps (字符串列视图 const &input, data_type timestamp_type, std::string_view format, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 将字符串列转换为时间戳列,使用给定格式模式。更多...
 
std::unique_ptr< is_timestamp (字符串列视图 const &input, std::string_view format, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 验证给定的字符串列是否可以使用给定格式模式解析为时间戳。更多...
 
std::unique_ptr< from_timestamps (列视图 const ×tamps, std::string_view format="%Y-%m-%dT%H:%M:%SZ", strings_column_view const &names=字符串列视图(列视图{ data_type{type_id::STRING}, 0, nullptr, nullptr, 0}), rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 将时间戳列转换为字符串列,使用给定格式模式。更多...
 
std::unique_ptr< to_durations (字符串列视图 const &input, data_type duration_type, std::string_view format, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 将字符串列转换为持续时间列,使用给定格式模式。更多...
 
std::unique_ptr< from_durations (列视图 const &durations, std::string_view format="%D days %H:%M:%S", rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 将持续时间列转换为字符串列,使用给定格式模式。更多...
 
std::unique_ptr< to_fixed_point (字符串列视图 const &input, data_type output_type, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 从给定字符串列解析十进制值,返回新的定点数列。更多...
 
std::unique_ptr< from_fixed_point (列视图 const &input, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 将定点值转换为字符串列,返回新的字符串列。更多...
 
std::unique_ptr< is_fixed_point (字符串列视图 const &input, data_type decimal_type=data_type{type_id::DECIMAL64}, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 返回布尔列,用于标识所有字符对于转换为定点数有效的字符串。更多...
 
std::unique_ptr< to_floats (字符串列视图 const &strings, data_type output_type, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 从给定字符串列中的每个字符串解析浮点值,返回新的数字列。更多...
 
std::unique_ptr< from_floats (列视图 const &floats, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 将给定列中的浮点值转换为字符串,返回新的字符串列。更多...
 
std::unique_ptr< is_float (字符串列视图 const &input, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 返回布尔列,用于标识所有字符对于转换为浮点数有效的字符串。更多...
 
std::unique_ptr< to_integers (字符串列视图 const &input, data_type output_type, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 从给定字符串列解析整数值,返回新的整数数字列。更多...
 
std::unique_ptr< from_integers (列视图 const &integers, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 将给定列中的整数值转换为字符串,返回新的字符串列。更多...
 
std::unique_ptr< is_integer (字符串列视图 const &input, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 返回布尔列,用于标识所有字符对于转换为整数有效的字符串。更多...
 
std::unique_ptr< is_integer (字符串列视图 const &input, data_type int_type, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 返回布尔列,用于标识所有字符对于转换为整数有效的字符串。更多...
 
std::unique_ptr< hex_to_integers (字符串列视图 const &input, data_type output_type, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 从给定字符串列解析十六进制值,返回新的整数数字列。更多...
 
std::unique_ptr< is_hex (字符串列视图 const &input, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 返回布尔列,用于标识所有字符对于从十六进制转换为整数有效的字符串。更多...
 
std::unique_ptr< integers_to_hex (列视图 const &input, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 将整数列转换为十六进制字符,返回新的字符串列。更多...
 
std::unique_ptr< ipv4_to_integers (字符串列视图 const &input, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 将 IPv4 地址转换为整数。更多...
 
std::unique_ptr< integers_to_ipv4 (列视图 const &integers, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 将整数转换为 IPv4 地址(字符串格式)。更多...
 
std::unique_ptr< is_ipv4 (字符串列视图 const &input, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 返回布尔列,用于标识所有字符对于从 IPv4 格式转换为整数有效的字符串。更多...
 
std::unique_ptr< format_list_column (列表列视图 const &input, 字符串标量 const &na_rep=string_scalar(""), 字符串列视图 const &separators=strings_column_view(列视图{ data_type{type_id::STRING}, 0, nullptr, nullptr, 0}), rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 将字符串列表列转换为格式化字符串列。更多...
 
std::unique_ptr< url_encode (字符串列视图 const &input, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 使用 URL 编码对每个字符串进行编码。更多...
 
std::unique_ptr< url_decode (字符串列视图 const &input, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 使用 URL 编码对每个字符串进行解码。更多...
 
std::unique_ptr< extract (字符串列视图 const &input, regex_program const &prog, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 返回一个字符串列表,其中每个列对应于给定的 regex_program 对象中指定的匹配组。更多...
 
std::unique_ptr< extract_all_record (字符串列视图 const &input, regex_program const &prog, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 返回一个字符串列表列,其中每个字符串列行对应于给定的 regex_program 对象中指定的匹配组。更多...
 
std::unique_ptr< find (字符串列视图 const &input, 字符串标量 const &target, size_type start=0, size_type stop=-1, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 返回字符位置值列,其中首次在给定列的每个字符串中找到目标字符串。更多...
 
std::unique_ptr< rfind (字符串列视图 const &input, 字符串标量 const &target, size_type start=0, size_type stop=-1, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 返回字符位置值列,其中首次从每个字符串的末尾开始查找目标字符串。更多...
 
std::unique_ptr< find (字符串列视图 const &input, 字符串列视图 const &target, size_type start=0, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 返回字符位置值列,其中首次在给定列的相应字符串中找到目标字符串。更多...
 
std::unique_ptr< contains (字符串列视图 const &input, 字符串标量 const &target, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 返回布尔值列,其中对于每个字符串,如果目标字符串在给定列的该字符串中找到,则为 true。更多...
 
std::unique_ptr< contains (字符串列视图 const &input, 字符串列视图 const &targets, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 返回布尔值列,其中对于每个字符串,如果相应的目标字符串在给定列的该字符串中找到,则为 true。更多...
 
std::unique_ptr< starts_with (字符串列视图 const &input, 字符串标量 const &target, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 返回布尔值列,其中对于每个字符串,如果目标字符串在该字符串的开头找到,则为 true。更多...
 
std::unique_ptr< starts_with (字符串列视图 const &input, 字符串列视图 const &targets, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 返回布尔值列,其中对于每个字符串,如果目标列中的相应字符串在该字符串的开头找到,则为 true。更多...
 
std::unique_ptr< ends_with (字符串列视图 const &input, 字符串标量 const &target, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 返回布尔值列,其中对于每个字符串,如果目标字符串在该字符串的末尾找到,则为 true。更多...
 
std::unique_ptr< ends_with (字符串列视图 const &input, 字符串列视图 const &targets, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 返回布尔值列,其中对于每个字符串,如果目标列中的相应字符串在该字符串的末尾找到,则为 true。更多...
 
std::unique_ptr< contains_multiple (字符串列视图 const &input, 字符串列视图 const &targets, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::mr::device_memory_resource *内存资源=rmm::mr::get_current_device_resource())
 在给定列的每个字符串中搜索给定目标字符串。更多...
 
std::unique_ptr< find_multiple (字符串列视图 const &input, 字符串列视图 const &targets, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 在给定列的每个字符串中搜索给定目标字符串,并返回找到目标的位置。更多...
 
std::unique_ptr< findall (字符串列视图 const &input, regex_program const &prog, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 返回一个字符串列表列,其中对于每个匹配项,使用每个字符串中的 regex_program 模式进行匹配。更多...
 
std::unique_ptr< find_re (字符串列视图 const &input, regex_program const &prog, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 返回输入列中每行给定模式的第一个匹配项的起始字符索引。更多...
 
std::unique_ptr< pad (字符串列视图 const &input, size_type width, side_type side=side_type::RIGHT, std::string_view fill_char=" ", rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 使用提供的字符为每个字符串添加填充。更多...
 
std::unique_ptr< zfill (字符串列视图 const &input, size_type width, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 在每个字符串的左侧添加 '0' 作为填充。更多...
 
constexpr bool is_multiline (regex_flags const f)
 如果给定标志包含 MULTILINE,则返回 true。更多...
 
constexpr bool is_dotall (regex_flags const f)
 如果给定标志包含 DOTALL,则返回 true。更多...
 
constexpr bool is_ascii (regex_flags const f)
 如果给定标志包含 ASCII,则返回 true。更多...
 
constexpr bool is_ext_newline (regex_flags const f)
 如果给定标志包含 EXT_NEWLINE,则返回 true。更多...
 
std::unique_ptr< 字符串标量repeat_string (字符串标量 const &input, size_type repeat_times, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 将给定的字符串标量重复给定次数。更多...
 
std::unique_ptr< repeat_strings (字符串列视图 const &input, size_type repeat_times, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 将给定字符串列中的每个字符串重复给定次数。更多...
 
std::unique_ptr< repeat_strings (字符串列视图 const &input, 列视图 const &repeat_times, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 根据另一个数字列中给定的次数重复给定字符串列中的每个字符串。更多...
 
std::unique_ptr< replace (字符串列视图 const &input, 字符串标量 const &target, 字符串标量 const &repl, cudf::size_type maxrepl=-1, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 将每个字符串中的目标字符串替换为指定的替换字符串。更多...
 
std::unique_ptr< replace_slice (字符串列视图 const &input, 字符串标量 const &repl=string_scalar(""), size_type start=0, size_type stop=-1, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 此函数将列中的每个字符串在 [start,stop) 字符位置范围内替换为提供的 repl 字符串。更多...
 
std::unique_ptr< replace_multiple (字符串列视图 const &input, 字符串列视图 const &targets, 字符串列视图 const &repls, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 将与目标列表匹配的子字符串替换为相应的替换字符串。更多...
 
std::unique_ptr< replace_re (字符串列视图 const &input, regex_program const &prog, 字符串标量 const &replacement=string_scalar(""), std::optional< size_type > max_replace_count=std::nullopt, rmm::cuda_stream_view 流=cudf::get_default_stream(), rmm::device_async_resource_ref 内存资源=cudf::get_current_device_resource_ref())
 对于每个字符串,用提供的替换字符串替换与给定正则表达式匹配的任何字符序列。 更多...
 
std::unique_ptr< replace_re (strings_column_view const &input, std::vector< std::string > const &patterns, strings_column_view const &replacements, regex_flags const flags=regex_flags::DEFAULT, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 对于每个字符串,用 `replacements` 列中对应的字符串替换与给定模式匹配的任何字符序列。 更多...
 
std::unique_ptr< replace_with_backrefs (strings_column_view const &input, regex_program const &prog, std::string_view replacement, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 对于每个字符串,使用用于反向引用的替换模板替换与给定正则表达式匹配的任何字符序列。 更多...
 
std::unique_ptr< reverse (strings_column_view const &input, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 反转每个字符串中的字符。 更多...
 
std::unique_ptr< slice_strings (strings_column_view const &input, numeric_scalar< size_type > const &start=numeric_scalar< size_type >(0, false), numeric_scalar< size_type > const &stop=numeric_scalar< size_type >(0, false), numeric_scalar< size_type > const &step=numeric_scalar< size_type >(1), rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 返回一个新的字符串列,其中包含所提供列中字符串的子字符串。 更多...
 
std::unique_ptr< slice_strings (strings_column_view const &input, column_view const &starts, column_view const &stops, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 返回一个新的字符串列,其中包含所提供列中字符串的子字符串,为每个字符串使用唯一的范围。 更多...
 
std::unique_ptr< partition (strings_column_view const &input, string_scalar const &delimiter=string_scalar(""), rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 通过使用指定的定界符拆分每个字符串,返回一组 3 列。 更多...
 
std::unique_ptr< rpartition (strings_column_view const &input, string_scalar const &delimiter=string_scalar(""), rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 通过从每个字符串的末尾开始使用指定的定界符拆分每个字符串,返回一组 3 列。 更多...
 
std::unique_ptr< split (strings_column_view const &strings_column, string_scalar const &delimiter=string_scalar(""), size_type maxsplit=-1, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 通过使用指定的定界符拆分每个字符串,返回一个列列表。 更多...
 
std::unique_ptr< rsplit (strings_column_view const &strings_column, string_scalar const &delimiter=string_scalar(""), size_type maxsplit=-1, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 通过从每个字符串的末尾开始使用指定的定界符拆分每个字符串,返回一个列列表。 更多...
 
std::unique_ptr< split_record (strings_column_view const &strings, string_scalar const &delimiter=string_scalar(""), size_type maxsplit=-1, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 将单个字符串元素拆分为一个字符串列表。 更多...
 
std::unique_ptr< rsplit_record (strings_column_view const &strings, string_scalar const &delimiter=string_scalar(""), size_type maxsplit=-1, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 从每个字符串的末尾开始,将单个字符串元素拆分为一个字符串列表。 更多...
 
std::unique_ptr< split_re (strings_column_view const &input, regex_program const &prog, size_type maxsplit=-1, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 使用 regex_program 的模式作为每个字符串的定界符,将字符串元素拆分为字符串列的表。 更多...
 
std::unique_ptr< rsplit_re (strings_column_view const &input, regex_program const &prog, size_type maxsplit=-1, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 使用给定的 regex_program 的模式从字符串末尾开始作为每个字符串的定界符,将字符串元素拆分为字符串列的表。 更多...
 
std::unique_ptr< split_record_re (strings_column_view const &input, regex_program const &prog, size_type maxsplit=-1, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 使用给定的 regex_program 作为每个字符串的定界符,将字符串元素拆分为一个字符串列表列。 更多...
 
std::unique_ptr< rsplit_record_re (strings_column_view const &input, regex_program const &prog, size_type maxsplit=-1, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 使用给定的 regex_program 作为从字符串末尾开始的每个字符串的定界符,将字符串元素拆分为一个字符串列表列。 更多...
 
std::unique_ptr< strip (strings_column_view const &input, side_type side=side_type::BOTH, string_scalar const &to_strip=string_scalar(""), rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 从每个字符串的开头或结尾(或两者)移除指定的字符。 更多...
 
std::unique_ptr< translate (strings_column_view const &input, std::vector< std::pair< char_utf8, char_utf8 >> const &chars_table, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 转换每个字符串中的单个字符。 更多...
 
std::unique_ptr< filter_characters (strings_column_view const &input, std::vector< std::pair< cudf::char_utf8, cudf::char_utf8 >> characters_to_filter, filter_type keep_characters=filter_type::KEEP, string_scalar const &replacement=string_scalar(""), rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 从字符串列中的每个字符串移除字符范围。 更多...
 
rmm::device_uvector< string_viewcreate_string_vector_from_column (cudf::strings_column_view const strings, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 从字符串列创建 string_view 向量。 更多...
 
int64_t get_offset64_threshold ()
 返回字符串列使用 int64 偏移量的阈值大小。 更多...
 
bool is_large_strings_enabled ()
 检查是否启用了大型字符串。 更多...
 
std::unique_ptr< wrap (strings_column_view const &input, size_type width, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 通过将适当的空格替换为换行符(ASCII 0x0A),将字符串换行到短于 `width` 的多行中。 更多...
 

详细描述

字符串列 API。

函数文档

◆ create_string_vector_from_column()

从字符串列创建 string_view 向量。

参数
strings字符串列实例。
stream用于设备内存操作和内核启动的 CUDA 流。
mr用于分配返回的向量的设备内存的设备内存资源。
返回值
string_views 的设备向量

◆ get_offset64_threshold()

int64_t cudf::strings::get_offset64_threshold ( )

返回字符串列使用 int64 偏移量的阈值大小。

计算大小超过此阈值时应使用 int64 偏移量,否则使用 int32 偏移量。默认情况下,此函数将返回 std::numeric_limits<int32_t>::max()。此值可以在运行时通过环境变量 LIBCUDF_LARGE_STRINGS_THRESHOLD 覆盖。

返回值
大小(字节)

◆ is_large_strings_enabled()

bool cudf::strings::is_large_strings_enabled ( )

检查是否启用了大型字符串。

这会检查环境变量 LIBCUDF_LARGE_STRINGS_ENABLED 中的设置。

返回值
如果支持大型字符串,则为 true