文件 | |
文件 | padding.hpp |
文件 | strings/reverse.hpp |
文件 | side_type.hpp |
文件 | strip.hpp |
文件 | translate.hpp |
文件 | wrap.hpp |
枚举 | |
枚举类 | cudf::strings::side_type { cudf::strings::LEFT , cudf::strings::RIGHT , cudf::strings::BOTH } |
用于 cudf::strings::strip 和 cudf::strings::pad 函数的方向标识符。 更多... | |
枚举类 | cudf::strings::filter_type : bool { cudf::strings::KEEP , cudf::strings::REMOVE } |
移除或保留 cudf::strings::filter_characters 中指定的字符范围。 更多... | |
|
strong |
移除或保留 cudf::strings::filter_characters 中指定的字符范围。
枚举成员 | |
---|---|
KEEP | 移除除指定字符外的所有字符。 |
REMOVE | 仅移除指定字符。 |
定义于文件 translate.hpp 的第 64 行。
|
strong |
用于 cudf::strings::strip 和 cudf::strings::pad 函数的方向标识符。
枚举成员 | |
---|---|
LEFT | 从字符串的开头剥离/填充字符 |
RIGHT | 从字符串的末尾剥离/填充字符 |
BOTH | 从字符串的开头和结尾剥离/填充字符 |
定义于文件 side_type.hpp 的第 31 行。
std::unique_ptr<column> cudf::strings::filter_characters | ( | strings_column_view const & | 输入, |
std::vector< std::pair< cudf::char_utf8, cudf::char_utf8 >> | 要过滤的字符, | ||
filter_type | keep_characters = filter_type::KEEP , |
||
string_scalar const & | replacement = string_scalar("") , |
||
rmm::cuda_stream_view | stream = cudf::get_default_stream() , |
||
rmm::device_async_resource_ref | mr = cudf::get_current_device_resource_ref() |
||
) |
从字符串列中的每个字符串中移除字符范围。
这也可以用于仅保留指定的字符范围,并从每个字符串中移除所有其他字符。
输入中的空字符串条目在输出列中会产生相应的空条目。
cudf::logic_error | 如果 replacement 无效 |
输入 | 用于此操作的 Strings 实例 |
要过滤的字符 | 要过滤的字符范围表 |
keep_characters | 如果为 true,则保留 characters_to_filter 中的字符,并移除所有其他字符 |
replacement | 每个移除字符的可选替换字符串 |
stream | 用于设备内存操作和内核启动的 CUDA 流 |
mr | 用于分配返回列设备内存的设备内存资源 |
std::unique_ptr<column> cudf::strings::pad | ( | strings_column_view const & | 输入, |
size_type | width, | ||
side_type | side = side_type::RIGHT , |
||
std::string_view | fill_char = " " , |
||
rmm::cuda_stream_view | stream = cudf::get_default_stream() , |
||
rmm::device_async_resource_ref | mr = cudf::get_current_device_resource_ref() |
||
) |
使用提供的字符为每个字符串添加填充。
如果字符串的字符数已达到或超过 width
,则不执行填充。此外,也不会截断任何字符串。
输入中的空字符串条目在输出列中会产生相应的空条目。
输入 | 用于此操作的 Strings 实例 |
width | 每个字符串的最小字符数 |
side | 填充字符放置的位置;默认是右侧填充(左对齐) |
fill_char | 用于填充的单个 UTF-8 字符;默认是空格字符 |
stream | 用于设备内存操作和内核启动的 CUDA 流 |
mr | 用于分配返回列设备内存的设备内存资源 |
std::unique_ptr<column> cudf::strings::reverse | ( | strings_column_view const & | 输入, |
rmm::cuda_stream_view | stream = cudf::get_default_stream() , |
||
rmm::device_async_resource_ref | mr = cudf::get_current_device_resource_ref() |
||
) |
反转每个字符串中的字符。
任何空字符串条目都会在输出列中返回相应的空条目。
输入 | 用于此操作的字符串列 |
mr | 用于分配返回列设备内存的设备内存资源 |
stream | 用于设备内存操作和内核启动的 CUDA 流 |
std::unique_ptr<column> cudf::strings::strip | ( | strings_column_view const & | 输入, |
side_type | side = side_type::BOTH , |
||
string_scalar const & | to_strip = string_scalar("") , |
||
rmm::cuda_stream_view | stream = cudf::get_default_stream() , |
||
rmm::device_async_resource_ref | mr = cudf::get_current_device_resource_ref() |
||
) |
从每个字符串的开头或结尾(或两者)移除指定字符。
to_strip
参数可以包含一个或多个字符。to_strip
中的所有字符都会从输入字符串中移除。
如果 to_strip
是空字符串,则会移除空白字符。空白字符包括空格以及制表符和换行符等控制字符。
任何空字符串条目都会在输出列中返回相应的空条目。
cudf::logic_error | 如果 to_strip 无效。 |
输入 | 用于此操作的字符串列 |
side | 指示要从每个字符串的开头、结尾或两者中剥离字符;默认是两者 |
to_strip | 要从每个字符串中剥离的 UTF-8 编码字符;默认是空字符串,表示剥离空白字符 |
stream | 用于设备内存操作和内核启动的 CUDA 流 |
mr | 用于分配返回列设备内存的设备内存资源。 |
std::unique_ptr<column> cudf::strings::translate | ( | strings_column_view const & | 输入, |
std::vector< std::pair< char_utf8, char_utf8 >> const & | 字符映射表, | ||
rmm::cuda_stream_view | stream = cudf::get_default_stream() , |
||
rmm::device_async_resource_ref | mr = cudf::get_current_device_resource_ref() |
||
) |
转换每个字符串中的单个字符。
这也可以通过为相应的表条目指定 0 来移除字符。
输入中的空字符串条目在输出列中会产生相应的空条目。
输入 | 用于此操作的 Strings 实例 |
字符映射表 | UTF-8 字符映射表 |
stream | 用于设备内存操作和内核启动的 CUDA 流 |
mr | 用于分配返回列设备内存的设备内存资源 |
std::unique_ptr<column> cudf::strings::wrap | ( | strings_column_view const & | 输入, |
size_type | width, | ||
rmm::cuda_stream_view | stream = cudf::get_default_stream() , |
||
rmm::device_async_resource_ref | mr = cudf::get_current_device_resource_ref() |
||
) |
通过将适当的空白字符替换为换行符(ASCII 0x0A),将字符串换行到短于 width
的多行。
对于输入列中每个长度超过 width
的字符串行,相应的输出字符串行将插入换行符,以确保每行不超过 width
个字符。尝试使用现有的空白位置来分割字符串,但在必要时也可能分割非空白序列。
任何空字符串条目都会在输出列中返回相应的空条目。
示例 1
示例 2
输入 | 字符串列 |
width | 每个字符串中行的最大字符宽度 |
stream | 用于设备内存操作和内核启动的 CUDA 流 |
mr | 用于分配返回列设备内存的设备内存资源 |
std::unique_ptr<column> cudf::strings::zfill | ( | strings_column_view const & | 输入, |
size_type | width, | ||
rmm::cuda_stream_view | stream = cudf::get_default_stream() , |
||
rmm::device_async_resource_ref | mr = cudf::get_current_device_resource_ref() |
||
) |
在每个字符串的左侧添加 '0' 作为填充。
这相当于 ‘pad(width,left,'0’)`,但如果符号字符出现在第一个位置,则会保留该符号字符。
如果字符串的字符数已达到或超过 width,则不执行填充。不截断任何字符串。
输入中的空行会在输出列中产生相应的空行。
输入 | 用于此操作的 Strings 实例 |
width | 每个字符串的最小字符数 |
stream | 用于设备内存操作和内核启动的 CUDA 流 |
mr | 用于分配返回列设备内存的设备内存资源 |