文件 | |
| 文件 | padding.hpp |
| 文件 | strings/reverse.hpp |
| 文件 | side_type.hpp |
| 文件 | strip.hpp |
| 文件 | translate.hpp |
| 文件 | wrap.hpp |
枚举 | |
| 枚举类 | cudf::strings::side_type { cudf::strings::LEFT , cudf::strings::RIGHT , cudf::strings::BOTH } |
| 用于 cudf::strings::strip 和 cudf::strings::pad 函数的方向标识符。 更多... | |
| 枚举类 | cudf::strings::filter_type : bool { cudf::strings::KEEP , cudf::strings::REMOVE } |
| 移除或保留 cudf::strings::filter_characters 中指定的字符范围。 更多... | |
|
strong |
移除或保留 cudf::strings::filter_characters 中指定的字符范围。
| 枚举成员 | |
|---|---|
| KEEP | 移除除指定字符外的所有字符。 |
| REMOVE | 仅移除指定字符。 |
定义于文件 translate.hpp 的第 64 行。
|
strong |
用于 cudf::strings::strip 和 cudf::strings::pad 函数的方向标识符。
| 枚举成员 | |
|---|---|
| LEFT | 从字符串的开头剥离/填充字符 |
| RIGHT | 从字符串的末尾剥离/填充字符 |
| BOTH | 从字符串的开头和结尾剥离/填充字符 |
定义于文件 side_type.hpp 的第 31 行。
| std::unique_ptr<column> cudf::strings::filter_characters | ( | strings_column_view const & | 输入, |
| std::vector< std::pair< cudf::char_utf8, cudf::char_utf8 >> | 要过滤的字符, | ||
| filter_type | keep_characters = filter_type::KEEP, |
||
| string_scalar const & | replacement = string_scalar(""), |
||
| rmm::cuda_stream_view | stream = cudf::get_default_stream(), |
||
| rmm::device_async_resource_ref | mr = cudf::get_current_device_resource_ref() |
||
| ) |
从字符串列中的每个字符串中移除字符范围。
这也可以用于仅保留指定的字符范围,并从每个字符串中移除所有其他字符。
输入中的空字符串条目在输出列中会产生相应的空条目。
| cudf::logic_error | 如果 replacement 无效 |
| 输入 | 用于此操作的 Strings 实例 |
| 要过滤的字符 | 要过滤的字符范围表 |
| keep_characters | 如果为 true,则保留 characters_to_filter 中的字符,并移除所有其他字符 |
| replacement | 每个移除字符的可选替换字符串 |
| stream | 用于设备内存操作和内核启动的 CUDA 流 |
| mr | 用于分配返回列设备内存的设备内存资源 |
| std::unique_ptr<column> cudf::strings::pad | ( | strings_column_view const & | 输入, |
| size_type | width, | ||
| side_type | side = side_type::RIGHT, |
||
| std::string_view | fill_char = " ", |
||
| rmm::cuda_stream_view | stream = cudf::get_default_stream(), |
||
| rmm::device_async_resource_ref | mr = cudf::get_current_device_resource_ref() |
||
| ) |
使用提供的字符为每个字符串添加填充。
如果字符串的字符数已达到或超过 width,则不执行填充。此外,也不会截断任何字符串。
输入中的空字符串条目在输出列中会产生相应的空条目。
| 输入 | 用于此操作的 Strings 实例 |
| width | 每个字符串的最小字符数 |
| side | 填充字符放置的位置;默认是右侧填充(左对齐) |
| fill_char | 用于填充的单个 UTF-8 字符;默认是空格字符 |
| stream | 用于设备内存操作和内核启动的 CUDA 流 |
| mr | 用于分配返回列设备内存的设备内存资源 |
| std::unique_ptr<column> cudf::strings::reverse | ( | strings_column_view const & | 输入, |
| rmm::cuda_stream_view | stream = cudf::get_default_stream(), |
||
| rmm::device_async_resource_ref | mr = cudf::get_current_device_resource_ref() |
||
| ) |
反转每个字符串中的字符。
任何空字符串条目都会在输出列中返回相应的空条目。
| 输入 | 用于此操作的字符串列 |
| mr | 用于分配返回列设备内存的设备内存资源 |
| stream | 用于设备内存操作和内核启动的 CUDA 流 |
| std::unique_ptr<column> cudf::strings::strip | ( | strings_column_view const & | 输入, |
| side_type | side = side_type::BOTH, |
||
| string_scalar const & | to_strip = string_scalar(""), |
||
| rmm::cuda_stream_view | stream = cudf::get_default_stream(), |
||
| rmm::device_async_resource_ref | mr = cudf::get_current_device_resource_ref() |
||
| ) |
从每个字符串的开头或结尾(或两者)移除指定字符。
to_strip 参数可以包含一个或多个字符。to_strip 中的所有字符都会从输入字符串中移除。
如果 to_strip 是空字符串,则会移除空白字符。空白字符包括空格以及制表符和换行符等控制字符。
任何空字符串条目都会在输出列中返回相应的空条目。
| cudf::logic_error | 如果 to_strip 无效。 |
| 输入 | 用于此操作的字符串列 |
| side | 指示要从每个字符串的开头、结尾或两者中剥离字符;默认是两者 |
| to_strip | 要从每个字符串中剥离的 UTF-8 编码字符;默认是空字符串,表示剥离空白字符 |
| stream | 用于设备内存操作和内核启动的 CUDA 流 |
| mr | 用于分配返回列设备内存的设备内存资源。 |
| std::unique_ptr<column> cudf::strings::translate | ( | strings_column_view const & | 输入, |
| std::vector< std::pair< char_utf8, char_utf8 >> const & | 字符映射表, | ||
| rmm::cuda_stream_view | stream = cudf::get_default_stream(), |
||
| rmm::device_async_resource_ref | mr = cudf::get_current_device_resource_ref() |
||
| ) |
转换每个字符串中的单个字符。
这也可以通过为相应的表条目指定 0 来移除字符。
输入中的空字符串条目在输出列中会产生相应的空条目。
| 输入 | 用于此操作的 Strings 实例 |
| 字符映射表 | UTF-8 字符映射表 |
| stream | 用于设备内存操作和内核启动的 CUDA 流 |
| mr | 用于分配返回列设备内存的设备内存资源 |
| std::unique_ptr<column> cudf::strings::wrap | ( | strings_column_view const & | 输入, |
| size_type | width, | ||
| rmm::cuda_stream_view | stream = cudf::get_default_stream(), |
||
| rmm::device_async_resource_ref | mr = cudf::get_current_device_resource_ref() |
||
| ) |
通过将适当的空白字符替换为换行符(ASCII 0x0A),将字符串换行到短于 width 的多行。
对于输入列中每个长度超过 width 的字符串行,相应的输出字符串行将插入换行符,以确保每行不超过 width 个字符。尝试使用现有的空白位置来分割字符串,但在必要时也可能分割非空白序列。
任何空字符串条目都会在输出列中返回相应的空条目。
示例 1
示例 2
| 输入 | 字符串列 |
| width | 每个字符串中行的最大字符宽度 |
| stream | 用于设备内存操作和内核启动的 CUDA 流 |
| mr | 用于分配返回列设备内存的设备内存资源 |
| std::unique_ptr<column> cudf::strings::zfill | ( | strings_column_view const & | 输入, |
| size_type | width, | ||
| rmm::cuda_stream_view | stream = cudf::get_default_stream(), |
||
| rmm::device_async_resource_ref | mr = cudf::get_current_device_resource_ref() |
||
| ) |
在每个字符串的左侧添加 '0' 作为填充。
这相当于 ‘pad(width,left,'0’)`,但如果符号字符出现在第一个位置,则会保留该符号字符。
如果字符串的字符数已达到或超过 width,则不执行填充。不截断任何字符串。
输入中的空行会在输出列中产生相应的空行。
| 输入 | 用于此操作的 Strings 实例 |
| width | 每个字符串的最小字符数 |
| stream | 用于设备内存操作和内核启动的 CUDA 流 |
| mr | 用于分配返回列设备内存的设备内存资源 |