文件 | 枚举 | 函数
修改

文件

文件  padding.hpp
 
文件  strings/reverse.hpp
 
文件  side_type.hpp
 
文件  strip.hpp
 
文件  translate.hpp
 
文件  wrap.hpp
 

枚举

枚举类  cudf::strings::side_type { cudf::strings::LEFT , cudf::strings::RIGHT , cudf::strings::BOTH }
 用于 cudf::strings::stripcudf::strings::pad 函数的方向标识符。 更多...
 
枚举类  cudf::strings::filter_type : bool { cudf::strings::KEEP , cudf::strings::REMOVE }
 移除或保留 cudf::strings::filter_characters 中指定的字符范围。 更多...
 

函数

std::unique_ptr< columncudf::strings::pad (strings_column_view const &input, size_type width, side_type side=side_type::RIGHT, std::string_view fill_char=" ", rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 使用提供的字符为每个字符串添加填充。 更多...
 
std::unique_ptr< columncudf::strings::zfill (strings_column_view const &input, size_type width, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 在每个字符串的左侧添加 '0' 作为填充。 更多...
 
std::unique_ptr< columncudf::strings::reverse (strings_column_view const &input, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 反转每个字符串中的字符。 更多...
 
std::unique_ptr< columncudf::strings::strip (strings_column_view const &input, side_type side=side_type::BOTH, string_scalar const &to_strip=string_scalar(""), rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 从每个字符串的开头或结尾(或两者)移除指定字符。 更多...
 
std::unique_ptr< columncudf::strings::translate (strings_column_view const &input, std::vector< std::pair< char_utf8, char_utf8 >> const &chars_table, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 转换每个字符串中的单个字符。 更多...
 
std::unique_ptr< columncudf::strings::filter_characters (strings_column_view const &input, std::vector< std::pair< cudf::char_utf8, cudf::char_utf8 >> characters_to_filter, filter_type keep_characters=filter_type::KEEP, string_scalar const &replacement=string_scalar(""), rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 从字符串列中的每个字符串中移除字符范围。 更多...
 
std::unique_ptr< columncudf::strings::wrap (strings_column_view const &input, size_type width, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 通过将适当的空白字符替换为换行符(ASCII 0x0A),将字符串换行到短于 width 的多行。 更多...
 

详细说明

枚举类型文档

◆ filter_type

enum cudf::strings::filter_type : bool
strong

移除或保留 cudf::strings::filter_characters 中指定的字符范围。

枚举成员
KEEP 

移除除指定字符外的所有字符。

REMOVE 

仅移除指定字符。

定义于文件 translate.hpp 的第 64 行。

◆ side_type

用于 cudf::strings::stripcudf::strings::pad 函数的方向标识符。

枚举成员
LEFT 

从字符串的开头剥离/填充字符

RIGHT 

从字符串的末尾剥离/填充字符

BOTH 

从字符串的开头和结尾剥离/填充字符

定义于文件 side_type.hpp 的第 31 行。

函数文档

◆ filter_characters()

std::unique_ptr<column> cudf::strings::filter_characters ( strings_column_view const &  输入,
std::vector< std::pair< cudf::char_utf8, cudf::char_utf8 >>  要过滤的字符,
filter_type  keep_characters = filter_type::KEEP,
string_scalar const &  replacement = string_scalar(""),
rmm::cuda_stream_view  stream = cudf::get_default_stream(),
rmm::device_async_resource_ref  mr = cudf::get_current_device_resource_ref() 
)

从字符串列中的每个字符串中移除字符范围。

这也可以用于仅保留指定的字符范围,并从每个字符串中移除所有其他字符。

示例
s = ["aeiou", "AEIOU", "0123456789", "bcdOPQ5"]
f = [{'M','Z'}, {'a','l'}, {'4','6'}]
r1 = filter_characters(s, f)
r1 现在是 ["aei", "OU", "456", "bcdOPQ5"]
r2 = filter_characters(s, f, REMOVE)
r2 现在是 ["ou", "AEI", "0123789", ""]
r3 = filter_characters(s, f, KEEP, "*")
r3 现在是 ["aei**", "***OU", "****456***", "bcdOPQ5"]

输入中的空字符串条目在输出列中会产生相应的空条目。

异常
cudf::logic_error如果 replacement 无效
参数
输入用于此操作的 Strings 实例
要过滤的字符要过滤的字符范围表
keep_characters如果为 true,则保留 characters_to_filter 中的字符,并移除所有其他字符
replacement每个移除字符的可选替换字符串
stream用于设备内存操作和内核启动的 CUDA 流
mr用于分配返回列设备内存的设备内存资源
返回
包含过滤后字符串的新列

◆ pad()

std::unique_ptr<column> cudf::strings::pad ( strings_column_view const &  输入,
size_type  width,
side_type  side = side_type::RIGHT,
std::string_view  fill_char = " ",
rmm::cuda_stream_view  stream = cudf::get_default_stream(),
rmm::device_async_resource_ref  mr = cudf::get_current_device_resource_ref() 
)

使用提供的字符为每个字符串添加填充。

如果字符串的字符数已达到或超过 width,则不执行填充。此外,也不会截断任何字符串。

输入中的空字符串条目在输出列中会产生相应的空条目。

示例
s = ['aa','bbb','cccc','ddddd']
r = pad(s,4)
r 现在是 ['aa ','bbb ','cccc','ddddd']
参数
输入用于此操作的 Strings 实例
width每个字符串的最小字符数
side填充字符放置的位置;默认是右侧填充(左对齐)
fill_char用于填充的单个 UTF-8 字符;默认是空格字符
stream用于设备内存操作和内核启动的 CUDA 流
mr用于分配返回列设备内存的设备内存资源
返回
包含填充后字符串的新列

◆ reverse()

std::unique_ptr<column> cudf::strings::reverse ( strings_column_view const &  输入,
rmm::cuda_stream_view  stream = cudf::get_default_stream(),
rmm::device_async_resource_ref  mr = cudf::get_current_device_resource_ref() 
)

反转每个字符串中的字符。

任何空字符串条目都会在输出列中返回相应的空条目。

示例
s = ["abcdef", "12345", "", "A"]
r = reverse(s)
r 现在是 ["fedcba", "54321", "", "A"]
参数
输入用于此操作的字符串列
mr用于分配返回列设备内存的设备内存资源
stream用于设备内存操作和内核启动的 CUDA 流
返回
新的字符串列

◆ strip()

std::unique_ptr<column> cudf::strings::strip ( strings_column_view const &  输入,
side_type  side = side_type::BOTH,
string_scalar const &  to_strip = string_scalar(""),
rmm::cuda_stream_view  stream = cudf::get_default_stream(),
rmm::device_async_resource_ref  mr = cudf::get_current_device_resource_ref() 
)

从每个字符串的开头或结尾(或两者)移除指定字符。

to_strip 参数可以包含一个或多个字符。to_strip 中的所有字符都会从输入字符串中移除。

如果 to_strip 是空字符串,则会移除空白字符。空白字符包括空格以及制表符和换行符等控制字符。

任何空字符串条目都会在输出列中返回相应的空条目。

示例
s = [" aaa ", "_bbbb ", "__cccc ", "ddd", " ee _ff gg_"]
r = strip(s,both," _")
r 现在是 ["aaa", "bbbb", "cccc", "ddd", "ee _ff gg"]
异常
cudf::logic_error如果 to_strip 无效。
参数
输入用于此操作的字符串列
side指示要从每个字符串的开头、结尾或两者中剥离字符;默认是两者
to_strip要从每个字符串中剥离的 UTF-8 编码字符;默认是空字符串,表示剥离空白字符
stream用于设备内存操作和内核启动的 CUDA 流
mr用于分配返回列设备内存的设备内存资源。
返回
新的字符串列。

◆ translate()

std::unique_ptr<column> cudf::strings::translate ( strings_column_view const &  输入,
std::vector< std::pair< char_utf8, char_utf8 >> const &  字符映射表,
rmm::cuda_stream_view  stream = cudf::get_default_stream(),
rmm::device_async_resource_ref  mr = cudf::get_current_device_resource_ref() 
)

转换每个字符串中的单个字符。

这也可以通过为相应的表条目指定 0 来移除字符。

输入中的空字符串条目在输出列中会产生相应的空条目。

示例
s = ["aa","bbb","cccc","abcd"]
t = [['a','A'],['b',''],['d':'Q']]
r = translate(s,t)
r 现在是 ["AA", "", "cccc", "AcQ"]
参数
输入用于此操作的 Strings 实例
字符映射表UTF-8 字符映射表
stream用于设备内存操作和内核启动的 CUDA 流
mr用于分配返回列设备内存的设备内存资源
返回
包含填充后字符串的新列

◆ wrap()

std::unique_ptr<column> cudf::strings::wrap ( strings_column_view const &  输入,
size_type  width,
rmm::cuda_stream_view  stream = cudf::get_default_stream(),
rmm::device_async_resource_ref  mr = cudf::get_current_device_resource_ref() 
)

通过将适当的空白字符替换为换行符(ASCII 0x0A),将字符串换行到短于 width 的多行。

对于输入列中每个长度超过 width 的字符串行,相应的输出字符串行将插入换行符,以确保每行不超过 width 个字符。尝试使用现有的空白位置来分割字符串,但在必要时也可能分割非空白序列。

任何空字符串条目都会在输出列中返回相应的空条目。

示例 1

width = 3
input_string_tbl = [ "12345", "thesé", nullptr, "ARE THE", "tést strings", "" ];
wrapped_string_tbl = wrap(input_string_tbl, width)
wrapped_string_tbl 现在是 [ "12345", "thesé", nullptr, "ARE\nTHE", "tést\nstrings", "" ]
std::unique_ptr< column > wrap(strings_column_view const &input, size_type width, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
通过将适当的空白字符替换为换行符,将字符串换行到短于 width 的多行...

示例 2

width = 12;
input_string_tbl = ["the quick brown fox jumped over the lazy brown dog", "hello, world"]
wrapped_string_tbl = wrap(input_string_tbl, width)
wrapped_string_tbl 现在是 ["the quick\nbrown fox\njumped over\nthe lazy\nbrown dog", "hello, world"]
参数
输入字符串列
width每个字符串中行的最大字符宽度
stream用于设备内存操作和内核启动的 CUDA 流
mr用于分配返回列设备内存的设备内存资源
返回
换行后字符串的列

◆ zfill()

std::unique_ptr<column> cudf::strings::zfill ( strings_column_view const &  输入,
size_type  width,
rmm::cuda_stream_view  stream = cudf::get_default_stream(),
rmm::device_async_resource_ref  mr = cudf::get_current_device_resource_ref() 
)

在每个字符串的左侧添加 '0' 作为填充。

这相当于 ‘pad(width,left,'0’)`,但如果符号字符出现在第一个位置,则会保留该符号字符。

如果字符串的字符数已达到或超过 width,则不执行填充。不截断任何字符串。

输入中的空行会在输出列中产生相应的空行。

示例
s = ['1234','-9876','+0.34','-342567', '2+2']
r = zfill(s,6)
r 现在是 ['001234','-09876','+00.34','-342567', '0002+2']
参数
输入用于此操作的 Strings 实例
width每个字符串的最小字符数
stream用于设备内存操作和内核启动的 CUDA 流
mr用于分配返回列设备内存的设备内存资源
返回
新的字符串列