字符串大小写#

Case

函数

std::unique_ptr<column> capitalize(strings_column_view const &input, string_scalar const &delimiters = string_scalar("", true, cudf::get_default_stream()), rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

返回一个字符串首字母大写的列。

如果 delimiters 是空字符串,则只将每行的第一个字符大写。否则,在找到任何分隔符字符后,会将紧随其后的非分隔符字符大写。

Example:
input = ["tesT1", "a Test", "Another Test", "a\tb"];
output = capitalize(input)
output is ["Test1", "A test", "Another test", "A\tb"]
output = capitalize(input, " ")
output is ["Test1", "A Test", "Another Test", "A\tb"]
output = capitalize(input, " \t")
output is ["Test1", "A Test", "Another Test", "A\tB"]

任何空字符串条目将返回相应的输出列空条目。

抛出:

cudf::logic_error – 如果 delimiter.is_valid()false

参数:
  • input – 字符串列

  • delimiters – 用于标识要大写的单词的字符

  • stream – 用于设备内存操作和内核启动的 CUDA 流

  • mr – 用于分配返回列的设备内存的设备内存资源

返回:

从输入列中首字母大写的字符串列

std::unique_ptr<column> title(strings_column_view const &input, string_character_types sequence_type = string_character_types::ALPHA, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

将每个单词的第一个字符转换为大写,其余字符转换为小写。

此处的一个单词是指由非 sequence_type 字符集中的任何字符分隔的 sequence_type 字符序列。

此函数返回一个字符串列,其中对于输入中的每个字符串行,每个单词的第一个字符转换为大写,而单词中的所有其余字符转换为小写。

Example:
input = ["   teST1", "a Test", " Another test ", "n2vidia"];
output = title(input)
output is ["   Test1", "A Test", " Another Test ", "N2Vidia"]
output = title(input,ALPHANUM)
output is ["   Test1", "A Test", " Another Test ", "N2vidia"]

任何空字符串条目将返回相应的输出列空条目。

参数:
  • input – 字符串列

  • sequence_type – 用于标识单词的字符类型

  • stream – 用于设备内存操作和内核启动的 CUDA 流

  • mr – 用于分配返回列的设备内存的设备内存资源

返回:

标题格式的字符串列

std::unique_ptr<column> is_title(strings_column_view const &input, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

检查输入列中的字符串是否为标题格式。

每个单词的第一个字符应为大写,而所有其他字符应为小写。一个单词是一系列大写和小写字符。

此函数返回一个布尔值列,如果输入行中的字符串是标题格式,则为 true,否则为 false。

Example:
input = ["   Test1", "A Test", " Another test ", "N2Vidia Corp", "!Abc"];
output = is_title(input)
output is [true, true, false, true, true]

任何空字符串条目都会导致相应的输出列中出现空条目。

参数:
  • input – 字符串列

  • stream – 用于设备内存操作和内核启动的 CUDA 流

  • mr – 用于分配返回列的设备内存的设备内存资源

返回:

类型为 BOOL8 的列

std::unique_ptr<column> to_lower(strings_column_view const &strings, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

将字符串列转换为小写。

只转换大写字母字符。所有其他字符都将被复制。大小写转换可能导致字符串的字节长度比原始字符串更长或更短。

任何空条目都会在输出列中创建空条目。

参数:
  • strings – 此操作的字符串实例。

  • stream – 用于设备内存操作和内核启动的 CUDA 流

  • mr – 用于分配返回列的设备内存的设备内存资源。

返回:

字符转换后的新字符串列。

std::unique_ptr<column> to_upper(strings_column_view const &strings, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

将字符串列转换为大写。

只转换小写字母字符。所有其他字符都将被复制。大小写转换可能导致字符串的字节长度比原始字符串更长或更短。

任何空条目都会在输出列中创建空条目。

参数:
  • strings – 此操作的字符串实例。

  • stream – 用于设备内存操作和内核启动的 CUDA 流

  • mr – 用于分配返回列的设备内存的设备内存资源。

返回:

字符转换后的新字符串列。

std::unique_ptr<column> swapcase(strings_column_view const &strings, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

返回一个字符串列,将小写字符转换为大写,反之亦然。

只转换大写或小写字母字符。所有其他字符都将被复制。大小写转换可能导致字符串的字节长度比原始字符串更长或更短。

任何空条目都会在输出列中创建空条目。

参数:
  • strings – 此操作的字符串实例。

  • stream – 用于设备内存操作和内核启动的 CUDA 流

  • mr – 用于分配返回列的设备内存的设备内存资源。

返回:

字符转换后的新字符串列。