字符串 API#

group Strings

函数

std::unique_ptr<column> count_characters(strings_column_view const &input, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

返回一个包含给定列中每个字符串字符长度的列。

输出列将具有与指定的字符串列相同的行数。每行值将是相应字符串中的字符数。

任何空字符串将导致输出列中该行的条目为空。

参数:
  • input – 用于此操作的字符串实例

  • stream – 用于设备内存操作和内核启动的 CUDA 流

  • mr – 用于分配返回列的设备内存的设备内存资源

返回:

包含每个字符串长度的新列

std::unique_ptr<column> count_bytes(strings_column_view const &input, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

返回一个包含给定列中每个字符串字节长度的列。

输出列将具有与指定的字符串列相同的行数。每行值将是相应字符串中的字节数。

任何空字符串将导致输出列中该行的条目为空。

参数:
  • input – 用于此操作的字符串实例

  • stream – 用于设备内存操作和内核启动的 CUDA 流

  • mr – 用于分配返回列的设备内存的设备内存资源

返回:

包含每个字符串字节数的新列

std::unique_ptr<column> code_points(strings_column_view const &input, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

创建一个数值列,其中包含每个字符串中每个字符的码点值(整数)。

码点是字符的整数值表示。例如,字符‘A’在 UTF-8 中的码点值是 65。

输出列的大小将是字符串列中字符的总数。

任何空字符串都将被忽略。输出列中不会出现空条目。

参数:
  • input – 用于此操作的字符串实例

  • stream – 用于设备内存操作和内核启动的 CUDA 流

  • mr – 用于分配返回列的设备内存的设备内存资源

返回:

包含每个字符码点整数值的新 INT32 列

目录