字符串 API#
- group Strings
函数
-
std::unique_ptr<column> count_characters(strings_column_view const &input, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#
返回一个包含给定列中每个字符串字符长度的列。
输出列将具有与指定的字符串列相同的行数。每行值将是相应字符串中的字符数。
任何空字符串将导致输出列中该行的条目为空。
- 参数:
input – 用于此操作的字符串实例
stream – 用于设备内存操作和内核启动的 CUDA 流
mr – 用于分配返回列的设备内存的设备内存资源
- 返回:
包含每个字符串长度的新列
-
std::unique_ptr<column> count_bytes(strings_column_view const &input, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#
返回一个包含给定列中每个字符串字节长度的列。
输出列将具有与指定的字符串列相同的行数。每行值将是相应字符串中的字节数。
任何空字符串将导致输出列中该行的条目为空。
- 参数:
input – 用于此操作的字符串实例
stream – 用于设备内存操作和内核启动的 CUDA 流
mr – 用于分配返回列的设备内存的设备内存资源
- 返回:
包含每个字符串字节数的新列
-
std::unique_ptr<column> code_points(strings_column_view const &input, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#
创建一个数值列,其中包含每个字符串中每个字符的码点值(整数)。
码点是字符的整数值表示。例如,字符‘A’在 UTF-8 中的码点值是 65。
输出列的大小将是字符串列中字符的总数。
任何空字符串都将被忽略。输出列中不会出现空条目。
- 参数:
input – 用于此操作的字符串实例
stream – 用于设备内存操作和内核启动的 CUDA 流
mr – 用于分配返回列的设备内存的设备内存资源
- 返回:
包含每个字符码点整数值的新 INT32 列
-
std::unique_ptr<column> count_characters(strings_column_view const &input, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#
目录
- 字符串大小写
- 字符串类型
- 字符串组合
- 字符串包含
- 字符串转换
to_booleans()
from_booleans()
to_timestamps()
is_timestamp()
from_timestamps()
to_durations()
from_durations()
to_fixed_point()
from_fixed_point()
is_fixed_point()
to_floats()
from_floats()
is_float()
to_integers()
from_integers()
is_integer()
is_integer()
hex_to_integers()
is_hex()
integers_to_hex()
ipv4_to_integers()
integers_to_ipv4()
is_ipv4()
format_list_column()
url_encode()
url_decode()
- 字符串复制
- 字符串切片
- 字符串查找
- 字符串修改
- 字符串替换
- 字符串拆分
- 字符串提取
- 字符串正则