Unicode 限制#

字符串列目前内部仅支持 UTF-8 字符。对于需要字符测试(例如 cudf::strings::all_characters_of_type())或大小写转换(例如 cudf::strings::capitalize() 等)的函数,仅支持 16 位 Unicode 13.0 字符码点 (0-65535) 值。不支持对码点 65535 以上的字符进行大小写转换和字符测试。

不支持依赖上下文的大小写转换。此外,导致多个字符的大小写转换是不可逆的。也就是说,相邻的单个字符不会被转换为一个字符。例如,将字符 ß 转换为大写会得到字符“SS”。但将“SS”转换为小写会生成“ss”。

字符串大小写和类型 API

  • cudf::strings::all_characters_of_type()

  • cudf::strings::to_upper()

  • cudf::strings::to_lower()

  • cudf::strings::capitalize()

  • cudf::strings::title()

  • cudf::strings::swapcase()

此外,使用包含速记字符类 \d \D \w \W \s \S 的正则表达式模式将只包含码点在 (0-65535) 之间的适当字符。