Unicode 限制#
字符串列目前内部仅支持 UTF-8 字符。对于需要字符测试(例如 cudf::strings::all_characters_of_type())或大小写转换(例如 cudf::strings::capitalize() 等)的函数,仅支持 16 位 Unicode 13.0 字符码点 (0-65535) 值。不支持对码点 65535 以上的字符进行大小写转换和字符测试。
不支持依赖上下文的大小写转换。此外,导致多个字符的大小写转换是不可逆的。也就是说,相邻的单个字符不会被转换为一个字符。例如,将字符 ß 转换为大写会得到字符“SS”。但将“SS”转换为小写会生成“ss”。
字符串大小写和类型 API
cudf::strings::all_characters_of_type()
cudf::strings::to_upper()
cudf::strings::to_lower()
cudf::strings::capitalize()
cudf::strings::title()
cudf::strings::swapcase()
此外,使用包含速记字符类 \d \D \w \W \s \S
的正则表达式模式将只包含码点在 (0-65535) 之间的适当字符。