normalize#

pylibcudf.nvtext.normalize.characters_normalize(Column input, bool do_lower_case) Column#

对字符串字符进行归一化以便进行分词。

详情请参阅 normalize_characters()

参数:
inputColumn

输入字符串

do_lower_casebool

如果为 true,则将大写字符转换为小写,并去除这些字符的重音符号。如果为 false,则重音符号和大写字符不会被转换。

返回:
Column

归一化后的字符串列

pylibcudf.nvtext.normalize.normalize_spaces(Column input) Column#

通过对输入列中每个字符串的空白字符进行归一化,返回一个新的字符串列。

详情请参阅 normalize_spaces()

参数:
inputColumn

输入字符串

返回:
Column

归一化字符串的新字符串列。