ngrams_tokenize#

pylibcudf.nvtext.ngrams_tokenize.ngrams_tokenize(Column input, size_type ngrams, Scalar delimiter, Scalar separator) Column#

通过对输入的字符串列进行分词,然后生成每个字符串的 N 元语法,返回一个包含字符串的列。

详情请参阅 ngrams_tokenize()

参数:
inputColumn

输入的字符串

ngramssize_type

要生成的 N 元语法数量

delimiterScalar

用于将每个字符串分割成词元的 UTF-8 字符。空字符串将使用空白字符分割词元。

separatorScalar

用于分隔 N 元语法词元的字符串

返回:
Column

包含词元的新字符串列