ngrams_tokenize#

pylibcudf.nvtext.ngrams_tokenize.ngrams_tokenize(Column input, size_type ngrams, Scalar delimiter, Scalar separator) → Column#

通过对输入的字符串列进行分词，然后生成每个字符串的 N 元语法，返回一个包含字符串的列。

详情请参阅 ngrams_tokenize()

参数:

inputColumn: 输入的字符串
ngramssize_type: 要生成的 N 元语法数量
delimiterScalar: 用于将每个字符串分割成词元的 UTF-8 字符。空字符串将使用空白字符分割词元。
separatorScalar: 用于分隔 N 元语法词元的字符串

返回:

Column: 包含词元的新字符串列