ngrams_tokenize#
- pylibcudf.nvtext.ngrams_tokenize.ngrams_tokenize(Column input, size_type ngrams, Scalar delimiter, Scalar separator) Column #
通过对输入的字符串列进行分词,然后生成每个字符串的 N 元语法,返回一个包含字符串的列。
详情请参阅
ngrams_tokenize()
- 参数:
- inputColumn
输入的字符串
- ngramssize_type
要生成的 N 元语法数量
- delimiterScalar
用于将每个字符串分割成词元的 UTF-8 字符。空字符串将使用空白字符分割词元。
- separatorScalar
用于分隔 N 元语法词元的字符串
- 返回:
- Column
包含词元的新字符串列