分词#

class pylibcudf.nvtext.tokenize.TokenizeVocabulary#

与 tokenize_with_vocabulary 一起使用的词汇表对象。

详情请参阅 cudf::nvtext::tokenize_vocabulary。

pylibcudf.nvtext.tokenize.character_tokenize(Column input) → Column#

通过将每个字符转换为字符串，返回单个字符串列。

详情请参阅 cpp:func:cudf::nvtext::character_tokens

参数：

inputColumn: 要分词的字符串列

返回：

Column: 新的令牌字符串列

pylibcudf.nvtext.tokenize.count_tokens_column(Column input, Column delimiters) → Column#

使用多个字符串作为分隔符，返回字符串列中每个字符串的令牌数量。

详情请参阅 cpp:func:cudf::nvtext::count_tokens

参数：

inputColumn: 要计算令牌数量的字符串列
delimitersColumn: 用于将每个字符串分隔成令牌的字符串列

返回：

Column: 新的令牌数量列

pylibcudf.nvtext.tokenize.count_tokens_scalar(Column input, Scalar delimiter=None) → Column#

使用提供的字符作为分隔符，返回字符串列中每个字符串的令牌数量。

详情请参阅 cpp:func:cudf::nvtext::count_tokens

参数：

inputColumn: 要计算令牌数量的字符串列
delimitersScalar: 用于将每个字符串分隔成令牌的字符串标量

返回：

Column: 新的令牌数量列

pylibcudf.nvtext.tokenize.detokenize(Column input, Column row_indices, Scalar separator=None) → Column#

从令牌字符串列和相关的行 ID 列创建字符串列。

详情请参阅 cpp:func:cudf::nvtext::detokenize

参数：

inputColumn: 要进行反分词的字符串列
row_indicesColumn: 输入列中分配给每个令牌的相对输出行索引
separatorScalar: 将每个令牌连接到正确的输出行后附加的字符串

返回：

Column: 新的令牌字符串列

pylibcudf.nvtext.tokenize.tokenize_column(Column input, Column delimiters) → Column#

使用多个字符串作为分隔符，通过对输入字符串列进行分词，返回单个字符串列。

详情请参阅 cpp:func:cudf::nvtext::tokenize

参数：

inputColumn: 要分词的字符串列
delimitersColumn: 用于将单独的字符串分隔成令牌的字符串列

返回：

Column: 新的令牌字符串列

pylibcudf.nvtext.tokenize.tokenize_scalar(Column input, Scalar delimiter=None) → Column#

使用提供的字符作为分隔符，通过对输入字符串列进行分词，返回单个字符串列。

详情请参阅 cpp:func:cudf::nvtext::tokenize

参数：

inputColumn: 要分词的字符串列
delimiterScalar: 用于将单独的字符串分隔成令牌的字符串标量

返回：

Column: 新的令牌字符串列

pylibcudf.nvtext.tokenize.tokenize_with_vocabulary(Column input, TokenizeVocabulary vocabulary, Scalar delimiter, size_type default_id=-1) → Column#

通过在给定词汇表中查找每个分隔的令牌，返回输入字符串的令牌 ID。

详情请参阅 cpp:func:cudf::nvtext::tokenize_with_vocabulary

参数：

inputColumn: 要分词的字符串列
vocabularyTokenizeVocabulary: 用于在 input 中查找令牌
delimiterScalar: 用于在 input 中标识令牌
default_idsize_type: 用于词汇表中未找到的令牌的令牌 ID；默认为 -1

返回：

Column: 令牌 ID 的列表列

分词#

本页