分词#

class pylibcudf.nvtext.tokenize.TokenizeVocabulary#

tokenize_with_vocabulary 一起使用的词汇表对象。

详情请参阅 cudf::nvtext::tokenize_vocabulary

pylibcudf.nvtext.tokenize.character_tokenize(Column input) Column#

通过将每个字符转换为字符串,返回单个字符串列。

详情请参阅 cpp:func:cudf::nvtext::character_tokens

参数:
inputColumn

要分词的字符串列

返回:
Column

新的令牌字符串列

pylibcudf.nvtext.tokenize.count_tokens_column(Column input, Column delimiters) Column#

使用多个字符串作为分隔符,返回字符串列中每个字符串的令牌数量。

详情请参阅 cpp:func:cudf::nvtext::count_tokens

参数:
inputColumn

要计算令牌数量的字符串列

delimitersColumn

用于将每个字符串分隔成令牌的字符串列

返回:
Column

新的令牌数量列

pylibcudf.nvtext.tokenize.count_tokens_scalar(Column input, Scalar delimiter=None) Column#

使用提供的字符作为分隔符,返回字符串列中每个字符串的令牌数量。

详情请参阅 cpp:func:cudf::nvtext::count_tokens

参数:
inputColumn

要计算令牌数量的字符串列

delimitersScalar

用于将每个字符串分隔成令牌的字符串标量

返回:
Column

新的令牌数量列

pylibcudf.nvtext.tokenize.detokenize(Column input, Column row_indices, Scalar separator=None) Column#

从令牌字符串列和相关的行 ID 列创建字符串列。

详情请参阅 cpp:func:cudf::nvtext::detokenize

参数:
inputColumn

要进行反分词的字符串列

row_indicesColumn

输入列中分配给每个令牌的相对输出行索引

separatorScalar

将每个令牌连接到正确的输出行后附加的字符串

返回:
Column

新的令牌字符串列

pylibcudf.nvtext.tokenize.tokenize_column(Column input, Column delimiters) Column#

使用多个字符串作为分隔符,通过对输入字符串列进行分词,返回单个字符串列。

详情请参阅 cpp:func:cudf::nvtext::tokenize

参数:
inputColumn

要分词的字符串列

delimitersColumn

用于将单独的字符串分隔成令牌的字符串列

返回:
Column

新的令牌字符串列

pylibcudf.nvtext.tokenize.tokenize_scalar(Column input, Scalar delimiter=None) Column#

使用提供的字符作为分隔符,通过对输入字符串列进行分词,返回单个字符串列。

详情请参阅 cpp:func:cudf::nvtext::tokenize

参数:
inputColumn

要分词的字符串列

delimiterScalar

用于将单独的字符串分隔成令牌的字符串标量

返回:
Column

新的令牌字符串列

pylibcudf.nvtext.tokenize.tokenize_with_vocabulary(Column input, TokenizeVocabulary vocabulary, Scalar delimiter, size_type default_id=-1) Column#

通过在给定词汇表中查找每个分隔的令牌,返回输入字符串的令牌 ID。

详情请参阅 cpp:func:cudf::nvtext::tokenize_with_vocabulary

参数:
inputColumn

要分词的字符串列

vocabularyTokenizeVocabulary

用于在 input 中查找令牌

delimiterScalar

用于在 input 中标识令牌

default_idsize_type

用于词汇表中未找到的令牌的令牌 ID;默认为 -1

返回:
Column

令牌 ID 的列表列