分词#
- class pylibcudf.nvtext.tokenize.TokenizeVocabulary#
与
tokenize_with_vocabulary
一起使用的词汇表对象。
- pylibcudf.nvtext.tokenize.character_tokenize(Column input) Column #
通过将每个字符转换为字符串,返回单个字符串列。
详情请参阅 cpp:func:cudf::nvtext::character_tokens
- 参数:
- inputColumn
要分词的字符串列
- 返回:
- Column
新的令牌字符串列
- pylibcudf.nvtext.tokenize.count_tokens_column(Column input, Column delimiters) Column #
使用多个字符串作为分隔符,返回字符串列中每个字符串的令牌数量。
详情请参阅 cpp:func:cudf::nvtext::count_tokens
- 参数:
- inputColumn
要计算令牌数量的字符串列
- delimitersColumn
用于将每个字符串分隔成令牌的字符串列
- 返回:
- Column
新的令牌数量列
- pylibcudf.nvtext.tokenize.count_tokens_scalar(Column input, Scalar delimiter=None) Column #
使用提供的字符作为分隔符,返回字符串列中每个字符串的令牌数量。
详情请参阅 cpp:func:cudf::nvtext::count_tokens
- 参数:
- inputColumn
要计算令牌数量的字符串列
- delimitersScalar
用于将每个字符串分隔成令牌的字符串标量
- 返回:
- Column
新的令牌数量列
- pylibcudf.nvtext.tokenize.detokenize(Column input, Column row_indices, Scalar separator=None) Column #
从令牌字符串列和相关的行 ID 列创建字符串列。
详情请参阅 cpp:func:cudf::nvtext::detokenize
- 参数:
- inputColumn
要进行反分词的字符串列
- row_indicesColumn
输入列中分配给每个令牌的相对输出行索引
- separatorScalar
将每个令牌连接到正确的输出行后附加的字符串
- 返回:
- Column
新的令牌字符串列
- pylibcudf.nvtext.tokenize.tokenize_column(Column input, Column delimiters) Column #
使用多个字符串作为分隔符,通过对输入字符串列进行分词,返回单个字符串列。
详情请参阅 cpp:func:cudf::nvtext::tokenize
- 参数:
- inputColumn
要分词的字符串列
- delimitersColumn
用于将单独的字符串分隔成令牌的字符串列
- 返回:
- Column
新的令牌字符串列
- pylibcudf.nvtext.tokenize.tokenize_scalar(Column input, Scalar delimiter=None) Column #
使用提供的字符作为分隔符,通过对输入字符串列进行分词,返回单个字符串列。
详情请参阅 cpp:func:cudf::nvtext::tokenize
- 参数:
- inputColumn
要分词的字符串列
- delimiterScalar
用于将单独的字符串分隔成令牌的字符串标量
- 返回:
- Column
新的令牌字符串列
- pylibcudf.nvtext.tokenize.tokenize_with_vocabulary(Column input, TokenizeVocabulary vocabulary, Scalar delimiter, size_type default_id=-1) Column #
通过在给定词汇表中查找每个分隔的令牌,返回输入字符串的令牌 ID。
详情请参阅 cpp:func:cudf::nvtext::tokenize_with_vocabulary
- 参数:
- inputColumn
要分词的字符串列
- vocabularyTokenizeVocabulary
用于在
input
中查找令牌- delimiterScalar
用于在
input
中标识令牌- default_idsize_type
用于词汇表中未找到的令牌的令牌 ID;默认为 -1
- 返回:
- Column
令牌 ID 的列表列