subword_tokenize#

class pylibcudf.nvtext.subword_tokenize.HashedVocabulary#

用于 subword_tokenize 函数的词汇数据。

详情请参阅 cudf::nvtext::hashed_vocabulary。

pylibcudf.nvtext.subword_tokenize.subword_tokenize(Column input, HashedVocabulary vocabulary_table, uint32_t max_sequence_length, uint32_t stride, bool do_lower_case, bool do_truncate) → tuple#

创建一个分词器，用于清理文本，将其拆分成标记，并从输入词汇表中返回标记 ID。

详情请参阅 cpp:func:subword_tokenize

参数：

inputColumn: 要分词的输入字符串。
vocabulary_tableHashedVocabulary: 预加载到此对象中的词汇表。
max_sequence_lengthuint32_t: 最终张量中每个字符串的每行标记 ID 数量限制。
strideuint32_t: 输出标记 ID 的每一行将复制上一行 max_sequence_length - stride 的标记 ID，除非它是第一个字符串。
do_lower_casebool: 如果为 true，分词器会将输入流中的大写字符转换为小写，并去除这些字符的重音。如果为 false，则不转换带重音和大写字符。
do_truncatebool: 如果为 true，分词器将丢弃每个输入字符串在 max_sequence_length 之后的所有标记 ID。如果为 false，它将在输出标记 ID 中使用新的一行继续生成输出。

返回：

tuple[Column, Column, Column]: 包含标记、掩码和元数据的三个列组成的元组。

subword_tokenize#

本页面