subword_tokenize#
- class pylibcudf.nvtext.subword_tokenize.HashedVocabulary#
用于 subword_tokenize 函数的词汇数据。
- pylibcudf.nvtext.subword_tokenize.subword_tokenize(Column input, HashedVocabulary vocabulary_table, uint32_t max_sequence_length, uint32_t stride, bool do_lower_case, bool do_truncate) tuple #
创建一个分词器,用于清理文本,将其拆分成标记,并从输入词汇表中返回标记 ID。
详情请参阅 cpp:func:subword_tokenize
- 参数:
- inputColumn
要分词的输入字符串。
- vocabulary_tableHashedVocabulary
预加载到此对象中的词汇表。
- max_sequence_lengthuint32_t
最终张量中每个字符串的每行标记 ID 数量限制。
- strideuint32_t
输出标记 ID 的每一行将复制上一行
max_sequence_length
-stride
的标记 ID,除非它是第一个字符串。- do_lower_casebool
如果为 true,分词器会将输入流中的大写字符转换为小写,并去除这些字符的重音。如果为 false,则不转换带重音和大写字符。
- do_truncatebool
如果为 true,分词器将丢弃每个输入字符串在
max_sequence_length
之后的所有标记 ID。如果为 false,它将在输出标记 ID 中使用新的一行继续生成输出。
- 返回:
- tuple[Column, Column, Column]
包含标记、掩码和元数据的三个列组成的元组。