subword_tokenize#

class pylibcudf.nvtext.subword_tokenize.HashedVocabulary#

用于 subword_tokenize 函数的词汇数据。

详情请参阅 cudf::nvtext::hashed_vocabulary

pylibcudf.nvtext.subword_tokenize.subword_tokenize(Column input, HashedVocabulary vocabulary_table, uint32_t max_sequence_length, uint32_t stride, bool do_lower_case, bool do_truncate) tuple#

创建一个分词器,用于清理文本,将其拆分成标记,并从输入词汇表中返回标记 ID。

详情请参阅 cpp:func:subword_tokenize

参数:
inputColumn

要分词的输入字符串。

vocabulary_tableHashedVocabulary

预加载到此对象中的词汇表。

max_sequence_lengthuint32_t

最终张量中每个字符串的每行标记 ID 数量限制。

strideuint32_t

输出标记 ID 的每一行将复制上一行 max_sequence_length - stride 的标记 ID,除非它是第一个字符串。

do_lower_casebool

如果为 true,分词器会将输入流中的大写字符转换为小写,并去除这些字符的重音。如果为 false,则不转换带重音和大写字符。

do_truncatebool

如果为 true,分词器将丢弃每个输入字符串在 max_sequence_length 之后的所有标记 ID。如果为 false,它将在输出标记 ID 中使用新的一行继续生成输出。

返回:
tuple[Column, Column, Column]

包含标记、掩码和元数据的三个列组成的元组。