minhash#
- pylibcudf.nvtext.minhash.minhash(Column input, uint32_t seed, Column a, Column b, size_type width) Column #
返回每个字符串的 minhash 值。此函数使用 MurmurHash3_x86_32 作为哈希算法。
详情请参阅
minhash()
。- 参数:
- inputColumn
用于计算 minhash 的字符串列
- seeduint32_t
用于哈希函数的种子值
- aColumn
用于 minhash 算法的第 1 个参数值。
- bColumn
用于 minhash 算法的第 2 个参数值。
- widthsize_type
用于应用子字符串的字符宽度;
- 返回值:
- Column
每个字符串按种子值计算的 minhash 值列表列
- pylibcudf.nvtext.minhash.minhash64(Column input, uint64_t seed, Column a, Column b, size_type width) Column #
返回每个字符串的 minhash 值。此函数使用 MurmurHash3_x64_128 作为哈希算法。
详情请参阅
minhash64()
。- 参数:
- inputColumn
用于计算 minhash 的字符串列
- seeduint64_t
用于哈希函数的种子值
- aColumn
用于 minhash 算法的第 1 个参数值。
- bColumn
用于 minhash 算法的第 2 个参数值。
- widthsize_type
用于应用子字符串的字符宽度;
- 返回值:
- Column
每个字符串按种子值计算的 minhash 值列表列
- pylibcudf.nvtext.minhash.minhash64_ngrams(Column input, size_type ngrams, uint64_t seed, Column a, Column b) Column #
返回每个输入字符串行的 minhash 值。此函数使用 MurmurHash3_x64_128 作为哈希算法。
详情请参阅
minhash64_ngrams()
。- 参数:
- inputColumn
用于计算 minhash 的字符串列
- ngramssize_type
每行中连续哈希的字符串数量
- seeduint64_t
用于哈希函数的种子值
- aColumn
用于 minhash 算法的第 1 个参数值。
- bColumn
用于 minhash 算法的第 2 个参数值。
- 返回值:
- Column
每行中按列 a 和 b 的值计算的 minhash 值列表列。
- pylibcudf.nvtext.minhash.minhash_ngrams(Column input, size_type ngrams, uint32_t seed, Column a, Column b) Column #
返回每个输入字符串行的 minhash 值。此函数使用 MurmurHash3_x86_32 作为哈希算法。
详情请参阅
minhash_ngrams()
。- 参数:
- inputColumn
用于计算 minhash 的字符串列表列
- ngramssize_type
每行中连续哈希的字符串数量
- seeduint32_t
用于哈希函数的种子值
- aColumn
用于 minhash 算法的第 1 个参数值。
- bColumn
用于 minhash 算法的第 2 个参数值。
- 返回值:
- Column
每行中按列 a 和 b 的值计算的 minhash 值列表列。