minhash#

pylibcudf.nvtext.minhash.minhash(Column input, uint32_t seed, Column a, Column b, size_type width) Column#

返回每个字符串的 minhash 值。此函数使用 MurmurHash3_x86_32 作为哈希算法。

详情请参阅 minhash()

参数:
inputColumn

用于计算 minhash 的字符串列

seeduint32_t

用于哈希函数的种子值

aColumn

用于 minhash 算法的第 1 个参数值。

bColumn

用于 minhash 算法的第 2 个参数值。

widthsize_type

用于应用子字符串的字符宽度;

返回值:
Column

每个字符串按种子值计算的 minhash 值列表列

pylibcudf.nvtext.minhash.minhash64(Column input, uint64_t seed, Column a, Column b, size_type width) Column#

返回每个字符串的 minhash 值。此函数使用 MurmurHash3_x64_128 作为哈希算法。

详情请参阅 minhash64()

参数:
inputColumn

用于计算 minhash 的字符串列

seeduint64_t

用于哈希函数的种子值

aColumn

用于 minhash 算法的第 1 个参数值。

bColumn

用于 minhash 算法的第 2 个参数值。

widthsize_type

用于应用子字符串的字符宽度;

返回值:
Column

每个字符串按种子值计算的 minhash 值列表列

pylibcudf.nvtext.minhash.minhash64_ngrams(Column input, size_type ngrams, uint64_t seed, Column a, Column b) Column#

返回每个输入字符串行的 minhash 值。此函数使用 MurmurHash3_x64_128 作为哈希算法。

详情请参阅 minhash64_ngrams()

参数:
inputColumn

用于计算 minhash 的字符串列

ngramssize_type

每行中连续哈希的字符串数量

seeduint64_t

用于哈希函数的种子值

aColumn

用于 minhash 算法的第 1 个参数值。

bColumn

用于 minhash 算法的第 2 个参数值。

返回值:
Column

每行中按列 a 和 b 的值计算的 minhash 值列表列。

pylibcudf.nvtext.minhash.minhash_ngrams(Column input, size_type ngrams, uint32_t seed, Column a, Column b) Column#

返回每个输入字符串行的 minhash 值。此函数使用 MurmurHash3_x86_32 作为哈希算法。

详情请参阅 minhash_ngrams()

参数:
inputColumn

用于计算 minhash 的字符串列表列

ngramssize_type

每行中连续哈希的字符串数量

seeduint32_t

用于哈希函数的种子值

aColumn

用于 minhash 算法的第 1 个参数值。

bColumn

用于 minhash 算法的第 2 个参数值。

返回值:
Column

每行中按列 a 和 b 的值计算的 minhash 值列表列。