列哈希#

group Hashing

类型定义

using hash_value_type = uint32_t#

哈希值的类型。

函数

std::unique_ptr<column> murmurhash3_x86_32(table_view const &input, uint32_t seed = DEFAULT_HASH_SEED, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

计算给定表中每一行的 MurmurHash3 32位哈希值。

此函数使用第一个列的 seed 计算每列的哈希值,并将结果哈希值作为下一个列的种子,依此类推。结果是每一行的 uint32 值。

参数:
  • input – 要进行哈希计算的列表格

  • seed – 可选的哈希函数种子值

  • stream – 用于设备内存操作和内核启动的 CUDA 流

  • mr – 用于分配返回列的设备内存的设备内存资源

返回:

一个列,其中每一行是输入中对应行的哈希值

std::unique_ptr<table> murmurhash3_x64_128(table_view const &input, uint64_t seed = DEFAULT_HASH_SEED, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

计算给定表中每一行的 MurmurHash3 64位哈希值。

此函数接受一个 64 位种子值,并使用 MurmurHash3_x64_128 算法返回哈希值。哈希结果为每行两个 uint64 值。

参数:
  • input – 要进行哈希计算的列表格

  • seed – 可选的哈希函数种子值

  • stream – 用于设备内存操作和内核启动的 CUDA 流

  • mr – 用于分配返回列的设备内存的设备内存资源

返回:

一个包含两个 UINT64 列的表

std::unique_ptr<column> md5(table_view const &input, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

计算给定表中每一行的 MD5 哈希值。

参数:
  • input – 要进行哈希计算的列表格

  • stream – 用于设备内存操作和内核启动的 CUDA 流

  • mr – 用于分配返回列的设备内存的设备内存资源

返回:

一个列,其中每一行是输入中对应行的哈希值

std::unique_ptr<column> sha1(table_view const &input, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

计算给定表中每一行的 SHA-1 哈希值。

参数:
  • input – 要进行哈希计算的列表格

  • stream – 用于设备内存操作和内核启动的 CUDA 流

  • mr – 用于分配返回列的设备内存的设备内存资源

返回:

一个列,其中每一行是输入中对应行的哈希值

std::unique_ptr<column> sha224(table_view const &input, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

计算给定表中每一行的 SHA-224 哈希值。

参数:
  • input – 要进行哈希计算的列表格

  • stream – 用于设备内存操作和内核启动的 CUDA 流

  • mr – 用于分配返回列的设备内存的设备内存资源

返回:

一个列,其中每一行是输入中对应行的哈希值

std::unique_ptr<column> sha256(table_view const &input, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

计算给定表中每一行的 SHA-256 哈希值。

参数:
  • input – 要进行哈希计算的列表格

  • stream – 用于设备内存操作和内核启动的 CUDA 流

  • mr – 用于分配返回列的设备内存的设备内存资源

返回:

一个列,其中每一行是输入中对应行的哈希值

std::unique_ptr<column> sha384(table_view const &input, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

计算给定表中每一行的 SHA-384 哈希值。

参数:
  • input – 要进行哈希计算的列表格

  • stream – 用于设备内存操作和内核启动的 CUDA 流

  • mr – 用于分配返回列的设备内存的设备内存资源

返回:

一个列,其中每一行是输入中对应行的哈希值

std::unique_ptr<column> sha512(table_view const &input, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

计算给定表中每一行的 SHA-512 哈希值。

参数:
  • input – 要进行哈希计算的列表格

  • stream – 用于设备内存操作和内核启动的 CUDA 流

  • mr – 用于分配返回列的设备内存的设备内存资源

返回:

一个列,其中每一行是输入中对应行的哈希值

std::unique_ptr<column> xxhash_32(table_view const &input, uint32_t seed = DEFAULT_HASH_SEED, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

计算给定表中每一行的 XXHash_32 哈希值。

此函数使用第一个列的 seed 计算每列的哈希值,并将结果哈希值作为下一个列的种子,依此类推。结果是每一行的 uint32 值。

参数:
  • input – 要进行哈希计算的列表格

  • seed – 可选的哈希函数种子值

  • stream – 用于设备内存操作和内核启动的 CUDA 流

  • mr – 用于分配返回列的设备内存的设备内存资源

返回:

一个列,其中每一行是输入中对应行的哈希值

std::unique_ptr<column> xxhash_64(table_view const &input, uint64_t seed = DEFAULT_HASH_SEED, rmm::cuda_stream_view stream = cudf::get_default_stream(), rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref())#

计算给定表中每一行的 XXHash_64 哈希值。

此函数接受一个 64 位种子值,并返回一个 UINT64 类型的列。

参数:
  • input – 要进行哈希计算的列表格

  • seed – 可选的哈希函数种子值

  • stream – 用于设备内存操作和内核启动的 CUDA 流

  • mr – 用于分配返回列的设备内存的设备内存资源

返回:

一个列,其中每一行是输入中对应行的哈希值

变量

static constexpr uint32_t DEFAULT_HASH_SEED = 0#

哈希函数的默认种子值。