Sørensen 系数#

Sørensen 系数,也称为 Sørensen-Dice 相似系数,用于量化两个样本之间的相似度和重叠程度。

其定义为两倍集合交集的大小除以两个集合大小的总和。该值范围从 0 到 1。

Sørensen 系数

\[ \left(2 * |A \cap B| \right) \over \left(|A| + |B| \right) \]

在图中,这些集合指的是节点 A 和 B 的连接节点集合或邻域。

了解更多关于 Sørensen 系数的信息

何时使用 Sørensen 系数#

  • 当您想比较邻域大小差异巨大的节点时。

  • 当节点邻域的交集比整体相似度更重要时

何时不使用 Sørensen 系数#

  • 在有向图中

  • 比较具有不同底层数据关系的图。

  • 在带权图中,虽然 cuGraph 确实提供了带权 Sørensen 实现,但该算法最初并不使用权重。

计算成本如何?#

虽然 cuGraph 的并行化降低了运行成本,但 大O记号 仍然是比较算法执行时间的标准。运行成本为 O(n * m),其中 n 是图中的节点数,m 是要测试的组数。


Copyright (c) 2023-2025, NVIDIA CORPORATION.

根据 Apache 许可,版本 2.0(“许可”)授权;除非符合许可规定,否则您不得使用此文件。您可在以下地址获取许可的副本:https://apache.ac.cn/licenses/LICENSE-2.0

除非适用法律要求或书面同意,根据许可分发的软件按“原样”提供,不提供任何明示或暗示的保证或条件。有关许可项下特定语言的权限和限制,请参阅许可。