Sørensen 系数#
Sørensen 系数,也称为 Sørensen-Dice 相似系数,用于量化两个样本之间的相似度和重叠程度。
其定义为两倍集合交集的大小除以两个集合大小的总和。该值范围从 0 到 1。
Sørensen 系数
\[ \left(2 * |A \cap B| \right) \over \left(|A| + |B| \right) \]
在图中,这些集合指的是节点 A 和 B 的连接节点集合或邻域。
何时使用 Sørensen 系数#
当您想比较邻域大小差异巨大的节点时。
当节点邻域的交集比整体相似度更重要时
何时不使用 Sørensen 系数#
在有向图中
比较具有不同底层数据关系的图。
在带权图中,虽然 cuGraph 确实提供了带权 Sørensen 实现,但该算法最初并不使用权重。
计算成本如何?#
虽然 cuGraph 的并行化降低了运行成本,但 大O记号 仍然是比较算法执行时间的标准。运行成本为 O(n * m),其中 n 是图中的节点数,m 是要测试的组数。
Copyright (c) 2023-2025, NVIDIA CORPORATION.
根据 Apache 许可,版本 2.0(“许可”)授权;除非符合许可规定,否则您不得使用此文件。您可在以下地址获取许可的副本:https://apache.ac.cn/licenses/LICENSE-2.0
除非适用法律要求或书面同意,根据许可分发的软件按“原样”提供,不提供任何明示或暗示的保证或条件。有关许可项下特定语言的权限和限制,请参阅许可。