几种常见的聚类评估指标-FreeNAS中文网

admin 管理员组

文章数量: 887007

几种常见的聚类评估指标

1 前言

如同之前介绍的其它算法模型一样，对于聚类来讲我们同样会通过一些评价指标来衡量聚类算法的优与劣。在聚类任务中，常见的评价指标有：纯度（Purity）、兰德系数（Rand Index, RI）、F值（F-score）和调整兰德系数（Adjusted Rand Index,ARI）。同时，这四种评价指标也是聚类相关论文中出现得最多的评价方法。下面，我们就来对这些算法一一进行介绍。

2 聚类评价指标

假设现在有一批文档一共包含有叉形、圆形与菱形三个类别，此时你需要对其进行聚类处理，且现在某聚类算法的聚类结果如图1所示：

图 1. 文本聚类结果

如图1所示，该聚类算法一共将所有的文本划分成了三个簇，那么我们该怎么来对这一结果进行评判呢？

扫码回复“加群”即可进入月来客栈交流群！

2.1聚类纯度

在聚类结果的评估标准中，一种最简单最直观的方法就是计算它的聚类纯度（purity），别看纯度听起来很陌生，但实际上和分类问题中的准确率有着异曲同工之妙。因为聚类纯度的总体思想也用聚类正确的样本数除以总的样本数，因此它也经常被称为聚类的准确率。只是对于聚类后的结果我们并不知道每个簇所对应的真实类别，因此需要取每种情况下的最大值。具体的，纯度的计算公式定义如下：
P = ( Ω , C ) = 1 N ∑ k max ⁡ j ∣ ω k ∩ c j ∣ (1) \begin{aligned} P=(\Omega,\mathbb{C})=\frac{1}{N}\sum_{k}\max_{j}|\omega_k\cap c_j| \end{aligned}\tag{1} P=(Ω,C)=N1k∑jmax∣ωk∩cj∣(1)
其中 N N N表示总的样本数； Ω = { ω 1 , ω 2 , . . . , ω K } \Omega=\{\omega_1,\omega_2,...,\omega_K\} Ω={ω1,ω2,...,ωK}表示一个个聚类后的簇，而 C = { c 1 , 2 , . . . c J } \mathbb{C}=\{c_1,_2,...c_J\} C={c1,2,...cJ}表示正确的类别； ω k \omega_k ωk表示聚类后第 k k k个簇中的所有样本， c j c_j cj表示第 j j j个类别中真实的样本。在这里 P P P的取值范围为 [ 0 , 1 ] [0,1] [0,1]，越大表示聚类效果越好。

有了公式 ( 1 ) (1) (1)之后，我们就可以通过它来计算图1中聚类结果的纯度。对于第一个簇来说： ∣ ω 1 ∩ c 1 ∣ = 5 |\omega_1\cap c_1|=5 ∣ω1∩c1∣=5， ∣ ω 1 ∩ c 2 ∣ = 1 |\omega_1\cap c_2|=1 ∣ω1∩c2∣=1， ∣ ω 1 ∩ c 3 ∣ = 0 |\omega_1\cap c_3|=0 ∣ω1∩c3∣=0，可以看出我们此时假设 c 1 c_1 c1对应的是叉形、 c 2 c_2 c2对应的是圆形、 c 3 c_3 c3对应的是菱形（这个对应顺序没有任何关系）。因此第一个簇聚类正确的样本数就为 5 5 5。同理，按照这样的方法可以计算得到第二个簇和第三个簇聚类正确的样本数 4 4 4和 3 3 3。所以，对于图1所示的聚类结果来说，其最终的纯度为：
P = 5 + 4 + 3 17 = 0.706 (2) P=\frac{5+4+3}{17}=0.706\tag{2} P=175+4+3=0.706(2)

2.2 兰德系数与F值

2.2.1 计算原理

在介绍完了纯度这一评价指标后，我们再来看看兰德系数（Rand Index）和F值。虽然兰德系数听起来是一个陌生的名词，但它的计算过程却也与准确率的计算过程类似。同时，虽然这里也有一个叫做F值的指标，并且它的计算过程也和分类指标中的F值类似，但是两者却有着本质的差别。说了这么多，那这两个指标到底该怎么算呢？同分类问题中的混淆矩阵类似，这里我们也要先定义四种情况进行计数，然后再进行指标的计算。

为了说明兰德系数背后的思想，我们还是以图1中的聚类结果为例进行说明（为了方便观察，我们再放一张图在这里）:

图 1. 文本聚类结果

现在你想象一下，把这三个簇想象成三个黑色的布袋。那么对于任意一个布袋来说：①如果你从里面任取两个样本出来均是同一个类别，这就表示这个布袋中的所有样本都算作是聚类正确的；②相反，如果取出来发现存在两个样本不是同一类别的情况，则就说明存在着聚类错误的情况。其次，对于任意两个布袋来说：③如果你任意从两个布袋中各取一个样本发现两者均是不同类别，这就表示两个布袋中的样本都被聚类正确了；④相反，如果发现取出来的两个样本存在相同的情况，则说明此时也存在着聚类错误的情况。大家想一想，应该再也找不出第五种情况了。由此，我们可以做出如下定义：

T P TP TP：表示两个同类样本点在同一个簇（布袋）中的情况数量；
F P FP FP：表示两个非同类样本点在同一个簇中的情况数量；
T N TN TN：表示两个非同类样本点分别在两个簇中的情况数量；
F N FN FN：表示两个同类样本点分别在两个簇中的情况数量；

由此，我们便能得到如下所示的对混淆矩阵（Pair Confusion Matrix）：

图 2. 对混淆矩阵图

其中图2右边所示的矩阵就是根据图1中的聚类结果计算而来。因此， T P = 20 TP=20 TP=20的含义就是在所有簇中，任一簇中任取两个样本均是同一类别的情况总数； T N = 72 TN=72 TN=72则表示在所有簇中，任两簇中各取一个样本均不是同一类别的情况总数。

有了上面各种情况的统计值，我们就可以定义出兰德系数和F值的计算公式：
R I = T P + T N T P + F P + F N + T N (3) RI=\frac{TP+TN}{TP+FP+FN+TN}\tag{3} RI=TP+FP+FN+TNTP+TN(3)

P r e c i s i o n = T P T P + F P R e c a l l = T P T P + F N F β = ( 1 + β 2 ) P r e c i s i o n ⋅ R e c a l l β 2 ⋅ P r e c i s i o n + R e c a l l (4) \begin{aligned} Precision&=\frac{TP}{TP+FP}\\[2ex] Recall&=\frac{TP}{TP+FN}\\[2ex] F_{\beta}&=(1+\beta^2)\frac{Precision\cdot Recall}{\beta^2\cdot Precision+Recall} \end{aligned}\tag{4} PrecisionRecallFβ=TP+FPTP=

本文标签：几种常见的聚类评估指标

版权声明：本文标题：几种常见的聚类评估指标内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1732356906h1534687.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

技术交流 – FreeNAS中文网

几种常见的聚类评估指标

几种常见的聚类评估指标

1 前言

2 聚类评价指标

2.1聚类纯度

2.2 兰德系数与F值

2.2.1 计算原理

更多相关文章

几种常见的聚类评估指标

发表评论

推荐文章

jenkins 没有 pipeline_新Jenkins实践-第1章开篇-为什么要做CICD？

会计信息质量可靠性的案例

使用 LWUIT 的风格、主题和 Painter 特性

Leetcode算法刷题练习笔记美区国区（按难度题目整理）

Java 字符串正则表达式

热门文章

不用u盘怎么重装win10，不用u盘重装win10的教程

基于Android的手机微博平台计算机专业毕业设计源码54776

AIE有机荧光探针荧光高分子纳米微球AIE

电脑140招实用技巧

Error: 0x800703fa - Press any key to continue，解决windows linux子系统配置错误

[ Linux 命令基础 4 ] Linux 命令详解-文本处理命令

Windows上安装 pycocotools 失败

Win10如何重置网络

Windows上MSYS2的安装和使用

windows7 找不到w3wp.exe 进程

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

win7计算机管理中看不到新加的硬盘,win7系统看不到第二块硬盘的解决方法.

[转]笔记本电脑处理器(CPU)性能排行榜

project安装包的下载和安装教程

测试模式 windows2008 内部版本7601

如何区分自己的windows系统是正版还是盗版？从零基础到精通，收藏这篇就够了！

技术交流 – FreeNAS中文网

几种常见的聚类评估指标

几种常见的聚类评估指标

1 前言

2 聚类评价指标

2.1聚类纯度

2.2 兰德系数与F值

2.2.1 计算原理

更多相关文章

几种常见的聚类评估指标

发表评论

推荐文章

jenkins 没有 pipeline_新Jenkins实践-第1章 开篇-为什么要做CICD？

会计信息质量可靠性的案例

使用 LWUIT 的风格、主题和 Painter 特性

Leetcode算法刷题练习笔记 美区国区（按难度题目整理）

Java 字符串 正则表达式

热门文章

不用u盘怎么重装win10，不用u盘重装win10的教程

基于Android的手机微博平台 计算机专业毕业设计源码54776

AIE有机荧光探针荧光高分子纳米微球AIE

电脑140招实用技巧

Error: 0x800703fa - Press any key to continue，解决windows linux子系统配置错误

[ Linux 命令基础 4 ] Linux 命令详解-文本处理命令

Windows上安装 pycocotools 失败

Win10如何重置网络

Windows上MSYS2的安装和使用

windows7 找不到w3wp.exe 进程

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

win7计算机管理中看不到新加的硬盘,win7系统看不到第二块硬盘的解决方法.

[转]笔记本电脑处理器(CPU)性能排行榜

project安装包的下载和安装教程

测试模式 windows2008 内部版本7601

如何区分自己的windows系统是正版还是盗版 ？从零基础到精通，收藏这篇就够了！

jenkins 没有 pipeline_新Jenkins实践-第1章开篇-为什么要做CICD？

Leetcode算法刷题练习笔记美区国区（按难度题目整理）

Java 字符串正则表达式

基于Android的手机微博平台计算机专业毕业设计源码54776

如何区分自己的windows系统是正版还是盗版？从零基础到精通，收藏这篇就够了！