-
2021-04-11 10:15:09
常见的聚类有效性函数(内部指标)
1. 仅基于隶属的聚类有效性函数
(1) Bezdek定义的划分系数V_PC是用来度量集群之间的重叠, 划分系数的主要优点是简单,缺点是随着c的增加单调递减,与数据的本身的某一些属性没有直接关联。V_PC的值介于1/c和1之间,最大值表示聚类结果最有效。
(2) Bezdek同样将划分熵V_PE是用来度量聚类划分的模糊性,该指数与V_PC相似Bezdek证明了对于所有概率集群分区。该有效性函数的缺点也是会随着c的增加单调递减,缺乏与数据结构的连接。因此计算出的最小值表示聚类结果最有效。
(3) 改进的划分系数(V_MPC).MPC指标对V_PC存在的单调递减趋势问题进行了优化, 但是对于V_PC指标其他方面地缺陷并没有进行改进。
(4) V_P是由Chen和Linkens提出的,它是相减形式的有效性指标。它是一种只关注了隶属度的有效性函数。式中,前半部分表示数据在每一类的隶属度的最大值的和,值越大代表类内紧凑性就越好;后半部分是两个类的相似性,两个类的相似性越小则聚类效果越好。它的最大值对应最有效的聚类结果。2. 基于几何结构的有效性函数
(1) V_XB指标是第一个将数据集的结构考虑在内的聚类有效性函数,是内类紧凑度和类间分离度的比例。显然,类间距离越大类间越离散,类内距离越小类内越紧致。因此V_XB最小值表示聚类结果最有效。
(2) Bensaid等人在1996年提出了V_SC。V_SC是簇的紧密度的和与分离度之和的比值, V_SC把类内紧凑度的衡量由整体和上的平均替换成为类内紧凑度的平均和。V_SC值越小表示聚类效果越好。
(3) V_K是由Kwon等人提出的一种有效性指标,它通过在V_XB指标的分子上添加惩罚项的方式有效克制了V_XB的递减趋势。V_K同V_XB一样,它的最小值对应最优的聚类数。
(4) V_PCAES指标是由Wu和Yang提出的相减形式的有效性指标,通过模糊隶属度函数和一个指数类型结构的中心距离的相对值来描述聚类的紧凑性和分离性
(5) …更多的介绍参考论文Combination Evaluation Method of Fuzzy C-Mean Clustering Validity Based on Hybrid Weighted Strategy下载地址论文下载地址点我
3. 有效性matlab编程
见链接各有效性函数编程更多相关内容 -
论文研究-聚类有效性评价综述.pdf
2019-07-22 21:50:48在聚类分析应用中,迫切需要一种客观公正的质量评价方法来评判...为此,从外部评价法、内部评价法和相对评价法三个方面,归纳综述了常用的聚类有效性评价方法,并讨论了模糊聚类评价法和聚类最佳类别数的自动确定问题。 -
一种新的模糊聚类有效性指标的验证 (2012年)
2021-05-16 04:40:00根据Vcso-new对Vcso有效性指标的改进思想,对分离度进行了新的定义,并提出了一种新的模糊聚类有效性指标,理论证明和实验分析说明了该有效性指标的可靠性。 -
两种聚类有效性评价指标的MATLAB实现.pdf
2021-07-10 10:08:32两种聚类有效性评价指标的MATLAB实现.pdf -
一种考虑数据类大小和密度差异的模糊聚类有效性指标.pdf
2021-08-20 12:28:16一种考虑数据类大小和密度差异的模糊聚类有效性指标.pdf -
matlabfcm函数代码-cluster-validity-indices:模糊c均值的聚类有效性指标
2021-05-26 07:05:50matlab fcm函数代码 -
一种新的模糊聚类有效性指标
2020-10-16 23:13:33针对模糊C均值(FCM)算法聚类数需要预先设定的问题,提出了一种新的模糊聚类有效性指标。首先,计算簇中每个属性的方差,给方差较小的属性赋予较大的权值,给方差较大的属性赋予较小的权值,得到一种基于属性加权的... -
论文研究-聚类有效性研究综述.pdf
2019-09-20 18:45:48然后,基于指标 构成成分的不同,分别评述了12 个仅考虑数据集几何结构信息的聚类有效性指标、6 个仅考虑隶属度的聚类有效性指标以及9 个同时考虑数据集几何结构信息和隶属度的聚类有效性指标,分析了不同类型指标的... -
两种聚类有效性评价指标的MATLAB实现.docx
2022-05-21 16:14:12两种聚类有效性评价指标的MATLAB实现.docx两种聚类有效性评价指标的MATLAB实现.docx两种聚类有效性评价指标的MATLAB实现.docx两种聚类有效性评价指标的MATLAB实现.docx两种聚类有效性评价指标的MATLAB实现.docx两种... -
计算机研究 -可能性聚类有效性评价研究.pdf
2022-06-30 14:52:50计算机研究 -可能性聚类有效性评价研究.pdf -
洪水聚类有效性分析 (2007年)
2021-05-08 09:22:46在模糊聚类迭代模型的基础上,首先提出了基于类间相关系数的聚类有效性指标确定最佳聚类数,并给出了最佳聚类数的确定步骤。随后以IRIS和Ruspini数据集作为分析样本验证了所提聚类有效性指标的有效性。以双牌水库的... -
计算机研究 -模糊聚类有效性指标研究.pdf
2022-07-01 19:04:59计算机研究 -模糊聚类有效性指标研究.pdf -
论文研究-新模糊聚类有效性指标.pdf
2019-07-22 22:59:05提出了一种新的聚类有效性指标,对聚类结果进行有效性验证。该指标从划分熵、隶属度、几何结构角度,定义了紧凑度、分离度、重叠度三个重要特征测量。在此基础上,提出了一种最佳聚类数确定方法。将新聚类有效性指标... -
聚类有效性指标 学习聚类的好工具
2022-04-30 00:50:44聚类有效性指标,比较全,功能比较强大,是学习聚类的好工具(Clustering Validity Indices) -
计算机研究 -聚类有效性指标结构分析及应用.pdf
2022-06-30 14:05:44计算机研究 -聚类有效性指标结构分析及应用.pdf -
kmeans 算法聚类有效性
2021-01-28 14:06:29同质性和完整性分数基于以下公式得出: 总结:不同的评价指标有不同的优缺点,主要根据的还是类内距离小,类间距离大的原则而设定。每一种指标的计算量也不尽相同,要视不同的情况选择不同的评价指标。 更多详情...kmeans 算法
基本步骤:
1、选择初始的k个类别中心u1u2……uk
2、对于每个样本,将其标记为距离类别中心最近的类别,即:3、将每个类别中心更新为隶属该类别的所有样本的均值
4、重复最后两步,直到类别中心的变化小于某阈值
matlab代码
clc clear x=[0 0;1 0; 0 1; 1 1;2 1;1 2; 2 2;3 2; 6 6; 7 6; 8 6; 6 7; 7 7; 8 7; 9 7 ; 7 8; 8 8; 9 8; 8 9 ; 9 9]; z=zeros(2,2); z1=zeros(2,2); z=x(1:2, 1:2); %% 寻找聚类中心 while 1 count=zeros(2,1); allsum=zeros(2,2); for i=1:20 % 对每一个样本i,计算到2个聚类中心的距离 temp1=sqrt((z(1,1)-x(i,1)).^2+(z(1,2)-x(i,2)).^2); temp2=sqrt((z(2,1)-x(i,1)).^2+(z(2,2)-x(i,2)).^2); if(temp1<temp2) count(1)=count(1)+1; allsum(1,1)=allsum(1,1)+x(i,1); allsum(1,2)=allsum(1,2)+x(i,2); else count(2)=count(2)+1; allsum(2,1)=allsum(2,1)+x(i,1); allsum(2,2)=allsum(2,2)+x(i,2); end end z1(1,1)=allsum(1,1)/count(1); z1(1,2)=allsum(1,2)/count(1); z1(2,1)=allsum(2,1)/count(2) z1(2,2)=allsum(2,2)/count(2); if(z==z1) break; else z=z1; end end %% 结果显示 disp(z1);% 输出聚类中心 plot( x(:,1), x(:,2),'k*',... 'LineWidth',2,... 'MarkerSize',10,... 'MarkerEdgeColor','k',... 'MarkerFaceColor',[0.5,0.5,0.5]) hold on plot(z1(:,1),z1(:,2),'ko',... 'LineWidth',2,... 'MarkerSize',10,... 'MarkerEdgeColor','k',... 'MarkerFaceColor',[0.5,0.5,0.5]) set(gca,'linewidth',2) ; xlabel('特征x1','fontsize',12); ylabel('特征x2', 'fontsize',12); title('K-means分类图','fontsize',12);
评价指标1
记k个簇中心分别为u1,u2,u3……uk,每个簇的样本数目为N1、N2……Nk。
使用平方误差做为误差函数,得:
将该函数做为目标函数,求解该函数的最小值。可以使用梯度下降法求,该函数为凸函数,驻点为:
这解释了为什么每次在选择聚类中心的时候取的是该类所有坐标的平均值。
评价指标2 (轮廓系数)
disMean(out) 是该点到非本类点的平均距离,disMean(in) 是该点到本类点的平均距离。 -1<=s<=1 越接近于1说明分类越优秀。(说明了类间距离大 类内距离小)
要计算出每一个点对应的s,之后求取平均值。详情参见:
https://blog.csdn.net/weixin_44344462/article/details/89337770
评价指标3(兰德指数)
评价指标4(互信息)
评价指标5(Compactness and Seperation)
Compactness:
Seperation:
评价指标6 Davies-Bouldin Index(戴维森堡丁指数)(分类适确性指标)(DB)
DB计算任意两类别的类内距离平均距离(CP)之和除以两聚类中心距离求最大值。DB越小意味着类内距离越小同时类间距离越大。该指标的计算公式:
评价指标7 (调和平均V-measure)
说V-measure之前要先介绍两个指标:
同质性(homogeneity):每个群集只包含单个类的成员。完整性(completeness):给定类的所有成员都分配给同一个群集。
同质性和完整性分数基于以下公式得出:
总结:不同的评价指标有不同的优缺点,主要根据的还是类内距离小,类间距离大的原则而设定。每一种指标的计算量也不尽相同,要视不同的情况选择不同的评价指标。
更多详情参见:
https://blog.csdn.net/weixin_36486455/article/details/112379886
-
聚类有效性分析
2020-06-30 11:20:04在有了这个Benchmark后,我们就可以定义出外部标准,通过簇和黄金标准之间类别的匹配的程度来评估聚类结果的好坏。 聚类质量四个外部标准: 1 纯度(Purity) 是一种简单而透明的评估手段; 2 标准化互信息(NMI, ...概述
有ground-truth时
黄金标准(Gold Standard)作为Benchmark,是基于人工的判断制作而成。在有了这个Benchmark后,我们就可以定义出外部标准,通过簇和黄金标准之间类别的匹配的程度来评估聚类结果的好坏。
聚类质量四个外部标准:
1 纯度(Purity) 是一种简单而透明的评估手段;
2 标准化互信息(NMI, Normalized Mutual Information) 是从信息理论方面来评估;
3 兰德指数(RI, Rand Index) 能度量聚类过程中的假阳性和假阴性结果的惩罚;
4 F值(F measure) 支持调整这两种错误惩罚的权重。没有ground-truth时
聚类前(聚类趋势);聚类质量;交叉验证纯度
每个簇中最大数量的类作为这个簇的类,数分对的和分错的。分的越好纯度越高
分对的点数 除以 总点数
簇数量很多时容易达到较高的纯度。因而不能简单用纯度衡量兰德指数
算TP,FN除以总数,就是准确率accuracy假阳性和假阴性有着同等的重要性。但是在实际情况中,把相似的文档分开比把不同的文档放在一个簇里更糟糕。我们可以使用F值,通过让参数 [公式] 来让假阴性比假阳性获得更多的惩罚,也就是说,给召回(Recall)更大的权重。
F值
β = 1 或 5 或其他2.1聚类趋势: (聚类前)
霍普金斯统计量(Hopkins Statistic)评估给定数据集是否存在有意义的可聚类的非随机结构。聚类的前提需要数据是非均匀分布的。[0.01, 0.3]表示数据结构regularly spaced,该值为0.5时数据是均匀分布的,[0.7, 0.99]表示聚类趋势很强。
2.2聚类质量
2.3交叉验证
这个验证主要是针对kmeans等划分聚类方法。把给定的数据集D划分成m个部分。然后,使用m-1各部分建立一个聚类模型,并使用剩下的一部分检验聚类的质量。
2.4 聚类稳定性
聚类结果的稳定性越高,引入新的(来自相同underlying model)后再次聚类结果越不容易被改变。
比如:
某两组同分布的数据,k=2时聚类结果差别很大,k=5时差别不大,则5更稳定(不能只看这一项,因为k=1最稳定)不同聚类算法的目标函数相差很大。 聚类没有统一的评价指标
-
计算机研究 -基于聚类有效性指标的模糊分类评价问题研究.pdf
2022-06-28 01:39:15计算机研究 -基于聚类有效性指标的模糊分类评价问题研究.pdf -
计算机研究 -基于连通性的聚类有效性问题研究.pdf
2022-06-28 03:41:28计算机研究 -基于连通性的聚类有效性问题研究.pdf -
自适应聚类算法的聚类有效性指标
2021-03-18 10:02:51自适应聚类算法的聚类有效性指标 -
聚类有效性指标(CVI)
2020-06-21 16:29:56文章目录1.定义:2.聚类评估方法介绍(一)...聚类有效性指标(Cluster Validity Index,CVI):用于度量聚类的效果。 详细介绍wiki:http://www.turingfinance.com/clustering-countries-real-gdp-growth-part2/#quali文章目录
1.定义:
聚类有效性指标(Cluster Validity Index,CVI):用于度量聚类的效果。
详细介绍wiki:http://www.turingfinance.com/clustering-countries-real-gdp-growth-part2/#quality2.聚类评估方法介绍
聚类具有随机性,聚类效果的好坏我们并没有办法去判断,这里面给出的聚类有效性指标,可以帮助我们在聚类一组数据后对其聚类效果进行度量,然后根据数据的实际意义做出判断。
聚类评估目前常用的方式有两大类:内部评估(internal)和外部评估(external),内部评估是汇总得到一个单独质量分数,外部评估是通过与公知标准作比较。当然,还有人工评估方法(专家),通过评估其在应用中的聚类效果的间接评估。
(一)内部评估
内部评估就是基于聚类数据评估聚类结果。
下面介绍几种可以用来评估聚类(kmeans算法)质量的内部准则:Davies-Bouldin index(戴维森堡丁指数,简称DB或DBI)
计算公式:
D B = 1 n ∑ i = 1 n max j ≠ i ( σ i + σ j d ( c i , c j ) ) DB={\frac {1}{n}}\sum _{i=1}^{n}\max _{j\neq i}\left({\frac {\sigma _{i}+\sigma _{j}}{d(c_{i},c_{j})}}\right) DB=n1i=1∑nj=imax(d(ci,cj)σi+σj)公式含义:DB为任意两个类别的类内距离平均距离之和与两聚类质心间距之比的最大值
具体解析:
- 分子:簇内所有点到该簇质心点的平均距离之和
- 分母 d ( c i , c j ) d(ci,cj) d(ci,cj):两类别质心间的距离
- max()最大值部分:选取每组比例中的最大值(即选取最糟糕的一组)
- 1/n求和部分:将所选比例加和除以类别数
结果意义:DB值越小表示聚类结果同簇内部紧密,不同簇分离较远。即类内距离越小,类间距离越大。
具体过程:
- step1:计算每个聚类d(A),d(B),d©的平均内部距离。
- step2:计算任意质心间的距离d(A,B),d(A,C)和d(B,C)。
- step3:返回最大比例(任意内部聚类之和与其质心间距之比)
Dunn’s index(邓恩指数,简称DVI)
计算公式:
D = min 1 ≤ i < j ≤ n d ( i , j ) max 1 ≤ k ≤ n d ′ ( k ) , D={\frac {\min _{1\leq i<j\leq n}d(i,j)}{\max _{1\leq k\leq n}d^{\prime }(k)}}\,, D=max1≤k≤nd′(k)min1≤i<j≤nd(i,j),公式含义:任意两簇类间最短距离与任意簇的类内最大距离之比
结果意义:DVI值越大表明聚类结果同簇内部紧密,不同簇分离较远。即类间距离越大,类内距离越小。
Silhouette index(轮廓指数,简称SI)
计算公式:
s ( i ) = b ( i ) − a ( i ) max { a ( i ) , b ( i ) } s(i) = \frac{b(i) - a(i)}{\max\{a(i),b(i)\}} s(i)=max{a(i),b(i)}b(i)−a(i)
或者是
s ( i ) = { 1 − a ( i ) / b ( i ) , if a ( i ) < b ( i ) 0 , if a ( i ) = b ( i ) b ( i ) / a ( i ) − 1 , if a ( i ) > b ( i ) s(i) = \left\{\begin{array}{ll} 1-a(i)/b(i), & \text{if } a(i) < b(i) \\ 0, & \text{if } a(i) = b(i) \\ b(i)/a(i)-1, & \text{if } a(i) > b(i) \end{array} \right. s(i)=⎩⎨⎧1−a(i)/b(i),0,b(i)/a(i)−1,if a(i)<b(i)if a(i)=b(i)if a(i)>b(i)公式含义:它测量每个模式中自身簇中的模式与其他最近簇中的模式相比的相似程度。
具体解析:
- a(i) 表示从模式 i 到所有同一聚类中的每个模式的平均距离;
- b(i) 表示从模式 i 到其他聚类中最接近的那个聚类的每个模式的平均距离。
结果意义:SI值越高表示 i 与自身聚类匹配较好,与其他类匹配较差。即类内密集,类间疏散。
缺点:复杂度较大
参考
DBI的代码思路大家可参考:
https://gist.github.com/StuartGordonReid/7841ab6837e7e84476f3#file-clusteringobjectivefunctions-py
强烈推荐详细介绍聚类及质量评估等的参考文章:http://www.turingfinance.com/clustering-countries-real-gdp-growth-part2/#quality
剩下的外部评估之后再补上。 -
基于减法聚类与聚类有效性评判的FCM聚类.pdf
2021-08-21 11:12:23基于减法聚类与聚类有效性评判的FCM聚类.pdf -
核模糊C均值算法的聚类有效性研究*) (2007年)
2021-05-26 02:22:16针对核模糊C均值聚(KernelizedFuzzyC-Means,KFCM)算法的有效性评价,以...结果表明,在所考察的指标中,著名的Xie-Beni指标VxB及其改进指标Vk的核化版本具有最好的性能和可靠性,可优先作为KFCM聚类算法的有效性准则。 -
聚类有效性研究.pdf
2021-08-21 11:53:30聚类有效性研究.pdf -
聚类有效性评价新指标
2021-01-20 04:06:10第12卷第6期智能系统学报Vol.12No.62017年12月CAAITransactionsonIntelligentSystemsDec.2017DOI:10.11992/tis.20170602 -
计算机研究 -一类高效的聚类有效性指标及应用.pdf
2022-07-04 12:53:30计算机研究 -一类高效的聚类有效性指标及应用.pdf -
论文研究-基于噪点抑制的聚类有效性评价函数构建.pdf
2019-07-22 20:43:51针对传统聚类有效性评价函数中没有利用到数据集结构信息和噪点删除过量等问题,提出一种新的聚类有效性评价函数。该函数由紧密性度量与分离性度量组成,在紧密性度量中加入距离函数表示数据集几何结构,避免单一理论... -
洪水聚类有效性分析.pdf
2021-08-21 11:09:45洪水聚类有效性分析.pdf -
聚类有效性评价综述.pdf
2021-08-21 10:56:28聚类有效性评价综述.pdf