精华内容
下载资源
问答
  • 聚类和异常值分析
    千次阅读
    2019-08-28 21:43:30

    ArcGIS10.5.1做“聚类和异常值分析”的结果不可重复,对于同一组数据每次出现的高-高、高-低、低-高、低-低聚集区都结果不同?有没有大神遇到过相似的问题,求解答,谢谢各位啦

    更多相关内容
  • 基于空间自相关分析的温瑞塘河底泥Ni、Zn空间聚类和异常值分析.pdf
  • 聚类和异常值分析 (Anselin Local Moran's I) 工具的特点是可识别高值密度、低值密度空间异常值,可在经济学、资源管理、生物地理学、政治地理学、疾病预防人口统计等许多领域中应用此工具。 现在回归到我们的...

    欢迎关注智图GeoQ公众号

    ——一个有智慧、高智商、高智力的位置服务提供者

    上一篇文章《地图回溯新型肺炎疫情动态发展》,我们将各省市的疫情分布情况展示在地图上,为更好地观察疫情发展的规律,本文将1月23日-2月1日之间全国各地市确诊病例数据空间化制成聚类和异常分析动图,通过动图展示,清晰展现疫情发展的规律与聚集情况。

    在制图时我们所使用的是ArcGIS中的聚类和异常值分析 (Anselin Local Moran's I) 工具,该工具可使用输入要素类中各要素的下列属性来创建新的输出要素类:local Moran's I 指数、z 得分、p 值和 COType,同时对 COType 字段进行渲染从而形成我们所看到的图。

    其中z 得分和 p 值都是统计显著性的度量,可指明是表面相似性(高值或低值的空间聚类)还是表面相异性(空间异常值)比我们在随机分布中预期的更加明显。

    p 值表示概率。对于模式分析工具来说,p 值表示所观测到的空间模式是由某一随机过程创建而成的概率。当 p 很小时,意味着所观测到的空间模式不太可能产生于随机过程(小概率事件)。

    如果要素的 z 得分是一个较高的正值,则表示周围的要素拥有相似值(高值或低值)。如果要素的 z 得分是一个较低的负值(如,小于 -3.96),则表示有一个具有统计显著性的空间数据异常值,即为高值要素而四周围绕的是低值要素,或者是低值要素而四周围绕的是高值要素。

    COType 字段将始终指明置信度为 95% 的统计显著性聚类和异常值。只有统计显著性要素在 COType 字段中具有值。该字段中值为HH即高值聚类、HL高值主要由低值围绕的异常值、LH即低值主要由高值围绕的异常值、LL即低值聚类;分别对应渲染图中对的图例High-High Cluster、High-Low Outlier、Low-High Outlier、Low-Low Cluster。我们可以用下面这张图形象的解释这四类特点。

    注:图片引用自大虾卢在CSDN网站中的博客,博客链接地址:https://blog.csdn.net/allenlu2008/article/details/50674929

    有兴趣的朋友可以移步链接查看虾神对聚类和异常值分析 (Anselin Local Moran's I) 工具的使用介绍。

    聚类和异常值分析 (Anselin Local Moran's I) 工具的特点是可识别高值密度、低值密度和空间异常值,可在经济学、资源管理、生物地理学、政治地理学、疾病预防和人口统计等许多领域中应用此工具。

    现在回归到我们的图中,武汉市作为疫情起源城市一直处于HH和HL状态,其周边城市由LH逐渐发展为HH,表明疫情还是有一定的聚集性,由武汉市逐步往周边城市扩散。且通过观察23日-25日这三天的变化情况,发现HH状态的城市增长速度较快。

    图中有以下两点特殊:

    _

    北京市一直处于HL状态,说明其确诊病例一直处于高值,而北京周围确诊病例处于低值,主要是因为北京是全国很重要的交通枢纽,人流量很大。

    _

    兰州市、哈尔滨市、昆明市有短暂的时间段为HL,大多数时间段为LL,出现这种情况主要是确诊病例一直在变化,其自身城市确诊病例的增长速度比其他城市的增长速度要低很多,所以就变成了LL。

    总体来说,疫情高发地起始于湖北省,并逐渐向周边省市扩散,到2月1日,疫情高发地集中在湖北省、湖南省、浙江省、安徽省、江西省等。

    END

    _

    智图免费提供疫情地图服务

    如果您有制作疫情相关地图需求,

    智图免费提供技术支持,产品,服务,

    共同战“疫”。

    如需咨询,可添加GeoQ小助理

    智图GeoQ是什么?戳下划线文字找到答案

    智图GeoQ为何能登上《清华管理评论》

    欢迎加入GeoQ位置智能技术交流群:470334855

    有专业人士在线答疑制图方法哦!

    _

    展开全文
  • 前面我们聊的各种指数,无论是莫兰指数还是PZ得分,都是整体数据的结论,也就是所谓“全局莫兰指数(Globe Moran's I)”,也就说,不管我给你多少数据,最后你就吐出一个来给我!这算神马!当然,从名字上来看,...

    前面我们聊的各种指数,无论是莫兰指数还是P值Z得分,都是整体数据的结论,也就是所谓“全局莫兰指数(Globe Moran's I)”,也就说,不管我给你多少数据,最后你就吐出一个来给我!这算神马!当然,从名字上来看,全局数据嘛,有一个给你就不错了。实际上作为我们玩GIS的人,最喜欢的就是出一张花花绿绿的地图,比如这样的:


    或者是这样的:

     

    所以我们更希望的是将我们输入的数据,标示出明显的数值来,比如我输入1000个要素,那么你别就给我1个数据啊,怎么也得吐出1000个数据来吧,甭管什么莫兰指数,P值Z得分啥的,不能给我省了。所以这里就要用到今天我们说的Anselin LocalMoran's I方法了,而它与GlobeMoran's I的区别,如下:

     

    所以,这种算法比较符合我们做GIS的人的思维,那么这种可视为地理信息强迫症的特效药的Anselin Local Moran's I算法,是哪位大爷提出来的呢?下面进入我们的算法科普时间:

     

     

    上面这个脑门像土豆神一样明亮的老帅哥,就是ASU(美国亚利桑那州立大学)的地理与规划学院院长Luc Anselin教授,也是Anselin Local Moran'I算法的提出者,所以也就用了他的大名来标示这种算法。

    如果做地理分析的,一定听说一个叫做GeoDa的软件,这个软件就是Anselin教授领导的ASU的地理空间分析和计算中心弄出来的神器。后来他的这个中心,就一直被人称为“GeoDa Center”

    他在2008年的时候,当选为了美国科学院院士,与中国一样,当选院士被认为是美国学术界最高荣誉之一。

     

    好了,起源介绍完了,下面我们来看看这种算法有些啥神奇的地方。


    首先,他还是会计算各种常规的指数,比如Moran's I以及P值Z得分啥的,但是他是针对整份数据中,每一个要素都会去记录一个相应的值,算出来就会变成这个样子:


    用中国每个省的GDP进行计算,算完对每一个省都会对应有一系列数据,前面三个就是每个省的Moran's I和Z得分以及P值,这个就不解释了,大家有兴趣去看以前的文章,Anselin Local Moran's I最强大的地方,就是他能够用自己身的数据,与周边的数据进行比较,生成COType这样一个字段。

     

    COType是:聚类/异常值类型的简写(clustering /  outlier Type),这个东西是啥东东呢,我们来看下面的解释:

    首先,正常情况下,聚类我们认为是这样的:


    就是相同的类别会被放到一起。但是我们这个工具不但要计算聚类类型,还要计算的是异常的类型,何谓异常呢?异常自然就是下面这样的情况:

     

    当然,还有一种情况,就是随机了,如下:


    抛开随机不谈,我们谈聚类和异常的话,就会出现4种组合,如下:


    而因为在地理空间上,不同的要素之间会出现相邻或者包围这种情况,所以就用了如下这种描述:周围一圈都是低值,围绕一个高值,这种情况被表示为HL,反之,周围都是一圈高值,围绕着一个低值,那么就表示为LH。

     

    这种方式,能够明确的发现空间数据以及参与计算字段值中的一些规律,比如采用2008年的各省GDP进行计算的结果如下:


    山东、江苏、浙江出现了明显的高值聚类,也就是说,他们的GDP与空间分布,不但自己的GDP处于高位,且旁边省份的GDP也是在高位。

    而全国唯一个高值被低值包围的省,就是广东省,HL的意思是他自身的GDP处于高位,但是在空间分布上,它身边的省份都处于低值的情况。

     

    从这里可以看出,采用AnselinLocal Moran's I能够在更细粒度的范围下,对空间关系进行探索,至于如何使用这个工具,我们下次再说。

     

    待续未完。

    展开全文
  • 写这篇文章之前,首先对所有的读者进行诚挚的歉意,在白话空间统计十七章聚类和异常值分析里面,对HH\HL\LH\LL四种情况的描述出现了严重的问题,根据ArcGIS计算出来的数据就直接进行描述,结果发生了想当然的结果。...

     

     

    写这篇文章之前,首先对所有的读者进行诚挚的歉意,在白话空间统计十七章聚类和异常值分析里面,对HH\HL\LH\LL四种情况的描述出现了严重的问题,根据ArcGIS计算出来的数据就直接进行描述,结果发生了想当然的结果。

    在这里诚恳而且郑重的道歉,特别是对那些被我的文章误导了的同学。


    第二,对河北师大李同学的提醒进行真诚的感谢,如果不是你的提醒,我可能还不知道我发生了如此重大的错误。正因为李同学的提醒,虾神重读了luc Anselin教授1995年的论文《Local Indicators of Spatial Association-LISA》,并且专门使用了GeoDa进行验证,最后终于发现了上一篇文章里面对于四种结论的图片是错误的,错得相当严重,所以本文对十七章进行全面修正。

    在anselin教授的论文里面,对HH\HL\LH\LL四种情况的象限分配描述是这样的:


    具体来解释就是:



    而我在上一篇文章里面,把第三第四象限搞反掉了,这点是错误的,如下:



    这样就是正确的,但是为什么会出现如此严重的错误呢?是因为在ArcGIS里面,只会去计算Moran's i和z得分,所以部分只使用ArcGIS而没有用过GeoDa的人(主要是虾神这种老是自以为是而且还有些孤陋寡闻的土鳖虾),把X轴和Y轴当成了莫兰指数和Z得分,想理所当然的画出了一个散点图,而且还洋洋得意的以为是对的。

    实际上第十七话的图和解释是严重错误!请大家原谅。

    实际上第十七话的图和解释是严重错误!请大家原谅。

    实际上第十七话的图和解释是严重错误!请大家原谅。


    重要的事情说三遍,诚恳道歉。

     

     

    在重读了LISA这篇论文之后,发现X轴Y轴的意思完全和直接计算出来的moran's i和z得分完全不是一回事,实际上,是这样的:

    (lisa值为观测值*滞后值,结果正值为聚集,负值为异常)

    PS:多谢@wchuns 指出我的错误,让我有机会再次更正

     

    (lisa值为观测值*滞后值,结果正值为聚集,负值为异常)


    而我上次写成了这个样子:

     

     

     

    两个轴的解释如下:

    首先,X是标准化之后的观测值:

     

    比如我用中国2012年的市级人口数据(男),那么计算如下:


    然后Y轴是所谓的空间滞后值(spatial lag),对这个空间滞后模型也是Anselin教授在1988年提出来的,其表示的是:

     

    该观测值周围邻居的加权平均。计算过程如下:

     

     

    首先从空间权重矩阵中,获取该要素的邻接要素,比如2388(石家庄)这个要素,他的邻接要素一共有6个,如下:

    然后获取6个邻接要素的标准化观察值,并且进行加权平均,最后将这个加权平均值赋予中心要素。

    全部计算完成之后,X轴和Y轴就全部计算出来了。

    接下去就可以画出散点图了:


    剩下的内容,就是通过Z得分和P值,来确定该数据是否具有统计显著性:
    首先还是P值,P值没有意义的话,就是瞎猜,所以首先按照最高等级的99%可信度,将P值设为0.01,绘制如下:


    大部分数据集中在第三象限,也就是LL(低值聚类),当我们把置信度调整到0.05,再看:


    把四个象限尺度放大:

    最后,贴出Luc Anselin教授的原始论文地址:
    http://isites.harvard.edu/fs/docs/icb.topic868440.files/Anselin1995%20LISA.pdf

    geoda软件的下载地址大家请自行搜索(最后一个好消息:这个东东下载不用翻墙哦……此次应有掌声)

    最后,再次对河北师大李同学表示感谢。

     

     

    展开全文
  • AnselinLocal Moran's I作为细粒度的空间统计工具神器,在ArcGIS里面自然也是提供了相应的工具的,这个工具就直接叫做“聚类和异常值分析”(Cluster and Outlie Analysis(Anselin Local Morans I))。   在后面的...
  • 这个工具就直接叫做“聚类和异常值分析”(Cluster and Outlie Analysis(Anselin Local Morans I))。   在后面的括号里面保留了以老帅哥 Anselin 教授命名的算法的名称,不管中英文都有,说明了大家虾神一 样,...
  • 【R语言应用实战代码】-聚类和异常值_莫兰散点图.zip
  • 作者:刘顺祥 来源:数据分析1480在上一期的异常值识别《KNN除了可以做分类预测,还知道它可以识别异常值吗?》中,我们详细分享了如何使用K近邻的方法完成数据中异常值...
  • 此外,MDCGen 实现了经典功能,例如集群分离的定制、重叠控制、异常值和噪声特征的添加、相关变量、旋转数据集质量评估等。 为了允许广泛的生成多样性灵活性,某些配置可能会创建无意义或无用的数据集。 因此...
  • # 识别异常值,1表示异常,0表示正常 OutLine = np.where(dist > UL, 1, 0) raw_data = data.loc[np.array(labels) == label,] new_data = pd.DataFrame({ 'Label' :label, 'Dist' :dist, 'OutLier' :OutLine})...
  • 第二步:计算数据集D中所有对象p 的离群因子of3 § ,及平均 avg_of标准差std_of ,满足条件 的对象判定为离群点,其中 beta为设定的阈值参数。 python 过程实现如下。 #基于聚类的离群因子计算 ## df_res : ...
  • 聚类-异常检测

    2019-09-27 11:26:22
    例如网络流量异常检测方法,对网络流量样本数据进行归一化均值化处理,得到网络流量样本数据向量vk,1≤k≤M,M代表网络流量样本数据的类别数,对识别的网络流量测试数据进行归...
  • kmeans算法的思路非常简单,就是不断计算各样本点簇中心点之间的距离,直到收敛为止,其具体步骤如下: 1.从数据中随机挑选K个样本点作为原始的簇中心; 2.计算剩余样本与簇中心的距离,并把各样本标记为离K个簇...
  • K-means算法是一种采用距离作为相似性评价指标的聚类算法,其快速简洁的特点在异常检测场景中有一定的应用价值。但是,传统的K-means聚类算法在选取初始中心度量相似性上有一定缺陷。针对传统的K-means算法中存在的...
  • 基于K-均值聚类和泰森多边形的异常值检测方法.pdf
  • 异常值matlab代码RFM-SCAN:使用带有大量异常值的空间聚类进行稳健的特征匹配 (TIP2020) 在 Matlab 2016b 上成功测试。 如果您将此存储库中的代码用作已发布研究项目的一部分,请引用本文。 姜星宇、马佳一、姜俊军...
  • 基于半监督聚类异常用户检测,段磊,王晶,随着用户的价值逐渐被重视,作为保护用户安全的重要技术之一,异常用户检测也越来越受到人们关注。但是异常用户因为其数据稀少,
  • 在机器学习中,异常检测处理是一个比较小的分支,或者说,是机器学习的一个副产物,因为在一般的预测问题中,模型通常是对整体样本数据结构的一种表达方式,这种表达方式通常抓住的是整体样本一般性的性质,而那些...
  • 聚类检测异常

    千次阅读 2018-07-31 18:40:18
    主要思想: ...注意是每个点到簇中心的距离的中位数,不是平均值,因为异常值对中位数的影响很小,几乎可以忽略,但是对均值的影响很大。   from sklearn import preprocessing from sklea...
  • ArcGIS

    千次阅读 2022-03-27 14:41:52
    arcgis做高程、坡度、坡向分析图 数据获取:地理空间数据云(www.gscloud.cn/search)获得基础地形数据。 以SRTMASTER的DEM数据最为常用,免费的资源有30m90m的全球DEM数据 SRTM:Shuttle Radar Topography ...
  • 基于密度峰值聚类的电力大数据异常值检测算法.pdf
  • 在训练聚类模型的过程中,通过计算异常因子来剔除含有异常样本的聚类簇,在训练自回归模型过程中,将不属于正常取值区间的异常样本剔除。最后在OMNeT 平台下搭建仿真小型储水加热工业系统并进行验证,实验结果表明:...
  • 聚类——基于距离阈值的聚类算法

    千次阅读 2021-12-23 16:23:37
    基于距离阈值的聚类算法 1.最大最小距离算法 算法思想 对待分类模式样本集以最大距离选取新的聚类中心,以最小距离原则进行模式归类。 算法步骤 从N个样本集中的任选取一个样本,作为第一个聚类中心 z1z_1z1​​;...
  • 它在一定程度上揭示了事物间的内在规律性,预测时把它作为计算预测的直接依据。因此,它对预测准确度有极大的影响。任何一种具体的预测方法都是以其特定的数学模型为特征。预测方法的种类很多,各有相应的预测模型...
  • matlab聚类分析聚类分析的Matlab 程序—系统聚类(1)计算数据集每对元素之间的距离,对应函数为pdistw.调用格式:Y=pdist(X),Y=pdist(X,’metric’), Y=pdist(X,’distfun’),Y=pdist(X,’minkowski’,p)说明:X是m*n...
  •   问题的主要任务时找出商品的销量异常价格异常,提供4个月的商品信息数据,共1700万余条,4个月的店铺信息数据,共60万余条,强调时间复杂度空间复杂度、异常值识别率准确率。我们用店铺分析辅助商品的异常,...
  • 它专为包含异常值和/或缺失值的数据而设计。 BRSMM 对象将每个主题建模为具有特定主题参数的重尾分布的混合。 根据贝叶斯范式,参数配备了共轭先验分布。 该模型还包含表示数据中缺失值数据质量的隐藏变量。 ...
  • 聚类分析的距离计算

    千次阅读 2019-03-20 18:16:05
    聚类分析中如何度量两个对象之间的相似性呢?一般有两种方法,一种是对所有对象作特征投影,另一种则是距离计算。前者主要从直观的图像上反应对象之间的相似度关系,而后者则是通过衡量对象之间的差异度来反应对象...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 21,197
精华内容 8,478
关键字:

聚类和异常值分析

友情链接: FCTI.rar