精华内容
下载资源
问答
  • 数据分析中有很多数据分析的方法,通过这些方法我们能够直接分析出数据中隐藏的有价值的信息,从而得到一个准确的结果。而数据分析方法中,对比分析法是一个十分常用的...对比分析法的特点就是可以非常直观地看出事...

    数据分析中有很多数据分析的方法,通过这些方法我们能够直接分析出数据中隐藏的有价值的信息,从而得到一个准确的结果。而数据分析方法中,对比分析法是一个十分常用的方法,在这篇文章中我们就详细的为大家介绍一下对比分析法的相关知识。

    1.对比分析法的定义

    对比分析法是指将两个或两个以上的数据进行比较,分析它们的差异,从而揭示这些数据所代表的事物发展变化情况和规律性。对比分析法的特点就是可以非常直观地看出事物某方面的变化或差距,并且可以准确、量化地表示出这种变化或差距是多少,这就是对比分析法的定义。

    2.对比分析法的分类

    其实对比分析法可分为静态比较和动态比较两类,其中静态比较就是指在同一时间条件下对不同总体指标的比较,比如说不同部门、不同地区、不同国家的比较、也叫横向比较,简称横比。而动态比较就是指在同一总体条件下对不同时期指标数值的比较,也叫纵向比较,简称纵比。动态比较和静态比较这两种方法既课单独使用,也可结合使用。进行对比分析时,可以单独使用总量指标、相对指标或平均指标,也可将它们结合起来进行对比。

    3.对比分析法的实践运用

    对比分析法的实践运用主要体现在五方面,第一就是与目标对比,具体就是实际完成值与目标进行对比,属于横比。第二就是与不同时期对比,具体就是选择不同时期的指标数值作为对比标准,属于纵比。第三就是对同级部门、单位、地区对比,具体就是与同级部门、单位、地区进行对比,属于横比。第四就是对行业内对比,具体就是与行业中的标杆企业、竞争对比或行业的平均水平进行对比,属于横比。第五就是与活动效果比,具体就是对某项营销活动开展前后进行对比,属纵比。同时,我们还可以对活动的开展状况进行分组对比,这属于横比。

    4.对比分析法的注意事项

    我们在使用对比分析法的手需要注意的是指标的口径范围、计算方法、计量单位必须一致,即要用同一种单位或标准去衡量。同时还需要重视对比的对象要有可比性,对比的指标类型必须一致。无论绝对数指标、相对数指标、平均数指标,还是其他不同类型的指标,在进行对比时,双方必须统一。

    在这篇文章中我们给大家介绍了关于对比分析法的相关知识,对比分析法是数据分析中一个常见的分析方法,如果我们掌握了这个方法,相信会对我们的数据分析工作更加有利。

    展开全文
  • 基于DST和注入压降在煤层气试井中的特点,利用煤层气试井专用设备对同一口井进行DST试井和注入压降试井,根据其工程实践结果,对比分析了两种方法在技术理论、专用设备实用性等方面的优缺点。分析结果显示:煤层气...
  • 高密度电不同跑极方式的对比及效果分析,马志飞,刘鸿福,高密度电由于自身的优势而在工程地质勘察等领域得到越来越广泛的应用。它的具体装置有很多,在实践中应根据各种跑极方式的特点
  • 针对3-RPS并联机器人结构特点,在Solidworks中建立机构三维模型。采用新型数值算法求解该机构运动学逆解。在此基础上分别运用蒙特卡洛法和MATLAB仿真分析法求解机构工作空间。并分析对比2种方法优缺点。
  • 数据分析的一些方法数据分析常用工具&...对比分析法的特点是:可以非常直观地看出事物某方面的变化或差距,并且可以准确、量化地表示出这种变化或差距是多少。 对比分析法可分为静态比较和动态比较两类。 静态

    数据分析常用工具&语言

    Excel、SQL、Python、Power BI

    常用数据分析方法

    对比分析法

    所谓对比分析法,是指将两个或两个以上的数据进行比较,分析它们的差异,从而揭示这些数据所代表的事物发展变化情况和规律性。对比分析法的特点是:可以非常直观地看出事物某方面的变化或差距,并且可以准确、量化地表示出这种变化或差距是多少。
    在这里插入图片描述
    对比分析法可分为静态比较动态比较两类。
    静态比较是在同一时间条件下对不同总体指标的比较,如不同部门、不同地区、不同国家的比较,也叫横向比较,简称横比。动态比较是在同一总体条件下对不同时期指标数值的比较,也叫纵向比较,简称纵比。这两种方法既可单独使用,也可结合使用。进行对比分析时,可以单独使用总量指标、相对指标或平均指标,也可将它们结合起来进行对比。比较的结果可用相对数表示,如百分数、倍数等指标。
    通过对比分析,可以了解自身某一方面或各方面的发展水平在公司、集团内部或各地区处于什么样的位置,明确哪些指标是领先的,哪些指标是落后的,进而找出下一步发展的方向和目标。

    漏斗分析法

    漏斗图是一个适合业务流程比较规范、周期比较长、各流程环节涉及复杂业务过程比较多的管理分析工具,漏斗图是对业务流程最直观的一种表现形式,并且也最能说明问题的所在。通过漏斗图可以很快发现业务流程中存在问题的环节。
    单一的漏斗图无法评价销售在过程管理中行为是否规范。我们可以利用之前介绍的对比分析方法,对同一环节的前后效果进行对比分析,或对同一环节不同销售行为转化率作比较,得出具体结果。
    在这里插入图片描述
    通过漏斗图的对比和转化分析,可以找出销售在过程管理行为中,哪些方面的行为过程较为薄弱,哪些环节的转换率较低,针对这种情况,有的放矢,各个突破,规范销售个人的业务行为。

    矩阵关联分析

    矩阵分析法是指根据事物的两个重要属性作为分析的依据,进行分类关联分析,找出解决问题的一种分析方法,也称为矩阵关联分析法,简称矩阵分析法。
    该方法以属性A为横轴,属性B为纵轴,组成一个坐标系,在两坐标轴上分别按某一标准进行刻度划分,构成四个象限,将要分析的每个事物对应投射至这四个象限内,进行交叉分类分析,直观地将两个属性的关联性表现出来,进而分析每一个事物在这两个属性上的表现,因此它也称为象限图分析法。
    在这里插入图片描述
    矩阵关联分析法在解决问题和资源分配时,为决策者提供重要参考依据。先解决主要矛盾,再解决次要矛盾,有利于提高工作效率,并将资源分配到最能产生绩效的部门、工作中,有利于决策者进行资源优化配置。

    5W2H分析法

    5W2H分析法是以五个W开头和两个H开头的英语单词进行提问,从回答中发现解决问题的线索,即何因(Why)、何事(What)、何人(Who)、何时(When)、何地(Where)、如何(How)、何价(How much),这就构成了5W2H分析法的总框架。
    在这里插入图片描述
    该方法广泛用于企业管理和技术活动,对于决策和执行性的活动措施也非常有帮助,也有助于弥补考虑问题的疏漏。针对具体的问题,可以采用5W2H的方法,采用一问一答的方式,若是中途问题解决中发现瓶颈,考虑跟换解决问题的方式,以此达到解决问题的目的。

    职业要求

    懂业务、懂管理、懂分析、懂工具、懂设计

    展开全文
  • 土壤表面分形维数计算方法的对比分析,鲁植雄,姜春霞,分析了变差、功率谱密度、结构函数、轮廓均方根法和R/S计算分形维数原理及使用特点,基于W-M函数比较各个方法计算精度
  • 宁诗哲 屈福政 张春光0 引言止推圆柱滚动轴承因其承载能力强的特点,在旋转类机械中得到了广泛应用,而其承载能力、变形与刚度等问题又与轴承的受力状态密切相关,因此, 轴承受力分析成为轴承研究的基础[1],尤其是...

    宁诗哲 屈福政 张春光

    0 引言
    止推圆柱滚动轴承因其承载能力强的特点,在旋转类机械中得到了广泛应用,而其承载能力、变形与刚度等问题又与轴承的受力状态密切相关,因此, 轴承受力分析成为轴承研究的基础[1],尤其是接触情况、接触半宽、弹性趋近量等参数是研究并设计滚动轴承的关键。 早在100 多年前,Hertz 即对点接触和线接触的弹性接触问题给出了理论解[2]。20 世纪60 年代后,随着计算机的普及,出现了更多的研究方法。Harris[3] 曾采用切片法对载荷作用下接触应力的分布进行研究。王大力等[4] 采用有限元法对球轴承接触问题进行分析。本文对现有几种计算圆柱滚子轴承分析接触情况的方法进行描述,并通过实例计算,得到不同方法的各自优缺点及适用范围。

    1 接触应力计算方法
    1.1 Hertz 接触理论
    对于弹性体的接触问题令人满意的分析,最早是由Hertz 得到的。分析中Hertz 采用了如下假设:1)接触物体只产生弹性变形,并服从虎克定律;2)负载垂直于接触表面,即不计及接触物体之间的摩擦力;3)接触面的尺寸与接触物体表面相比很小。通过分析得到了线接触下的接触半宽和最大接触应力的公式,而且接触应力在接触半宽上呈椭圆形分布,见图1。d716bbdf9a3e8f32cbe7e9ff61863662.png

    图 1 Hertz 接触模型示意图45d7938ef558e82d1bfc529641b824cb.png
    式中:a Ω 为接触半宽, F 为轴向载荷, lt 为有效接触长度, R 为滚动体半径,E '为材料参数,v 1、E 1 为滚动体的泊松比和弹性模量, v 2、E 2 为支撑架的泊松比和弹性模量。 在满足Hertz 接触的假定下,计算出接触半宽和最大接触应力。随着载荷的增大、接触长度的减小,接触半宽和最大接触应力都会增大。而滚动体的半径越大,接触半宽越大,最大接触应力越小。

    1.2 基于弹性力学和影响系数法的数值计算方法
    根据弹性力学可以得到滚动体与滚道之间的力平衡方程和变形协调方程。式(1)可以很好地表达接触模型,但在应用到滚动轴承情况时,该式并没有解析解。因此,要用数值方法进行求解。目前关于滚动体接触计算方法包括切片法和影响系数法,相比于切片法,影响系数法考虑了接触边缘效应的影响,因此,更接近实际的接触情况,也更加精确,文中采用影响系数法。

    6cc211f61944dc495645a0f48a210be4.png
    式中:P (x,y )为接触应力分布,z (x,y )为2 接触表面间的初始距离, F 为轴向载荷, δ 为弹性趋近量;S 为载荷作用下的接触区域,E '为材料参数。

    式(3)进行数值求解计算时,很少事先知道接触区域的具体尺寸。因此,首先可以用Hertz 接触理论来预估接触区域大小。而且,应选得足够大初始接触区域,以便包含整个实际的接触区域。考虑到接触边界是关于接触线对称的,因此将半接触区域划分为M×N 个小的矩形单元,而其边长为a m 和b n,假定每个单元内的接触应力是均匀的,则式(4)可以离散为式(5)。

    21b9ae340198e9a319e52887284cbaf7.png

    式中:Pj 为第j 块单元的平均接触应力; xk ,yk 为第k 单元的中心横、纵坐标,δ (xk , yk ) 为第k 块单元的弹性趋近量, z (xk , yk ) 为第k 块单元的初始距离,Kkj为影响系数矩阵元素,其物理意义是Pj 所引起的第k(1 ≤k ≤M×N)块单元中心处的变形,其表达式为

    319c3acf856bc2aa6324be4386ba4cac.png

    其中:

    184d6206cacff36e0e8ff407c77b6b2a.png

    通过求解不同单元上的接触应力,即可确定整个接触区域的接触情况。在计算中,在靠近边缘处可能会有负的接触应力,需要将这些网格去掉,并重新划分,重新计算,直到最终接触区域和应力收敛。最后还要验算接触应力与外载荷的平衡是否满足精度要求。计算流程图见图2。

    754c89eec149fe8bd0e2f27db7081b5e.png

    图 2 数值计算流程图

    用Matlab 计算了实验模型,接触应力和接触区域见图3。从结果发现:
    1)沿接触宽度方向,应力分布为椭圆型,中间接触应力最大;
    2)沿接触长度方向,应力分布呈马鞍状,中间基本持平,靠近边缘升高,有边缘效应。a75e8fc9e8470f5f2c3fc4298e8d170e.png

    图 3 Matlab 计算结果三维图

    1.3 光弹实验法
    在众多的实验方法中,光弹实验法是迄今为止能测量三维物体内部任一点应力的唯一方法。光弹实验的基本原理是利用某些高分子材料的暂时双折射效应。用实验材料制成与实物相似的模型,并施加相似的载荷,在特定的光场中进行观察,分析模型出现的干涉条纹,即可得到模型内各点的应力大小和方向。光弹实验一般要与相似原理共同配合使用,对于结构复杂的滚动轴承,进行等尺寸的光弹实验很不方便,且重点在进行理论的计算与验证,所以用近似的圆盘来
    进行实验。实验中使用PG20 型偏光弹性仪。使用砝码,并通过1:10 的杠杆放大进行加载。实验中从10 ~ 80 kg做了8 组,载荷越大,应力越大,分布就越明显,越便于观察与分析。见图4。光弹材料的光力学性质见表1。

    f51ab72a01778021ce3a1e7cad317601.png

    2ae5668e1f678e1cea682376a74f695c.png图 4 实验所用模型及实验装置

    光弹条纹图中包含等差线(又称等色线)和等倾线2 个重要的物理量。等差线表达主应力差大小的信息;而等倾线表达主应力的方向。如何通过实验中得到的光弹性条纹来计算应力的具体数值,一直是整个光弹实验的重点。本实验通过数字光弹法来进行实验数据的采集和处理,就是通过适当地旋转偏振光仪系统的某些光学元件来达到引入已知相位差的目的,补充足够的方程来求解未知的相位信息。 随着载荷的增加模型等色线条纹逐渐增加,在加载位置最为明显,见图5、图6。此处条纹过于密集,无法准确的去包裹,因此,光弹实验无法得到接触区域的应力信息,但可以得到平面内3 个应力(2 个方向的正应力,平面内的切应力)分布。但是数值对比不够直观,因此在实验模型范围内,选择了4 条水平特征线(D/8、D/4、3D/4、7D/8),取得在特征线上的点的3 个应力。见图7。

    2cfa173b9036427ef29e00bca399634c.png图5 典型等色线条纹图(70 kg,80 kg)7aa9ed7deb3493acde724ae276fc7df9.png

    图 6 典型等倾线条纹图(0°,45°)

    270d8aa0730cd5692c0ac29315079817.png

    图 7 应力沿特征线(D /4、D /8)的分布

    在水平特征线上,应力分布连续,正应力(σx、σy)沿着加载轴线左右对称分布,剪应(τxy)沿着加载轴线左右反对称分布。而且随着载荷的不断增大,应力数值也在不断增大。其中σy 增加最快,曲线变化最明显。越靠近接触位置,接触应力越大。
    1.4 有限元仿真
    随着计算机技术的发展,有限元方法可以很好地解决传统方法和数值计算法所解决不了的问题。而且随着相关软件的不断发展,其所模拟的情况以及计算的结果也越来越精确。它对于接触问题的模拟并不是基于Hertz 接触公式,而是通过将整个模型划分为有限个足够小的单元,并通过刚度矩阵以及边界条件,构建方程组,这些方程组的解即是单元上节点的位移,而通过这
    些基本解可以得到接触边缘的应力以及模型内部的应力分布。对于接触问题,一方面接触区域的大小、相互位置和接触状态不仅事先是未知的,而且随着求解过程是不断变化的;另一方面,接触过程要满足3 个条件:接触物体不可相互侵入、接触力的法向分量只能是压力以及切向接触的摩擦条件具有强烈的非线性。ANSYS 通过对不同的关键选项和实常数进行控制,可以很好模拟接触状况。即通过Ansys 软件来模拟实验模型的接触情况。
    接触区域要进行网格细化,网格尺寸要小于接触半宽的一半,其他部分可适当放大网格,以减小计算量,提高计算效率。上盖板加竖直向下的载荷,下盖板固定,轴承竖直方向对称面的节点要加约束,限制其向两侧移动。模型刚性面选为目标面,而轴承表面选为接触面。经验明,本例中罚刚度FKN 选为1.5 比较合适。为方便与光弹实验法做比较,得到模型中与光弹实验特征
    线位置取得节点3 个应力数值。见图8。

    cf24d9c1cdbcc819170b6a533d6b79a4.png图 8 有限元法应力沿特征线(D /4、D /8)的分布

    同一位置3 个应力数值在趋势上与实验结果完全相同。而数值上,实验结果在x 方向正应力和xoy 面的剪切应力偏大,y 向正应力偏小,但是误差很小。提取接触位置的最大接触应力,数值方法为44 ~ 52 MPa(考虑到边缘效应),有限元法为51 ~ 64 MPa。根据最小势能原理,同一模型在同一种工况下,应力分布应该只有一种。由此可以间接验证基于Hertz 公式的数值解法的正确性。它可以模拟各种工程实际中遇到的复杂结构和不同载荷下的接触情况。

    2 不同方法对比
    Heatz 理论公式比较简单,但是因为假定在实际中很难实现,而且在较复杂的情况下,比如偏载就无法应用。但在较简单的工况下,计算精确度很高。数值方法基于弹性力学和影响系数法,相关的研究已有很多。通过变换网格可以提高精度,通过变化部分参数还可以计算偏载,研究修型。但是影响系数法是基于良好支撑以及支撑不变形的基础上,即只有滚动体发生弹性变形,这在一定程度上影响了精度。有限元法是目前最好的方法,而且随着软件的不断进步,通过不同参数的设置,模拟越来越准确。但是软件本身需要操作人员有一定的理论基础与软件操作能力。通过计算发现Hertz 理论解、基于影响系数法的数值方法和有限元法得到的最大接触
    应力不同。Hertz 理论是48 MPa,数值方法是44 MPa,有限元法为51 MPa。这是因为3 种方法提取的应力位置有差别,数值方法计算出的结果是单元的平均接触应力,有限元法得到的是节点接触应力。因为实际情况中,越接近对称中心,接触应力越大,所以有限元法会比数值法偏大。
    光弹实验法是最准确还原工况的,但是实验本身成本较高。而且光学实验环境也比较苛刻,后期的图像处理也比较高的专业水平。所以,一般会为关键部分或代表性的结构进行实验验证。实验加载无法做到真正的点接触,会小部分的线接触,而且模型本身的残余应力也无法完全消除。这会导致实验结果比正常的理论值略大。

    3 结论
    1)Hertz 理论比较简单,可以用于初值的估算,但是不能用于较复杂的情况(比如偏载)。
    2)基于影响系数法的数值方法可以得到较精确的解,还可以分析偏载的工况,也可以用于修形,但是必须假定变形只发生在滚动体上,这显然会带来误差。
    3)光弹实验法可以最直观的得到滚动轴承接触的内部应力信息,而且配合相似原理,可以得到原模型的应力信息,但是实验费用较高,要求的实验条件也较高。
    4)有限元法可以模拟各种接触情况,而且精度也很高,是目前为止最好的方法。但是,需要操作人员一定的理论能力以及软件操作水平,还有对复杂的接触问题,会消耗较大的计算资源。

    展开全文
  • 各种聚类算法(原理+代码+对比分析)最全总结

    万次阅读 多人点赞 2017-12-14 10:41:20
    给定一个有N个元组或者纪录数据集,分裂将构造K个分组,每一个分组就代表一个聚类,K<N。 特点:计算量大。很适合发现中小规模数据库中小规模数据库中球状簇。 算法:K-MEANS算法、K-MEDOIDS算法、...

    序言

    还是要持续总结,持续积累。


    一、聚类的目标

    使同一类对象的相似度尽可能地大;不同类对象之间的相似度尽可能地小。


    二、聚类算法分类

    1.基于划分

    给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K<N。
    特点:计算量大。很适合发现中小规模的数据库中小规模的数据库中的球状簇。
    算法:K-MEANS算法、K-MEDOIDS算法、CLARANS算法

    2.基于层次

    对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。
    特点:较小的计算开销。然而这种技术不能更正错误的决定。
    算法:BIRCH算法、CURE算法、CHAMELEON算法

    3.基于密度

    只要一个区域中的点的密度大过某个阈值,就把它加到与之相近的聚类中去。
    特点:能克服基于距离的算法只能发现“类圆形”的聚类的缺点。
    算法:DBSCAN算法、OPTICS算法、DENCLUE算法

    4.基于网格

    将数据空间划分成为有限个单元(cell)的网格结构,所有的处理都是以单个的单元为对象的。
    特点:处理速度很快,通常这是与目标数据库中记录的个数无关的,只与把数据空间分为多少个单元有关。
    算法:STING算法、CLIQUE算法、WAVE-CLUSTER算法

    三、DBscan聚类

    1.算法原理

    DBSCAN(Density-Based Spatial Clustering of Application with Noise)是一种典型的基于密度的聚类算法,在DBSCAN算法中将数据点分为一下三类:
    核心点:在半径Eps内含有超过MinPts数目的点
    边界点:在半径Eps内点的数量小于MinPts,但是落在核心点的邻域内
    噪音点:既不是核心点也不是边界点的点
    在这里有两个量,一个是半径Eps,另一个是指定的数目MinPts
    这里写图片描述

    2.代码
    #  encoding=utf-8
    
    import numpy as np
    from sklearn.cluster import DBSCAN
    from sklearn import metrics
    from sklearn.datasets.samples_generator import make_blobs
    from sklearn.preprocessing import StandardScaler
    import matplotlib.pyplot as plt
    
    
    class DBScan (object):
        """
        the class inherits from object, encapsulate the  DBscan algorithm
        """
        def __init__(self, p, l_stauts):
            
            self.point = p
            self.labels_stats = l_stauts
            self.db = DBSCAN(eps=0.2, min_samples=10).fit(self.point)
    
        def draw(self):
         
            coreSamplesMask = np.zeros_like(self.db.labels_, dtype=bool)
            coreSamplesMask[self.db.core_sample_indices_] = True
            labels = self.db.labels_
            nclusters = jiangzao(labels)
    
            # 输出模型评估参数,包括估计的集群数量、均匀度、完整性、V度量、
            # 调整后的兰德指数、调整后的互信息量、轮廓系数
            print('Estimated number of clusters: %d' % nclusters)
            print("Homogeneity: %0.3f" % metrics.homogeneity_score(self.labels_stats, labels))
            print("Completeness: %0.3f" % metrics.completeness_score(self.labels_stats, labels))
            print("V-measure: %0.3f" % metrics.v_measure_score(self.labels_stats, labels))
            print("Adjusted Rand Index: %0.3f"
                  % metrics.adjusted_rand_score(self.labels_stats, labels))
            print("Adjusted Mutual Information: %0.3f"
                  % metrics.adjusted_mutual_info_score(self.labels_stats, labels))
            print("Silhouette Coefficient: %0.3f"
                  % metrics.silhouette_score(self.point, labels))
    
            # 绘制结果
            # 黑色被移除,并被标记为噪音。
            unique_labels = set(labels)
            colors = plt.cm.Spectral(np.linspace(0, 1, len(unique_labels)))
            for k, col in zip(unique_labels, colors):
                if k == -1:
                    # 黑色用于噪声
                    col = 'k'
    
                classMemberMask = (labels == k)
    
                # 画出分类点集
                xy = self.point[classMemberMask & coreSamplesMask]
                plt.plot(xy[:, 0], xy[:, 1], 'o', markerfacecolor=col,
                         markeredgecolor='k', markersize=6)
    
                # 画出噪声点集
                xy = self.point[classMemberMask & ~coreSamplesMask]
                plt.plot(xy[:, 0], xy[:, 1], 'o', markerfacecolor=col,
                         markeredgecolor='k', markersize=3)
            # 加标题,显示分类数
            plt.title('Estimated number of clusters: %d' % nclusters)
            plt.show()
    
    
    def jiangzao (labels):
        
        # 标签中的簇数,忽略噪声(如果存在)
        clusters = len(set(labels)) - (1 if -1 in labels else 0)
        return clusters
    
    def standar_scaler(points):
        
        p = StandardScaler().fit_transform(points)
        return p
    
    if __name__ == "__main__":
         """
         test class dbScan
         """
         centers = [[1, 1], [-1, -1], [-1, 1], [1, -1]]
         point, labelsTrue = make_blobs(n_samples=2000, centers=centers, cluster_std=0.4,
                                        random_state=0)
         point = standar_scaler(point)
         db = DBScan(point, labelsTrue)
         db.draw()
    
    3.图形输出

    这里写图片描述
    如图算法自动将数据集分成了4簇,用四种颜色代表。每一簇内较大的点代表核心对象,较小的点代表边界点(与簇内其他点密度相连,但是自身不是核心对象)。黑色的点代表离群点或者叫噪声点。

    4.控制台输出
    Estimated number of clusters: 4
    Homogeneity: 0.928
    Completeness: 0.862
    V-measure: 0.894
    Adjusted Rand Index: 0.928
    Adjusted Mutual Information: 0.862
    Silhouette Coefficient: 0.584
    

    四、K-means聚类

    1.算法原理

    这里写图片描述

    2.代码
    #coding=utf-8
    import numpy as np
    import matplotlib.pyplot as plt
    from sklearn.cluster import KMeans
    
    #从磁盘读取城市经纬度数据
    X = []
    f = open('city.txt')
    for v in f:
        X.append([float(v.split(',')[1]), float(v.split(',')[2])])
    #转换成numpy array
    X = np.array(X)
    #类簇的数量
    n_clusters = 5
    #现在把数据和对应的分类书放入聚类函数中进行聚类
    cls = KMeans(n_clusters).fit(X)
    #X中每项所属分类的一个列表
    cls.labels_
    #画图
    markers = ['^', 'x', 'o', '*', '+']
    for i in range(n_clusters):
      members = cls.labels_ == i
      plt.scatter(X[members, 0], X[members, 1], s=60, marker=markers[i], c='b', alpha=0.5)
    plt.title(' ')
    plt.show()
    
    3.图像输出

    这里写图片描述

    五、层次聚类

    1.算法简介

    凝聚层次聚类:所谓凝聚的,指的是该算法初始时,将每个点作为一个簇,每一步合并两个最接近的簇。另外即使到最后,对于噪音点或是离群点也往往还是各占一簇的,除非过度合并。对于这里的“最接近”,有下面三种定义。我在实现是使用了MIN,该方法在合并时,只要依次取当前最近的点对,如果这个点对当前不在一个簇中,将所在的两个簇合并就行:

    • 单链(MIN):定义簇的邻近度为不同两个簇的两个最近的点之间的距离。
    • 全链(MAX):定义簇的邻近度为不同两个簇的两个最远的点之间的距离。
    • 组平均:定义簇的邻近度为取自两个不同簇的所有点对邻近度的平均值。
    2.代码
    # scoding=utf-8
    # Agglomerative Hierarchical Clustering(AHC)
    import pylab as pl
    from operator import itemgetter
    from collections import OrderedDict,Counter
    points = [[int(eachpoint.split('#')[0]), int(eachpoint.split('#')[1])] for eachpoint in open("points","r")]
    # 初始时每个点指派为单独一簇
    groups = [idx for idx in range(len(points))]
    # 计算每个点对之间的距离
    disP2P = {}
    for idx1,point1 in enumerate(points):
      for idx2,point2 in enumerate(points):
        if (idx1 < idx2):
          distance = pow(abs(point1[0]-point2[0]),2) + pow(abs(point1[1]-point2[1]),2)
          disP2P[str(idx1)+"#"+str(idx2)] = distance
    # 按距离降序将各个点对排序
    disP2P = OrderedDict(sorted(disP2P.iteritems(), key=itemgetter(1), reverse=True))
    # 当前有的簇个数
    groupNum = len(groups)
    # 过分合并会带入噪音点的影响,当簇数减为finalGroupNum时,停止合并
    finalGroupNum = int(groupNum*0.1)
    while groupNum > finalGroupNum:
      # 选取下一个距离最近的点对
      twopoins,distance = disP2P.popitem()
      pointA = int(twopoins.split('#')[0])
      pointB = int(twopoins.split('#')[1])
      pointAGroup = groups[pointA]
      pointBGroup = groups[pointB]
      # 当前距离最近两点若不在同一簇中,将点B所在的簇中的所有点合并到点A所在的簇中,此时当前簇数减1
      if(pointAGroup != pointBGroup):
        for idx in range(len(groups)):
          if groups[idx] == pointBGroup:
            groups[idx] = pointAGroup
        groupNum -= 1
    # 选取规模最大的3个簇,其他簇归为噪音点
    wantGroupNum = 3
    finalGroup = Counter(groups).most_common(wantGroupNum)
    finalGroup = [onecount[0] for onecount in finalGroup]
    dropPoints = [points[idx] for idx in range(len(points)) if groups[idx] not in finalGroup]
    # 打印规模最大的3个簇中的点
    group1 = [points[idx] for idx in range(len(points)) if groups[idx]==finalGroup[0]]
    group2 = [points[idx] for idx in range(len(points)) if groups[idx]==finalGroup[1]]
    group3 = [points[idx] for idx in range(len(points)) if groups[idx]==finalGroup[2]]
    pl.plot([eachpoint[0] for eachpoint in group1], [eachpoint[1] for eachpoint in group1], 'or')
    pl.plot([eachpoint[0] for eachpoint in group2], [eachpoint[1] for eachpoint in group2], 'oy')
    pl.plot([eachpoint[0] for eachpoint in group3], [eachpoint[1] for eachpoint in group3], 'og')
    # 打印噪音点,黑色
    pl.plot([eachpoint[0] for eachpoint in dropPoints], [eachpoint[1] for eachpoint in dropPoints], 'ok')
    pl.show()
    
    3.图像输出

    这里写图片描述

    展开全文
  • 为研究各种重采样方法不同特点,采用比较分析法,在充分分析最邻近内插法、双线性内插法和三次卷积法数学原理基础上,对3种方法实现效果以及程序耗时进行了分析.结果表明:采用最合适影像重采样算法进行几何校正...
  • 移动曲面法综合了曲面法及加权法的特点,是一种精度较高的GPS高程拟合模型。文中推导了该模型理论计算方法,通过三个实验方案的对比分析,发现公共点的分布情况及公共点的个数对该方法拟合结果影响较大。
  • 002层次分析法

    2018-11-07 16:04:49
    层次分析法 1.将决策问题分层,分成n层之后,对每一层进行研究。 2.对每一层两个因素两两进行比较,给出对比矩阵A(这个对比矩阵有一个很厉害理解方法,那就是把一块石头砸碎,之后每一块小石头代表权重值,而...
  • 本文对目前有源电力滤波器中应用畸变电流检测与控制方法进行了分析比较,在此基础上,针对APF中只须检测总畸变电流,反向后注入系统,以抵消或补偿系统中畸变电流,使电网仅提供基波有功电流这一工作特点,从...
  • 散斑具有精度高、全场、非接触测量的特点,实验结果表明,在模型模拟腰椎生理运动的大变形过程中,能够测得模型在不同运动位置时椎间盘表面发生的微小三维位移,并由位移求出椎间盘的变形,从而为不同内固定方式的稳定...
  • 给定一个有N个元组或者纪录数据集,分裂将构造K个分组,每一个分组就代表一个聚类,K<N。 特点:计算量大。很适合发现中小规模数据库中小规模数据库中球状簇。 算法:K-MEANS算法、K-MEDOIDS算法、...
  • 基于划分给定一个有N个元组或者纪录数据集,分裂将构造K个分组,每一个分组就代表一个聚类,K特点:计算量大。很适合发现中小规模数据库中小规模数据库中球状簇。算法:K-MEANS算法、K-MEDOIDS算法、...
  • 针对有限元计算分析电机复杂性和耗时长等特点,采用等效磁路分析一种表面-内置式永磁转子同步...对比分析简化等效磁路模型、有限元模型计算结果和试验样机测试结果,验证了所提出等效磁路模型正确性与合理性。
  • 运用弹性支点计算深基坑支护结构内力变形...主要阐述了这两种计算模式应用在深基坑中计算原理,并通过工程实例,利用计算软件,分别用模拟出基坑开挖各个工况及受力特点并与现场实测值对比,分析两种方法优缺点。
  • 基于划分给定一个有N个元组或者纪录数据集,分裂将构造K个分组,每一个分组就代表一个聚类,K特点:计算量大。很适合发现中小规模数据库中小规模数据库中球状簇。算法:K-MEANS算法、K-MEDOIDS算法、...
  • 基于翟镇煤矿冒落和充填开采实践,对比分析了在充实率为40%~70%7203E上充填工作面和7203E下综采工作面矿压显现规律,得出翟镇煤矿采用不同采煤方法矿山压力显现特点。研究表明:在充实率为40%~70%条件下...
  • 通过有限元方法仿真分析了双柱型绕环圈瞬态传热性能,对比分析了在相同变温条件下双柱型绕与交叉绕对陀螺性能影响。结果表明,在对称温度环境下,双柱型绕在抑制陀螺温度漂移方面效果与交叉绕相当,...
  • 当前高速发展现代社会里,随着信息技术在会计领域应用不断深入,企业可以结合经营特点,优化...(3) 对比分析法:对调研结果采用饼图形式进行对比分析 公司一:广西容县高林木业有限公司 背景信息 表1 广西容县高
  • 针对常见的基于探针气体吸附等温线的孔隙表征方法,通过选择3件标准样品(介孔和微孔材料以及纳米碳管),对比分析了BJH法、HK法和QSDFT法的结果。研究发现BJH法和HK法分别仅适用于介孔和微孔的表征,而QSDFT法对介孔和微...
  • 基于方案比较视角,提出解决混合测度问题...分别从排序向量、优势向量、比较向量3方面研究方案优劣排序方法及其特点,并与线性加权及理想点进行对比分析.实例结果表明,所提出方法计算量小、精确性高且通用性好.
  • 运用灰色预测模型可以对矿山开采引起...结果表明,运用灰色系统理论求取的概率积分法的参数可靠,体现了动态预测的特点.同时,提出可以通过实施定期等间隔的观测和加大对衰退期的观测次数等措施,提高概率积分法参数的精度.
  • 预测分析)数据分析三大基本方法(对比,细分,预测)数据分析作用与对应数据分析方法数据分析方法整理数据分析方法定义和特点分类使用步骤实践运用注意事项备注对比分析法1、定义:指将连个或者两个以上数据...
  • 特点 方法 适用范围 数学意义 物理意义 系统响应类型 输入信号类型 简化计算方法 简化计算原因 微分方程 全响应 可求特解信号 — — 特解:输入决定 + 通...
  • 数据分析入门(二)

    2020-03-02 13:25:05
    对比分析法是将两个或两个以上数据进行比较,分析其中差异,从而揭示这些事物所代表的的发展变化情况和规律性。 特点 非常直观看出事物某方面变化或差距,而且可以准确,量化表示出变化差距是多少。 ...
  • 通过对观测站倾向B线与C线的对比分析,得出不同地形特征下山区采动滑移的特点。研究结果表明,在开采沉陷影响下,山区采动滑移是必然发生的;地形起伏越大,采动滑移对水平移动以及水平变形的影响越明显,且水平移动与水平...
  • 从煤矿老空区探测的必要性出发,对比分析了常规电法的特点,强调了综合物探方法的重要性,阐明不同方法可以相互补充、印证,以提高探测效果。以东庞矿9102工作面附近小窑积水采空区探测为例,采用瞬变电磁法和直流电法...

空空如也

空空如也

1 2 3 4 5 ... 12
收藏数 238
精华内容 95
关键字:

对比分析法的特点