精华内容
下载资源
问答
  • 邻近度和聚类

    2018-08-01 20:45:33
    邻近度和聚类 邻近度和聚类 邻近度和聚类 邻近度和聚类
  • 邻近度(proximity) 两个对象之间的相似度和相异度。 相似度(similarity):衡量两个对象相似程度的数字度量,通常在0(不相似)和1(完全相似)之间。 相异度(dissimilarity):又称为距离,衡量两个对象差异...

    邻近度(proximity)

    两个对象之间的相似度和相异度。
    相似度(similarity):衡量两个对象相似程度的数字度量,通常在0(不相似)和1(完全相似)之间。
    相异度(dissimilarity):又称为距离,衡量两个对象差异程度的数值度量,对象越类似相异度越低。通常[0,1]之间取值,但也有0到正无穷取值。
    相似性和相异性之间可以进行转化。
    s作为相似度符号;d作为相异度符号。

    1.针对单一属性类型的邻近度测量

    x,y是两个对象
    在这里插入图片描述

    2.序数属性的邻近度测量

    序数属性,比如“差、一般、还ok、好、非常好”这五个就组成序数属性,可以采用把属性映射到0-1当中的整数范围进行度量,但是在进行算数技术的过程中,其实对于结果的解释性会不佳。

    3.对连续数据对象邻近度测量——距离

    3.1欧氏距离,两点间直线距离。
    (1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离:
    在这里插入图片描述
    (3)两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的欧氏距离:
    在这里插入图片描述
    也可以用表示成向量运算的形式:
    在这里插入图片描述
    3.2曼哈顿距离:
    要从一个十字路口开车到另外一个十字路口,驾驶距离是两点间的直线距离吗?显然不是,除非你能穿越大楼。实际驾驶距离就是这个“曼哈顿距离”。
    在这里插入图片描述
    (1)二维平面两点a(x1,y1)与b(x2,y2)间的曼哈顿距离
    在这里插入图片描述
    (2)两个n维向量a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的曼哈顿距离
    在这里插入图片描述
    3.3切比雪夫距离
    国际象棋国王走一步能够移动到相邻的8个方格中的任意一个。那么国王从格子(x1,y1)走到格子(x2,y2)最少需要多少步?自己走走试试。你会发现最少步数总是max(| x2-x1 | , | y2-y1 | ) 步。有一种类似的一种距离度量方法叫切比雪夫距离。
    在这里插入图片描述
    (1)二维平面两点a(x1,y1)与b(x2,y2)间的切比雪夫距离
    在这里插入图片描述
    (2)两个n维向量a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的切比雪夫距离
    在这里插入图片描述
    3.4闵可夫斯基距离(MinkowskiDistance)
    闵氏距离不是一种距离,而是一组距离的定义。
    两个n维变量a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的闵可夫斯基距离定义为:
    在这里插入图片描述
    其中p是一个变参数。
    当p=1时,就是曼哈顿距离
    当p=2时,就是欧氏距离
    当p→∞时,就是切比雪夫距离
    根据变参数的不同,闵氏距离可以表示一类的距离。

    举个例子:二维样本(身高,体重),其中身高范围是150190,体重范围是5060,有三个样本:a(180,50),b(190,50),c(180,60)。那么a与b之间的闵氏距离(无论是曼哈顿距离、欧氏距离或切比雪夫距离)等于a与c之间的闵氏距离,但是身高的10cm真的等价于体重的10kg么?因此用闵氏距离来衡量这些样本间的相似度很有问题。
    简单说来,闵氏距离的缺点主要有两个:(1)将各个分量的量纲(scale),也就是“单位”当作相同的看待了。(2)没有考虑各个分量的分布(期望,方差等)可能是不同的。
    3.5标准欧氏距离的定义
      标准化欧氏距离是针对简单欧氏距离的缺点而作的一种改进方案。先将各个分量都“标准化”到均值、方差相等,然后计算距离。
    标准化后的值 = ( 标准化前的值 - 分量的均值 ) /分量的标准差

    3.6. 马氏距离(MahalanobisDistance)
    马氏距离在测量数据间相关程度高的时候效果佳。
    (1)马氏距离定义
    有M个样本向量X1~Xm,协方差矩阵记为S,均值记为向量μ,则其中样本向量X到u的马氏距离表示为:
    在这里插入图片描述
    而其中向量Xi与Xj之间的马氏距离定义为:

    若协方差矩阵是单位矩阵(各个样本向量之间独立同分布),则公式就成欧式距离:
    在这里插入图片描述

    距离的通用性质:

    距离可以用来衡量相似性或者相异性,通常距离有三个性质
    非负性:距离d>=0
    对称性:d(x,y,z…)=d(…,z,y,x)
    三角不等式性:对于x,y,z,d(x,z)<=d(x,y)+d(y,z)
    但是在距离度量相似性的时候三角不等式性通常不成立,换言之,存在非对称的相似性度量。

    为什么欧式距离用的最多?最被优先采用呢?

    因为欧式距离的平方更好的被求导,单调的。

    4.二元的数据对象邻近度度量

    二元数据:两个仅包含二院属性的对象之间的相似度测量成为相似度系数(similarity coefficient),x=(0,1,1,1,0,1,0,…),y=(1,1,0,0,0,0,0,0,…)。比如是否问题等。两个对象分别可以生成四个量:
    在这里插入图片描述

    4.1简单匹配系数
    比如用于判断是非题目的答案的比较等。
    在这里插入图片描述

    4.2jaccard系数
    比如在买东西时候,1是买,0是不买,通常我们在比较客户买的两种商品数量的时候,我们常不考虑00这类的情况。换言之,也就是jaccard系数度量非对称的二元对象效果更好,克服稀疏的0值带来的困扰
    在这里插入图片描述
    当变成两个集合的时候
    p:样本A与B都是1的维度的个数
    q:样本A是1,样本B是0的维度的个数
    r:样本A是0,样本B是1的维度的个数
    s:样本A与B都是0的维度的个数在这里插入图片描述
    Jaccard距离:
    在这里插入图片描述
    jaccard扩展到非二元属性时的度量:
    Tanimoto系数
    在这里插入图片描述
    4.3余弦相似性

    余弦相似性不考虑量值,也就是不考虑x,y的长度,只是考虑x和y的夹角。比如文本数据分析,对于1000字两个文档,文档1“我”字出现10次,“你”字出现19次;文档2里“我”字出现13次,“你”字出现11次。因此x=(10,19),y=(13,11)。在计算时候余弦相似性公式会把“标准化”将分子分母约去,使得最后结果到0-1之间。
    在这里插入图片描述
    在这里插入图片描述

    对象之间的属性的邻近度度量——相关性

    相关性
    对象之间的属性度量问题,也就是度量变量的。比如有完全正相关,完全负相关,线性相关等等。

    皮尔逊相关系数——衡量线性相关性
    在这里插入图片描述

    5。邻近度选择考虑。。。

    数据类型(连续或二值、词向量…)
    数据稀疏?
    连续型数据的差异

    ps.作为小白,参考蛮多前人资料,后续慢慢学,慢慢补充!

    展开全文
  • 稀疏化邻近度

    千次阅读 2018-12-03 20:39:36
    稀疏化邻近度图 第三十三次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。本文作为基于图的聚类的第一部分,主要针对“如何稀疏化邻近度图”以及“如何在稀疏化后的...

    稀疏化邻近度图

    第三十三次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。本文作为基于图的聚类的第一部分,主要针对“如何稀疏化邻近度图”以及“如何在稀疏化后的邻近度图上运行聚类算法”,本文还会针对数据结构与算法中的两种构建“最小生成树(Minimum Spanning Tree)”的算法(Prim和Kruskal)进行介绍。其他基于图的聚类算法的链接可以在这篇综述《基于图的聚类算法综述(基于图的聚类算法开篇)》的结尾找到。

    如何进行稀疏化

       m m m个数据点的 m × m m\times{m} m×m邻近度矩阵可以用一个稠密图表示,图中每个结点与其他所有结点相连接,任意一对结点之间边的权值反映他们之间的邻近性。尽管每个对象与其他每个对象都有某种程度的邻近性,但是对于大部分数据集,对象只与少量对象高度相似,而与大部分其他对象的相似性很弱。这一性质可以用来稀疏化邻近度图(矩阵):在实际的聚类过程开始之前,将许多地相似度(高相异度)的值置零。例如,稀疏化可以这样进行:断开相似度(相异度)低于(高于)制定阈值的边,或仅保留连接到点的 k k k个最近邻的边。后一种方法创建所谓“ k k k-最近邻图”(K-nearest Neighbor Graph)。
      稀疏化的优点体现在以下几方面:
       (1) 压缩了数据量:聚类所需要处理的数据被大幅度压缩,稀疏化常常可以删除邻近度矩阵中99%以上的像,这样,可以处理的问题的规模就提高了。
       (2) 可以更好的聚类:稀疏化技术保持了对象与最近邻的连接,而断开了与较远对象的连接,这与最近邻原理一致:对象的最近邻趋向于与对象在同一个类(簇)。优点是降低了噪声与离群点的影响,增强了簇之间的差别。
      (3)可以使用图划分算法:下面介绍的两种算法MST和OPOSSUM都使用了图划分。
      应当把邻近度图的稀疏化看成使用实际聚类算法之前的初始化步骤。理论上讲,完美的稀疏化应当将邻近度图划分成对应于期望簇的连通分支。但实际中这很难做到,很容易出现单边连接两个簇,或者单个簇被分裂成若干个不相连接的子簇的情况,因此需要常常修改稀疏邻近度图,以便产生新的邻近度图,新的邻近度图还可以被稀疏化,聚类算法使用的邻近度图是所有这些预处理步骤的结果,如下图所示。

    图1 使用稀疏化聚类的理想过程

    MST聚类

    1. MST(Minimum Spanning Tree)
      这一部分介绍“最小生成树”(Minimum Spanning Tree,简称MST),一个无向图 G G G的最小生成树就是由该图的那些连接 G G G的所有顶点的边构成的树,且其总价值最低,在MST中,顶点和边的总数量分别为 ∣ V ∣ |V| V ∣ V ∣ − 1 |V|-1 V1(如图2所示)。当然也可以为有向图生成MST,但是过程更复杂,由于算法的需要这里只介绍无向图构建MST,下面介绍两种构建算法:Prim和Kruskal,他们的区别在于如何选取最小(值的)边。

    图2 无向图和最小生成树

      1) Prim算法
      Prim计算最小生成树的方法是使其连续的一步步长成,在每一部,都要把每个结点作为根并向其加边,即每一步加入一条边和一个顶点。具体的步骤是,首先从 G G G中随机选择一个结点加入到树中,然后每一步通过选择边 ( u , v ) \left(u,v\right) (u,v),使得 ( u , v ) \left(u,v\right) (u,v)的值是所有 u u u在树上但 v v v不在树上的边的值中的最小者,而找出一个新的结点并把他加入到这棵树中。图3是使用Prim完成图2所示MST的生成步骤,具体内容见《数据结构与算法分析》P237。

    图3 Prim算法

      2) Kruskal算法
      这种算法连续的按照最小的权选择边 ( u , v ) \left(u,v\right) (u,v),并且当所选的边不产生圈时就把他作为确定的边添加到树中,当添加的边足够多时就停止算法。实际上算法要决定的就是是否要添加当前选择的边 ( u , v ) \left(u,v\right) (u,v),如果顶点 u u u v v v均存在于树的顶点集合中,那么就放弃,否则添加这条边。图4和图5是使用Kruskal完成图2所示MST的生成步骤,具体内容见《数据结构与算法分析》P239。

    图4 Kruskal算法
    图5 Kruskal算法

    2. MST算法
      MST算法可以看做是一种分裂层次聚类算法,实际上他产生的聚类模型与使用单链的凝聚层次聚类相同,MST算法的第一步是找到原邻近度图的最小生成树,最小生成树也可以看做是一种稀疏化的邻近度图,然后每次断开树中最大相异度的边,直到达到期望的簇数量,算法伪代码如下图所示。

    图6 MST算法伪代码

    OPOSSUM聚类

      Opossum (Optimal Partitioning of Sparse Similarities Using Metis) 是一种使用METIS算法(可以采用现有的计算包,见《Multilevel k -way Partitioning Schemefor Irregular Graphs》)的稀疏邻近度图的最优划分算法,它基于一些适用于“购物篮数据”的约束,对稀疏化后的邻近度图进行划分。需要注意的是,这里的相似度度量应该采用某些适用于高维、稀疏数据的度量,如余弦度量和Jaccard度量等。该算法期望得到对于进一步分析同等重要的簇,因此,OPOSSUM算法遵循以下两条约束(如图7和图8所示)来得到平衡的簇集合:
    1) 采样平衡
      每个簇应该大致上包含同等大小的样本点数,即 n / k n/k n/k,这有助于零售商得到相同大小的顾客群组来进行市场分析。

    图7 约束一

    2) 值平衡
      每个簇中样本点的属性值总和应该大致相等,这样每个簇代表全部特征值总和的 1 / k 1/k 1/k,如果我们使用扩展的单一商品的收入(数量x单价)作为属性值的度量方法,那么每个簇对总商品收入的贡献大致相等。

    图8 约束二

      该算法通过为每个样本点(顾客)赋予一个权重并对一个簇中所有样本点权值的总和稍加限制,来满足上述约束。对于采样平衡情况,我们为每个样本点 x j \mathbf{x}_j xj赋予相等的权值 w j = 1 w_j=1 wj=1,对于值平衡情况,每个样本点的权值与他属性值的总和有关,可以表示为 w j = ∑ i = 1 d x i , j w_j=\sum^{d}_{i=1}x_{i,j} wj=i=1dxi,j
      该算法的优点是简单、快速的得到大小近似相等的簇,缺点也显而易见,由于产生的簇大小相同,因此会导致期望簇被不合理的分裂或合并,因此一般采用过度聚类(Over-Clustering,设置较大的 k k k值)随后进行簇合并。


    参考资料

    【1】《数据挖掘导论》
    【2】《数据结构与算法》
    【3】 Karypis G , Kumar V . Multilevelk-way Partitioning Scheme for Irregular Graphs[M]. Academic Press, Inc. 1998.
    【4】 Strehl A , Ghosh J . A Scalable Approach to Balanced, High-Dimensional Clustering of Market-Baskets.[C]// International Conference on High Performance Computing. Springer-Verlag, 2000.

    展开全文
  • 算法利用条件熵和上下文邻近度算法从源文档集合中学习句子对的关联程度与承接关系,并利用最大权值删减排序算法形成最终的排序结果。该方法只依赖于摘要句子的源文档集合,具有较强的领域通用性。实验结果表明,在...
  • 演示基于邻近度的 android 锁定的练习 这是一种根据 Android 设备与某个位置的接近程度来锁定它的方法的示例。 目前是概念验证,当然,最新的 android 版本现在本身就提供了类似的功能。 该项目缺少许多有用的东西...
  • KDD18': 捕捉网络中任一阶邻近度的 Network Embedding   给定一个图G=&lt;V, E&gt;,为图中的每一个节点计算出一个embedding向量,这就是Network Embedding的主要目标。 传统算法是将Network Embedding...

    KDD18': 捕捉网络中任一阶邻近度的 Network Embedding

     

    给定一个图G=<V, E>,为图中的每一个节点计算出一个embedding向量,这就是Network Embedding的主要目标。

    传统算法是将Network Embedding问题看做矩阵分解或矩阵降维问题,对图的邻接矩阵应用矩阵分解或奇异值分解等方法进行降维,这样做的好处是可以很容易地通过学习出的embedding vector复原出原有的图结构。然而这样做的缺点也很明显,仅仅对邻接矩阵进行降维,就是只考虑直接邻居对当前节点的影响,忽视了图中2度,3度乃至更远的节点对当前节点的影响。

    在此之后,随着深度学习的发展,产生了基于随机游走(random walk)算法的深度学习Network Embedding框架:DeepWalk, Line, node2vec。它们的主要原理都很简单:通过随机游走在图中进行采样,再通过采集到的序列数据学习网络中节点的表达。这样的做法最大的好处是能够考虑到较远的节点对当前节点产生的影响。然而随机游走算法有着很大的不确定性,往往要在算法的精度和运行时间之间做牺牲。

    KDD18 的这篇文章 Arbitrary-Order Proximity Preserved Network Embedding 拓展了传 统的基于矩阵降维的embedding算法,在保证高精度的同时也能在线性时间下运行,取得了不错的效果。

    算法首先定义了高阶邻近度的概念:

    S=F(A)=w1A+ w1A2+ w1A3+ w1A4+ w1A5…

    其中A是无向图的邻接矩阵。我们知道,如果A是邻接矩阵的话,其中的每个数字都是两个相邻的点之间的权重(如果这两点之间有边连接的话)。进一步地,A2,A3,A4……中的每一个数字代表的就是两个点之间通过2段边,3段边,4段边……互相连接的权重。所以,矩阵S就是包含了多种邻近度的图的加权和,相比较邻接矩阵A而言,更能表达图中的点与点关联的程度。

    所以,只要对矩阵S进行分解,分解到的结果U*就是我们所求的Node Embedding向量。

    min||S-U* V*T||F2

    高秩矩阵的矩阵分解,一般可以由SVD的结果从高处截断得到:

    如果S=UΣV(SVD结果),只截取SVD结果中奇异值最高的一部分的话,那么U* =UΣ,V* =VΣ。其中U* V*是矩阵分解的结果,UΣV三个矩阵是SVD的结果。

    进一步地,SVD的结果又可以通过特征值分解的结果得到(X和Λ分布是特征向量和特征值):

    所以,只要计算出矩阵S的特征值和特征向量,就相当于得到了S的矩阵分解结果,进一步就得到了含有高阶邻近度信息的Node Embedding。文献Richard B Lehoucq and Danny C Sorensen. 1996. De ation techniques for an implicitly restarted Arnoldi iteration. SIAM J. Matrix Anal. Appl. (1996). 给出了计算特征值和特征向量的一种快速算法,计算最大的几个特征值和对应的特征向量只需要O(T(Nl2 + Ml)  ,其中N和M分别是节点和边的数量,l是计算前top-l大的特征值和特征向量,T是算法迭代的次数。

    然而先通过S=F(A)=w1A+ w1A2+ w1A3+ w1A4+ w1A5…计算S,再通过上述方法计算特征值和特征向量,计算量实在太大。如果先对邻接矩阵A计算特征值和特征向量,再对得到的Node Embedding Vector 上应用函数F呢?文章后文提出两个定理,证明这样操作的正确性和合理性。

    定理一:如果λ和x是矩阵A的一组特征值和特征向量,那么F(λ)和x依然是S的一组特征值和特征向量。

    这个定理很容易证明,因为求特征值和特征向量是线性代数操作,F是乘法和加法的组合,所以特征值和特征向量与矩阵的对应关系很容易对函数F保持恒定。

    定理二:如果λ和x是矩阵A的特征值和特征向量,显然F(λ)和x依然是S的一组特征值和特征向量,而如果F(λ)和x在S上的排名不超过d的话,那么λ和x在矩阵A上的排名不超过l。其中l的取值方法是:在矩阵A上,排名前l的特征值中有超过d个正值。

    这样说起来有点拗口,但实验中l往往小于2d。

    证明方法如下:假设λi和λj分别是A的两个特征值且|λi|>|λj|, λi>0.

    那么

    所以,只要A的top-l的特征值中有d个大于0的,那么在计算F(λ)后,就依然会有d个特征值排在前面。

    这样看来,只要针对邻接矩阵A计算特征值和特征向量,再针对特征值应用函数F(x)= w1x+ w1x2+ w1x3+ w1x4+ w1x5…,

    就能得到embedding vector了。具体算法如下:

    算法复杂度是O(T(Nl2 +Ml)+r(l +Nd)) , 其中N和M分别是节点和边的数量,l是计算前top-l大的特征值和特征向量,T是特征值算法迭代的次数。因此该算法针对N和M均为线性的。

    该算法在link prediction,reconstruction等任务上均取得了优于baseline(DeepWalk, Line, node2vec)的结果。但是该算法也有它的缺点,比如无法利用side information,只能在无向图上计算等缺点。

     

    展开全文
  • 分数阶总方差(TV)图像降噪模型已被证明能够避免“块效应”,但是由于分数阶TV正则化项的不可微性而难以解决。本文采用近似算法解决分数阶电视优化问题,为研究分数阶电视降噪模型提供了有效的工具,解决了复杂的...
  • 欢迎来到美食。 foody是软件工程课程创建的一个项目,目的是搜索当地的餐馆或快餐,并给出最好和最便宜的食物的结果。 只需在我们的搜索文本字段中输入您想要吃的食物的类型,foody便会以最便宜的价格为您提供最近...
  • k-means中的邻近度函数

    千次阅读 2017-06-21 20:54:59
    1、曼哈顿距离: 质心:中位数。目标函数:最小化对象到其簇质心的距离和 2、平方欧几里德距离。质心:均值。目标函数:最小化对象到其簇质心的距离的平方和 3、余弦。质心:均值。最大化对象与其质心的余弦相似度...


    1、曼哈顿距离: 质心:中位数。目标函数:最小化对象到其簇质心的距离和

    2、平方欧几里德距离。质心:均值。目标函数:最小化对象到其簇质心的距离的平方和

    3、余弦。质心:均值。最大化对象与其质心的余弦相似度和

    4、Bregman 散度。质心:均值。目标函数:最小化对象到其簇质心的Bregman散度和

    展开全文
  • 网络游戏-用于室外游戏的邻近度和特技记录的方法和装置.zip
  • 电信设备-使用基于邻近度的对等通信和支付意图手势的移动支付.zip
  • 三、基于邻近度的方法 四、基于密度的方法 五、基于聚类的方法 异常检测(Anomaly Detection)也称偏差(deviation)检测或者离群点(outlier)检测,从数据的角度来看,其实就是检测出和众多其他观测值差别非常大的...
  • 风险市场邻近 该项目的目的是研究如何利用自然语言处理(NLP)来发现补充传统市场映射的见解。 利用来自Crunchbase的数据,将NLP和Vectorization应用到公司描述中,以建立和绘制其相对的市场接近。 相关文章《发表...
  • 【来源】1911 年荷兰气候学家A.H.Thiessen为提高大面积气象预报的准确,应用Voronoi 图对气象观测站进行了有效区域划分。故在二维空间中,Voronoi 图也称为泰森( Thiessen) 多边形。 【满足条件】...
  • MADlib的线性代数模块(linalg module)包括基本线性代数操作的实用函数,其中...一、邻近度的度量 相似性要和相异性是重要的概念,因为它们被许多数据挖掘技术所使用,如聚类、最邻近分类和异常检测等。在许多情况下
  • 用户映射 接受一系列基点(经度和纬度)的雷达用户映射系统。 计算每个点与主要焦点(在图形的中心表示)之间的距离。 结果被绘制成雷达图。 这是第一个版本,将发布后续版本
  • 基于邻近的技术是指,当一个数据点的位置或邻近是稀疏时,则将其定义为一个离群点。 基于邻近的技术最常见的离群点分析的定义: 基于聚类: 使用非任何聚类中数据点的成员、其与其他聚类质心的距离、最近的聚类的...
  • 基于长江口及东海的浮标观测资料,建立针对静止海洋光学传感器(GOCI)的瑞利校正反射率数据的浊反演模型,并对长江口及邻近海域的浊进行遥感反演。研究结果显示:680 nm波段对浊信号最敏感,基于多波段组合建立的...
  • 邻近性的度量 (距离、相似度)

    千次阅读 2018-12-14 23:45:30
    邻近性的度量 距离、相似度 简单匹配系数 Jaccard 系数 广义 Jaccard 系数 距离 余弦相似度 皮尔森系数 Bregman 散度 选择正确的度量指标
  • 短语查询(Phrase Query)只是简单地将不含有精确查询短语的文档排除在外,而邻近查询(Proximity Query) - 一个slop值大于0的短语查询 - 会将查询词条的邻近度也考虑到最终的相关度_score中。通过设置一个像50或100...
  • 成对特征邻近度 (PWFP) 是一种特征选择方法。 它首先一次考虑一对数据来评估每个特征,然后将所有特征组合起来进行整体特征评估。 它可以用于高维低样本量(HDLSS)数据。 此代码与以下出版物有关: SL Happy、R. ...
  • 依据15~#煤层瓦斯基本参数测定结果,结合瓦斯涌出量与层间距反比的模糊算法,最终得到上覆岩层导水裂隙带内上邻近层煤层瓦斯涌出量及"下三带"导水破坏带内下邻近层瓦斯涌出量计算方法,与国标统计学算法结果对比,误差...
  • 数值属性的相异性侧:距离 闵可夫斯基距离特殊形式
  • 1. K邻近分类法(KNN) 1.1 KNN的实现 1.1.1 创建二维点集 1.1.2 可视化分类 1.1.3 绘制结果 1.2 利用稠密SIFT的分类实例 1.2.1 稠密SIFT(Dsift) 1.2.1.1 稠密sift和sift的区别 1.2.1.2 稠密sift的简单示例 1.2.1.3 ...
  • 邻近对齐的社区检测

    2021-03-04 15:44:39
    为了处理大规模网络,实施了PAA 通过建议的在线模式,其中将进行昂贵的计算(例如社区检测),以便可以通过基于索引社区的有效方式计算节点邻近度来快速响应在线查询。 PAA的有效性和应用已得到验证和证明。 我们的...
  • 序数属性:有序 先映射成[0,1]的数值属性,再选择数值属性的邻近性度量的计算方法计算 例子
  • 定义簇之间的邻近性 MIN(单链):不同簇的两个最近的点之间的邻近度(不同的结点子集中两个结点之间的最短边) MAX(全链):不同簇中两个最远的点之间的邻近度(不同的结点子集中两个结点之间的最长边) 组平均:...
  • 笔试题知识点

    千次阅读 2017-07-20 10:47:40
    1.在基本K均值算法里,当邻近度函数采用( )的时候,合适的质心是簇中各点的中位数。 邻近度函数:曼哈顿距离。质心:中位数。目标函数:最小化对象到其簇质心的距离和 邻近度函数:平方欧几里德距离。质心:均值...
  • k最邻近算法——加权kNN

    千次阅读 2017-08-18 22:34:00
    加权kNN  上篇文章中提到为每个点的距离增加一个权重,使得距离近的点可以得到更大的权重,在此描述如何加权。 反函数  该方法最简单的形式是返回距离的倒数,比如距离d,权重1/d。有时候,完全一样或非常接近...
  • 机器学习之常见聚类方法

    千次阅读 2018-07-17 18:05:34
    取不同簇中两个最远的点之间的邻近度作为簇的邻近度,使用图的术语即:不同结点子集中两个结点之间的最长边。完全连接对噪声和离群点不太敏感,但是它可能使大的簇破裂,并且偏好于球形。 组平均(Group Average...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 23,761
精华内容 9,504
关键字:

邻近度