精华内容
下载资源
问答
  • 设x1,…xn是从具密度函数了的一维总体中...这种估计通常称为“最近邻估计”。有一些作者研究了这种估计的相合性。本文作者在C37中研究了这种估计合一致强收敛速度,得出了初步结果,在本文中,我们显著地改进了上述结果。
  • 利用ND序列的Bernstein不等式,研究ND样本最近邻密度估计的相合性,给出了弱相合性、强相合性的充分条件,所得结果将最近邻密度估计的相合性推广到ND样本.
  • 本文在LNQD样本下研究最近邻密度估计的相合性,给出弱相合性、强相合性、一致强相合性以及它们的收敛速度的充分条件,同时研究了失效率函数估计的一致强相合性。
  • 在样本为平衡的两两NQD的情况下得到了非参数回归函数m(x)的最近邻估计mn(x)的相合性。得到弱相合的充分条件比在样本序列((xn,yn),n≥1)为平稳矱-混合情况下得到的mn(x)的弱相合性的充分条件弱。
  • NNKCDE:最近邻条件密度估计 估计使用CDE损失调整的最近邻居内核条件密度。 引文 @article{izbicki2018abc, title={ABC-CDE: Towards Approximate Bayesian Computation with Complex High-Dimensional Data and ...
  • 密度估计理论(部分)

    千次阅读 2018-11-02 17:56:09
    课程笔记: 1、密度估计 考虑任何随机数量 X 有概率密度函数 f, 我们用以下公式计算其概率密度: ...非参数化的方法,如直方图密度估计和核密度估计。 ## 直方图方法: 直方图方法是最早也是最广泛...

    课程笔记:

    1、密度估计

    考虑任何随机数量 X 有概率密度函数 f, 我们用以下公式计算其概率密度:
    在这里插入图片描述
    假设我们有一组来自未知密度函数的观察到的数据点,我们的目标是从观测到的数据估计他们的估算密度函数。

    有两种方法做密度估计:

    • 参数化的方法,假设数据是服从一个已知的分布,如已知均值和方差的高斯分布;
    • 非参数化的方法,如直方图密度估计和核密度估计。

    ## 直方图方法:

    直方图方法是最早也是最广泛被使用的密度估计方法。
    直方图就是将图片的像素分类,落在不同的bin中,h为带宽,直方图由以下公式定义:
    在这里插入图片描述
    直方图可以推广到,带宽可以变化:
    在这里插入图片描述
    以下是直方图密度估计的一个例子:

    在这里插入图片描述

    直方图存在许多缺点:

    • 直方图只使用了像素级信息,没有使用像素之间的空间位置信息,所以在做一些归类和非参数决策问题时丢失了很多信息,没有充分使用数据;
    • 直方图不是连续的,所以不能对它求梯度;
    • 初始参数的选择可能在很大程度上影响效果;
    • 无法用直方图表示二元或三元数据。

    下图展示了不同的初始值选择对结果有很大影响
    在这里插入图片描述

    Naive Estimator(朴素估计量)
    如果随机样本的密度函数f为:
    在这里插入图片描述
    因此,Naive Estimator可以写成以下形式:
    在这里插入图片描述
    我们用以下公式定义权重函数:
    在这里插入图片描述
    结合上述两个公式:
    在这里插入图片描述
    观察目前公式,我们可以将目前的估计看成将一个宽为2h高为(1/2nh)的盒子放在每次观测过程。当x恰好为一个bin的中心的时候,这个朴素量估计就变成了直方图估计。

    Naive Estimator的缺点:

    • 估计函数不是连续的,而且在xi±h的会有跳跃其他地方会有导数为0的点,如下图:
      在这里插入图片描述

    Kernel Estimator(核密度估计)
    核密度估计是对naïve estimator的一般化(generalization),将先前的权重函数替换成K,K如下:
    在这里插入图片描述
    于是高斯估计可以写成以下形式:
    在这里插入图片描述
    h是带宽,他是平滑参数,K是一个核函数。

    下面就是一个高斯核的例子。
    在这里插入图片描述

    带宽的选择对密度估计效果有很大的影响:

    • 当h接近于0时,密度估计就像Dirac delta function的和;
    • 当h很大时,密度估计模糊不清,区分不出密度块。
      以下是三个例子
      在这里插入图片描述

    在这里插入图片描述

    核密度估计的缺点:

    • 因为窗口宽是固定的,所以在估计的末尾会出现假峰,也就是假的高密度中心;
    • 如果使用平滑操作去除假峰,那某些真正的局部最高点可能会被平滑掉。
      在这里插入图片描述

    Nearest Neighbour Method(最近邻方法)
    这是一种平滑局部密度的方法,平滑是被一个参数k控制的,一般的在这里插入图片描述
    定义d(x,y)表示两个点之间的距离,d1(t)≤d2(t) ≤… ≤ dn(t),k近邻可以用一下函数来表示:
    在这里插入图片描述

    最近邻方法优点:
    解决在平滑操作中主峰也被过度平滑的问题,因为真正的最高点周围的点多,假峰周围的点少,所以做局部自适应的平滑操作可以在不影响主分布的前提下消除噪声。

    缺点:

    • 这个方法得到的结果不是平滑的曲线,它的导数不连续;
    • 如果需要整个密度的估计,则此估计是不合适的。
      在这里插入图片描述
    展开全文
  • 柴根象在[5]中研究了C(2)类密度函数最近邻密度估计的一致收敛速度,本文将其推广到一般核的情形,得到了同样的结果。
  • 密度估计

    千次阅读 2018-02-02 16:36:50
    其实除了核密度估计还有直方图方法。因为在此只是为了介绍核密度估计。我就简略说一下直方图的思想,求出样本总体的直方图,然后将每个小区间的中点平滑地连接起来,从而得到连续的经验分布函数。 核密度估计 ...

    参考:https://www.zhihu.com/question/27301358
    https://www.zybang.com/question/3797fbcae06ac70f5071ff1ee42f23e2.html
    http://blog.csdn.net/baimafujinji/article/details/51720090
    声明:本篇博客大部分都是借鉴慧航的解答,链接在上面,写作的目的主要是为了做笔记。
    简单来说,核密度估计就是用来估计概率密度函数的,是对直方图的一个扩展。也叫做Parzen window密度估计。

    概率密度函数 与分布函数

    那既然是估计概率密度函数(密度函数)的,我来简单地介绍一下相关的概念。概率密度函数是分布函数的一阶导,而事实上我们是无法得到分布函数的。好在数理统计这门科学揭露了理论与样本的内在联系。根据格利文科定理,当样本容量足够大时,从样本中算得的经验分布函数 (EDF,Empirical Distribution Functions)Fn(x) 与总体分布函数 (理论上的)F(x) 差异也可以足够小,此时我们可以通过样本的经验分布函数Fn(x)来近似逼近分布函数F(x)。所以我们说经验分布函数是理论分布函数与实际数据间的桥梁,经验分布函数依概率收敛于总体分布函数。那怎样求解经验分布函数呢?具体的思想就是以样本频率来估计概率,以这样的方式得到的理论分布函数的一个逼近。下图就是经验分布函数的公式:
    这里写图片描述
    即F(t)的估计为所有小于t的样本的概率。
    如果在图上画出经验函数的图像,
    这里写图片描述我们会发现这样的经验分布函数并不可导。换句话说就是无法求得概率密度函数。
    那如何估计概率密度函数呢?其实除了核密度估计还有直方图方法。因为在此只是为了介绍核密度估计。我就简略说一下直方图的思想,求出样本总体的直方图,然后将每个小区间的中点平滑地连接起来,从而得到连续的经验分布函数。
    这里写图片描述

    核密度估计

    我们应当有微分的概念。如果我们想知道X=x处的密度函数值,可以像直方图一样,选一个x附近的小区间,数一下在这个区间里面的点的个数,除以总个数,应该一个比较好的估计。即密度函数可以写为如下形式:
    这里写图片描述
    具体地,密度函数的估计为
    这里写图片描述

    窗口h选取的问题

    那么一个很自然的问题来了,h该怎么选取呢?
    给定样本容量N,h如果选的太大,肯定不符合h趋向于0的要求。h选的太小,那么用于估计f(x)的点实际上非常少。
    所以理论上存在一个最小化均方误差(mean square error)的一个h。h的选取应该取决于N,当N越大的时候,我们可以用一个比较小的h,因为较大的N保证了即使比较小的h也足以保证区间内有足够多的点用于计算概率密度。因而,我们通常要求当N→∞,h→0。比如,在这里可以推导出,最优的h应该是N的-1/5次方乘以一个常数c,也就是h =c*N(-1/5) 。对于正态分布而言,可以计算出c=1.05×标准差。

    虽然我们估计出了概率密度函数(密度函数),但是从上面的公式可以看出,因为是一段一段求出的,得到的密度函数不光滑。如果记这里写图片描述那么上面的估计式就变成这里写图片描述,对密度函数进行积分这里写图片描述。因为密度函数的积分是等于1的,因而只要K的积分等于1,就能保证估计出来的密度函数积分等于1。
    那么一个自然的想法是,我们是不是可以换其他的函数形式呢?比如其他的分布的密度函数作为K?
    比如,如果采用标准正态分布的密度函数作为K,估计就变成了:这里写图片描述此时我们会发现密度函数可导了,而且积分积起来等于1。
    此外扩展到多维公式就是这里写图片描述
    其中d为x的维数,K为多维的kernel。
    贴一张最终的结果图:
    这里写图片描述
    上面的蓝色线条就是kernel density的结果。

    展开全文
  • 一些最流行和最有用的密度估计技术是混合模型,如高斯混合(sklearn.mixture.GaussianMixture),和基于近邻(neighbor-based)的方法,如核密度估计(sklearn.neighbors.KernelDensity)。在 聚类 这一小节,充分地讨论了...
    密度估计在无监督学习、特征工程和数据建模之中都有应用。一些最流行和最有用的密度估计技术是混合模型,如高斯混合( sklearn.mixture.GaussianMixture ),和基于近邻(neighbor-based)的方法,如核密度估计( sklearn.neighbors.KernelDensity )。在 聚类 这一小节,充分地讨论了高斯混合方法,因为该技术作为一种无监督的聚类方案是很有用的。 密度估计是一个非常简单的概念,大多数人已经熟悉的一种常见的密度估计技术:直方图。

    1. 密度估计:直方图

    直方图是一种简单的数据可视化,其中定义了箱子(bins),并统计了每个箱子(bins)中数据点的数量。下图左上角的面板中显示了直方图的示例: 0a6f3e32027beae83fe1a6661baa30ef.png 然而,直方图的一个主要问题是:分箱(binning)的选择会对结果的可视化产生不成比例的影响。考虑上图的右上角面板,它在相同的数据上显示了箱子(bin)右移后的柱状图。两种可视化的结果看起来完全不同,可能导致对数据的不同解释。 直观地说,我们也可以把直方图看作一堆块,每个点一个块。通过将块堆叠在适当的网格空间中,我们可以恢复直方图。但是,如果我们不是把块堆在一个规则的网格上,而是把每个块放在它所代表的点中心上,然后把每个位置的总高度相加起来会怎么样呢?这个想法导致了左下角的可视化图的现象。它可能没有直方图那么清晰,但数据驱动块位置的事实意味着它是底层数据更好的表示。 这种可视化是核密度估计的一个例子,在本例中是一个top-hat核(top-hat kernel,即每个点上的一个正方形块)。我们可以使用更平滑的核(smoother kernel)来恢复更平滑的分布。右下角的图显示了一个高斯核密度估计(Gaussian kernel density estimate),其中每个点对总体分布贡献一个高斯曲线(Gaussian curve),其结果是从数据中导出的平滑密度估计,并作为一个强大的非参数点分布模型发挥作用。

    2. 核密度估计(Kernel Density Estimation)

    scikit-learn中的核密度估计是在 sklearn.neighbors.KernelDensity 估计器中实现的,该估计器使用Ball树或KD树进行有效查询(有关这些问题的讨论,请参见 最近邻 )。尽管上面的例子为了简单起见使用了1D数据集,但是核密度估计可以在任何维度的数据上执行,尽管实际上维度灾难会导致其在高维度上的性能下降。 在下图中,从双峰分布(bimodal distribution)中提取100个点,并显示三种不同内核的内核密度估计值: 61cb48b026725feaddc6781f51719afc.png 从上图中清楚地展示了内核形状如何影响结果分布的平滑度。scikit-learn核密度估计器使用方法如下:
    >>> from sklearn.neighbors import KernelDensity>>> import numpy as np>>> X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])>>> kde = KernelDensity(kernel='gaussian', bandwidth=0.2).fit(X)>>> kde.score_samples(X)array([-0.41075698, -0.41075698, -0.41076071, -0.41075698, -0.41075698,       -0.41076071])
    这里我们使用了 kernel='gaussian' ,如上所示,数学上,核是由带宽(bandwidth)参数控制的正函数。给定此核形式,在一组点中处的密度估计由以下公式给出: 这里的带宽(bandwidth )用作平滑参数,控制结果中偏差(bias)和方差(variance)之间的权衡。大带宽导致非常平滑(即高偏差,high-bias)的密度分布。小带宽导致密度分布不均匀(即高方差,high-variance)。 sklearn.neighbors.KernelDensity 实现了几种常见的内核形式,如下图所示: 51ce316e83d60c68b776604791e6659e.png 这些内核的形式如下:
    • 高斯核 (kernel = 'gaussian')
    • tophat内核 (kernel = 'tophat')
    • Epanechnikov 内核 (kernel = 'epanechnikov')
    • 指数核 (kernel = 'exponential')
    • 线性核 (kernel = 'linear')
    • 余弦核 (kernel = 'cosine')
    核密度估计器可以与任何有效的距离度量标准一起使用(有关可用度量标准的列表,请参见 sklearn.neighbors.DistanceMetric ),尽管仅对欧几里德度量标准的结果进行了适当的标准化,但一种特别有用的度量标准是 Haversine距离 ,它测量球体上各点之间的角距离。下面示例中,使用了核密度估计来可视化地理空间数据,南美洲大陆上两个不同物种的观测分布如下: 66d7a9e8ca4d313bef15759d7b76d6e1.png 核密度估计的另一个有用的应用是学习数据集的非参数生成模型,以便有效地从该生成模型中绘制新样本。下面是一个使用此过程创建一组新的手写数字的示例,使用在数据的PCA投影上学到的高斯核: 826f1e98e9e60b7b499cbb9577c77639.png “新”数据由输入数据的线性组合组成,并在给定KDE模型的情况下按概率给出权重。 示例
    • 简单的一维核密度估计:一维简单核密度估计的计算。
    • 核密度估计: 使用核密度估计学习手写数字数据的生成模型,并从该模型中绘制新样本的示例。
    • 物种分布的核密度估计: 使用Haversine距离度量标准可视化地理空间数据的核密度估计示例

    文壹由“伴编辑器”提供技术支持

    ☆☆☆为方便大家查阅,小编已将scikit-learn学习路线专栏 文章统一整理到公众号底部菜单栏,同步更新中,关注公众号,点击左下方“系列文章”,如图:

    0d84ebdfc4e4383cdc53682d4de470e6.png

    欢迎大家和我一起沿着scikit-learn文档这条路线,一起巩固机器学习算法基础。(添加微信:mthler备注:sklearn学习,一起进【sklearn机器学习进步群】开启打怪升级的学习之旅。)

    a6ef74027b7b6c70c275643743f92ad1.png

    展开全文
  • parzen窗方法和k近邻方法估计概率密度

    万次阅读 多人点赞 2017-04-06 22:41:53
    机器学习实验四,详情请参考《模式分类》第二版第四章课后上机练习4.3、4.4节实验环境:Matlab2016aParzen窗估计方法:已知测试样本数据x1,x2,…,xn,在不利用有关数据分布的先验知识,对数据分布不附加任何假定的...
  • 本实验的目的是学习Parzen窗估计和k最近邻估计方法。在之前的模式识别研究中,我们假设概率密度函数的参数形式已知,即判别函数J(.)的参数是已知的。本节使用非参数化的方法来处理任意形式的概率分布而不必事先考虑...
  • 我们经常不知道数据是根据什么类型的函数进行分布, 此时就需要非参数密度估计方法。 本文对同一组数据进行了三种不同的非参数密度估计, 即直方图,核密度估计,K近邻。 使用数据集: ...1. 直方图 ...
  • [Machine Learning]关于核方法最近邻算法 [1]张瑞民,郭海刚,李培峦. 基于核的k最近邻算法.华北水利水电学院学报. 2007年12月 核方法的核心是采用非线性映射将原始数据由数据空间映射到特征空间,...
  • 密度估计和非参数回归

    千次阅读 2020-12-14 09:06:45
    你可能听说过核密度估计(KDE:kernel density estimation)或非参数回归(non-parametric regression)。你甚至可能在不知不觉的情况下使用它。比如在Python中使用seaborn或plotly时,distplot就是这样,在默认情况下...
  • 近邻估计

    2021-09-20 19:15:20
    kNk_NkN​近邻估计法 前导知识:【非参数估计的基本原理与直方图...因此,固定小舱宽度的直方图方法只是最简单的非参数估计方法,要想得到更好的估计,需要采用能够样本分布情况调整小舱体积的方法。 2. 方法综述 kNk_
  • 原型方法最近邻 ——统计学习方法 第十三章原型方法最近邻 ——统计学习方法 第十三章原型方法K-均值聚类学习向量量化(Learning Vector Quantization, LVQ)高斯混合 ——统计学习方法 第十三章) 原型方法和...
  • 将基于树冠高度模型(CHM)的ITD应用于林下树木,而将基于最近邻(NN)归因的ABA应用于林下树木。 我们的方法旨在弥补LiDAR数据和ITD在估算林木中的弱点,同时保持ITD在估算树级上的林木中的优势。 我们调查了三个...
  • 无监督学习(Unsupervised Learning)是指从无标签的数据中学习出一些有用的模式,无监督学习一般直接从原始数据进行学习,不借助人工标签...典型的无监督学习问题可以分为以下几类:无监督特征学习、密度估计、聚类。
  • 在这些步骤中,关联门可以选择矩形或椭圆形,对于最近邻算法,相似性度量方法选择加权欧式距离。 数据关联是将不确定性观测数据与轨迹进行配对,而最近邻算法又是什么呢?最近邻算法利用加权欧式距离计算每一个观测...
  • K近邻估计

    千次阅读 2017-06-13 23:08:40
    这些样本被称为点x的Kn个最近邻。  如果x点附近的密度比较高,则V的体积自然就相对较小,从而可以提升分辨力;  如果x点附近的密度比较低,则V的体积就较大,但一进入高密度区就会停止增长。    
  • KNN(最近邻算法)

    千次阅读 2018-08-19 18:45:05
    转载自独立寒风 KNN是最简单的机器学习算法之一。   在模式识别中,K-近邻算法(或近邻的简称...一个对象是由其邻居投票进行分类,被分类到最近的K个最近邻对象(k是一个正整数,通常小的)。如果k&n...
  • 无监督的最近邻是许多其它学习方法的基础,尤其是 manifold learning (流行学习) 和 spectral clustering (谱聚类)。 受监督的 neighbors-based (基于邻居的) 学习分为两种:  classification  (分类)针对的是...
  • 最近邻滤波法

    2020-03-18 12:54:56
    最近邻滤波法(NNF) 5条假设: (1)真实目标时存在且总能被检测到 (2)距离观测预测最近的观测值来源于目标 (3)其他观测源于杂波 (4)目标运动特性遵循线性高斯统计特性 总结:观测yky_kyk​中,只有统计距离于...
  • Dual-tree (快速计算核密度估计算法) 介绍 使用kd-tree实现空间划分:   Kd-tree:k-dimensional树的简称,是一种分割k维数据空间的数据结构。 对数据点在k维空间{二维(x,y),三维(x,y,z),k维(x,y,z.....
  • LSH主要用来解决高维空间中点的近似最近邻搜索问题,即Approximate Nearest Neighbor(ANN)。 在实际的应用中我们所面对的数据是海量的,并且有着很高的维度。在对数据的各种操作中,查询操作是最常见的一种,这里的查询...
  • 无监督的最近邻是许多其它学习方法的基础,尤其是 manifold learning (流行学习) 和 spectral clustering (谱聚类)。 受监督的 neighbors-based (基于邻居的) 学习分为两种:  classification  (分类)针对的是...
  • 基于CSRnet的高密度人群的人群估计

    万次阅读 2019-01-06 17:08:11
    评估人群密度估计模型时,为了与最新的研究进行对比,我们采用普遍被研究人员采用的均方误差(MSE)和平均绝对误差(MAE),MSE用来描述模型的准确度,MSE越小则准确度越高,MAE能反映出预测值的误差情况。...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,823
精华内容 1,129
关键字:

最近邻密度估计方法