精华内容
下载资源
问答
  • 一种基于U型全卷积神经网络的深度估计模型.pdf
  • 针对低质量文档图像存在页面污渍、墨迹浸润、背景纹理等多种退化因素,提出一种融合背景估计U型卷积神经网络(U-Net)的文档图像二值化算法。该算法首先进行图像对比度增强,然后通过形态学闭操作来估计文档图像...
  • 本文研究混合分数O-U过程的最小范数估计问题.利用分数布朗运动驱动的随机微分方程偏差不等式,获得了混合分数O-U过程漂移参数的最小范数估计、相合性及渐近分布.
  • 声会 导致估计器性 能的下降 。 为 了减 小估 计误差 , 必须抑 制这些不确定 因素对估计器的影响 。 在基于跟踪 一 微分器 的 电流 定向的坐标系 中 , 提 出 了定子 电阻辨 识和稳态磁链估 计 的新方 法 , 该方法本 ...
  • 分数O-U过程的最小Lp范数估计的相合性,苗雨,郑凯,这篇文章我们将通过一个分布朗运动的极大不等式给出分数0-U过程参数的最小lp范数估计的相合性.
  • 此文件是《菜鸟看论文——U-V-Disparity与地面检测、相机姿态估计》博文中的PPT,博文地址:https://blog.csdn.net/qq_326324545/article/details/93790812
  • 非参数估计:核密度估计KDE

    万次阅读 多人点赞 2016-12-14 11:38:46
    http://blog.csdn.net/pipisorry/article/details/53635895核密度估计...解决这一问题的方法包括参数估计和非参数估计。参数估计参数估计又可分为参数回归分析和参数判别分析。在参数回归分析中,人们假定数据分布

    http://blog.csdn.net/pipisorry/article/details/53635895

    核密度估计Kernel Density Estimation(KDE)概述

    密度估计的问题

    由给定样本集合求解随机变量的分布密度函数问题是概率统计学的基本问题之一。解决这一问题的方法包括参数估计和非参数估计。

    参数估计

    参数估计又可分为参数回归分析和参数判别分析。在参数回归分析中,人们假定数据分布符合某种特定的性态,如线性、可化线性或指数性态等,然后在目标函数族中寻找特定的解,即确定回归模型中的未知参数。在参数判别分析中,人们需要假定作为判别依据的、随机取值的数据样本在各个可能的类别中都服从特定的分布。经验和理论说明,参数模型的这种基本假定与实际的物理模型之间常常存在较大的差距,这些方法并非总能取得令人满意的结果。

    [参数估计:最大似然估计MLE][参数估计:文本分析的参数估计方法]

    非参数估计方法

    由于上述缺陷,Rosenblatt和Parzen提出了非参数估计方法,即核密度估计方法。由于核密度估计方法不利用有关数据分布的先验知识,对数据分布不附加任何假定,是一种从数据样本本身出发研究数据分布特征的方法,因而,在统计学理论和应用领域均受到高度的重视。

    核密度估计(kernel density estimation)是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)。Ruppert和Cline基于数据集密度函数聚类算法提出修订的核密度估计方法。

    核密度估计在估计边界区域的时候会出现边界效应

    [https://zh. wikipedia.org/zh-hans/核密度估计]

    因此,一句话概括,核密度估计Kernel Density Estimation(KDE)是在概率论中用来估计未知的密度函数,属于非参数检验方法之一。

    在密度函数估计中有一种方法是被广泛应用的——直方图。如下图中的第一和第二幅图(名为Histogram和Histogram, bins shifted)。直方图的特点是简单易懂,但缺点在于以下三个方面:密度函数是不平滑的;密度函数受子区间(即每个直方体)宽度影响很大,同样的原始数据如果取不同的子区间范围,那么展示的结果可能是完全不同的。如下图中的前两个图,第二个图只是在第一个图的基础上,划分区间增加了0.75,但展现出的密度函数却看起来差异很大;直方图最多只能展示2维数据,如果维度更多则无法有效展示。


    核密度估计有多种内核,图3(Tophat Kernl Density)为不平滑内核,图4(Gaussian Kernel Density,bandwidth=0.75)为平滑内核。在很多情况下,平滑内核(如高斯核密度估计,Gaussian Kernel Density)使用场景较多。

    虽然采用不同的核函数都可以获得一致性的结论(整体趋势和密度分布规律性基本一致),但核密度函数也不是完美的。除了核算法的选择外,带宽(bandwidth)也会影响密度估计,过大或过小的带宽值都会影响估计结果。如上图中的最后三个图,名为Gaussian Kernel Density,bandwidth=0.75、Gaussian Kernel Density,bandwidth=0.25、Gaussian Kernel Density,bandwidth=0.55.

    核密度估计的应用场景

    股票、金融等风险预测:在单变量核密度估计的基础上,可以建立风险价值的预测模型。通过对核密度估计变异系数的加权处理,可以建立不同的风险价值的预测模型。

    密度估计中应用较多的算法是高斯混合模型以及基于近邻的核密度估计。高斯混合核密度估计模型更多会在聚类场景中应用。

    [核密度估计Kernel Density Estimation(KDE)]

    核密度分析可用于测量建筑密度、获取犯罪情况报告,以及发现对城镇或野生动物栖息地造成影响的道路或公共设施管线。可使用 population 字段根据要素的重要程度赋予某些要素比其他要素更大的权重,该字段还允许使用一个点表示多个观察对象。例如,一个地址可以表示一栋六单元的公寓,或者在确定总体犯罪率时可赋予某些罪行比其他罪行更大的权重。对于线要素,分车道高速公路可能比狭窄的土路产生更大的影响,高压线要比标准电线杆产生更大的影响。[ArcGIS中的介绍]

    热力图大家一定听说过,其实热力图就是核密度估计。

    总而言之,核密度就是用来估计密度的,如果你有一系列空间点数据,那么核密度估计往往是比较好的可视化方法

    皮皮blog



    核密度估计

    所谓核密度估计,就是采用平滑的峰值函数(“核”)来拟合观察到的数据点,从而对真实的概率分布曲线进行模拟。

    核密度估计(Kernel density estimation),是一种用于估计概率密度函数的非参数方法,为独立同分布F的n个样本点,设其概率密度函数为f,核密度估计为以下:


    K(.)为核函数(非负、积分为1,符合概率密度性质,并且均值为0)。有很多种核函数,uniform,triangular, biweight, triweight, Epanechnikov,normal等。

    h>0为一个平滑参数,称作带宽(bandwidth),也看到有人叫窗口。

    Kh(x) = 1/h K(x/h). 为缩放核函数(scaled Kernel)。

    核密度函数的原理比较简单,在我们知道某一事物的概率分布的情况下,如果某一个数在观察中出现了,我们可以认为这个数的概率密度很大,和这个数比较近的数的概率密度也会比较大,而那些离这个数远的数的概率密度会比较小。

    基于这种想法,针对观察中的第一个数,我们可以用K去拟合我们想象中的那个远小近大概率密度。对每一个观察数拟合出的多个概率密度分布函数,取平均。如果某些数是比较重要的,则可以取加权平均。需要说明的一点是,核密度的估计并不是找到真正的分布函数。

    Note: 核密度估计其实就是通过核函数(如高斯)将每个数据点的数据+带宽当作核函数的参数,得到N个核函数,再线性叠加就形成了核密度的估计函数,归一化后就是核密度概率密度函数了

    以下面3个数据点的一维数据集为例:5, 10, 15

    绘制成直方图是这样的:                                                   而使用KDE则是:

    KDE核函数k(.)

    理论上,所有平滑的峰值函数均可作为KDE的核函数来使用,只要对归一化后的KDE而言(描绘在图上的是数据点出现的概率值),该函数曲线下方的面积和等于1即可。

    只有一个数据点时,单个波峰下方的面积为1,存在多个数据点时,所有波峰下方的面积之和为1。概而言之,函数曲线需囊括所有可能出现的数据值的情况。

    常用的核函数有:矩形、Epanechnikov曲线、高斯曲线等。这些函数存在共同的特点:在数据点处为波峰;曲线下方面积为1。

    单个数据点(只有一个数据时)所对应的这些核函数

    矩形

    Epanechnikov曲线

    高斯曲线

    [概率论:高斯/正态分布 ]

    sklearn中实现的核函数

    kde_kernels

    sklearn核函数形式

    • Gaussian kernel (kernel = 'gaussian')

      K(x; h) \propto \exp(- \frac{x^2}{2h^2} )

    • Tophat kernel (kernel = 'tophat')

      K(x; h) \propto 1 if x < h

    • Epanechnikov kernel (kernel = 'epanechnikov')

      K(x; h) \propto 1 - \frac{x^2}{h^2}

    • Exponential kernel (kernel = 'exponential')

      K(x; h) \propto \exp(-x/h)

    • Linear kernel (kernel = 'linear')

      K(x; h) \propto 1 - x/h if x < h

    • Cosine kernel (kernel = 'cosine')

      K(x; h) \propto \cos(\frac{\pi x}{2h}) if x < h

    [Kernel Density Estimation ]

    wekipedia上各种核函数的图形


    均匀核函数 k(x)=1/2,-1≤x≤1 加入带宽h后: kh(x)=1/(2h),-h≤x≤h

    三角核函数 k(x)=1-|x|,-1≤x≤1 加入带宽h后: kh(x)=(h-|x|)/h^2,-h≤x≤h

    伽马核函数 kxi(x)=[x^(α-1)exp{-xα/xi}]/[(xi/α)^α.Γ(α)]

    高斯核函数K(x,xc)=exp(-||x-xc||^2/(2*σ)^2)其中xc为核函数中心,σ为函数的宽度参数

    [https://zh.wikipedia.org/zh-hans/%E6%A0%B8%E5%AF%86%E5%BA%A6%E4%BC%B0%E8%AE%A1]

    不同内核的比较

    Epanechnikov 内核在均方误差意义下是最优的,效率损失也很小。

    由于高斯内核方便的数学性质,也经常使用 K(x)= ϕ(x),ϕ(x)为标准正态概率密度函数。

    对于多个数据点的KDE曲线:由于相邻波峰之间会发生波形合成,因此最终所形成的曲线形状与选择的核函数关系并不密切。考虑到函数在波形合成计算上的易用性,一般使用高斯曲线(正态分布曲线)作为KDE的核函数。

    KDE算法:索引树

    lz发现sklearn算法实现中有一个参数是算法项,如algorithm='auto',想了一下是为了加速。

    KDE的概率密度函数公式得到后


    有了上述公式之后,只需遍历输出图像的每一个点,计算其核密度估计值即可。

    但是稍微想一下就发现这个程序太冗余了,如果有很多点(n很大),并且输出图像很大,那么每一个像素都需要进行n个累积的加法运算,并且大部分都是+0(因为一般来说,一个点附近的点不会很多,远远小于n,其余大部分点与这个像素的距离都大于r),这样就造成了冗余计算。

    解决方案当然也非常简单,就是建立一个索引,然后在计算某个像素的核密度估计值时利用索引搜索出附近的点,然后累积这些点的核函数即可。

    如Dotspatial自带了多种空间索引,有R树,R*树,KD树等;sklearn自带了kd tree, ball tree等等。

    如果只需找出附近的点,对索引要求不高,任意一个索引都能使用。

    [ 空间点云核密度估计算法的实现-以Dotspatial为基础GIS库]

    KDE带宽h

    如何选定核函数的“方差”呢?这其实是由带宽h来决定,不同的带宽下的核函数估计结果差异很大。

    带宽反映了KDE曲线整体的平坦程度,也即观察到的数据点在KDE曲线形成过程中所占的比重。带宽越大,观察到的数据点在最终形成的曲线形状中所占比重越小,KDE整体曲线就越平坦;带宽越小,观察到的数据点在最终形成的曲线形状中所占比重越大,KDE整体曲线就越陡峭。

    还是以上面3个数据点的一维数据集为例,如果增加带宽,那么生成的KDE曲线就会变平坦:

    如果进一步增加带宽,那么KDE曲线在变平坦的同时,还会发生波形合成:

    相反,如果减少带宽,那么KDE曲线就会变得更加陡峭:

    从数学上来说,对于数据点Xi,如果带宽为h,那么在Xi处所形成的曲线函数为(其中K为核函数):

    在上面的函数中,K函数内部的h分母用于调整KDE曲线的宽幅,而K函数外部的h分母则用于保证曲线下方的面积符合KDE的规则(KDE曲线下方面积和为1)。

    带宽的选择

    带宽的选择很大程度上取决于主观判断:如果认为真实的概率分布曲线是比较平坦的,那么就选择较大的带宽;相反,如果认为真实的概率分布曲线是比较陡峭的,那么就选择较小的带宽。

    带宽计算好像也有相应的方法,如R语言中计算带宽时,默认采用”nrd0″方法。

    如何选择h?显然是选择可以使误差最小的。下面用平均积分平方误差(mean intergrated squared error)的大小来衡量h的优劣。

    在weak assumptions下,MISE (h) =AMISE(h) + o(1/(nh) + h4) ,其中AMISE为渐进的MISE。而AMISE有,

    其中,

    为了使MISE(h)最小,则转化为求极点问题,



    当核函数确定之后,h公式里的R、m、f''都可以确定下来,有(hAMISE ~ n−1/5),AMISE(h) = O(n−4/5)。

            如果带宽不是固定的,其变化取决于估计的位置(balloon  estimator)或样本点(逐点估计pointwise estimator),由此可以产产生一个非常强大的方法称为自适应或可变带宽核密度估计。

    [ 核密度估计(Kernel density estimation) ]
    在选择合适的核函数及带宽后,KDE可以模拟真实的概率分布曲线,并得到平滑而漂亮的结果。以近200个点的CPU使用率为例,使用KDE绘制的结果为:
    Screen Shot 2013-12-31 at 7.26.14 AM

    [一维数据可视化:核密度估计(Kernel Density Estimates)]

    皮皮blog



    核密度估计的实现

    Python中KDE的实现:sklearn

    [sklearn.neighbors.KernelDensity(bandwidth=1.0, algorithm='auto', kernel='gaussian', metric='euclidean', atol=0, rtol=0, breadth_first=True, leaf_size=40, metric_params=None)

    from sklearn.neighbors import kde
    import numpy as np
    
    X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
    kde = kde.KernelDensity(kernel='gaussian', bandwidth=0.2).fit(X)
    print(kde.score_samples(X))
    print(np.exp(kde.score_samples(X)))
    [-0.41075698 -0.41075698 -0.41076071 -0.41075698 -0.41075698 -0.41076071]

    [ 0.66314807  0.66314807  0.6631456   0.66314807  0.66314807  0.6631456 ]

    score_samples(X)

    Evaluate the density model on the data.

    Parameters:

    X : array_like, shape (n_samples, n_features)

    kde.score_samples(X)返回的是点x对应概率的log值,要使用exp求指数还原。

    Note: 还原后的所有点的概率和范围是[0, 无穷大],只是说一维数据线下面的面积或者二维数据面下面的体积和为1。

    [Density Estimation]

    [sklearn.neighbors.KernelDensity]

    spark中KDE的实现

    MLlib中,仅仅支持以高斯核做核密度估计。

    [核密度估计]

    R中KDE的实现

    在R语言中,KDE的绘制是通过density()函数来实现的 — 通过density()函数计算得到KDE模型,然后再使用plot()函数对KDE曲线进行绘制:
    x <- c(5, 10, 15)
    plot(density(x))
    出于兼容性上的考虑,R语言中density()函数在计算带宽时,默认采用”nrd0″方法。不过,根据R语言的帮助文档,带宽参数bw应该显式声明为其它更合适的方法,比如”SJ”:
    plot(density(x, bw="SJ"))
    对于调整带宽,除了修改bw参数,还可以通过设定adjust参数来进行扩大或缩小:
    plot(density(x, bw="SJ", adjust=1.5))
    在上面的例子中,最终使用的带宽将是采用”SJ”方法计算得到的带宽的1.5倍。adjust参数的默认值为1,也即既不扩大、也不缩小。
    至于核函数,density()默认采用高斯曲线。可以通过设定kernel参数来更改核函数。比如:plot(density(x, bw="SJ", kernel="epanechnikov"))

    density()函数接受以下7个核函数选项:
        gaussian。高斯曲线,默认选项。在数据点处模拟正态分布。
        epanechnikov。Epanechnikov曲线。
        rectangular。矩形核函数。
        triangular。三角形核函数。
        biweight。
        cosine。余弦曲线。
        optcosine。

    from: http://blog.csdn.net/pipisorry/article/details/53635895

    ref: [有边界区间上的核密度估计]


    展开全文
  • 用于医学图像估计的多通道输入逐像素回归3D U-Net,在脑MRI中有3种应用 描述 多通道输入逐像素回归3D U-Net的Pytorch实现。 抽象的 U-Net是一种健壮的通用深度学习体系结构,旨在用于医学图像的语义分割,并且已扩展...
  • 本文原始地址:最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum a posteriori estimation, 简称MAP)是很常用的两种参数估计方法,如果不理解这两种方法的思路,很

    声明:本文为原创文章,发表于nebulaf91的csdn博客。欢迎转载,但请务必保留本信息,注明文章出处。
    本文作者: nebulaf91
    本文原始地址:http://blog.csdn.net/u011508640/article/details/72815981


    最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum a posteriori estimation, 简称MAP)是很常用的两种参数估计方法,如果不理解这两种方法的思路,很容易弄混它们。下文将详细说明MLE和MAP的思路与区别。

    但别急,我们先从概率和统计的区别讲起。

    概率和统计是一个东西吗?

    概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。

    概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。 举个例子,我想研究怎么养猪(模型是猪),我选好了想养的品种、喂养方式、猪棚的设计等等(选择参数),我想知道我养出来的猪大概能有多肥,肉质怎么样(预测结果)。

    统计研究的问题则相反。统计是,有一堆数据,要利用这堆数据去预测模型和参数。仍以猪为例。现在我买到了一堆肉,通过观察和判断,我确定这是猪肉(这就确定了模型。在实际研究中,也是通过观察数据推测模型是/像高斯分布的、指数分布的、拉普拉斯分布的等等),然后,可以进一步研究,判定这猪的品种、这是圈养猪还是跑山猪还是网易猪,等等(推测模型参数)。

    一句话总结:概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。

    显然,本文解释的MLE和MAP都是统计领域的问题。它们都是用来推测参数的方法。为什么会存在着两种不同方法呢? 这需要理解贝叶斯思想。我们来看看贝叶斯公式。

    贝叶斯公式到底在说什么?

    学习机器学习和模式识别的人一定都听过贝叶斯公式(Bayes’ Theorem):

    P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B) = \frac{P(B|A)P(A)}{P(B)} P(AB)=P(B)P(BA)P(A) 【式1】

    贝叶斯公式看起来很简单,无非是倒了倒条件概率和联合概率的公式。

    把B展开,可以写成:

    P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ∣ A ) P ( A ) + P ( B ∣ ∼ A ) P ( ∼ A ) P(A|B) = \frac{P(B|A)P(A)}{P(B|A)P(A) + P(B|\sim A)P(\sim A)} P(AB)=P(BA)P(A)+P(BA)P(A)P(BA)P(A) 【式2】( ∼ A \sim A A表示"非A")

    这个式子就很有意思了。

    想想这个情况。一辆汽车(或者电瓶车)的警报响了,你通常是什么反应?有小偷?撞车了? 不。。 你通常什么反应都没有。因为汽车警报响一响实在是太正常了!每天都要发生好多次。本来,汽车警报设置的功能是,出现了异常情况,需要人关注。然而,由于虚警实在是太多,人们渐渐不相信警报的功能了。

    贝叶斯公式就是在描述,你有多大把握能相信一件证据?(how much you can trust the evidence)

    我们假设响警报的目的就是想说汽车被砸了。把A计作“汽车被砸了”,B计作“警报响了”,带进贝叶斯公式里看。我们想求等式左边发生 A ∣ B A|B AB的概率,这是在说警报响了,汽车也确实被砸了。汽车被砸**引起(trigger)**警报响,即 B ∣ A B|A BA。但是,也有可能是汽车被小孩子皮球踢了一下、被行人碰了一下等其他原因(统统计作 ∼ A \sim A A),其他原因引起汽车警报响了,即 B ∣ ∼ A B|\sim A BA。那么,现在突然听见警报响了,这时汽车已经被砸了的概率是多少呢(这即是说,警报响这个证据有了,多大把握能相信它确实是在报警说汽车被砸了)?想一想,应当这样来计算。用警报响起、汽车也被砸了这事件的数量,除以响警报事件的数量(这即【式1】)。进一步展开,即警报响起、汽车也被砸了的事件的数量,除以警报响起、汽车被砸了的事件数量加上警报响起、汽车没被砸的事件数量(这即【式2】)。

    可能有点绕,请稍稍想一想。

    再思考【式2】。想让 P ( A ∣ B ) = 1 P(A|B) = 1 P(AB)=1,即警报响了,汽车一定被砸了,该怎么做呢?让$ P(B|\sim A)P(\sim A) = 0 即 可 。 很 容 易 想 清 楚 , 假 若 让 即可。很容易想清楚,假若让 P(\sim A) = 0$,即杜绝了汽车被球踢、被行人碰到等等其他所有情况,那自然,警报响了,只剩下一种可能——汽车被砸了。这即是提高了响警报这个证据的说服力。

    从这个角度总结贝叶斯公式:做判断的时候,要考虑所有的因素。 老板骂你,不一定是你把什么工作搞砸了,可能只是他今天出门前和太太吵了一架。

    再思考【式2】。观察【式2】右边的分子, P ( B ∣ A ) P(B|A) P(BA)为汽车被砸后响警报的概率。姑且仍为这是1吧。但是,若 P ( A ) P(A) P(A)很小,即汽车被砸的概率本身就很小,则 P ( B ∣ A ) P ( A ) P(B|A)P(A) P(BA)P(A)仍然很小,即【式2】右边分子仍然很小,$P(A|B) $ 还是大不起来。 这里,​ P ( A ) P(A) P(A)即是常说的先验概率,如果A的先验概率很小,就算 P ( B ∣ A ) P(B|A) P(BA)较大,可能A的后验概率 P ( A ∣ B ) P(A|B) P(AB)还是不会大(假设 P ( B ∣ ∼ A ) P ( ∼ A ) P(B|\sim A)P(\sim A) P(BA)P(A)不变的情况下)。

    从这个角度思考贝叶斯公式:一个本来就难以发生的事情,就算出现某个证据和他强烈相关,也要谨慎。证据很可能来自别的虽然不是很相关,但发生概率较高的事情。 发现刚才写的代码编译报错,可是我今天状态特别好,这语言我也很熟悉,犯错的概率很低。因此觉得是编译器出错了。 ————别,还是先再检查下自己的代码吧。

    好了好了,说了这么多,下面言归正传,说一说MLE。

    ——————不行,还得先说似然函数(likelihood function)

    似然函数

    似然(likelihood)这个词其实和概率(probability)是差不多的意思,Colins字典这么解释:The likelihood of something happening is how likely it is to happen. 你把likelihood换成probability,这解释也读得通。但是在统计里面,似然函数和概率函数却是两个不同的概念(其实也很相近就是了)。

    对于这个函数:

    P ( x ∣ θ ) P(x|\theta) P(xθ)

    输入有两个:x表示某一个具体的数据; θ \theta θ表示模型的参数。

    如果 θ \theta θ是已知确定的, x x x是变量,这个函数叫做概率函数(probability function),它描述对于不同的样本点x,其出现概率是多少。

    如果 x x x是已知确定的, θ \theta θ是变量,这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数,出现x这个样本点的概率是多少。

    这有点像“一菜两吃”的意思。其实这样的形式我们以前也不是没遇到过。例如,$f(x, y) = x^y , 即 , 即 ,x 的 的 y 次 方 。 如 果 次方。如果 x 是 已 知 确 定 的 ( 例 如 是已知确定的(例如 (x = 2 ) , 这 就 是 ),这就是 )f(y) = 2^y , 这 是 指 数 函 数 。 如 果 , 这是指数函数。 如果 ,y 是 已 知 确 定 的 ( 例 如 是已知确定的(例如 (y = 2 ) , 这 就 是 ),这就是 )f(x) = x^2$,这是二次函数。同一个数学形式,从不同的变量角度观察,可以有不同的名字。

    这么说应该清楚了吧? 如果还没讲清楚,别急,下文会有具体例子。

    现在真要先讲讲MLE了。。

    最大似然估计(MLE)

    假设有一个造币厂生产某种硬币,现在我们拿到了一枚这种硬币,想试试这硬币是不是均匀的。即想知道抛这枚硬币,正反面出现的概率(记为 θ \theta θ)各是多少?

    这是一个统计问题,回想一下,解决统计问题需要什么? 数据!

    于是我们拿这枚硬币抛了10次,得到的数据( x 0 x_0 x0)是:反正正正正反正正正反。我们想求的正面概率 θ \theta θ是模型参数,而抛硬币模型我们可以假设是 二项分布

    那么,出现实验结果$ x_0$(即反正正正正反正正正反)的似然函数是多少呢?

    f ( x 0 , θ ) = ( 1 − θ ) × θ × θ × θ × θ × ( 1 − θ ) × θ × θ × θ × ( 1 − θ ) = θ 7 ( 1 − θ ) 3 = f ( θ ) f(x_0 ,\theta) = (1-\theta)\times\theta\times\theta\times\theta\times\theta\times(1-\theta)\times\theta\times\theta\times\theta\times(1-\theta) = \theta ^ 7(1 - \theta)^3 = f(\theta) f(x0,θ)=(1θ)×θ×θ×θ×θ×(1θ)×θ×θ×θ×(1θ)=θ7(1θ)3=f(θ)

    注意,这是个只关于 θ \theta θ的函数。而最大似然估计,顾名思义,就是要最大化这个函数。我们可以画出 f ( θ ) f(\theta) f(θ)的图像:

    likeli

    可以看出,在 θ = 0.7 \theta = 0.7 θ=0.7时,似然函数取得最大值。

    这样,我们已经完成了对 θ \theta θ的最大似然估计。即,抛10次硬币,发现7次硬币正面向上,最大似然估计认为正面向上的概率是0.7。(ummm…这非常直观合理,对吧?)

    且慢,一些人可能会说,硬币一般都是均匀的啊! 就算你做实验发现结果是“反正正正正反正正正反”,我也不信 θ = 0.7 \theta = 0.7 θ=0.7

    这里就包含了贝叶斯学派的思想了——要考虑先验概率。 为此,引入了最大后验概率估计。

    最大后验概率估计

    最大似然估计是求参数 θ \theta θ, 使似然函数$P(x_0 | \theta) 最 大 。 最 大 后 验 概 率 估 计 则 是 想 求 最大。最大后验概率估计则是想求 \theta 使 使 使P(x_0 | \theta) P(\theta) 最 大 。 求 得 的 最大。求得的 \theta 不 单 单 让 似 然 函 数 大 , 不单单让似然函数大, \theta$自己出现的先验概率也得大。 (这有点像正则化里加惩罚项的思想,不过正则化里是利用加法,而MAP里是利用乘法)

    MAP其实是在最大化 P ( θ ∣ x 0 ) = P ( x 0 ∣ θ ) P ( θ ) P ( x 0 ) P(\theta|x_0) = \frac{P(x_0|\theta)P(\theta)}{P(x_0)} P(θx0)=P(x0)P(x0θ)P(θ),不过因为 x 0 x_0 x0是确定的(即投出的“反正正正正反正正正反”), P ( x 0 ) P(x_0) P(x0)是一个已知值,所以去掉了分母 P ( x 0 ) P(x_0) P(x0)(假设“投10次硬币”是一次实验,实验做了1000次,“反正正正正反正正正反”出现了n次,则 P ( x 0 ) = n / 1000 P(x_0) = n/1000 P(x0)=n/1000。总之,这是一个可以由数据集得到的值)。最大化 P ( θ ∣ x 0 ) P(\theta | x_0) P(θx0)的意义也很明确, x 0 x_0 x0已经出现了,要求 θ \theta θ取什么值使 P ( θ ∣ x 0 ) P(\theta | x_0) P(θx0)最大。顺带一提, P ( θ ∣ x 0 ) P(\theta | x_0) P(θx0)即后验概率,这就是“最大后验概率估计”名字的由来。

    对于投硬币的例子来看,我们认为(”先验地知道“) θ \theta θ取0.5的概率很大,取其他值的概率小一些。我们用一个高斯分布来具体描述我们掌握的这个先验知识,例如假设 P ( θ ) P(\theta) P(θ)为均值0.5,方差0.1的高斯函数,如下图:

    ptheta

    P ( x 0 ∣ θ ) P ( θ ) P(x_0 | \theta) P(\theta) P(x0θ)P(θ)的函数图像为:

    map1

    注意,此时函数取最大值时, θ \theta θ取值已向左偏移,不再是0.7。实际上,在 θ = 0.558 \theta = 0.558 θ=0.558时函数取得了最大值。即,用最大后验概率估计,得到 θ = 0.558 \theta = 0.558 θ=0.558

    最后,那要怎样才能说服一个贝叶斯派相信 θ = 0.7 \theta = 0.7 θ=0.7呢?你得多做点实验。。

    如果做了1000次实验,其中700次都是正面向上,这时似然函数为:

    likeli2

    如果仍然假设 P ( θ ) P(\theta) P(θ)为均值0.5,方差0.1的高斯函数, P ( x 0 ∣ θ ) P ( θ ) P(x_0 | \theta) P(\theta) P(x0θ)P(θ)的函数图像为:

    map2

    θ = 0.696 \theta = 0.696 θ=0.696处, P ( x 0 ∣ θ ) P ( θ ) P(x_0 | \theta) P(\theta) P(x0θ)P(θ)取得最大值。

    这样,就算一个考虑了先验概率的贝叶斯派,也不得不承认得把 θ \theta θ估计在0.7附近了。

    PS. 要是遇上了顽固的贝叶斯派,认为 P ( θ = 0.5 ) = 1 P(\theta = 0.5) = 1 P(θ=0.5)=1 ,那就没得玩了。。 无论怎么做实验,使用MAP估计出来都是 θ = 0.5 \theta = 0.5 θ=0.5。这也说明,一个合理的先验概率假设是很重要的。(通常,先验概率能从数据中直接分析得到)

    最大似然估计和最大后验概率估计的区别

    相信读完上文,MLE和MAP的区别应该是很清楚的了。MAP就是多个作为因子的先验概率 P ( θ ) P(\theta) P(θ)。或者,也可以反过来,认为MLE是把先验概率 P ( θ ) P(\theta) P(θ)认为等于1,即认为 θ \theta θ是均匀分布。


    如果有说错的或者没说清楚的地方,欢迎留言指教!如果您更好的见解,也欢迎留言交流!
    谢谢阅读!
    作者: nebulaf91

    展开全文
  • 均匀分布族U(el,e1+e2)参数的最佳仿射同变估计之非容许性 (1985年)
  • 设为均匀均匀总体分布总体X~U(θ-1/2,θ+1/2)中的n个简单随机样本,则有 其似然函数; 求; 由 令,可得到θ的一个极大似然估计为(1) 令可得到θ的一个极大似然估计为(2) 由(1)(2)可得到θ的极大似然...

    X_{1},X_{2},....,X_{n}为均匀均匀总体分布总体X~U(θ-1/2,θ+1/2)中的n个简单随机样本,则有X_{i}\sim f(x_{i};\theta )=1,\theta -1/2<x<\theta +1/2;0,else.

    其似然函数l(\theta )=\prod_{i=1}^{n}f(x_{i};\theta )=1=1/((\theta +1/2)-(\theta-1/2));

    arg\ max(l(\theta))=arg\ min((\theta+1/2)-(\theta-1/2));

    X_{(n)}\leqslant \theta +1/2,X_{(1)} \geqslant \theta -1/2

    X_{(n)}=\hat{}\theta_{1}+1/2,可得到θ的一个极大似然估计为\hat{\theta_{1} }=X_{(n)}-1/2;(1)

    X_{(1)}=\hat{\theta_{2}}-1/2,可得到θ的一个极大似然估计为\hat{\theta _{2}}=X_{1}+1/2;(2)

    由(1)(2)可得到θ的极大似然估计为\hat{\theta}=\frac{1}{2}(\hat{\theta_{1}}+\hat{\theta_{2}})=\frac{1}{2}(X_{(1)}+X_{(n)})

    对于参数θ的这三个估计量的比较,我们先引入一下引理:

    设总体X\sim U(\theta-1/2,\theta+1/2),X_{1},X_{2},....,X_{n},为均匀均匀总体分布总体X~U(θ-1/2,θ+1/2)中的n个简单随机样本,X_{(n)}=max({X_{i}}),1\leq i\leq n,X_{(1)}=min(X_{i}),1\leq i\leq n,有

    f_{X_{(n)}}(x)=n(x-\theta+1/2)^{n-1},\theta-1/2\leq x \leq \theta+1/2;0,else.

    f_{X_{(1)}}(x)=n(x+\theta-1/2)^{n-1},\theta-1/2\leq x \leq \theta+1/2;0,else.

    1.对于三种估计量的无偏性,我们有E(\hat{\theta}_{1})=\theta-\frac{1}{n+1};E(\hat{\theta_{2}})=\theta+\frac{1}{n+1};E(\hat{\theta})=\theta;下面我们只证明第一个

    证明:由\hat{\theta_{1} }=X_{(n)}-1/2;

    E(X_{n})=\int_{\theta-1/2}^{\theta+1\2}xn(x-\theta+1/2)^{n-1}dx=\theta+1/2-1/n+1;

    E(\hat{\theta_{1}})=E(X_{(n)}-1/2)=\theta-\frac{1}{n+1};证毕。

    2.对于三个估计量的一致性,易得\lim_{n\rightarrow \infty }D(\hat{\theta_{1}})=0;\lim_{n\rightarrow \infty }D(\hat{\theta_{2}})=0;\lim_{n\rightarrow \infty }D(\hat{\theta})=0\lim_{n\rightarrow \infty }D(\hat{\theta_{2}})=0\lim_{n\rightarrow \infty }D(\hat{\theta})=0;

    所以三个估计量都是θ的一致估计。

    3.易得\hat{\theta}有效性更佳

    综上所述,在实际应用中,可以选取统计量\hat{\theta}作为参数θ的估计量。

    展开全文
  • 参数估计之点估计(矩估计,最大似然估计) 详解含推导 1.何为点估计 在了解点估计之前,我们先介绍一下估计量与估计值的概念 1.1估计量与估计值 参数估计 就是用样本统计量去估计总体的参数,如用样本均值 x⃗\vec xx ...

    统计学

    参数估计之点估计(矩估计,最大似然估计) 详解含推导

    1.何为点估计

    在了解点估计之前,我们先介绍一下估计量与估计值的概念

    1.1估计量与估计值

    参数估计

    • 就是用样本统计量去估计总体的参数,如用样本均值 x ⃗ \vec x x 去估计总体均值 μ ,用样本比例 p 估计总体比例 π ,样本方差 s 2 s^2 s2 估计总体方差 δ 2 δ^2 δ2 .
    • 现在我们将总体参数笼统的称为 θ ,而用于估计总体参数 θ 的统计量我们称为 θ^ ,参数估计的实际含义就是如何用 θ^ 来表示 θ

    估计量

    估计参数时计算出来的统计量的具体值: θ^

    1.2点估计

    点估计,顾名思义就是用 θ^的某个取值作为总体参数 θ 的估计值
    下面便介绍点估计的两种方法: 矩估计和最大似然估计

    2.矩估计

    2.1概念解析

    ps: 如果想直接记做题结论的可以跳过这一步
    也许第一眼看上去十分复杂,其实他们代表的含义十分简单
    这里的 μ 表示的是根据分布计算出的期望 它就是我们之前提到的 θ
    这里的 A 表示的是根据实际情况,也就是样本数据计算出的均值 ,也就是我们用来估计的 θ^
    下面我们便结合实际的例子来讲解
    在这里插入图片描述

    2.2案例分析

    这里的案例分为2种情况:

    • 分布情况属于我们已知的五大分布
    • 分布情况未知,但是给出了密度函数

    注:五大分布的期望方差表已放在文末


    解题步骤

    • 1.判断分布
    • 2.构造方程(有几个参数就构造几个方程)
    • 3.计算结果

    矩估计,例题一

    在这里插入图片描述
    分析
    显然,这道题属于已知分布函数的类型,并且只有一个参数

    在这里插入图片描述

    矩估计,例题二!

    在这里插入图片描述
    分析
    显然,这道题属于已知分布函数的类型,并且有2个参数

    在这里插入图片描述

    矩估计,例题三

    在这里插入图片描述
    分析
    显然,这道题属于未知分布函数但知道密度函数的类型,并且有1个参数
    在这里插入图片描述

    3.最大似然估计

    3.1概念解析

    下面两张图可以简单的看看过,如果真的想了解似然估计的话可以阅读一下下面的文章
    这里推荐一篇之前看到过的非常好的文章
    读懂最大似然估计
    简单的概括来说,最大似然估计就是利用求导找出概率的最大值,来作为 θ^ 估计 θ
    在这里插入图片描述
    在这里插入图片描述

    3.2案例分析

    这里的案例同样分为2种情况:

    • 分布情况属于我们已知的五大分布
    • 分布情况未知,但是给出了密度函数

    注:五大分布的期望方差表已放在文末


    解题步骤

    • 1.写似然函数
    • 2.取对数
    • 3.求导,令导数=0
    • 4.得出结果,如果求估计值就小写,求估计量就大写

    最大似然估计,例题一

    在这里插入图片描述
    解答
    在这里插入图片描述

    最大似然估计,例题二

    在这里插入图片描述
    在这里插入图片描述

    最大似然估计,例题三

    这种情况是已知密度函数的,解题过程仍类似
    图片来自https://blog.csdn.net/zhengyikuangge/article/details/80934547

    附页:几种常见的抽样分布

    在这里插入图片描述

    展开全文
  • 参数估计、点估计、极大似然估计

    千次阅读 2019-04-19 09:01:28
    1 为什么提出极大似然估计?(极大似然估计的来源) 1.参数估计 随机变量XXX的分布函数已知,但它的一个或多个参数未知,我们需要根据已有样本,估计XXX分布函数的参数。 2. 点估计 随机变量XXX的分布函数已知,...
  • 估计(矩估计法和最大似然估计法)

    万次阅读 多人点赞 2018-07-05 23:23:31
    估计即是近似地求某个参数的值,需要区别理解样本、总体、量、值 大致的题型是已知某分布(其实包含未知参数),从中取样本并给出样本值 我只是一个初学者,可能有的步骤比较繁琐,请见谅~ 1、矩估计法 ...
  • 参数估计-矩估计和极大似然估计概述

    万次阅读 多人点赞 2016-09-10 22:38:42
    参数估计 参数估计:是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。它是统计推断的一种基本形式,是数理统计学的一个重要分支,分为点估计和区间估计两部分。 点估计:依据样本估计总体分布中所...
  • 贝叶斯估计和极大似然估计到底有何区别

    万次阅读 多人点赞 2017-03-12 21:28:00
    在开始接触最大似然估计和贝叶斯估计时,大家都会有个疑问:最大似然估计和贝叶斯估计二者很相似,到底有何区别?本文便来说说二者的不同之处以及推导二者使用时的数学模型!预热知识必知如何求类条件概率密度: ...
  • 参考: 02.Real time obstacle detection on non flat road geometry through v-... (2)利用上述公式,将pitch和roll的估计转换为p,q的估计,归根到底是p的估计      3.Yaw估计                
  • 极大似然估计详解

    万次阅读 多人点赞 2017-05-28 00:55:10
    极大似然估计  以前多次接触过极大似然估计,但一直都不太明白到底什么原理,最近在看贝叶斯分类,对极大似然估计有了新的认识,总结如下: 贝叶斯决策  首先来看贝叶斯分类,我们都知道经典的贝叶斯公式: ...
  • 光流估计

    千次阅读 2019-01-08 18:24:52
    相机运动,目标静止—光流估计(全局运动) 相机和目标均运动—光流估计 光流估计基本思想 光流的概念是Gibson在1950年首先提出来的。它是空间运动物体在观察成像平面上的像素运动的瞬时速度,是利用图像序列中...
  • 估计和最大似然估计

    千次阅读 2017-10-06 17:09:47
    参数估计  参数估计:是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。它是统计推断的一种基本形式,是数理统计学的一个重要分支,分为点估计和区间估计两部分。    点估计:依据样本估计总体...
  • 估计退化函数

    千次阅读 2018-09-27 11:42:24
    要想图像复原我们就得知道系统的冲击响应Hs(u,v)H_s(u,v)Hs​(u,v)但是这个函数我们是不知道的,所以我们就要对其进行估计估计的方法主要由三种。 1.图像观察估计 首先为了消除噪声的影响,我们选取图形中噪声影响...
  • 统计推断包括参数估计和假设检验。参数估计就是用样本指标(统计量)来估计总体指标(参数)。 一、参数估计基础-Z分布 在统计应用中,可以把任何一个均数为,标准差为的正态分布转变为,的标准正态分布,即将...
  • 参数估计是数理统计中重要的统计推断问题之一。
  • 区间估计

    千次阅读 2018-03-17 15:01:31
    实验目的 分别使用Excel、SPSS和Python软件做区间估计,探究哪种软件可以实现哪几种区间估计。二.实验内容参数的点估计给出了一个具体的数值,但其精度如何,点估计本身无法给出回答。在实际中,度量一个点估计的...
  • PGM:不完备数据的参数估计

    千次阅读 2016-09-22 20:24:06
    http://blog.csdn.net/pipisorry/article/details/52626889使用不完备数据的贝叶斯...使用不完备数据的最大似然估计MLE梯度上升方法{优化似然函数算法1}计算梯度先考虑相对于一个单一CPD的表值P(x|u)的导数(一个数据的
  • 参数估计方法整理

    万次阅读 多人点赞 2018-08-06 10:33:27
    参数估计:是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。 参数估计包括点估计和区间估计。 常见点估计方法:矩估计、最小二乘估计、极大似然估计、贝叶斯估计 区间估计:利用已知的抽样分布、...
  • 利用最大似然估计方法估计参数

    万次阅读 2017-03-27 17:04:01
    Matlab2016a实验内容:给定以下w1和w2的三维数据,考虑不同维数下的高斯概率密度模型:(a)编写程序,对表格中的类w1中的3个特征,分别求解最大似然估计。 (b)修改程序,处理二维数据的情形。然后处理对表格中的...
  • PGM:贝叶斯网的参数估计

    千次阅读 2016-09-20 16:22:21
    http://blog.csdn.net/pipisorry/article/details/52578631本文讨论贝叶斯网的参数估计问题:贝叶斯网的MLE最大似然估计和贝叶斯估计。...贝叶斯网的MLE参数估计最大似然估计MLE[参数估计:最大似然估计MLE
  • 核密度估计与自适应带宽的核密度估计

    万次阅读 多人点赞 2017-06-29 22:26:44
    最近看论文,发现一个很不错的概率密度估计方法。在此小记一下。 先来看看准备知识。 密度估计经常在统计学中作为一种使用有限的样本来估计其概率密度函数的方法。 我们在研究随机变量的过程中,随机变量的概率...
  • 参数估计: 在很多实际问题中,为了进行某些统计推断,需要确定总体...例如,某门课程的考试成绩服从正态分布N(u,a^2),其中u和a是未知的参数,就需要用样本观测数据来进行估计u和a的值。 假设检验: 假设检验的

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 96,823
精华内容 38,729
关键字:

u估计