精华内容
下载资源
问答
  • 概率密度函数非参数估计matlab代码代码-Matlab 2017a / Python 3.7-MSAL(多标准优化主动学习)算法 主动学习选择最关键的实例,并通过与Oracle的交互来获取它们的标签。 选择信息量大或代表性的未标记实例可能会...
  • 非参数估计

    2018-09-06 09:38:05
    《现代非参数统计》是“All of Nonparametric Statistics”的中译本,源于作者为研究生开设的课程讲义,包括了几乎所有的现代非参数统计的内容.这种包罗万象的书不但国内没有,在国外也很难找到。《现代非参数统计...
  • 核密度非参数估计的matlab代码交叉验证 在我目前的课程“数据分析和解释”中,我们的课程讲师是图像处理专家,我们已经完成了关于这个主题的几个有趣的作业,并在 MATLAB 中实现了它们。 其中之一是 PDF 估计器,...
  • 核密度非参数估计的matlab代码Non_Parametric_Kernel_Density_Estimation 我们建议使用基于核密度估计 (KDE) 的方法进行分类。 这种非参数方法本质上以一种有原则的方式为每个类提供了成员资格的可能性。 该实现用于...
  • 该资源是李竹渝、鲁万波和龚金国编著的《经济、计量中的非参数估计技术》一书的电子版,该书是学习非参数核估计非常经典的入门书籍,书中详细介绍了相关的方法和案例,其中附录中也有相应的程序。
  • kde核密度估计,非参数估计的一种,使用高斯核函数进行概率密度估计,应用于独立成分分析确定控制限等过程
  • 然后,基于局部线性非参数估计理论,对近似分量和细节分量分别建立了 NARCH( 1)模型;最后,对均值和波动率进行了 10步预测.计算结果表明,非参数估计理论结合小波多分辨分析理论可以较好地应用于人民币汇率的预测,预测...
  • 概率密度函数非参数估计matlab代码人工智能笔记 我所了解的有关人工智能/数据科学/机器学习/统计建模/模式识别/您想要称呼本笔记内容的一切。 所有这些之间的界线都非常模糊,但是它们都试图回答相同的问题:“我们...
  • 基于非参数估计的不确定数据模型构建方法
  • 概率密度函数 非参数估计 matlab 代码
  • 非参数估计的基本原理与直方图方法 1. 前言 在很多情况下,我们对样本的分布并没有充分的了解,无法事先给出密度函数的形式,而且有些样本分布的情况也很难用简单的函数来描述。 在此背景下,采用非参数估计,即不对...

    非参数估计的基本原理与直方图方法

    1. 前言

    在很多情况下,我们对样本的分布并没有充分的了解,无法事先给出密度函数的形式,而且有些样本分布的情况也很难用简单的函数来描述。
    在此背景下,采用非参数估计,即不对概率密度函数的形式作任何假设,而是直接用样本估计出整个函数。当然,这种估计只能用数值方法取得,无法得到完美的封闭函数形式。
    从另一个角度来看,概率密度函数的参数估计实际是在指定的一类函数中选择一个函数作为对未知函数的估计,而非参数估计则可以是看作是从所有可能的函数中进行的一种选择。

    2. 直方图方法

    非参数概率密度估计的最简单方法:

    1. 把样本 x x x的每个分量在其取值范围内分成 k k k个等间隔的小窗。如果 x x x d d d维向量,则这种分割就会得到 k d k^d kd个小体积或者小舱,每个小舱的体积记作 V V V
    2. 统计落入每个小舱内的样本数目 q i q_i qi
    3. 把每个小舱内的概率密度看作是常数,并用 q i N V \frac{q_i}{NV} NVqi作为其估计值,其中 N N N为样本总数。

    3. 非参数估计的基本原理

    已知样本集 X = { x 1 , . . . , x N } X=\{x_1,...,x_N\} X={x1,...,xN}中的样本是从服从密度函数 ρ ( x ) \rho(x) ρ(x)的总体中独立抽取出来的,求 ρ ( x ) \rho(x) ρ(x)得估计 ρ ( x ) ^ \hat{\rho(x)} ρ(x)^。与参数估计相同,这里不考虑类别,即假设样本都是来自同一个类别,对不同类别只需要分别进行估计即可。
    考虑在样本所在空间得某个小区域 R R R,某个随机向量落入这个小区域得概率是:
    P R = ∫ R ρ ( x ) d x (1) P_R=\int_{R} \rho(x) dx \tag 1 PR=Rρ(x)dx(1)
    根据二项分布,在样本集 X X X中恰好有 k k k个落入小区域 R R R得概率是:
    P R = C N k P R k ( 1 − P R ) N − k (2) P_R=C_N^k P_R^k(1-P_R)^{N-k} \tag 2 PR=CNkPRk(1PR)Nk(2)
    其中 C N k C_N^k CNk表示在 N N N个样本中取 k k k个的组合数。 k k k的期望值是:
    E [ k ] = N P R (3) E[k]=NP_R \tag 3 E[k]=NPR(3)
    而且 k k k的众数(概率最大的取值)是:
    m = [ ( N + 1 ) P R ] (4) m=[(N+1)P_R] \tag 4 m=[(N+1)PR](4)
    其中 [   ] [ \ ] [ ]表示取整数。因此,当小区域中实际落入了 k k k个样本时, P R P_R PR的一个很好的估计是:
    P R ^ = k N (5) \hat{P_R} = \frac{k}{N} \tag 5 PR^=Nk(5)
    ρ ( x ) \rho(x) ρ(x)连续、且小区域 R R R的体积 V V V足够小时,可以假定在该小区域范围内 ρ ( x ) \rho(x) ρ(x)是常数,则式 ( 2 ) (2) (2)可近似为:
    P R = ∫ R ρ ( x ) d x = ρ ( x ) V (6) P_R=\int_R \rho(x) dx = \rho(x) V \tag 6 PR=Rρ(x)dx=ρ(x)V(6)
    用式 ( 5 ) (5) (5)代入 ( 6 ) (6) (6),可得在小区域 R R R的范围内:
    ρ ( x ) ^ = k N V (7) \hat{\rho(x)}=\frac{k}{NV} \tag 7 ρ(x)^=NVk(7)
    这就是在上面的直方图中使用的对小舱内概率密度的估计。

    1. 如果小舱选择过大,则假设 ρ ( x ) \rho(x) ρ(x)在小舱内为常数的做法就显得粗糙,导致最终估计出的密度函数也非常粗糙;
    2. 如果小舱过小,则有些小舱内可能就会没有样本或者很少样本,导致估计出的概率密度函数很不连续。

    所以,小舱的选择应该与样本总数相适应。理论上讲,假定样本总数是 n n n,小舱的体积为 V n V_n Vn,在 x x x附近位置上落入小舱的样本个数是 k n k_n kn,那么当样本趋于无穷多时 ρ ( x ) ^ \hat{\rho(x)} ρ(x)^收敛于 ρ ( x ) \rho(x) ρ(x)的条件是:
    ( 1 ) V n = 0 ( n → ∞ ) , ( 2 ) k n = ∞ ( n → ∞ ) , ( 3 ) k n n = 0 ( n → ∞ ) (1) V_n = 0 (n \rightarrow \infty),(2)k_n = \infty(n \rightarrow \infty),(3) \frac{k_n}{n} = 0(n \rightarrow \infty) (1)Vn=0(n)(2)kn=(n)(3)nkn=0(n)
    直观的解释是:随着样本数的增加,小舱体积应该尽可能小(1),同时又必须保证小舱内有充分多的样本(2),但每个小舱内的样本数又必须是总样本数中很小的一部分(3)

    展开全文
  • 模式识别讲解非参数估计
  • parzen窗的非参数估计

    2018-12-01 16:32:29
    本实验的目的是学习Parzen窗估计方法。在之前的模式识别研究中,我们假设概率密度函数的参数形式已知,即判别函数J(.)的参数是已知的。...在模式识别中有躲在令人感兴趣的非参数化方法,Parzen窗估计估计
  • 非参数估计方法对中国股市易变性的应用研究,鲁万波,李竹渝,判断和解释金融资产的易变性,一直都是金融风险研究中的一个中心问题。本文在混合相依样本的条件下,应用改良的交叉核实函数的非
  • 参数与非参数估计

    2015-06-04 17:13:15
    很好的参数估计和非参数估计的资料,希望有用的同学需要时下载完善
  • 非参数估计ppt

    2014-04-09 16:33:27
    模式识别中非参数估计理论,包括窗估计、kNN,NN等
  • 该文档详细介绍了非参数估计的方法,即直接用已知类别样本去估计总体密度分布的方法,包括概率密度估计,Parzen窗估计,Kn-近邻估计,最近邻规则,并介绍了一些改进的近邻估计法,是十分有启发性的讲义。
  • 我们最终想要得到的是一个概率密度的模型,如果我们已经对观测的对象有了一些认识,对观测的现象属于那种类型的概率密度分布已经了解,只是需要确定其中的参数而已,这种情况就是属于参数估...

       通过观测世界得到了一些数据,我们要从这些数据里面去找出规律来认识世界,一般来说,在概率上我们有一个一般性的操作步骤:

    1. 观测样本的存在

    2. 每个样本之间是独立的

    3. 所有样本符合一个概率模型

         我们最终想要得到的是一个概率密度的模型,如果我们已经对观测的对象有了一些认识,对观测的现象属于那种类型的概率密度分布已经了解,只是需要确定其中的参数而已,这种情况就是属于参数估计问题。

        如果我们研究观测的对象,很难说这些观测的数据符合什么模型,参数估计的方法就失效了,我们只有用非参数估计的办法去估计真实数据符合的概率密度模型了。

    因此,本文主要讨论 参数估计和非参数估计问题

    1. 参数估计

          在已知观测数据符合某些模型的情况下,我们可以利用参数估计的方法来确定这些参数值,然后得出概率密度模型。这个过程中用到了一个条件,就是概率分布符合某些模型这个事实。在这个事实上进行加工。一般来说,参数估计中,最大似然方法MLE是最重要和最常用的,此外介绍一下最大后验概率估计MAP及贝叶斯估计。

    1.1、最大似然估计

     回顾一下贝叶斯公式

                                                    

           其中:p(\theta )为先验概率,表示每种类别分布的概率;p(X|\theta )条件概率,表示在某种类别前提下,事件X发生的概率;而p(\theta|X )为后验概率,表示某事发生了,并且它属于某一类别的概率,有了这个后验概率,我们就可以对样本进行分类。后验概率越大,说明某事物属于这个类别的可能性越大,我们越有理由把它归到这个类别下。

    这个公式也称为逆概率公式,可以将后验概率转化为基于似然函数和先验概率的计算表达式,即

                                             

    最大似然估计就是要用似然函数取到最大值时的参数值作为估计值,似然函数可以写做

                                             

    由于有连乘运算,通常对似然函数取对数计算简便,即对数似然函数。最大似然估计问题可以写成:

                                            

    这是一个关于的函数,求解这个优化问题通常对求导,得到导数为0的极值点。该函数取得最大值是对应的的取值就是我们估计的模型参数。

    对似然函数的理解

    常说的概率是指给定参数后,预测即将发生的事件的可能性。

    拿硬币这个例子来说,我们已知一枚均匀硬币的正反面概率分别是0.5,要预测抛两次硬币,硬币都朝上的概率:(H表示头朝上)

                                      p(HH|P_{H}=0.5) = 0.5*0.5 = 0.25.

    这种写法其实有点误导,后面的这个P_{H}其实是作为参数存在的,而不是一个随机变量,因此不能算作是条件概率,更靠谱的写法应该是 p(HH;P_{H}=0.5)。

    而似然概率正好与这个过程相反,我们关注的量不再是事件的发生概率,而是已知发生了某些事件,我们希望知道参数应该是多少。

    现在我们已经抛了两次硬币,并且知道了结果是两次头朝上,这时候,我希望知道这枚硬币抛出去正面朝上的概率为0.5的概率是多少?正面朝上的概率为0.8的概率是多少?

    如果我们希望知道正面朝上概率为0.5的概率,这个东西就叫做似然函数,可以说成是对某一个参数的猜想(P_{H}=0.5)的概率,这样表示成(条件)概率就是

           L(P_{H}=0.5|HH) = P(HH|P_{H}=0.5) = (另一种写法)P(HH;P_{H}=0.5).

    为什么可以写成这样?我觉得可以这样来想:

    似然函数本身也是一种概率,我们可以把L(P_{H}=0.5|HH)写成P(P_{H}=0.5|HH); 而根据贝叶斯公式:

    P(P_{H}=0.5|HH) = P(P_{H}=0.5,HH)/P(HH);既然HH是已经发生的事件,理所当然P(HH) = 1,所以:

    P(P_{H}=0.5|HH)  = P(P_{H}=0.5,HH) = P(HH;P_{H}=0.5).

    右边的这个计算我们很熟悉了,就是已知头朝上概率为0.5,求抛两次都是H的概率,即0.5*0.5=0.25。

    所以,我们可以safely得到:

    L(P_{H}=0.5|HH) = P(P_{H}=0.5|HH)= P(P_{H}=0.5,HH) = P(HH;P_{H}=0.5)=P(HH|P_{H}=0.5) = 0.25.

    这个0.25的意思是,在已知抛出两个正面的情况下,P_{H} = 0.5的概率等于0.25。

    再算一下:               L(P_{H}=0.6|HH) = P(HH|P_{H}=0.6) = 0.36.

    把pH从0~1的取值所得到的似然函数的曲线画出来得到这样一张图:

                              

    可以发现,P_{H} = 1的概率是最大的。即L(P_{H} = 1|HH) = 1。在观测到HH的情况下,P_{H} = 1是最合理的(却未必符合真实情况,因为数据量太少的缘故)。

    那么最大似然概率的问题也就好理解了。

               最大似然概率,就是在已知观测的数据的前提下,找到使得似然概率最大的参数值。

    from:      对似然函数的理解

             以扔硬币的伯努利实验为例子,N次实验的结果服从二项分布,参数P(即上面的P_{H}),设为正面的概率。为了估计P,采用最大似然估计,似然函数可以写作

                                     

    其中表示实验结果为i的次数。下面求似然函数的极值点,有

                                     

    得到参数p的最大似然估计值为

                                     

    可以看出二项分布中每次事件发的概率p就等于做N次独立重复随机试验中事件发生的概率。

    如果我们做20次实验,出现正面12次,反面8次,那么根据最大似然估计得到参数值p为12/20 = 0.6。

    1.2、最大后验估计MAP

        最大后验估计与最大似然估计相似,不同点在于估计的函数中允许加入一个先验概率,也就是说此时不是要求似然函数最大,而是要求由贝叶斯公式计算出的整个后验概率最大,即

                                 

         这里P(X)与参数无关。与最大似然估计相比,现在需要多加上一个先验分布概率的对数。在实际应用中,这个先验可以用来描述人们已经知道或者接受的普遍规律,先验概率的估计较简单:

    1、每个样本所属的自然状态都是已知的(有监督学习);2、依靠经验;3、用训练样本中各类出现的频率估计。

          例如在扔硬币的试验中,每次抛出正面发生的概率应该服从一个概率分布(注意这句话讲的是:先验概率的取值也服从一种概率分布),这个概率在0.5处取得最大值,这个分布就是先验分布。先验分布的参数我们称为超参数(hyperparameter)即

                               

    当后验概率取得最大值时,我们就得到根据MAP估计出的参数值。给定观测到的样本数据,一个新的值发生的概率是

                            

    下面我们仍然以扔硬币的例子来说明,我们期望先验概率分布在0.5处取得最大值,我们可以选用Beta分布作为扔硬币先验概率所服从的分布,即

    其中Beta函数展开是

                                                  

    当x为正整数时                           \Gamma(n) = (n-1)!\,

    Beta分布的随机变量范围是[0,1]。下图给出了不同参数情况下的Beta分布的概率密度函数:

                      

    我们取\alpha =\beta =5,这样先验分布在0.5处取得最大值,现在我们来求解MAP估计函数的极值点,同样对p求导数我们有

                               

    得到参数p的的最大后验估计值为

                              

    和最大似然估计的结果对比可以发现结果中多了这样的pseudo-counts,这就是先验概率在起作用。

    并且超参数越大,Beta函数越聚集,紧缩在其最大值两侧为了改变先验分布传递的belief所需要的观察值就越多。

    如果我们做20次实验,出现正面12次,反面8次,那么

    根据MAP估计出来的参数,得到P_{H}=16/28 = 0.571,小于最大似然估计得到的值0.6,这也显示了“硬币一般是两面均匀的”这一先验对参数估计的影响。

    1.3、贝叶斯估计

    贝叶斯估计是在MAP上做进一步拓展,此时不直接估计参数的值,而是允许参数服从一定概率分布。贝叶斯公式:

                                    

    现在不是要求后验概率最大,这样就需要求,即观察到的evidence的概率,由全概率公式展开可得

                                  

    当新的数据被观察到时,后验概率可以自动随之调整。但是通常这个全概率的求法是贝叶斯估计比较有技巧性的地方。

    如何用贝叶斯估计来做预测呢?如果我们想求一个新值的概率,可以由

    贝叶斯估计  :                           

    最大后验估计(做个对比) :    (我的理解是:这个时候\theta _{MAP}已经求出来了,是常数)

    注意贝叶斯估计公式里,此时第二项因子在上的积分不再等于1,这就是和MLE及MAP很大的不同点

    (不懂:第二项因子在上的积分不再等于1,这里的第二项因子是指p(\theta |X)

    我们仍然以扔硬币的伯努利实验为例来说明。和MAP中一样,我们假设先验分布为Beta分布,但是构造贝叶斯估计时,不是要求用后验最大时的参数来近似作为参数值,而是求满足Beta分布的参数p的期望,有

              

    注意这里用到了公式

                                  

    根据结果可以知道,根据贝叶斯估计,参数p服从一个新的Beta分布。

    回忆一下,我们为p选取的先验分布是Beta分布,然后以p为参数的二项分布,用贝叶斯估计得到的后验概率仍然服从Beta分布,由此我们说二项分布和Beta分布是共轭分布。在概率语言模型中,通常选取共轭分布作为先验,可以带来计算上的方便性。

    根据Beta分布的期望和方差计算公式,我们有

    可以看出此时估计的p的期望和MLE ,MAP中得到的估计值都不同,此时如果仍然是做20次实验,12次正面,8次反面,那么我们根据贝叶斯估计得到的p满足参数为12+5和8+5的Beta分布,其均值和方差分别是17/30=0.567, 17*13/(31*30^2)=0.0079。可以看到此时求出的p的期望比MLE和MAP得到的估计值都小,更加接近0.5。

    综上所述我们可以可视化MLE,MAP和贝叶斯估计对参数的估计结果如下:

    从MLE到MAP再到贝叶斯估计,对参数的表示越来越精确,得到的参数估计结果也越来越接近0.5这个先验概率,越来越能够反映基于样本的真实参数情况。

    from:文本语言模型的参数估计-最大似然估计、MAP及贝叶斯估计

    2、非参数估计

          如果产生数据的分布形式已知,参数也已知,那么概率密度函数PDF已知,可以直接计算每一点的概率密度,比如高斯分布。如果参数不知道,那么也可以用数据估计参数,比如最小二乘估计,最大似然估计,贝叶斯参数估计等,如果连产生数据的分布形式都不知道,怎么办求概率密度呢?这就是一个非参数问题了,方法:让数据说话。

          我们的目标,求出观测数据的概率密度模型。因此我们就会从概率密度这个定义开始分析。 概率密度,直观的理解就是在某一个区间内,事件发生的次数的多少的问题,比如N(0,1)高斯分布,就是取值在0的很小的区间的概率很高,至少比其他等宽的小区间要高。

         我们把所有可能取值的范围分成间隔相等的区间,然后看每个区间内有多少个数据?这样我们就定义出了直方图,因此直方图就是概率密度估计的最原始的模型。直方图我们用的是矩形来表示纵轴,当样本在某个小区间被观测到,纵轴就加上一个小矩形。这样用矩形代表的模型非常粗糙,因此可以用其他的形状来表示,进一步就是核密度估计方法。

    2.1、直方图密度估计

           直方图是最简单,并且也是最常见的一种的非参数概率密度估计方法为了构造直方图,我们需要把数据取值所覆盖的区间分成相等的小区间,可以叫做“箱子”,每次一个数据值将会掉落在一个特定的小区间中,一个“箱子”宽度的盒子就会垒在数据点的上方。当我们构造直方图的时候,需要考虑两件事情:

    第一,“箱子”的宽度,第二,箱子的结束位置。

          直方图的特点是简单易懂,但缺点在于以下三个方面:密度函数是不平滑的;密度函数受子区间(即每个直方体)宽度影响很大,同样的原始数据如果取不同的子区间范围,那么展示的结果可能是完全不同的。如下图中,第二个图只是在第一个图的基础上,划分区间增加了0.75,但展现出的密度函数却看起来差异很大;直方图最多只能展示2维数据,如果维度更多则无法有效展示(假设每一维都需要划分成个bin,而且大多数bin的值为0,会造成维度灾难)。

         

    2.2、核密度估计KDE

         核密度估计Kernel Density Estimation(KDE)是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,所谓核密度估计,就是采用平滑的峰值函数(“核”)来拟合观察到的数据点,从而对真实的概率分布曲线进行模拟。

    假设x_{1},x_{2}...x_{n}为独立同分布F的n个样本点,设其概率密度函数为f,核密度估计为以下:

                          

    K(.)为核函数(非负、积分为1,符合概率密度性质,并且均值为0)。h>0为一个平滑参数,称作带宽(bandwidth),也叫窗口。

    K_{h}(x)=\frac{1}{h}K(\frac{x}{h})为缩放核函数(scaled Kernel)。

          基本原理: 核概率密度估计的原理其实是很简单的。在我们知道某一事物的概率分布的情况下。如果某一个数在观察中出现了,我们可以认为这个数的概率密度很大,和这个数比较近的数的概率密度也会比较大,而那些离这个数远的数的概率密度会比较小。

           基于这种想法,针对观察中的第一个数,我们都可以用K(x-x_{i})去拟合我们想象中的那个远小近大概率密度。

         K(x)就是核函数,如高斯分布概率密度函数、均匀分布概率密度函数、三角分布概率密度函数等,当然也可以用其他对称的函数。针对每一个观察中出现的数拟合出多个概率密度分布函数之后。对每一个观察数拟合出的多个概率密度分布函数,取平均。如果某些数是比较重要的,则可以取加权平均。需要说明的一点是,核密度的估计并不是找到真正的分布函数。

    Note: 核密度估计其实就是通过核函数(如高斯)将每个数据点的数据+带宽当作核函数的参数,得到N个核函数,再线性叠加就形成了核密度的估计函数,归一化后就是核密度概率密度函数了。

    以下面3个数据点的一维数据集为例:5, 10, 15

    绘制成直方图是这样的:                                                   而使用KDE则是:  

    理论上,所有平滑的峰值函数均可作为KDE的核函数来使用,只要对归一化后的KDE而言(描绘在图上的是数据点出现的概率值),该函数曲线下方的面积和等于1即可。只有一个数据点时,单个波峰下方的面积为1,存在多个数据点时,所有波峰下方的面积之和为1。概而言之,函数曲线需囊括所有可能出现的数据值的情况。

    常用的核函数有:矩形、Epanechnikov曲线、高斯曲线等。这些函数存在共同的特点:在数据点处为波峰;曲线下方面积为1。

    矩形

    Epanechnikov曲线

    高斯曲线

     Parzen windows

                                            

            点处的密度估计值,为落在以为中心的超球体的数据点个数。这与我们最开始猜测时的思想一致,只不过将超球体,换成超立方体:

                                                  

    我们用核函数的形式表示了,这里(超体积),为总的样本数。这种方法本质上和直方图方法没有太大的区别,Parzen windows方法是以数据点为中心,而直方图是我们自己固定好的点为中心。因此,它也会有直方图的一些缺点。比如估计的概率密度不是连续,维度灾难。

     Kernel smoothing

        很自然的,如果利用的数据量越大,估计出来的值就会越好,因为,我们综合的信息越多,于是我们使用所有数据点估计。采用所有样本估计的话,自然得要用加权的方法,越靠近估计点的数据点权重越大,反之,越是远离数据点,权重越小。

        前面已经介绍过具有这样属性的两种核函数。Epanechnikov Kernel和 Normal Kernel,比如,我们使用高斯核,就有:

                                               

    写不下去了,已经懵逼了。

    form:https://blog.csdn.net/ttransposition/article/details/38514443

    from:https://blog.csdn.net/pipisorry/article/details/53635895

    展开全文
  • 非参数估计的方法讲的很浅显易懂,主要是原理上的处理,对缺少先验知识的情况下,估计概率密度函数很有用,同样对高斯混合模型,有的地方可以看到,说一个分部可以通过多个高斯分布混合来拟合出来,看起来好像没有...

    我们观测世界,得到了一些数据,我们要从这些数据里面去找出规律来认识世界,一般来说,在概率上我们有一个一般性的操作步骤

     

    1. 观测样本的存在

    2. 每个样本之间是独立的

    3. 所有样本符合一个概率模型

     

    我们最终想要得到的是一个概率密度的模型有了概率密度模型以后,我们就可以统计预测等非常有用的地方,因此,首要任务是找出一些概率分布的概率密度模型。

    我们来分析一下上面的三个步骤,第一第二都很好解决,关于第三点,我们可以有不同的处理方式

    如果我们已经对观测的对象有了一些认识,对观测的现象属于那种类型的概率密度分布已经了解了,只是需要确定其中的参数而已,这种情况就是属于参数估计问题。

    如果我们研究观测的对象,也很难说这些观测的数据符合什么模型,参数估计的方法就失效了,我们只有用非参数估计的办法去估计真实数据符合的概率密度模型了。

    因此,本文主要讨论 参数估计和非参数估计问题

     

    1. 参数估计

    对我们已经知道观测数据符合某些模型的情况下,我们可以利用参数估计的方法来确定这些参数值,然后得出概率密度模型。这个过程中用到了一个条件,就是概率分布符合某些模型这个事实。在这个事实上进行加工。

     

    一般来说,参数估计中,最大似然方法是最重要和最常用的,我们重点介绍参数估计方法

    我们在《无基础理解贝叶斯》中已经讲过似然性,那么我们就可以先写出似然函数。

     

    假设有N个观测数据,并且概率模型是一个一维的高斯模型,用f(x)表示高斯模型,参数待定,因此我们可以写出似然函数

    L(x1,x2,...xn) = f(x1,x2,...xn) = f(x1)*f(x2)*......*f(xn),第二个等式用到了样本之间是独立性这个假设(上面提到的一般步骤的第二条)

    然后把对似然函数取对数

    logL(x1,x2,...xn) = log(f(x1)*f(x2)*......*f(xn)) = log(f(x1)) + log(f(x2))+......+log(f(xn))

    我们既然提到了极大释然方法,那就是要求出使得logL(x1,x2,...xn) 取最大值得参数。

    因此对 logL(x1,x2,...xn) 求导等于0的参数就是符合要求的参数。

     

    注意,如果似然函数求导有困难,通常我们会用迭代方法去求得这些参数,后面我们讲EM算法就是属于此类型

    2. 贝叶斯方法

    在我们谈到参数估计方法中,我们假定了参数是固定值,但是贝叶斯观点会人文,模型的参数值不是固定的,也是属于某种分布的状态。

    因此我们做参数估计的时候其实是不准确的,因此贝叶斯方法会把参数的也作为一个概率考虑进来,然后再去观测。

    我个人理解,这种方式也只能算是参数估计里面的一个变种而已

     

    后验概率 ∝ 似然性 * 先验概率

    先验概率,我们可以看成是待估计模型的参数的概率分布,后验模型是在我们观测到新的数据以后,结合先验概率再得出的修正的参数的分布

     

    注意,如果似然函数的形式和先验概率的乘积有同样的分布形式的话,得到的后验分布也会有同样的分布模型

    因此,人为的规定,如果先验概率与似然函数的乘积在归一化以后,与先验分布的形式上是一致的话,似然函数与先验概率就是共轭的,注意共轭不是指先验与后验的共轭

     

    至于满足这个条件的共轭分布有很多种,二项分布与贝塔分布,多项式分布于狄利克雷分布等

    后面有时间再更新一些贝叶斯方法相关的内容

    3. 非参数估计

    看过了参数估计后,我们知道,如果有模型的知识可以利用的话,问题就会变得很简单,但是如果没有关于模型的知识,我们怎么办?

    回过头来看我们的目标,求出观测数据的概率密度模型。因此我们就会从概率密度这个定义开始分析,看有没有可以入手的地方。

     

    概率密度,直观的理解就是在某一个区间内,事件发生的次数的多少的问题,比如N(0,1)高斯分布,就是取值在0的很小的区间的概率很高,至少比其他等宽的小区间要高。

    我们把所有可能取值的范围分成间隔相等的区间,然后看每个区间内有多少个数据?这样我们就定义出了直方图,因此直方图就是概率密度估计的最原始的模型

    直方图我们用的是矩形来表示纵轴,当样本在某个小区间被观测到,纵轴就加上一个小矩形。

     

    这样用矩形代表的模型非常粗糙,因此可以用其他的形状来表示,进一步就是核概率密度估计方法。


    核概率密度估计

    本节分为三个部分:第一部分是直方图,讨论了如何创建它以及它的属性是什么样的。第二部分是核密度估计,介绍了它对比直方图有哪些改进和更一般性的特点。

    最后一部分是,为了从数据中抽取所有重要的特征,怎么样选择最合适,漂亮的核函数。

    直方图

    直方图是最简单,并且也是最常见的一种的非参数概率密度估计方法

    为了构造直方图,我们需要把数据取值所覆盖的区间分成相等的小区间,可以叫做“箱子”,每次一个数据值将会掉落在一个特定的小区间中,一个“箱子”宽度的盒子就会垒在数据点的上方。当我们构造直方图的时候,需要考虑两件事情: 第一,“箱子”的宽度,第二,箱子的结束位置

    这里用的数据是1956年到1984年的飞机的机翼的跨度(完整的数据可以在Bowman & Azzalini(1997)Applied Smoothing Techniques for Data Analysis 找到)。我们只用到其中的一部分数据,也就是2, 22, 42, 62, 82, 102, 122, 142,162, 182, 202 and 222。为了在图上显示的方便我们只使用了部分的数据,否则一些点就会变得稠密看不清。数据点在x轴上用十字叉表示。


    如果我们选择在0 和 0.5作为分界点 并且带宽为0.5,直方图看起来就像下面左边的图形,相对直方图的左边它的概率密度看起来是单峰形状并且滑向右边

    右边的直方图选择分界点在0.25和0.75之间,并且选择了相同的“箱子”宽度,现在我们得到了一个完全不同的概率密度估计,它看起来是一个双峰模型

     

     

                         

     

    我们已经用了上面的两个例子讲解了直方图的特性,他们是

     

    • 不平滑
    • 依赖“箱子”的结束点
    • 依赖箱子的宽度

     

    我们可以通过使用核概率密度估计方法消除前面两个问题,为了去掉对“箱子”结束点的依赖,我们把需要累加到数据点上的箱子按照以数据点为中心对齐而不是按照“箱子”的结束点对齐。

    在上面这个新的直方图中,我们把“箱子”换成宽1/2 高 1/6 (如虚线框标注的箱子),一共有12个数据点,然后把他们加在一起(以数据点为中心,重叠的部分往上累加)。

    这个概率密度估计(图中实线部分)比前面提到的直方图少了很多矩形块状,因为我们抽取出了更好的结构,概率密度估计看起来是双峰的结构。

     

    我们把它叫做盒子核概率密度估计。 这个密度估计仍然不是连续的因为我们用了一个不连续的核做为我们构建的基础块。如果我们使用一个平滑的核做为构建的基础块,那么我们会得到一个平滑的核概率密度估计,因此我们可以消除直方图问题中的第一个(不平滑问题),但不幸运的是,我们仍然不能消除对带宽(“盒子宽度”)的依赖

     

    选择一个合适的带宽值是非常重要的,太大或者太小的值都没有多大的用处。

     

    如果我们选择一个高斯核,带宽(标准差)为0.1(每一个高斯核曲线下方的面积为1/12,因为有12个高斯曲线,为了保证所有的概率密度曲线的面积为1),那么这个核密度估计是欠平滑的因为带宽太小的原因。看下面的图中左边图中,这有4个峰值在该密度估计中,其中一些是因为数据的问题(some of these are surely artifices of the data,不知道如何翻译)。我们可以通过增加高斯核的带宽到0.5来设法消除这些影响,我们获得了一个更平滑的单峰的估计模型。这种情况就是过平滑,因为我们选择了一个比较大的带宽,忽略了比较多的数据本身的结构特征。

     

    那么我们怎么选择一个最优的带宽呢?一个通用的办法是使用最小化最优误差(该误差是一个最优带宽的函数)AMISE(Asymptotic Mean Integrated Squared Error)的带宽.因此最优带宽就是 argmin AMISE 也就是选择使得AMISE最小的参数作为带宽。

    一般来说,AMISE 任然要依赖于隐藏在背后的真实的概率分布(显然我们得不到这个分布)。因此我们需要从观测的数据中去估计AMISE,这意味着带宽的选择是一个渐进近似的估计。这听起来好像远离了真实的最优值,但是事实证明这种特殊的带宽选择方式覆盖了几乎所有重要的特征同时保持了估计的平滑性。

     

    在我们的数据集中,最优的带宽值设置为0.25。从最优化的平滑和密度估计中可以看出有两个峰。因为这些是飞行器机翼跨度的数据记录,这表示有一组小型轻量级的飞机的制造。这些聚类在2.5附近(大概是12米)。然而从1960年起,大型的装配了喷气式引擎的商业用途的飞机的聚类在3.5附近(33米)

     

     

     

    核概率密度估计是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)。

            假设我们有n个数X1-Xn,我们要计算某一个数X的概率密度有多大。核概率密度估计的方法是这样的:


                                                                      核密度估计原理 - searcher_go_go - 李立的博客

     其中N(x,z)为正太分布的概率密度函数,z为设定的参数。

           (1)基本原理: 核概率密度估计的原理其实是很简单的。在我们对某一事物的概率分布的情况下。如果某一个数在观察中出现了,我们可以认为这个数的概率密度很大,和这个数比较近的数的概率密度也会比较大,而那些离这个数远的数的概率密度会比较小。基于这种想法,针对观察中的第一个数,我们都可以f(x-xi)(f(x)是我们选择的核函数,非负,积分为1,均值为0,符合概率密度的性质,如高斯分布概率密度函数、均匀分布概率密度函数、三角分布概率密度函数等)去拟合我们想象中的那个远小近大概率密度。当然其实也可以用其他对称的函数。针对每一个观察中出现的数拟合出多个概率密度分布函数之后,取平均。如果某些数是比较重要,某些数反之,则可以取加权平均。

                                                                      

     

    与直方图比较,核密度估计的属性列表如下:

     

    • 平滑性
    • 不依赖核的尾部位置
    • 依赖带宽的选择

     

    这是一个对核密度估计的入门介绍问题,当前的研究状态是,一维下的很多问题已经被解决了,下一阶段需要扩展这些思想到多维的情况,这些情况还少有研究成果

    这是由于多维核的方向对概率密度的估计有很大的影响(which has no counter part inone-dimensionalkernels这种情况下找不到一维概率密度相对应的核函数)

    作者当前正在为对维核寻找可靠的带宽选择方法。当前取得的进展是plug-in 方法可以在这里找到,但是这篇文章更多的技术性并且用到了更多的方程。

     原文地址:http://www.mvstat.net/tduong/research/seminars/seminar-2001-05/

     

    把非参数估计的方法讲的很浅显易懂,主要是原理上的处理,对缺少先验知识的情况下,估计概率密度函数很有用,同样对高斯混合模型,有的地方可以看到,说一个分部可以通过多个高斯分布混合来拟合出来,看起来好像没有什么区别,混合高斯模型与核密度估计,都是从数据估计概率分布的情况,但是混合高斯模型的应用场景是几乎可以判定数据是从高斯模型生成的,或者是近似高斯分布的,利用了先验知识,得到的结果可能更好一些,用于分类的场景比较多,核密度估计方法主要是用于概率密度估计,完全没有先验知识。


    展开全文
  • 参数估计与非参数估计

    千次阅读 2017-10-12 15:48:45
    非参数估计对解释变量的分布状况与模型的具体形式不做具体规定 ,运用核密度函数与窗宽去逐步逼近,找出相应的模型。统计学中常见的一些典型分布形式不总是能够拟合实际中的分布。此外,在许多实际问题中经常遇到多...

    背景知识:概率密度,直观的理解就是在某一个区间内,事件发生的次数的多少的问题,比如N(0,1)高斯分布,就是取值在0的很小的区间的概率很高,至少比其他等宽的小区间要高。

    参数估计要求明确参数服从什么分布,明确模型的具体形式,然后给出参数的估计值。根据从总体中抽取的样本估计总体分布中包含的未知参数。

    非参数估计对解释变量的分布状况与模型的具体形式不做具体规定 ,运用核密度函数与窗宽去逐步逼近,找出相应的模型。统计学中常见的一些典型分布形式不总是能够拟合实际中的分布。此外,在许多实际问题中经常遇到多峰分布的情况,这就迫使必须用样本来推断总体分布,常见的总体类条件概率密度估计方法有Parzen窗法和Kn近邻法两种。
    非参数估计也有人将其称之为无参密度估计,它是一种对先验知识要求最少,完全依靠训练数据进行估计,而且可以用于任意形状密度估计的方法。

    最简单的直方图估计,把所有可能取值的范围分成间隔相等的区间,然后看每个区间内有多少个数据?这样就定义出了直方图,因此直方图就是概率密度估计的最原始的模型。
    直方图用的是矩形来表示纵轴,当样本在某个小区间被观测到,纵轴就加上一个小矩形。

    非参数估计更适合对原函数关系进行模拟,但不能预测;而参数估计则可以预测。

    展开全文
  • 参数估计方法和非参数估计方法

    万次阅读 2018-09-04 14:10:13
    这类语言模型一般都是对文本的生成过程提出自己的概率图模型,然后利用观察到的语料数据对模型参数估计。有了语言模型和相应的模型参数,我们可以有很多重要的应用,比如文本特征降维、文本主题分析等等。本文主要...
  • 机器学习 非参数估计

    千次阅读 2020-05-10 12:53:55
    机器学习文章目录 整理自中科大何劲松老师的机器学习课件 势函数,插值函数,核函数。把多个样本叠加起来,得到的概率分布可以近似为整体的概率分布。
  • Parzen窗算法是一种常用的非参数估计方法,代码实现了多种窗函数的Parzen窗算法。
  • 参数估计 已经知道观测数据符合某些模型的概率下,我们可以利用参数估计的方法来确定这些参数值,然后得出概率密度模型。这个过程中用到了一个条件,就是概率分布符合某些...非参数估计(无参密度估计) 实际中...
  • 给出密度函数的非参数估计公式,并产生1、16、256和16384个服从一维标准正态分布的样本, 1. 分别就窗宽为 , ,窗函数为高斯函数的情形估计所给样本的密度函数并划出图形。 2. 分别就 时用 近邻方法估计所给样本...
  • 进行非参数估计 首先,让我们尝试使用传统的普通最小二乘回归。 reg perf2 income grant Source | SS df MS Number of obs = 10,000 -------------+---------------------------------- F(2, 9997) = 5734.77 Model...
  • 论文研究-高频数据波动率非参数估计及窗宽选择.pdf, 基于高频数据采用非参数的方法估量波动率,因其能更准确地度量波动率,一直是学者们研究的热点.然而,波动率的所有...
  • 在龚金国和史代敏提出时变Copula非参数模型的基础上,利用时间序列的极限理论研究了时变参数估计量的大样本性质,并给出了时变Copula模型的非参数估计算法。研究结果表明,时变Copula非参数模型的时变参数估计量具有...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 136,444
精华内容 54,577
关键字:

非参数估计