精华内容
下载资源
问答
  • 分类模型中的参数估计

    千次阅读 2016-05-29 19:26:40
    分类模型中,我们常常以联合概率P(X,ω)P(X,\omega)或者后验概率P(ω|X)P(\omega|X)建模,X={x1,x2,…,xd}表示一个d维向量,ω=ω1,ω2,…,ωk表示类别。X=\lbrace x^1,x^2,\ldots ,x^d\rbrace表示一个d维向量,\...

    在分类模型中,我们常常以联合概率 P(X,ω) 或者后验概率 P(ω|X) 建模, X={x1,x2,,xd}dω=ω1,ω2,,ωk 其中,


    P(X,ω)=P(X|ω)P(ω)
    P(ω|X)=P(X|ω)P(ω)P(X)

    进行转换后,都出现了先验概率 P(ω) 和类条件概率 P(X|ω) 。先验概率可以通过对样本数据进行统计得出,而类条件概率直接统计则不是那么容易得出,原因有两个:1)已有训练样本量总是显得太少,比如在垃圾邮件分类中,一个词向量 x={} ,可以看出包含该词向量的文档很有可能是一封垃圾邮件,但很有可能在我们统计了1000封垃圾邮件后偏偏没有出现该词向量的组合,造成估计错误;2)当特征向量维度d较大的时候,直接会带来计算量上的问题。例如d=100的时候,我们在统计需要对每个样本的100个维度比较统计,计算量非常大。

    考虑上面的问题,在实际中我们是通过在先验知识的帮助下估计条件概率服从的概率分布参数来解决问题的。例如根据先验知识,条件概率 P(X|ωi) 服从正态分布 N(μi,Σi) ,参数未知。我们可以将参数 μi,Σi 估计出来,从而条件概率分布可以确定,进而条件概率值可以求出。

    在对参数进行估计时,主要有两种思想,一个是认为参数一个未知的确定量,即该参数是确定的,只是值是多少我们还未知;一个是认为参数也是一个随机变量,并服从某种先验概率分布,我们需要根据先验与样本学习到参数关于样本的后验概率分布,进而求得类条件概率。

    根据第一种思想来进行参数估计的方法主要是最大似然估计和最大后验估计。

    1、 最大似然估计
    首先来说最大似然估计,即通过最大化似然函数来求得参数值。以条件概率 P(X|ω) 服从单个参数 θ 的分布为例,每个 ωi 对应一个 θi ,求 P(X|ωi)P(X|θi) ,参数估计值为:


    θ^ML=argmaxi=1nlogp(xi|θ)

    2、最大后验估计
    最大后验估计与最大似然估计相似,但以最大化后验概率 P(θ|X) 为目标,形式如下:

    θ^MAP=argmaxP(θ|X)=argmaxP(X|θ)P(θ)P(X)=argmaxP(X|θ)P(θ)=argmax{i=1nlogP(xi|θ)+logP(θ)}


    可以看出,与最大似然估计相比,在形式上增加了参数的先验概率 P(θ)
    它不仅表示了先验知识,还能够作为正则化项来防止过拟合。值得了解的是,增加的先验有点像贝叶斯方法,它有自己的一个超参数来控制 P(θ) 取值的可信度,但 P(θ) 仍是作为未知的确定量来处理。

    3、贝叶斯估计
    按照前面讲的估计参数的第二种思想,使用的方法是贝叶斯估计方法,它是对最大后验方法的扩展,将参数作为一种变量的概率分布来考虑。与最大后验估计相比,它还增加了参数估计的方差信息,用来衡量估计值的置信度。

    贝叶斯参数估计的一些基本的假设如下:
    1)条件概率密度函数 P(X|θ) 是完全已知的,但参数向量 θ 的具体值未知;
    2)参数向量 θ 的先验概率密度函数 P(θ) 包含了我们对 θ 的全部先验知识;
    3)其余的关于参数向量 θ 的信息包含在样本X中,这些样本都服从未知的概率密度函数 P(X)

    首先通过贝叶斯公式将后验表示成类条件概率与先验的乘积。考虑类条件概率 P(X|ωi),i=1,2,,k ,每个类别 ωiDi ,我们需要对每一个类都进行估计,为了方便,我们记 ω,D 为具体一个类别及对应的样本集,目标变为估计 P(X|D) ,考虑参数 θ


    P(X|D)=P(X|θ)P(θ|D)dθ1


    P(X|D) 依赖于 P(θ|D) ,如果 P(θ|D) 在某个值 θ^ 附近有非常显著的尖峰,区间可以近似成一个点,则 P(X|D)P(X|θ^) 。即通过样本D学习出参数 θ 最可能取的值, P(X|D) 有该值决定。

    根据先验知识, P(X|θ) 的分布形式已知, P(θ) 的概率分布已知,有如下公式:


    P(θ|D)=P(D|θ)P(θ)P(D|θ)P(θ)dθ2
    P(D|θ)=k=1nP(xk|θ)3

    式2和式3阐明了贝叶斯估计与最大似然估计的关系,式2的形式与最大后验估计形式一致,但此处的先验 P(θ) 为概率密度函数,最大后验的 P(θ) 为一确定量。
    贝叶斯估计与最大似然估计相比,增加了考虑问题的维度,故方法复杂性是增加了,但估计参数更加精细可控了。最大似然估计的结果只有参数可能取值,而无其他信息,而贝叶斯估计的结果是参数的后验概率分布 P(θ|D) ,可以获得额外的信息,如若 P(θ|D)N(μ,σ2)μσ 表示参数估计的置信度。随着样本量的增加,方差会越来越小,概率分布会越来越尖,估计值与真实值也越来越接近。

    展开全文
  • 根据前篇文章我们知道,贝叶斯分类器设计时,需要知道先验...因此,我们需要从已知的有限的样本中,尽可能地估计出类条件概率密度函数的参数,来方便我们设计分类器。换句话说,我们直接从样本出发,已知类概率密...

    根据前篇文章我们知道,贝叶斯分类器设计时,需要知道先验概率 和类概率密度函数 ,然后再按照最小错误率或者最小风险标准进行决策。

    但是,在实际的工程应用中,类概率密度函数往往是未可知的。即使把类概率密度函数近似为正态分布函数,其分布的均值和方差也是未知的。

    因此,我们需要从已知的有限的样本中,尽可能地估计出类条件概率密度函数的参数,来方便我们设计分类器。换句话说,我们直接从样本出发,已知类概率密度函数的形式,但是类条件概率密度函数的参数未知,依然能够设计出分类器。

    根据待分类数据的随机性,可以将这种参数估计的方法分为两类,即最大似然估计和贝叶斯估计。后者认为,待估计参数是完全随机、测不准的。而前者认为参数是固定的。

     

    最大似然估计

    已知:

           样本集$D= \{ x_1,x_2,...,x_n \} $,且每类样本都是从类条件概率密度函数P(X|\omega_ic)的总体中独立抽取出来的。

    求解目标:

          $\theta = arg max P(\theta|D) $

    对目标进行简化:

    P(\theta|D)=\frac{P(D|\theta)P(\theta)}{P(D)} $

    在最大似然估计中,认为θ 是确定的,即P(θ), 是一个常数。而P(D)是根据已有的数据得到,也是确定的。因此:

    $\theta = arg max P(D|\theta) $

    构造函数

    $l(\theta)=P(D|\theta)=P(x_1,x_2,...,x_n|\theta)=\prod\limits_{i=1}^{n}P(x_i|\theta) $

    $H(\theta)=ln(ln(l(\theta)))=ln \prod\limits_{i=1}^{n}P(x_i|\theta)=\sum\limits_{i=1}^{n}ln(P(x_i|\theta)) $

    $\widehat{\theta}=argmaxl(\theta) $ 或者$\widehat{\theta}=argmaxH(\theta) $

     

    贝叶斯估计与最大似然估计的不同之处在于,不认为θ是确定的常数,而认为θ是随机变量。

           这样一来

    P(\theta|D)=\frac{P(D|\theta)P(\theta)}{\int_\theta P(D|\theta)P(\theta)d\theta}=\frac {\prod \limits_{i=1}^n P(x_i|\theta)P(\theta)}{\int_\theta\prod \limits_{i=1}^n P(x_i|\theta)P(\theta)d\theta}=\alpha\prod\limits_{i=1}^n P(x_i|\theta)P(\theta)

    其中α 是无关量,则

    $\widehat{\theta}=\int_\theta \theta P(\tehta|D)d\theta $

     

     

    可以看出:

           最大似然估计和贝叶斯估计的不同之处在于:

            (1)前者认为待估参数是确定的。而后者认为待估参数是随机的。

            (2)有(1)造成了对目标进行简化时的不同,即对P(θ) 的处理方式不同。

            (3)对估计量 的计算方式不同。

     

    展开全文
  • 参数估计:贝叶斯思想和贝叶斯参数估计

    万次阅读 多人点赞 2016-05-23 10:54:29
    http://blog.csdn.net/pipisorry/article/details/51471222贝叶斯与频率派思想频率派思想 长久以来,人们对一件事情发生或不发生,只有固定的0和1,即要么...比如如果问那时的人们一个问题:“有一个袋子,里面装着

    http://blog.csdn.net/pipisorry/article/details/51471222

    贝叶斯与频率派思想

    频率派思想

        长久以来,人们对一件事情发生或不发生,只有固定的0和1,即要么发生,要么不发生,从来不会去考虑某件事情发生的概率有多大,不发生的概率又是多大。而且事情发生或不发生的概率虽然未知,但最起码是一个确定的值。

    比如如果问那时的人们一个问题:“有一个袋子,里面装着若干个白球和黑球,请问从袋子中取得白球的概率是多少?”他们会立马告诉你,取出白球的概率就是1/2,要么取到白球,要么取不到白球,即θ只能有一个值,而且不论你取了多少次,取得白球的概率θ始终都是1/2,即不随观察结果X 的变化而变化。

    这种频率派的观点长期统治着人们的观念,直到后来一个名叫Thomas Bayes的人物出现。

    频率派把需要推断的参数θ看做是固定的未知常数,即概率虽然是未知的,但最起码是确定的一个值,同时,样本X 是随机的,所以频率派重点研究样本空间,大部分的概率计算都是针对样本X 的分布;

    最大似然估计(MLE)和最大后验估计(MAP)都是把待估计的参数看作一个拥有固定值的变量,只是取值未知。通常估计的方法都是找使得相应的函数最大时的参数;由于MAP相比于MLE会考虑先验分布的影响,所以MAP也会有超参数,它的超参数代表的是一种信念(belief),会影响推断(inference)的结果。比如说抛硬币,如果我先假设是公平的硬币,这也是一种归纳偏置(bias),那么最终推断的结果会受我们预先假设的影响。

    贝叶斯思想

        回到上面的例子:“有一个袋子,里面装着若干个白球和黑球,请问从袋子中取得白球的概率θ是多少?”贝叶斯认为取得白球的概率是个不确定的值,因为其中含有机遇的成分。比如,一个朋友创业,你明明知道创业的结果就两种,即要么成功要么失败,但你依然会忍不住去估计他创业成功的几率有多大?你如果对他为人比较了解,而且有方法、思路清晰、有毅力、且能团结周围的人,你会不由自主的估计他创业成功的几率可能在80%以上。这种不同于最开始的“非黑即白、非0即1”的思考方式,便是贝叶斯式的思考方式。

        贝叶斯派既然把看做是一个随机变量,所以要计算的分布,便得事先知道的无条件分布,即在有样本之前(或观察到X之前),有着怎样的分布呢?

    比如往台球桌上扔一个球,这个球落会落在何处呢?如果是不偏不倚的把球抛出去,那么此球落在台球桌上的任一位置都有着相同的机会,即球落在台球桌上某一位置的概率服从均匀分布。这种在实验之前定下的属于基本前提性质的分布称为先验分布,或的无条件分布。

    贝叶斯派认为待估计的参数是随机变量,服从一定的分布,而样本X 是固定的,由于样本是固定的,所以他们重点研究的是参数的分布。

    贝叶斯及贝叶斯派思考问题的固定模式

    先验分布 + 样本信息  后验分布

    上述思考模式意味着,新观察到的样本信息将修正人们以前对事物的认知。换言之,在得到新的样本信息之前,人们对的认知是先验分布,在得到新的样本信息后,人们对的认知为

    其中,先验信息一般来源于经验跟历史资料。比如林丹跟某选手对决,解说一般会根据林丹历次比赛的成绩对此次比赛的胜负做个大致的判断。再比如,某工厂每天都要对产品进行质检,以评估产品的不合格率θ,经过一段时间后便会积累大量的历史资料,这些历史资料便是先验知识,有了这些先验知识,便在决定对一个产品是否需要每天质检时便有了依据,如果以往的历史资料显示,某产品的不合格率只有0.01%,便可视为信得过产品或免检产品,只每月抽检一两次,从而省去大量的人力物力。

    而后验分布一般也认为是在给定样本的情况下的条件分布,而使达到最大的值称为最大后验估计。

    皮皮blog



    贝叶斯定理

    条件概率

    条件概率(又称后验概率)就是事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在B条件下A的概率”。

    联合概率表示两个事件共同发生的概率。A与B的联合概率表示为或者

    边缘概率(又称先验概率)是某个事件发生的概率。边缘概率是这样得到的:在联合概率中,把最终结果中那些不需要的事件通过合并成它们的全概率,而消去它们(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率),这称为边缘化(marginalization),比如A的边缘概率表示为P(A),B的边缘概率表示为P(B)。

    贝叶斯定理

    贝叶斯定理是关于随机事件A和B的条件概率和边缘概率的一则定理。

    P(A|B) = \frac{P(B | A)\, P(A)}{P(B)}

    在参数估计中可以写成下面这样:


    这个公式也称为逆概率公式,可以将后验概率转化为基于似然函数和先验概率的计算表达式,即

    在贝叶斯定理中,每个名词都有约定俗成的名称:

    P(A)是A的先验概率或 边缘概率。之所以称为"先验"是因为它不考虑任何B方面的因素。
    P(A|B)是已知B发生后A的 条件概率(在B发生的情况下A发生的可能性),也由于得自B的取值而被称作 A的后验概率
    P(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。
    P(B)是B的先验概率或边缘概率,也作 标准化常量(normalized constant).

    按这些术语,Bayes定理可表述为:

    后验概率 = (相似度*先验概率)/标准化常量,也就是说,后验概率与先验概率和相似度的乘积成正比。

    另外,比例P(B|A)/P(B)也有时被称作标准相似度(standardised likelihood),Bayes定理可表述为:

    后验概率 = 标准相似度*先验概率

    贝叶斯估计的例子

    假设中国的大学只有两种:理工科和文科,这两种学校数量的比例是1:1,其中,理工科男女比例7:1,文科男女比例1:7。某天你被外星人随机扔到一个校园,问你该学校可能的男女比例是多少?然后,你实际到该校园里逛了一圈,看到的5个人全是男的,这时候再次问你这个校园的男女比例是多少?

    1. 因为刚开始时,有先验知识,所以该学校的男女比例要么是7:1,要么是1:7,即P(比例为7:1) = 1/2,P(比例为1:7) = 1/2。
    2. 然后看到5个男生后重新估计男女比例,其实就是求P(比例7:1|5个男生)= ?,P(比例1:7|5个男生) = ?
    3. 用贝叶斯公式,可得:P(比例7:1|5个男生) = P(比例7:1)*P(5个男生|比例7:1) / P(5个男生),P(5个男生)是5个男生的先验概率,与学校无关,所以是个常数;类似的,P(比例1:7|5个男生) = P((比例1:7)*P(5个男生|比例1:7)/P(5个男生)。
    4. 最后将上述两个等式比一下,可得:P(比例7:1|5个男生)/P(比例1:7|5个男生) = {P((比例7:1)*P(5个男生|比例7:1)} / { P(比例1:7)*P(5个男生|比例1:7)}。

    频率派与贝叶斯派的区别

        频率派把需要推断的参数θ看做是固定的未知常数,即概率虽然是未知的,但最起码是确定的一个值,同时,样本X 是随机的,所以频率派重点研究样本空间,大部分的概率计算都是针对样本X 的分布;
        贝叶斯派的观点则截然相反,他们认为参数是随机变量,而样本X 是固定的,由于样本是固定的,所以他们重点研究的是参数的分布。

    两者的本质区别

    根据贝叶斯法则:

                   posterior=likelihoodpriorevidence

                   p(ϑ|X)=p(X|ϑ)p(ϑ)p(X)

    在MLE和MAP中,由于是要求函数最大值时的参数,所以都不会考虑evidence。但在贝叶斯估计中,不再直接取极值,所以还会考虑evidence,下面的这个积分也是通常贝叶斯估计中最难处理的部分:

                   p(X)=ϑΘp(X|ϑ)p(ϑ)dϑ

    evidence相当于对所有的似然概率积分或求和(离散时),所以也称作边界似然

    估计未知参数所采用的思想不同的例子

    我去一朋友家:

        按照频率派的思想,我估计他在家的概率是1/2,不在家的概率也是1/2,是个定值。

        按照贝叶斯派的思想,他在家不在家的概率不再认为是个定值1/2,而是随机变量。比如按照我们的经验(比如当天周末),猜测他在家的概率是0.6,但这个0.6不是说就是完全确定的,也有可能是0.7。如此,贝叶斯派没法确切给出参数的确定值(0.3,0.4,0.6,0.7,0.8,0.9都有可能),但至少明白哪些取值(0.6,0.7,0.8,0.9)更有可能,哪些取值(0.3,0.4) 不太可能。进一步,贝叶斯估计中,参数的多个估计值服从一定的先验分布,而后根据实践获得的数据(例如周末不断跑他家),不断修正之前的参数估计,从先验分布慢慢过渡到后验分布。

    各种参数估计方法可以参考Heinrich论文的第二部分。

    [[各种参数估计方法的论述:Gregor Heinrich.Parameter estimation for text analysis*]

    数理统计学简史》

    《统计决策论及贝叶斯分析 James O.Berger著》

    [概率图模型  原理与技术[(美)科勒,(以)弗里德曼著]*

    [ 机器学习之用Python从零实现贝叶斯分类器]]

    皮皮blog


    贝叶斯估计

        贝叶斯估计是在MAP上做进一步拓展,此时不直接估计参数的值,而是允许参数服从一定概率分布。极大似然估计和极大后验概率估计,都求出了参数theta的值,而贝叶斯推断则不是,贝叶斯推断扩展了极大后验概率估计MAP(一个是等于,一个是约等于)方法,它根据参数的先验分布P(theta)和一系列观察X,求出参数theta的后验分布P(theta|X),然后求出theta的期望值,作为其最终值。另外还定义了参数的一个方差量,来评估参数估计的准确程度或者置信度。

    贝叶斯公式


    现在不是要求后验概率最大,这样就需要求,即观察到的evidence的概率,由全概率公式展开可得


    当新的数据被观察到时,后验概率可以自动随之调整。但是通常这个全概率的求法是贝叶斯估计比较有技巧性的地方。

    用贝叶斯估计来做预测

    如果我们想求一个新值的概率,可以由下面公式来计算。


    此时第二项因子在上的积分不再等于1,这就是和MLE及MAP很大的不同点。

    扔硬币的伯努利实验示例

    跟上面极大后验概率例子一样,N次伯努利实验,参数p(即正面的概率)的先验分布是参数为(5,5)的beta分布,然后接下来,我们根据参数p的先验分布和N次伯努利实验结果来求p的后验分布。我们假设先验分布为Beta分布,但是构造贝叶斯估计时,不是要求用后验最大时的参数来近似作为参数值,而是求满足Beta分布的参数p的期望,也就是直接写出参数的分布再来求分布的期望,有

    Note:

    1 C是所有实验结果的集合Ci=1或者0。

    2

    3 这里用到了公式


    4 推导也可参考[ 主题模型TopicModel:LDA中的数学模型:Beta-Binomial 共轭部分]

        根据结果可以知道,根据贝叶斯估计,参数p服从一个新的Beta分布。回忆一下,我们为p选取的先验分布是Beta分布,然后以p为参数的二项分布用贝叶斯估计得到的后验概率仍然服从Beta分布,由此我们说二项分布和Beta分布是共轭分布。当T为二维的情形可以对Beta分布来应用;T为多维的情形可以对狄利克雷分布应用。

    根据Beta分布的期望和方差计算公式,我们有



    可以看出此时估计的p的期望和MLE ,MAP中得到的估计值都不同,此时如果仍然是做20次实验,12次正面,8次反面,那么我们根据贝叶斯估计得到的p满足参数为12+5和8+5的Beta分布,其均值和方差分别是17/30=0.567, 17*13/(31*30^2)=0.0079。可以看到此时求出的p的期望比MLE和MAP得到的估计值都小,更加接近0.5。

    皮皮blog


    贝叶斯参数估计

    贝叶斯方法中,把参数视为影响所有训练实例概率的未观测变量。于是学习相当于根据观测来计算新样本的概率,这种学习可以通过计算参数上的后验概率(分母也要计算出来?)来执行,且使用它进行预测。

    而MAP后验估计是根据最大的p(theta | X)来计算新样本的概率?

    图钉和硬币示例


    联合概率模型

    将贝叶斯学习视为包含所有实例和参数中所有变量的meta-网中的推理问题。计算未来事件的概率相当于给定前M个观测实例时,关于第M+1个实例的后验概率执行查询。

    用一个概率分布来表示参数theta的先验知识,在theta和观测的数据X上建立一个联合分布。(也就是将theta也当成一个随机变量,而不是一个待估参数)

    theta固定时,不同抛掷间的条件独立;theta未知时,每次抛掷都可以传递一些有关参数theta的信息,不同抛掷间的边缘独立性不成立。这种直观和贝叶斯网的独立性是一致的!


    Note:X的每次取值代表每次抛掷的不同结果。

    参数和数据的联合分布


    Note: 公式与MLE唯一的区别只在于多了一个P(theta)。也要注意其和贝叶斯网的MLE估计的区别[]。

    联合分布、后验分布和似然、先验的联系


    预测:贝叶斯估计子预测和拉普拉斯校正

    给定前M次抛掷的结果来推理第M+1次抛掷的值。

    Note: 公式推导中P(x[M+1] = x1 | theta) 就是theta; P(x...)仅是一个归一化因子,不用直接计算,分别计算X[]=x1和x0再相加就可以了。

    贝叶斯估计子预测公式推导:



    先验

    非均匀的先验分布

    选择beta分布作为伯努利分布的先验


    [概率论:常见概率分布]

    共轭性质


    先验强度与样本量:先验分布对参数估计的影响


    先验分布与后验分布

    参数和数据的联合分布

    先验和后验的形式

    对某些概率模型,似然函数可以用充分统计量紧凑表示。而这里,后验分布同样也可以紧凑表示,而这就取决于先验的形式。如先验分布为beta分布,那么二项式分布的数据的后验分布也是紧凑的beta分布;先验分布为dirichlet分布,那么多项式分布的数据的后验分布也是紧凑的dirichlet分布。


    共轭


    后验概率分布的作用:确定模型属性(如偏置)和预测新数据

    Dirichlet先验

    先验强度alpha和先验均值theta‘

    直观上,当我们有一个很大的训练集时,先验的作用是可以忽略不计的。

    先验强度和均值对估计的影响

    可以看到,这种先验起到了平滑的效果,导致了更加鲁棒的估计

    Note: 另先验可以避免overfitting,这是因为先验带来的伪计数减小了训练数据的偏倚

    先验不能使用极值估计

    实际为0的概率的估计是很危险的,因为无论多大量的证据都无法改变它们。


    [《Probabilistic Graphical Models:Principles and Techniques》(简称PGM)]

    from: http://blog.csdn.net/pipisorry/article/details/51471222

    ref:  [天真的贝叶斯,神奇的贝叶斯方法]


    展开全文
  • 参数估计与非参数估计

    万次阅读 2015-05-06 11:38:58
    参数估计(parameter estimation): 根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。人们常常需要根据手中的数据,分析或推断数据反映的本质规律。即根据样本数据如何选择统计量去推断总体的分布或...

    参数估计(parameter estimation)

    根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。人们常常需要根据手中的数据,分析或推断数据反映的本质规律。即根据样本数据如何选择统计量去推断总体的分布或数字特征等。统计推断是数理统计研究的核心问题。所谓统计推断是指根据样本对总体分布或分布的数字特征等作出合理的推断。它是统计推断的一种基本形式,是数理统计学的一个重要分支,分为点估计和区间估计两部分。



    非参数估计:

    已知样本所属的类别,但未知总体概率密度函数的形式,要求我们直接推断概率密度函数本身。统计学中常见的一些典型分布形式不总是能够拟合实际中的分布。此外,在许多实际问题中经常遇到多峰分布的情况,这就迫使我们必须用样本来推断总体分布,常见的总体类条件概率密度估计方法有Parzen窗法和Kn近邻法两种。

    非参数估计也有人将其称之为无参密度估计,它是一种对先验知识要求最少,完全依靠训练数据进行估计,而且可以用于任意形状密度估计的方法。常见的非参数估计方法有以下几种:



    度曲线的光滑程度,k越大越光滑。


    概率密度函数估计:

    非参数估计和参数估计(监督参数估计和非监督参数估计)共同构成了概率密度估计方法。

    在贝叶斯分类(这里有个简介:http://blog.csdn.net/carson2005/article/details/6854005 )器设计之中,需要在类的先验概率和类条件概率密度均已知的情况下,按照一定的决策规则确定判别函数和决策面。但是,在实际应用中,类条件概率密度通常是未知的。那么,当先验概率和类条件概率密度都未知或者其中之一未知的情况下,该如何来进行类别判断呢?其实,只要我们能收集到一定数量的样本,根据统计学的知识,我们是可以从样本集来推断总体概率分布的。一般来说,有以下几种方法可以解决这个问题:

       一、监督参数估计:样本所属的类别及类条件总体概率密度函数的形式为已知,而表征概率密度函数的某些参数是未知的。例如,只知道样本所属总体分布形式为正态分布,而正态分布的参数是未知的。监督参数估计的目的就是由已知类别的样本集对总体分布的某些参数进行统计推断。

      二、非监督参数估计:已知总体概率密度函数形式但未知样本所属的类别,要求推断出概率密度函数的某些参数,这种推断方法称之为非监督情况下的参数估计。 这里提到的监督参数估计和非监督参数估计中的监督和非监督是指样本所属类别是已知还是未知。但无论哪种情况下的参数估计都是统计学中的经典问题,解决的方法很多。但最常用的有两种:一种是最大似然估计方法;另一种是贝叶斯估计方法。虽然两者在结果上通常是近似的,但从概念上来说它们的处理方法是完全不同的。最大似然估计把参数看做是确定(非随机)而未知的,最好的估计值是在获得实际观察样本的概率为最大的条件下得到的。而贝叶斯估计则是把参数当做具有某种分布的随机变量,样本的观察结果使先验分布转换为后验分布,再根据后验分布修正原先对参数的估计。

       三、非参数估计:已知样本所属的类别,但未知总体概率密度函数的形式,要求我们直接推断概率密度函数本身。统计学中常见的一些典型分布形式不总是能够拟合实际中的分布。此外,在许多实际问题中经常遇到多峰分布的情况,这就迫使我们必须用样本来推断总体分布,常见的总体类条件概率密度估计方法有Parzen窗法和Kn近邻法两种。



    展开全文
  • 参数估计概念整理

    千次阅读 2018-05-15 14:29:51
    分为点估计和区间估计个部分统计量:可以简单理解为根据样本构造的概率密度函数参数空间:参数估计中,我们假设总体的概率密度函数已知,而未知的是函数中的几个参数,用Θ表示。Θ的所有可能取值即为参数空间。...
  • 机器学习 非参数估计

    千次阅读 2020-05-10 12:53:55
    机器学习文章目录 整理自中科大何劲松老师的机器学习课件 势函数,插值函数,核函数。把多个样本叠加起来,得到的概率分布可以近似为整体的概率分布。
  • 问题解决多元离散选择模型简介常用的离散选择模型有logit模型probit模型,其区别就是假设不可观测量的分布不同。logit模型假设不可观测项服从Gumbel (Extreme Value Type I) Distribution 。多元logit模型是,多元...
  • Logistic回归简介Logistic回归:主要用于因变量为分类变量(如疾病的缓解、不缓解,评比62616964757a686964616fe78988e69d8331333363383438中的好、中、差等)的回归分析,自变量可以为分类变量,也可以为连续变量。...
  • 我们最终想要得到的是一个概率密度的模型,如果我们已经对观测的对象有了一些认识,对观测的现象属于那种类型的概率密度分布已经了解,只是需要确定其中的参数而已,这种情况就是属于参数估...
  • 概率论基础知识(三) 参数估计

    千次阅读 2018-09-23 14:04:33
    概率论基础知识(三) 参数估计 1、矩 矩是用来描述随机变量的某些特征的数字,即求平均值,用大写字母E表示。 矩是更具有一般意义的数字特征。 设有随机变量X,若E(∣X∣k)<+∞E(|X|^k)&...
  •  参数估计是统计学中的经典问题,常用的方法是最大似然估计和贝叶斯估计。为什么机器学习中,也会用到参数估计呢?我们利用训练样本来估计先验概率和条件概率密度,并以此设计分类器。当假设数据符合某种分布时,其...
  • 因此,本文主要讨论 参数估计和非参数估计问题   1. 参数估计 对我们已经知道观测数据符合某些模型的情况下,我们可以利用参数估计的方法来确定这些参数值,然后得出概率密度模型。这个过程中用到了一个条件,就是...
  • 机器学习中的模型参数估计方法:极大似然估计、贝叶斯估计、最大后验估计。
  • 三种参数估计方法的总结

    千次阅读 2015-03-17 18:05:04
    常见的三种参数估计的方法:最大似然估计法、最大后验估计法、贝叶斯估计法 示例情景:θ为抛一次硬币下面朝上的概率,其服从参数α和β的Beta分布,而X=(x1, x2)则是一个向量,表示观测结果,x1表示观测到正面的...
  • 那些参数估计

    千次阅读 2018-05-10 14:33:09
    本文内容写在前面:参数估计是一种统计推断。在统计学的世界中,自古以来一直存在着种分布:一种存在于现实世界中,比如我们可以把一枚硬币扔上一万次,然后算一下几次正面几次反面,这是样本的分布;另一种只存在...
  • 逻辑斯谛回归(logistic regression)是统计学习中的经典分类方法,属于判别模型。1. 逻辑斯谛回归模型定义在 Andrew NG 的 Machine Learning 课程和李航的统计学习方法中,都有对逻辑斯谛回归模型的介绍,然而二者...
  • 注:本文以简单的案例,解释了最大似然估计、最大后验估计以及贝叶斯参数估计的联系和区别。假如你有一个硬币。你把它投掷 3 次,出现了 3 次正面。下一次投掷硬币正面朝上的概率是多少? 这是一个从数据中估计参数的...
  • SPSS——连续变量的参数估计

    千次阅读 2018-09-05 17:26:11
    根据样本数据对总体的客观规律性做出合理的估计就是统计推断,其中又分为参数估计和假设检验大类。 正态分布特征: 是一条对称曲线,关于均数对称。均数被称为正态分布的位置参数 单峰,均值出最高 标准差决定...
  • 参数估计、假设检验与回归

    千次阅读 2017-12-25 14:40:58
    参数估计、假设检验统计总体架构 拟合(fitting)   概念 已知某函数的若干离散函数值{f1,f2,…,fn},通过调整该函数中若干待定系数f(λ1, λ2,…,λn),使得该函数与已知点集的差别(最小...
  • 本文介绍了连续状态下的贝叶斯方法以及利用贝叶斯方法估计参数的方法:如协方差和X的均值,贝叶斯方法在机器学习中有很广泛的应用。
  • 机器学习之参数估计

    千次阅读 2018-11-27 17:09:43
    那么,不论传统机器学习亦或是深度学习,其根本都化作对一个既定模型的参数学习,即参数估计(模型选择和搭建假定为已知)。 如何通过data-driven的方式估计参数呢?策略叫做triall-and-error。即,在一个绵延的...
  • 几种常见的参数估计

    千次阅读 2015-04-29 09:29:15
    参数估计有点估计(point estimation)和区间估计(interval estimation)种。 点估计是依据样本估计总体分布中所含的未知参数或未知参数的函数。通常它们是总体的某个特征值,如数学期望、方差和相关系数等。点...
  • 有监督学习和无监督学习  两者应用在模式识别的领域,目的是对给定的样本进行划分。  有监督学习将样本分为训练集...那么,种学习方式的算法和参数估计、非参数估计的连续是什么呢?
  • 有监督参数估计是指已知分类器结构或函数形式,从训练样本中估计参数。 本文主要介绍贝叶斯决策(详见 贝叶斯决策的过程 )条件概率密度的有监督参数估计过程。方法有最大似然估计和贝叶斯参数估计法。 最大似然...
  • 参数估计:核密度估计KDE

    千次阅读 2017-12-29 20:27:58
    参数估计:核密度估计KDE 标签: kde非参数估计核密度估计 2016-12-14 11:38 11562人阅读 评论(1) 收藏 举报  分类: 机器学习MachineLearning(37) Scikit-Learn(15)  版权...
  • PGM:贝叶斯网的参数估计2

    千次阅读 2016-09-20 20:00:16
    具有共享参数的学习模型全局参数共享局部参数共享具有 共享参数的贝叶斯推断层次先验*皮皮blog专栏17.E 文本分类的词袋模型伯努利朴素贝叶斯模型和多项式朴素贝叶斯模型隐含狄利克雷分布LDA皮皮blog泛化分析*渐近性...
  • 2. 朴素贝叶斯极大似然学习及分类算法 算法过程: 2. Python实现 def priorProbability ( labelList ) : # 计算先验概率 labelSet = set ( labelList ) # 得到类别的值 labelCountDict = { ...
  • 高斯混合模型参数估计的EM算法

    千次阅读 2017-12-04 11:10:16
    下面将EM算法与高斯混合模型的参数估计对应起来,如果不清楚地或者已经忘了部分内容的,可以参照上篇博客 EM算法学习 。 1.明确影变量,写出完全数据的对数似然函数  从上节,我们可以看出,就可以作为隐变量,...
  • 本实验的目的是学习Parzen窗估计和k最近邻估计方法。在之前的模式识别研究中,...在模式识别中有躲在令人感兴趣的非参数化方法,Parzen窗估计和k最近邻估计就是种经典的估计法。这里使用Matlab实现这估计方法。

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 98,073
精华内容 39,229
关键字:

参数估计及两分类问题