精华内容
下载资源
问答
  • 参数估计方法和非参数估计方法

    万次阅读 2018-09-04 14:10:13
    这类语言模型一般都是对文本生成过程提出自己概率图模型,然后利用观察到语料数据对模型参数估计了语言模型和相应模型参数,我们可以很多重要应用,比如文本特征降维、文本主题分析等等。本文主要...

    https://wenku.baidu.com/view/1cf9639efab069dc502201fe.html

    以PLSA和LDA为代表的文本语言模型是当今统计自然语言处理研究的热点问题。这类语言模型一般都是对文本的生成过程提出自己的概率图模型,然后利用观察到的语料数据对模型参数做估计。有了语言模型和相应的模型参数,我们可以有很多重要的应用,比如文本特征降维、文本主题分析等等。本文主要介绍文本分析的三类参数估计方法-最大似然估计MLE、最大后验概率估计MAP及贝叶斯估计。

     

    1、最大似然估计MLE

    首先回顾一下贝叶斯公式

     

     

    这个公式也称为逆概率公式,可以将后验概率转化为基于似然函数和先验概率的计算表达式,即

     

     

    最大似然估计就是要用似然函数取到最大值时的参数值作为估计值,似然函数可以写做

     

     

    由于有连乘运算,通常对似然函数取对数计算简便,即对数似然函数。最大似然估计问题可以写成

     

     

    这是一个关于的函数,求解这个优化问题通常对求导,得到导数为0的极值点。该函数取得最大值是对应的的取值就是我们估计的模型参数。

    以扔硬币的伯努利实验为例子,N次实验的结果服从二项分布,参数为P,即每次实验事件发生的概率,不妨设为是得到正面的概率。为了估计P,采用最大似然估计,似然函数可以写作

     

     

    其中表示实验结果为i的次数。下面求似然函数的极值点,有

     

     

    得到参数p的最大似然估计值为

     

     

    可以看出二项分布中每次事件发的概率p就等于做N次独立重复随机试验中事件发生的概率。

     

    如果我们做20次实验,出现正面12次,反面8次

    那么根据最大似然估计得到参数值p为12/20 = 0.6。

     

    2、最大后验估计MAP

    最大后验估计与最大似然估计相似,不同点在于估计的函数中允许加入一个先验,也就是说此时不是要求似然函数最大,而是要求由贝叶斯公式计算出的整个后验概率最大,即

     

     

    注意这里P(X)与参数无关,因此等价于要使分子最大。与最大似然估计相比,现在需要多加上一个先验分布概率的对数。在实际应用中,这个先验可以用来描述人们已经知道或者接受的普遍规律。例如在扔硬币的试验中,每次抛出正面发生的概率应该服从一个概率分布,这个概率在0.5处取得最大值,这个分布就是先验分布。先验分布的参数我们称为超参数(hyperparameter)即

     

     

    同样的道理,当上述后验概率取得最大值时,我们就得到根据MAP估计出的参数值。给定观测到的样本数据,一个新的值发生的概率是

     

     

    下面我们仍然以扔硬币的例子来说明,我们期望先验概率分布在0.5处取得最大值,我们可以选用Beta分布即

     

     

    其中Beta函数展开是

     

     

    当x为正整数时

     

    \Gamma(n) = (n-1)!\,

     

    Beta分布的随机变量范围是[0,1],所以可以生成normalised probability values。下图给出了不同参数情况下的Beta分布的概率密度函数

    我们取,这样先验分布在0.5处取得最大值,现在我们来求解MAP估计函数的极值点,同样对p求导数我们有

     

     

    得到参数p的的最大后验估计值为

     

     

    和最大似然估计的结果对比可以发现结果中多了这样的pseudo-counts,这就是先验在起作用。并且超参数越大,为了改变先验分布传递的belief所需要的观察值就越多,此时对应的Beta函数越聚集,紧缩在其最大值两侧。

    如果我们做20次实验,出现正面12次,反面8次,那么

    那么根据MAP估计出来的参数p为16/28 = 0.571,小于最大似然估计得到的值0.6,这也显示了“硬币一般是两面均匀的”这一先验对参数估计的影响。

     

    3 贝叶斯估计

    贝叶斯估计是在MAP上做进一步拓展,此时不直接估计参数的值,而是允许参数服从一定概率分布。回顾一下贝叶斯公式

     

     

    现在不是要求后验概率最大,这样就需要求,即观察到的evidence的概率,由全概率公式展开可得

     

     

    当新的数据被观察到时,后验概率可以自动随之调整。但是通常这个全概率的求法是贝叶斯估计比较有技巧性的地方。

    那么如何用贝叶斯估计来做预测呢?如果我们想求一个新值的概率,可以由

     

     

    来计算。注意此时第二项因子在上的积分不再等于1,这就是和MLE及MAP很大的不同点。

    我们仍然以扔硬币的伯努利实验为例来说明。和MAP中一样,我们假设先验分布为Beta分布,但是构造贝叶斯估计时,不是要求用后验最大时的参数来近似作为参数值,而是求满足Beta分布的参数p的期望,有

     

     

    注意这里用到了公式

     

     

    当T为二维的情形可以对Beta分布来应用;T为多维的情形可以对狄利克雷分布应用

    根据结果可以知道,根据贝叶斯估计,参数p服从一个新的Beta分布。回忆一下,我们为p选取的先验分布是Beta分布,然后以p为参数的二项分布用贝叶斯估计得到的后验概率仍然服从Beta分布,由此我们说二项分布和Beta分布是共轭分布。在概率语言模型中,通常选取共轭分布作为先验,可以带来计算上的方便性。最典型的就是LDA中每个文档中词的Topic分布服从Multinomial分布,其先验选取共轭分布即Dirichlet分布;每个Topic下词的分布服从Multinomial分布,其先验也同样选取共轭分布即Dirichlet分布。

    根据Beta分布的期望和方差计算公式,我们有

     

     

    可以看出此时估计的p的期望和MLE ,MAP中得到的估计值都不同,此时如果仍然是做20次实验,12次正面,8次反面,那么我们根据贝叶斯估计得到的p满足参数为12+5和8+5的Beta分布,其均值和方差分别是17/30=0.567, 17*13/(31*30^2)=0.0079。可以看到此时求出的p的期望比MLE和MAP得到的估计值都小,更加接近0.5。

    综上所述我们可以可视化MLE,MAP和贝叶斯估计对参数的估计结果如下

    个人理解是,从MLE到MAP再到贝叶斯估计,对参数的表示越来越精确,得到的参数估计结果也越来越接近0.5这个先验概率,越来越能够反映基于样本的真实参数情况。

     

     

     

    原文地址:http://blog.csdn.net/yangliuy/article/details/8296481

     

    参考文献

    Gregor Heinrich, Parameter estimation for test analysis, technical report 

    Wikipedia Beta分布词条 ,  http://en.wikipedia.org/wiki/Beta_distribution

    展开全文
  • PGM:贝叶斯网的参数估计

    千次阅读 2016-09-20 16:22:21
    http://blog.csdn.net/pipisorry/article/details/52578631本文讨论...参数估计的主要方法有两种:一种基于最大的似然的估计;一种是使用贝叶斯方法。贝叶斯网的MLE参数估计最大似然估计MLE[参数估计:最大似然估计MLE

    http://blog.csdn.net/pipisorry/article/details/52578631

    本文讨论(完备数据的)贝叶斯网的参数估计问题:贝叶斯网的MLE最大似然估计和贝叶斯估计。假定网络结构是固定的,且假定数据集D包含了网络变量的完全观测实例。

    参数估计的主要方法有两种:一种基于最大的似然的估计;一种是使用贝叶斯方法。

    贝叶斯网的MLE参数估计

    最大似然估计MLE

    [参数估计:最大似然估计MLE ]

    简单示例:局部似然函数

    仅包含两个二元变量的网络,即弧


    从上看出,似然函数被分解为两项,且每一项对应一个变量。每一项都是一个局部的似然函数,度量了在给定其父节点时预测变量的性能。每一项都只依赖于变量的CPD的参数。

    考虑分解的两个单独项

    第一项与前面的多项式似然函数一样。

    第二项进一步分解:似然函数的可分解性

    局部似然函数分解

    同理可得theta y0|x0。但是后面有一个更简单更紧凑的使用CPD表方式快速同时计算这两个参数的方法。

    变量集合的各种赋值的计数


    全局似然分解:转换为局部似然函数

    注意,贝叶斯网中节点代表的是随机变量(也就是每个样本的维度,而不是每个样本)。样本数目为m,维度数为i。

    似然函数的全局分解

    全局似然分解成局部似然函数乘积

    Note: 方括号中的每一项表示网络中一个特定变量在给定父节点时的条件似然

    结论

    CPD表:进一步分解局部似然函数

    参数的选择决定了我们最大化每个局部似然函数的方法。现考虑一种可能是CPD最简单的参数化:CPD表(table-CPD)。

    贝叶斯网局部MLE的进一步分解


    方框项独立最大化

    也就是说,之前简单的示例中我们是分别计算p(x0|u0)p(x1|u0),现在通过式17.5出现次数(更紧凑的表示)一次同时计算出2个参数p(x0|u0)p(x1|u0)了。

    Note: 式17.5就是通过MLE估计出的贝叶斯网的参数计算公式。

    数据碎片与过拟合:缺少可靠的大量估计参数的数据


    高斯贝叶斯网*

    。。。

    专栏17.B——概念:非参数模型

    作为M-投影的最大似然估计*

    。。。

    皮皮blog



    MAP估计

    [参数估计:文本分析的参数估计方法]

    皮皮blog



    贝叶斯网的贝叶斯参数估计

    贝叶斯框架要求在未知的参数和数据实例上指定一个联合分布。与单个参数的情况一样,可以将参数和数据上的联合分布理解为一个贝叶斯网。

    贝叶斯参数估计

    [参数估计:贝叶斯思想和贝叶斯参数估计 ]

    参数独立性与全局分解

    简单的例子

    图7中的b

    全局参数独立性:假设要估计参数之间独立

    这里有一个假设:网络结构体现出单个参数变量的先验是先验独立的(没有观测到数据时就是独立的)。即我们认为知道其中一个参数的参数值并不能告诉我们另一个参数的任何信息。更确切的有如下定义



    同时,如果参数变量是先验独立的,那么观测到数据时,也可以得到它们是后验独立的。也就是说,如果这两个参数是独立的先验,那么它们也是独立的后验。

    也就是后验可以用紧凑的因子分解的形式表达。

    一般的网络

    假定已经给定了一个具有参数theta的网络结构G。

    所以,从上面最终的公式中可以看出,这个和MLE很相似,剩下要做的就是先验p(thetax|pax)的确定上了(其中p(thetax我们已经知道了,如Dirichlet分布))。

    预测



    局部分解和贝叶斯网学习的先验分布

    通过对局部贝叶斯估计问题求解来得到全局贝叶斯解。

    theta x的后验

    theta y|x的后验

    上面独立先验的证明:

    theta y|x的狄利克雷分布先验

    预测和参数估计

    此式应该也就是贝叶斯网的贝叶斯参数估计计算公式。

    贝叶斯网学习的先验分布参数的确定

    专家赋值、K2先验(相同的固定先验)、利用先验数据集(等价于MLE了)、BDe先验分布


    先验对参数估计的影响:MLE和不同强度alpha贝叶斯估计的比较

    专栏17.C

    检验了MLE方法和一些贝叶斯方法,所有方法使用了统一的先验均值和不同的先验强度alpha。

    from: http://blog.csdn.net/pipisorry/article/details/52578631

    ref: [《Probabilistic Graphical Models:Principles and Techniques》(简称PGM)]


    展开全文
  • 函数估计的参数方法

    千次阅读 2017-08-16 09:34:20
    用于函数估计的参数方法主要有核密度估计、局部多项式回归估计等。非参的函数估计的优点在于稳健,对模型没有什么特定的假设,只是认为函数光滑,避免了模型选择带来的风险;但是,表达式复杂,难以解释,计算量大...

    用于函数估计的非参数方法主要有核密度估计、局部多项式回归估计等。非参的函数估计的优点在于稳健,对模型没有什么特定的假设,只是认为函数光滑,避免了模型选择带来的风险;但是,表达式复杂,难以解释,计算量大是非参的一个很大的毛病。所以说使用非参有风险,选择需谨慎。

    • 核密度估计(kernel density estimation)是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)。Ruppert和Cline基于数据集密度函数聚类算法提出修订的核密度估计方法。
      核密度估计在估计边界区域的时候会出现边界效应。
      在单变量核密度估计的基础上,可以建立风险价值的预测模型。通过对核密度估计变异系数的加权处理,可以建立不同的风险价值的预测模型。
    • 非参数局部多项式回归估计模型是非参数回归估计模型中非常重要的一类非参数统计方法,较核估计方法能很好的反映变量与变量之间的相关关系,在经济、自然科学、社会科学等领域有着重要的应用价值。

      下面给出一些codes及相应的结果:

    • test1

    e <- read.csv("data.csv", header = T)
    z1=e$日平均温度
    z2=e$日照分钟
    z3=e$风力
    num=3
    y=e$空气质量指数
    len = length(y)
    l=t(matrix(c(1,0,0)))
    z=rbind(c(z1),c(z2),c(z3))
    h=0.08
    x=seq(0,12,length=len)
    k <- function(j, h) {
      dnorm((j - x)/h)/h
    }
    A=matrix(0,num,len)
    
    
    
    for(i in 1:num){
      for(j in 1:len){
        r=k(x[j],h)
        r=r/sum(r)
        z_temp=z[i,]
        A[i,j]=sum(z_temp*r)
      }
    
    
    }
    i=3
    plot(x,A[i,], xlab = "Predictor", ylab = "Response")
    lines(x, A[i,], type = "l")
    
    

    这里写图片描述

    • test2
    easy <-  read.csv("data.csv", header = T)
    x <- seq(1,12,length=366)
    y <- easy$空气质量指数
    NWSMOOTH <- function(h, y, x, z) {
      n <- length(y)
      s.hat <- rep(0, n)
      s.hat1 <- rep(0, n)
      for (i in 1:n) {
        s.hat[i] <- dnorm((x[i] - z)/h)/h * y[i]
        s.hat1[i] <- dnorm((x[i] - z)/h)/h
      }
      z.hat <- sum(s.hat)/sum(s.hat1)
      return(z.hat)
    }
    CVRSS <- function(h, y, x) {
      cv <- NULL
      for (i in seq(x)) {
        cv[i] <- (y[i] - NWSMOOTH(h, y[-i], x[-i], x[i]))^2
      }
      mean(cv)
    }
    h <- seq(0.01, 0.3, by = 0.02)
    cvrss.val <- rep(0, length(h))
    for (i in seq(h)) {
      cvrss.val[i] <- CVRSS(h[i], y, x)
    }
    
    plot(h, cvrss.val, type = "b")
    
    

    这里写图片描述

    • test3
    easy <- read.csv("data.csv", header = T)
    x <- seq(0,12,length=366)
    y <- easy$空气质量指数
    h=0.08
    fx.hat <- function(z, h) {
      dnorm((z - x)/h)/h
    }
    KSMOOTH <- function(h, y, x) {
      n <- length(y)
      s.hat <- rep(0, n)
      for (i in 1:n) {
        a <- fx.hat(x[i], h)
        s.hat[i] <- sum(y * a/sum(a))
      }
      return(s.hat)
    }
    
    ksmooth.val <- KSMOOTH(h, y, x)
    plot(x,ksmooth.val, xlab = "Predictor", ylab = "Response")
    lines(x, ksmooth.val, type = "l")
    

    这里写图片描述

    • test4
    sin.simu<-function(n){
      x<-seq(0,2*pi,length = 100)
      s<-rnorm(n,0,0.5)
      y<-sin(x)+s
      return(data.frame(x,y))
    }
    fx.hat <- function(z, h) {
      dnorm((z - x)/h)/h
    }
    KSMOOTH <- function(h, y, x) {
      n <- length(y)
      s.hat <- rep(0, n)
      for (i in 1:n) {
        a <- fx.hat(x[i], h)
        s.hat[i] <- sum(y * a/sum(a))
      }
      return(s.hat)
    }
    
    NW<-function(n){
      a=NULL
      b=NULL
      c=matrix(0,100,500)
      for(i in 1:n){
        a=sin.simu(100)
        b=KSMOOTH(0.3,a$y,a$x)
        c[,i]=b
      }
      c}
    LPRSMOOTH <- function(y, x, h) {
      n <- length(y)
      s.hat <- rep(0, n)
      for (i in 1:n) {
        weight <- dnorm((x - x[i])/h)
        mod <- lm(y ~ x, weights = weight)
        s.hat[i] <- as.numeric(predict(mod, data.frame(x = x[i])))
      }
      return(s.hat)
    }
    LP<-function(n){
      a=NULL
      b=NULL
      c=matrix(0,100,500)
      for(i in 1:n){
        a=sin.simu(100)
        b=LPRSMOOTH(a$y,a$x,0.6)
        c[,i]=b
      }
      c}
    
    
    QU<-function(n,sim,p){
      a=NULL
      b=NULL
      for(i in 1:n){
        a=quantile(sim[i,],  probs = p)
        b[i]=a
      }
      b}
    
    
    x<-seq(0,2*pi,length = 100)
    sim1=NW(500)
    sim2=LP(500)
    
    
    y=sin(x)
    plot(x,y,lty=1,type="l",ylim=c(-1.5,1.5))
    C1=QU(100,sim1,0.05)
    lines(seq(0,2*pi,length = 100),C1,type="l",lty=2)#画出分位数曲线图
    C2=QU(100,sim1,0.5)
    lines(seq(0,2*pi,length = 100),C2,type="l",lty=3)#画出分位数曲线图
    C3=QU(100,sim1,0.95)
    lines(seq(0,2*pi,length = 100),C3,type="l",lty=4)#画出分位数曲线图
    
    
    
    y=sin(x)
    plot(x,y,lty=1,type="l",ylim=c(-1.5,1.5))
    C1=QU(100,sim2,0.05)
    lines(seq(0,2*pi,length = 100),C1,type="l",lty=2)#画出分位数曲线图
    C2=QU(100,sim2,0.5)
    lines(seq(0,2*pi,length = 100),C2,type="l",lty=3)#画出分位数曲线图
    C3=QU(100,sim2,0.95)
    lines(seq(0,2*pi,length = 100),C3,type="l",lty=4)#画出分位数曲线图
    
    
    
    
    

    这里写图片描述

    这里写图片描述

    • test5
    sin.simu<-function(n){
    x<-seq(0,2*pi,length = 100)
    s<-rnorm(n,0,0.5)
    y<-sin(x)+s
    return(data.frame(x,y))
    }
    #核回归
    x<-seq(0,2*pi,length = 100)
    
    fx.hat <- function(z, h) {
        dnorm((z - x)/h)/h
    }
    KSMOOTH <- function(h, y, x) {
        n <- length(y)
        s.hat <- rep(0, n)
        for (i in 1:n) {
            a <- fx.hat(x[i], h)
            s.hat[i] <- sum(y * a/sum(a))
        }
        return(s.hat)
    }
    #进行500次核回归
    NW<-function(n){
    a=NULL
    b=NULL
    c=matrix(0,100,500)
    for(i in 1:n){
    a=sin.simu(100)
    b=KSMOOTH(0.3,a$y,a$x)
    c[,i]=b
    }
    c}
    sim1=NW(500)
    
    
    #局部多项式回归
    LPRSMOOTH <- function(y, x, h) {
        n <- length(y)
        s.hat <- rep(0, n)
        for (i in 1:n) {
            weight <- dnorm((x - x[i])/h)
            mod <- lm(y ~ x, weights = weight)
            s.hat[i] <- as.numeric(predict(mod, data.frame(x = x[i])))
        }
        return(s.hat)
    }
    
    #进行500次局部多项式回归
    LP<-function(n){
    a=NULL
    b=NULL
    c=matrix(0,100,500)
    for(i in 1:n){
    a=sin.simu(100)
    b=LPRSMOOTH(a$y,a$x,0.6)
    c[,i]=b
    }
    c}
    sim2=LP(500)
    
    
    
    #计算核回归分位数
    QU1<-function(n){
    a=NULL
    b=NULL
    for(i in 1:n){
    a=quantile(sim1[i,],  probs = 0.05)
    b[i]=a
    }
    b}
    C1=QU1(100)
    lines(seq(0,2*pi,length = 100),C1,type="l",lty=2)#画出分位数曲线图
    
    
    QU2<-function(n){
    a=NULL
    b=NULL
    for(i in 1:n){
    a=quantile(sim1[i,],  probs = 0.5)
    b[i]=a
    }
    b}
    C2=QU2(100)
    lines(seq(0,2*pi,length = 100),C2,type="l",lty=3)#画出分位数曲线图
    
    
    QU3<-function(n){
    a=NULL
    b=NULL
    for(i in 1:n){
    a=quantile(sim1[i,],  probs = 0.95)
    b[i]=a
    }
    b}
    C3=QU3(100)
    lines(seq(0,2*pi,length = 100),C3,type="l",lty=4)#画出分位数曲线图
    
    x<-seq(0,2*pi,length = 100)
    y=sin(x)
    plot(x,y,lty=1,type="l",ylim=c(-1.5,1.5))
    legend("topleft",cex=.6,
    c("Ture curve","0.05 quantile curve",
    "0.5 quantile curve","0.95 quantile curve"),lty=1:4)
    
    
    
    #计算局部多项式回归分位数
    QU1<-function(n){
    a=NULL
    b=NULL
    for(i in 1:n){
    a=quantile(sim2[i,],  probs = 0.05)
    b[i]=a
    }
    b}
    C1=QU1(100)
    lines(seq(0,2*pi,length = 100),C1,type="l",lty=2)#画出分位数曲线图
    
    
    QU2<-function(n){
    a=NULL
    b=NULL
    for(i in 1:n){
    a=quantile(sim2[i,],  probs = 0.5)
    b[i]=a
    }
    b}
    C2=QU2(100)
    lines(seq(0,2*pi,length = 100),C2,type="l",lty=3)#画出分位数曲线图
    
    
    QU3<-function(n){
    a=NULL
    b=NULL
    for(i in 1:n){
    a=quantile(sim2[i,],  probs = 0.95)
    b[i]=a
    }
    b}
    C3=QU3(100)
    lines(seq(0,2*pi,length = 100),C3,type="l",lty=4)#画出分位数曲线图
    
    x<-seq(0,2*pi,length = 100)
    y=sin(x)
    plot(x,y,lty=1,type="l",ylim=c(-1.5,1.5))
    legend("topleft",cex=.6,
    c("Ture curve","0.05 quantile curve",
    "0.5 quantile curve","0.95 quantile curve"),lty=1:4)
    
    
    
    展开全文
  • 本文分析了网络自相似业务流Hurst参数的主要估计方法,并进行了详细对比。通过对方差时间图法的深入研究和实验,发现数据块的选择范围对估计结果很大影响。本文分析了影响原因,提出了数据块选择范围的一个经验公式,...
  • 参数估计的主要方法有两种:一种基于最大的似然的估计;一种是使用贝叶斯方法。贝叶斯网的MLE参数估计最大似然估计MLE简单示例:局部似然函数仅包含两个二元变量的网络,即弧 从上看出,似然函数被分解为两项,且每...

    本文讨论(完备数据的)贝叶斯网的参数估计问题:贝叶斯网的MLE最大似然估计和贝叶斯估计。假定网络结构是固定的,且假定数据集D包含了网络变量

    7b3560e1826ec89497e7cdbfe548dbe4.png的完全观测实例。

    参数估计的主要方法有两种:一种基于最大的似然的估计;一种是使用贝叶斯方法。

    贝叶斯网的MLE参数估计

    最大似然估计MLE

    简单示例:局部似然函数

    仅包含两个二元变量的网络,即弧

    3ccbaff39999fa985e42038ba8011e9d.png

    aec10ed49f79b47c018d0cd579484cee.png

    bab7a73d72933b0125a5f42c11676b8b.png

    0e72d6708b3cea922de30e9ea0da116a.png

    从上看出,似然函数被分解为两项,且每一项对应一个变量。每一项都是一个局部的似然函数,度量了在给定其父节点时预测变量的性能。每一项都只依赖于变量的CPD的参数。

    考虑分解的两个单独项

    第一项与前面的多项式似然函数一样。

    第二项进一步分解:似然函数的可分解性

    局部似然函数分解

    e1597d1b7f076234a15b173ad53ed971.png

    同理可得theta y0|x0。但是后面有一个更简单更紧凑的使用CPD表方式快速同时计算这两个参数的方法。

    变量集合的各种赋值的计数

    f767ca9bca03ea954602692c14f9ab24.png

    a1561493509bff9bac844c67bb51ee7d.png

    全局似然分解:转换为局部似然函数

    注意,贝叶斯网中节点代表的是随机变量(也就是每个样本的维度,而不是每个样本)。样本数目为m,维度数为i。

    似然函数的全局分解

    全局似然分解成局部似然函数乘积

    aec66cf4ac61244fa5d422b224cee012.png

    Note: 方括号中的每一项表示网络中一个特定变量在给定父节点时的条件似然。

    18e951da6067b9a4febba6a6f306c4f0.png

    结论

    af57a591e016e85097058b2cc17dfc48.png

    89cce8810bca45095b796be0b898a828.png

    CPD表:进一步分解局部似然函数

    参数的选择决定了我们最大化每个局部似然函数的方法。现考虑一种可能是CPD最简单的参数化:CPD表(table-CPD)。

    贝叶斯网局部MLE的进一步分解

    08ea7183a1e221e606a2dd91ef1f5d15.png

    4a35b335289e0fdcd38b039331856abd.png

    a08f45af0122ec7d2bda441ce2ed1e81.png

    方框项独立最大化

    也就是说,之前简单的示例中我们是分别计算p(x0|u0)p(x1|u0),现在通过式17.5出现次数(更紧凑的表示)一次同时计算出2个参数p(x0|u0)p(x1|u0)了。

    1d831907561b49afb0513343bbf350cf.png

    Note: 式17.5就是通过MLE估计出的贝叶斯网的参数计算公式。

    数据碎片与过拟合:缺少可靠的大量估计参数的数据

    835fd19ff302855e94ae12d81e093fa5.png

    e1da2755736929f823501c75d9b73d45.png

    高斯贝叶斯网*

    。。。

    专栏17.B——概念:非参数模型

    作为M-投影的最大似然估计*

    。。。

    MAP估计

    贝叶斯网的贝叶斯参数估计

    贝叶斯框架要求在未知的参数和数据实例上指定一个联合分布。与单个参数的情况一样,可以将参数和数据上的联合分布理解为一个贝叶斯网。

    贝叶斯参数估计

    参数独立性与全局分解

    简单的例子

    960df0e351e01cc4da0a53d9ce605261.png

    0413afc367c749f6121242626498a881.png

    图7中的b

    87a42d358632694a9c23293cc860b7e7.png

    aeb528611e91ba1f9198eb192b3da1f6.png

    全局参数独立性:假设要估计参数之间独立

    这里有一个假设:网络结构体现出单个参数变量的先验是先验独立的(没有观测到数据时就是独立的)。即我们认为知道其中一个参数的参数值并不能告诉我们另一个参数的任何信息。更确切的有如下定义

    1455a5a0b12d8a0e00db843e1d6f1b4f.png

    fb82348d18d6c95ccc15b6ca33ea2c49.png

    同时,如果参数变量是先验独立的,那么观测到数据时,也可以得到它们是后验独立的。也就是说,如果这两个参数是独立的先验,那么它们也是独立的后验。

    317588313fb1e8424dfab1c8a9815df3.png

    也就是后验可以用紧凑的因子分解的形式表达。

    一般的网络

    假定已经给定了一个具有参数theta的网络结构G。

    dc633c93f5fb657caf95ef9fd3ce84dc.png

    4dfd763750e666a81500ba7015344392.png

    所以,从上面最终的公式中可以看出,这个和MLE很相似,剩下要做的就是先验p(thetax|pax)的确定上了(其中p(thetax我们已经知道了,如Dirichlet分布))。

    8f96ac078d720c236a424b23bf635596.png

    预测

    ce6bea14a270e3477ce648e0838670a7.png

    4fccf4c997920c5ff449adf2077d1412.png

    a7ca683020e36c98abc3db14dc5eb36f.png

    局部分解和贝叶斯网学习的先验分布

    通过对局部贝叶斯估计问题求解来得到全局贝叶斯解。

    3eee8df1f81f06b43af6130100aee792.png

    theta x的后验

    d8f3a855dd2e1804c80583352a2c98d5.png

    theta y|x的后验

    419c6885034cb355a856b6bb88c533bd.png

    上面独立先验的证明:

    a794b300925f82b23e311df8f1ac1ce6.png

    4e2e3ee699095327cd2a3d92c78907ca.png

    theta y|x的狄利克雷分布先验

    dcdfcf80e67b7aa9ddef17daff457b8c.png

    预测和参数估计

    49c64f6b18db866f3714c753c876b830.png

    477345eed30a7efa2db2d57a73e6b7ba.png

    b7ed8ed788b327d8ecac3ff7a49ad544.png

    此式应该也就是贝叶斯网的贝叶斯参数估计计算公式。

    b1aec7d9c1a7d56480b54662629dd431.png

    贝叶斯网学习的先验分布参数的确定

    90d7233fef1b54c49ee28ac824a2631e.png

    专家赋值、K2先验(相同的固定先验)、利用先验数据集(等价于MLE了)、BDe先验分布。

    6af4c347d6aa720b2534a9a008357b2b.png

    07f0f28543d4b5ea454a4ed14fc50e15.png

    先验对参数估计的影响:MLE和不同强度alpha贝叶斯估计的比较

    专栏17.C

    检验了MLE方法和一些贝叶斯方法,所有方法使用了统一的先验均值和不同的先验强度alpha。

    fe771ce1ea611be6a552eafdd0a92834.png

    92452698b578858815a3fd5de71b9163.png

    ref: [《Probabilistic Graphical Models:Principles and Techniques》(简称PGM)]

    展开全文
  • 参数估计方法——OLS、MLE、MAP

    千次阅读 2019-07-31 15:17:22
    文章目录1、前言2、最大似然估计法 MLE3、最大后验估计 MAP4、贝叶斯估计5、其他的参数估计方法 1、前言 我们讨论的是参的情况,在这种情况中,...而 ML 中主要是构造点估计的方法常用的:①最大似然估计法,...
  • 参数估计

    2018-06-19 22:36:00
    简单的讨论一下参数估计理论 ...参数估计的包括两个主要的模型以及四个基本估计方法,如下图所示:  贝叶斯学派和频率学派最大的不同、根上的不同,就是在于模型 y=wx+b 其中的 w 和 b 两个参...
  • 1. 前言前面博客介绍了CTR预估中的贝叶斯平滑方法的原理http://www.cnblogs.com/bentuwuying/p/6389222.html。这篇博客主要是介绍如何对贝叶斯平滑的参数进行估计,... 参数估计的几种方法1. 矩估计矩估计在这里...
  • 1. 前言前面博客介绍了CTR预估中的贝叶斯平滑方法的原理http://www.cnblogs.com/bentuwuying/p/6389222.html。这篇博客主要是介绍如何对贝叶斯平滑的参数进行估计,... 参数估计的几种方法1. 矩估计矩估计在这里...
  • 参数估计 点估计概述

    2020-11-02 15:42:45
    对统计参数进行估计,主要有两种方法:点估计和区间估计 点估计的核心思想可以概括为离散思想,区间估计的核心思想可以概括为连续思想。对点估计,利用样本的离散值进行参数估计;对区间估计,其利用了区间这一有效...
  • 以PLSA和LDA为代表文本语言模型是当今统计自然语言处理研究热点问题。...本文主要介绍文本分析三类参数估计方法-最大似然估计MLE、最大后验概率估计MAP及贝叶斯估计。1、最大似然估计MLE首先回顾一下贝
  • 三大参数估计方法(MLE, MAP, BOA)

    千次阅读 2018-10-01 11:21:36
    以PLSA和LDA为代表文本语言模型是当今统计自然语言处理研究热点问题。...本文主要介绍文本分析三类参数估计方法-最大似然估计MLE、最大后验概率估计MAP及贝叶斯估计。   1、最大似然估计MLE ...
  • 参数技术——Parzen窗估计方法

    千次阅读 2016-11-11 11:31:15
    Parzen窗估计方法的主题思想是固定窗口区域容积,去看多少个样本点在里面,而K-近邻概率密度估计方法的主要思想是固定样本点的个数(k个)看需要的多大的容积。本文是一个Parzen窗估计方法的例子。 本例所需要的...
  • 参数估计 矩估计

    2020-11-03 16:00:13
    矩估计也是点估计的一种重要估计方法。 在数理统计基础中(上一章),我们学过样本的原点矩和中心距;在概率论中,我们学过随机变量的原点矩和中心距。 现在,是这些东西大展身手的时候了,现在我们的研究对象主要有两...
  • 关于参数估计

    千次阅读 2018-01-25 18:11:08
    虽然非计算机专业,但因为一些原因打算学习西瓜书,可由于长时间没有碰过概率统计的知识,有所遗忘。所以特意重新复习了一遍类似的知识,写在这里权当...参数估计的方法有多种,各种估计方法得出的结果不一定相同,...
  • 数理统计之参数估计

    2019-01-12 09:49:59
    估计的主要方法有: 矩估计法; 极大似然估计法; 其他统计量估计法:极差估计法等。 区间估计 区间估计的主要方法为枢轴量法,主要分为以下几个步骤: 构造枢轴量,只包含估计的目标参数这一个未知量...
  • AR模型参数的估计

    2020-06-21 01:26:41
    对于平稳随机信号,主要有三种常用线性模型:AR(Auto-Regression,自回归)模型、MA(Moving Average,滑动平均)模型和ARMA(Auto-Regression-Moving Average,自回归滑动平均)模型。 这里我们选定 AR 模型,用...
  • 简介:在概率统计中两种主要的方法:参数统计和非参数统计(或者说参数估计和非参数估计)。 其中,参数估计是概率统计一种方法主要在样本知道情况下,一般知道或假设样本服从某种概率分布,但不知到具体参数...
  • 模糊角度参数估计

    2019-05-15 14:51:44
    点扩散函数PSF主要有两个重要参数:(1)模糊方向;(2)模糊尺度。...常见辨识方法有频域法和倒谱法,wym 两种方法都试过,仿真实验结果表两种方法各有好处。 频域法原理是将退化图像进行二维傅里叶变...
  • 环累积量对多种数字通信信号自动分类与参数估计的方法。是现有的利用二阶循环平 稳分析信号算法的推广。通过分析证明了2、4PSK信号的特定四阶循环累积量在循 环频率与载波频率相等时不为零,而当偏离载波时迅速降为...
  • 主要解决在样本的分布没有足够的先验,也就是说我们不仅不知道分布的参数,连是什么类型的分布都不知道,这种情况下显然不能用参数估计的方法。这里从简单直观的方法——直方图法入手,引出KNN和Parzen窗两种方法。 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 430
精华内容 172
关键字:

参数估计的主要方法有