精华内容
下载资源
问答
  • 参数估计的MATLAB实现

    千次阅读 2021-04-22 06:25:43
    1、1,参数估计MATLAB实现,估计,区间估计,2,估计,区间估计,矩估计,最大似然估计,参数估计,估计,参数估计主要内容,3,估计,Matlab统计工具箱给出了常用概率分布中参数的估计(采用最大似然估计法)与区间估计,...

    《参数估计的MATLAB实现》由会员分享,可在线阅读,更多相关《参数估计的MATLAB实现(17页珍藏版)》请在人人文库网上搜索。

    1、1,参数估计MATLAB实现,点估计,区间估计,2,点估计,区间估计,矩估计,最大似然估计,参数估计,点估计,参数估计主要内容,3,点估计,Matlab统计工具箱给出了常用概率分布中参数的点估计(采用最大似然估计法)与区间估计,另外还提供了部分分布的对数似然函数的计算功能.由于点估计中的矩估计法的实质是求与未知参数相应的样本的各阶矩,可根据需要选择合适的矩函数进行点估计.,4,矩估计的MATLAB实现,B2,所以总体X均值及方差的矩估计可由下MATLAB命令实现:,mu_ju=mean(X)sigma2_ju=moment(X,2),为总体样本,求未知参数的矩估计.,5,x=232.50,23。

    2、2.48,232.15,232.52,232.53,232.30,.232.48,232.05,232.45,232.60,232.47,232.30;,mu_ju=mean(X)sigma2_ju=moment(X,2),例:来自某总体X的样本值如下:232.50,232.48,232.15,232.52,232.53,232.30,232.48,232.05,232.45,232.60,232.47,232.30求X的均值与方差的矩估计,矩估计的MATLAB实现,6,MLE,通用命令mle()格式:输出参数项=mle(分布函数名,X,alpha,N),说明:分布函数名有:bino(二项)、。

    3、geo(几何)、hyge(超几何)、poiss(泊松),uinf(均匀)、unid(离散均匀)、exp(指数)、norm(正态),t(T分布)、f(F分布)、beta(贝塔)、gam(伽吗);N当为二项分布时需要,其他没有。,7,MLE,例设从一大批产品中抽取100个产品,经检验知有60个一级品,求这批产品的一级品率的极大似然估计.,clear;alpha=0.05;N=100;X=60;mle(bino,X,alpha,N),8,MLE,例设从一大批产品中抽取100个产品,经检验知有60个一级品,求这批产品的一级品率(置信度95%)。,clear;alpha=0.05;N=100;X=60;。

    4、Ph,Pc=mle(bino,X,alpha,N),Ph=0.6000Pc=0.4972,0.6967,95%置信区间,9,用matlab产生随机数,通用函数,y=random(分布的英文名,A1,A2,A3,m,n),表示生成m行n列的mn个参数为(A1,A2,A3)的该分布的随机数,例:R=random(Normal,0,1,2,4),例R=random(Poiss,3,100,1),生成参数为3,100个服从Poisson分布的随机数,生成参数为2行4列服从标准正态分布的随机数,10,用matlab产生随机数,专用函数,1、R=normrnd(mu,sigma,m,n),生成参数为N,P。

    5、的m行n列的二项分布随机数,例R=normrnd(0,1,3,2),2、R=unifrnd(a,b,m,n),生成a,b上的m行n列的泊松分布随机数,例unifrnd(0,1,1,6),11,生成随机数专用函数表,12,区间估计的MATLAB实现,如果已经知道了一组数据来自正态分布总体,但是不知道正态分布总体的参数。我们可以利用normfit()命令来完成对总体参数的点估计和区间估计,格式为mu,sig,muci,sigci=normfit(x,alpha),13,mu,sig,muci,sigci=normfit(x,alpha),Muci、sigci分别为分布参数、的区间估计。,x为向量或。

    6、者矩阵,为矩阵时是针对矩阵的每一个列向量进行运算的。,alpha为给出的显著水平(即置信度,缺省时默认,置信度为95),mu、sig分别为分布参数、的点估计值。,区间估计的MATLAB实现,14,例从某超市的货架上随机抽取9包0.5千克装的食糖,实测其重量分别为(单位:千克):0.497,0.506,0.518,0.524,0.488,0.510,0.510,0.515,0.512,从长期的实践中知道,该品牌的食糖重量服从正态分布。根据数据对总体的均值及标准差进行点估计和区间估计。,x=0.497,0.506,0.518,0.524,0.488,0.510,0.510,0.515,0.512;。

    7、alpha=0.05;mu,sig,muci,sigci=normfit(x,alpha),区间估计的MATLAB实现,15,a、b、aci、bci分别是均匀分布中参数a,b的点估计及区间估计值。,其它常用分布参数区间估计的命令,lam,lamci=poissfit(x,alpha)泊松分布的估计函数,lam、lamci分别是泊松分布中参数的点估计及区间估计值。,a,b,aci,bci=unifit(x,alpha)均匀分布的估计函数,16,p、pci分别是二项分布中参数的点估计及区间估计值。,lam,lamci=expfit(x,alpha)指数分布的估计函数,lam、lamci分别是指数分布中参数的点估计及区间估计值,p,pci=binofit(x,alpha)二项分布的估计函数,其它常用分布参数估计的命令还有:,17,例调查某电话呼叫台的服务情况发现:在随机抽取的200个呼叫中,有40%需要附加服务(如转换分机等),以p表示需附加服务的比例,求出p的置信度为0.95的置信区间。,R=200*0.4;n=200;alpha=0.05;phat,pci=binofit(R,n,alpha),phat=0.4000,pci=0.33150.4715。

    展开全文
  • 参数估计方法 概率与统计: 概率:已知模型和参数,推数据结果出现的概率 统计:已知诸多结果,通过结果推概率分布(概率、参数、模型) 比如,我们现在要抛一个硬币,结果会是正面或者反面。我们可以把这个过程,...

    参数估计方法


    概率与统计:

    • 概率:已知模型和参数,推数据结果出现的概率
    • 统计:已知诸多结果,通过结果推概率分布(概率、参数、模型)
      比如,我们现在要抛一个硬币,结果会是正面或者反面。我们可以把这个过程,视作一个系统,我们往系统里输入一个“抛硬币”的事件,系统就会返回一个结果(正面或反面)。所谓模型,就是这个系统在决定输出什么结果的时候,对各个结果分配的权重,权重越大,结果越容易出现。
      我们在小学的时候,会经常遇到这样的问题:给了一堆苹果,有红的有绿的,让我们画一个统计表或者统计图,之后算一算拿到红苹果的可能性有多大,这就是一个典型的统计问题,如果苹果够多,我们就可以把红苹果的频率视作概率,也就是我们模型的参数。

    贝叶斯定理

    贝叶斯法则:

    • 贝叶斯法则说了一件事:通常情况下,事件A和事件B发生的条件下的概率事件B在事件A发生的概率 是不同的
      P ( A ∣ B ) = P ( B ∣ A ) ⋅ P ( A ) P ( B ) (1.1) P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} \tag{1.1} P(AB)=P(B)P(BA)P(A)(1.1)
      将底部展开:

      P ( A ∣ B ) = P ( B ∣ A ) ⋅ P ( A ) P ( B ) = P ( B ∣ A ) ⋅ P ( A ) P ( B ∣ A ) P ( A ) + P ( B ∣ ∼ A ) P ( ∼ A ) (1.2) \begin{aligned} P(A|B) &= \frac{P(B|A) \cdot P(A)}{P(B)}\\ & = \frac{P(B|A) \cdot P(A)} {P(B|A) P(A) + P(B|\sim A)P(\sim A)} \end{aligned} \tag{1.2} P(AB)=P(B)P(BA)P(A)=P(BA)P(A)+P(BA)P(A)P(BA)P(A)(1.2)

      如果A包含很多种情况,我们就得到贝叶斯公式:

    P ( A i ∣ B ) = P ( B ∣ A i ) ⋅ P ( A i ) P ( B ) = P ( A i ) P ( B ∣ A i ) ∑ j = 1 n P ( B ∣ A j ) P ( A j ) (1.3) \begin{aligned}P(A_i|B) &= \frac{P(B|A_i) \cdot P(A_i)}{P(B)}\\ &= \frac{P(A_i)P(B|A_i)}{\sum^n_{j=1}P(B|A_j)P(A_j)} \end{aligned} \tag{1.3} P(AiB)=P(B)P(BAi)P(Ai)=j=1nP(BAj)P(Aj)P(Ai)P(BAi)(1.3)

    应用贝叶斯法则进行参数估计:

    • 实际上,我们都是根据已知的数据去估计相应的参数,这就意味着,我们求出的参数,一定是在“出现了当前数据”的情况下求出的参数(数值或者分布),也就是说,我们只能求出一个条件概率 p ( θ ∣ D ) p(\theta|D) p(θD),而并非 p ( θ ) p(\theta) p(θ),所以,参数估计的核心问题,就是如何令我们求出的后验概率 p ( θ ∣ D ) p(\theta|D) p(θD)尽可能靠近参数的真实分布(也就是先验概率) p ( θ ) p(\theta) p(θ)
    • 如何靠近呢?
      1. p ( θ ∣ D ) p(\theta|D) p(θD)的中位数作为 p ( θ ) p(\theta) p(θ)的估计值(不常用)
      2. p ( θ ∣ D ) p(\theta|D) p(θD)的最大值作为 p ( θ ) p(\theta) p(θ)的估计值(最大化后验概率,所以叫做最大后验概率估计)
      3. p ( θ ∣ D ) p(\theta|D) p(θD)的平均值(期望)作为 p ( θ ) p(\theta) p(θ)的估计值(贝叶斯估计)

    贝叶斯估计:

    • 对于贝叶斯公式:
      p ( θ ∣ D ) = p ( D ∣ θ ) p ( θ ) p ( D ) p(\theta|D) = \frac{p(D|\theta)p(\theta)}{p(D)} p(θD)=p(D)p(Dθ)p(θ)
      我们只需要求出 E ( p ( θ ∣ D ) ) E(p(\theta|D)) E(p(θD))即可。具体步骤可以参考贝叶斯估计详解

    最大后验概率估计

    最大后验概率估计,也称作极大后验概率估计。因为数据是确定的,那么数据的分布 p ( D ) p(D) p(D)可以视为一个常数,因此:
    arg ⁡ max ⁡ θ p ( θ ∣ D ) = arg ⁡ max ⁡ θ p ( D ∣ θ ) ⋅ p ( θ ) p ( D ) ∝ arg ⁡ max ⁡ θ p ( D ∣ θ ) ⋅ p ( θ ) \begin{aligned} \arg\max_{\theta}p(\theta|D) &= \arg\max_{\theta}\frac{p(D|\theta)\cdot p(\theta)}{p(D)}\\ & \propto \arg\max_{\theta} p(D|\theta) \cdot p(\theta) \end{aligned} argθmaxp(θD)=argθmaxp(D)p(Dθ)p(θ)argθmaxp(Dθ)p(θ)


    极大似然估计

    贝叶斯定理角度:

    ​ 在极大似然估计中,我们通常认为,参数是固有的(我们将实验过程视为:结果是出现之前就已经确定的,是根据参数生成的,只是我们不知道生成结果的参数,却直接看到了结果),如果我们需要预测结果,只需要找到生成结果的这一组参数就可以了,即,给定一组数据,我们需要找到概率最大的参数,将估计变成了一个对于使得条件概率最大的参数的求解过程,数学表达为
    arg ⁡ max ⁡ θ p ( θ ∣ D ) (2.1) \arg \max_\theta p(\theta|\mathcal{D}) \tag{2.1} argθmaxp(θD)(2.1)
    根据条件概率公式(上文的贝叶斯定理(式1.1)),我们可以得到:
    p ( θ ∣ D ) = p ( D ∣ θ ) ⋅ p ( θ ) p ( D ) (2.2) p(\theta|\mathcal{D}) = \frac{p(\mathcal{D}|\theta)\cdot p(\theta)}{p(\mathcal{D})} \tag{2.2} p(θD)=p(D)p(Dθ)p(θ)(2.2)
    在这里,我们称 p ( θ | D ) p(\theta|\mathcal{D}) p(θD)后验概率 p ( θ ) p(\theta) p(θ)先验概率 p ( D ) p(\mathcal{D}) p(D)数据分布 p ( D ∣ θ ) p(\mathcal{D}|\theta) p(Dθ)似然函数

    ​ 根据刚才说的,整个过程,我们是假设 θ \theta θ 是已知的,所以,在 2.2 中, p ( θ ) p(\theta) p(θ)是一个不影响结果的常数。同时,对于 p ( D ) p(\mathcal{D}) p(D),由于数据是给定的,数据分布也一定是确定的,我们可以将其视作对整个概率的一个归一化因子。

    于是乎,2.2 变成了
    arg ⁡ max ⁡ θ p ( D ∣ θ ) \arg\max_\theta p(\mathcal{D}|\theta) argθmaxp(Dθ)

    努力让似然函数最大,就叫做极大似然估计。
    arg ⁡ max ⁡ θ p ( θ ∣ D ) = arg ⁡ max ⁡ θ p ( D ∣ θ ) ⋅ p ( θ ) p ( D ) ∝ arg ⁡ max ⁡ θ p ( D ∣ θ ) \begin{aligned} \arg\max_{\theta}p(\theta|D) &= \arg\max_{\theta}\frac{p(D|\theta)\cdot p(\theta)}{p(D)}\\ & \propto \arg\max_{\theta} p(D|\theta) \end{aligned} argθmaxp(θD)=argθmaxp(D)p(Dθ)p(θ)argθmaxp(Dθ)

    • 实际上,这个方法就是完全依赖于数据,按照数据表现出来的形式去估计模型,模型因为我们并不知道,所以可以将它看作是固定的,也可以看作是变化的。如果看作固定的,就是极大似然估计;如果看成是符合某种分布的,就是最大后验概率估计。

    统计角度:

    • 在概率论中,我们看到的极大似然估计的形式是:
      L ( θ ) = ∏ i = 1 n p ( x i ∣ θ ) L(\theta) = \prod^n_{i = 1}p(x_i|\theta) L(θ)=i=1np(xiθ)
      我们只需要最大化上述似然函数就可以了
    • 这与我们从贝叶斯角度出发看极大似然估计并不冲突,如果我们想令二者相等,即:
      L ( θ ) = ∏ i = 1 n p ( x i ∣ θ ) = p ( D ∣ θ ) L(\theta) = \prod^n_{i = 1}p(x_i|\theta)= p(D|\theta) L(θ)=i=1np(xiθ)=p(Dθ)
      很容易可以看出,只需要一个假设:数据中的每个样本是独立的,这个等式就会成立。

    在机器学习中的应用

    • 机器学习中,很多问题里的损失函数的优化过程往往就是极大似然估计过程。例如,以线性回归为例,损失函数采用均方误差:
      Θ ^ = arg ⁡ min ⁡ Θ 1 n ∑ i = 1 n ∣ ∣ y i − y ^ ∣ ∣ 2 \hat\Theta = \arg\min_\Theta\frac{1}{n}\sum^n_{i=1}||y_i - \hat y||^2 Θ^=argΘminn1i=1nyiy^2
    • 假设每一个元素都是符合高斯分布: N ( Y ; f ( X ; Θ , σ 2 ) ) \mathcal{N}(Y;f(X;\Theta,\sigma^2)) N(Y;f(X;Θ,σ2))
    • 那么,如果我们按照极大似然估计的思路去求解参数,是下面的形式:
      Θ ^ = arg min ⁡ Θ − ∑ i = 1 n log ⁡ P m o d e l ( y i ∣ x i ; Θ ) = arg min ⁡ Θ − ∑ i = 1 n log ⁡ [ 1 2 π σ exp ⁡ ( − ( y i − f ( x i ; Θ ) ) 2 2 σ 2 ) ] ∝ arg min ⁡ Θ ( y i − f ( x i ; Θ ) ) 2 \begin{aligned} \hat \Theta &= \argmin_{\Theta}-\sum^n_{i = 1}\log P_{model}(y_i|x_i;\Theta)\\ &= \argmin_{\Theta} - \sum^n_{i = 1} \log[\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(y_i - f(x_i;\Theta))^2}{2\sigma^2})]\\ &\propto \argmin_{\Theta}(y_i - f(x_i;\Theta))^2 \end{aligned} Θ^=Θargmini=1nlogPmodel(yixi;Θ)=Θargmini=1nlog[2π σ1exp(2σ2(yif(xi;Θ))2)]Θargmin(yif(xi;Θ))2
      我们可以发现,不断地使均方误差变小的这个目标,就是极大似然估计的目标,所以,以均芳误差为优化目标本身就是一次极大似然估计。

    MLE与MAP

    • MLE的优化目标:
      arg min ⁡ Θ p ( Θ ∣ D ) \argmin_{\Theta}p(\Theta|D) Θargminp(ΘD)
      取对数可以得到:
      arg min ⁡ Θ log ⁡ p ( Θ ∣ D ) \argmin_{\Theta}\log p(\Theta|D) Θargminlogp(ΘD)
    • MAP的优化目标:
      arg min ⁡ Θ p ( Θ ∣ D ) p ( Θ ) \argmin_{\Theta}p(\Theta|D)p(\Theta) Θargminp(ΘD)p(Θ)
      取个对数:
      arg min ⁡ Θ ( log ⁡ p ( Θ ∣ D ) + log ⁡ p ( Θ ) ) \argmin_{\Theta}(\log p(\Theta|D) + \log p(\Theta)) Θargmin(logp(ΘD)+logp(Θ))

    不同点

    对比两个目标,我们可以发现,MAP较之MLE多了对先验概率的应用,这就可以避免一些极端数据对参数估计造成的不良影响。
    比如说:抛十次硬币,出现了十次正面

    • 按照极大似然估计,我们应该求出正面出现的概率为100%,出现反面的概率为0%,这个结果在当前的数据之下是没有错误的;
    • 但是我们同时也知道,硬币是一定有反面的,这就产生了矛盾。
    • 但是,如果我们使用最大后验概率估计,借助一下先验概率(即假如我们知道,出现正面的概率大概是50%),这个结果就会从100%向50%移动,变得准确一些。

    联系

    同样的,观察取了对数的结果,我们发现,MAP就是在MLE的目标后边加了一个先验概率的对数,起到一个脱离数据,根据模型矫正模型的作用,类似于正则项。例如,在线性回归中,我们会采用 ω \omega ω的二范数乘以超参数 λ \lambda λ作为正则项,同样是立足于模型来对模型产生矫正作用。当然,这只是一种理解方法,实际上的正则项,不仅可以基于模型,还可以同时基于模型和数据。



    参考:
    1.贝叶斯估计详解(https://blog.csdn.net/zengxiantao1994/article/details/72889732)
    2. 一文搞懂极大似然估计(https://zhuanlan.zhihu.com/p/26614750)
    3. 极大似然估计与贝叶斯估计(https://zhuanlan.zhihu.com/p/61593112)
    4. 极大似然估计,最大后验概率估计(MAP),贝叶斯估计(https://blog.csdn.net/vividonly/article/details/50722042)

    • 这是周日例会上的一篇分享内容,准备ppt的时候参考了很多博客和资料,很多记录已经找不到了,对所有分享知识的人表示感谢!
    展开全文
  • [转载]参数估计(matlab)

    2021-04-20 14:00:41
    参数估计包含两种常用方式: 估计和区间估计.Matlab统计工具箱给出了常用概率分布中参数的估计 (采用最大似然估计法) 与区间估计,另外还提供了部分分布的对数似然函数的计算功能.由于估计中的矩估计法的实质是...

    参数估计包含两种常用方式: 点估计和区间估计.

    Matlab统计工具箱给出了常用概率分布中参数的点估计 (采用最大似然估计法) 与区间估计,

    另外还提供了部分分布的对数似然函数的计算功能.

    由于点估计中的矩估计法的实质是求与未知参数相应的样本的各阶矩, 统计工具箱提供了常用的求矩函数(见第一章),

    读者可根据需要选择合适的矩函数进行点估计.

    表2.1 统计工具箱中的参数估计函数 (fit / like)

    函数名称

    函数说明

    调用格式

    unifit

    均匀分布数据的参数点估计和区间估计

    [ahat,bhat,ACI,BCI] = unifit(X,alpha)

    expfit

    指数分布数据的参数点估计和区间估计

    [muhat,muci] = expfit(x,alpha)

    normfit

    正态分布数据的参数点估计和区间估计

    [muhat,sigmahat,muci,sigmaci]

    = normfit(X,alpha)

    binofit

    二项分布数据的参数点估计和区间估计

    [phat,pci] = binofit(x,n,alpha)

    poissfit

    泊松分布数据的参数点估计和区间估计

    [lambdahat,lambdaci]

    = poissfit(X,alpha)

    说明: 调用格式只罗列了其中的一种. 需另外说明的是:

    (1) unifit和normfit的格式与其它函数均不同, 此二者要求左边的输出变量必须将参数 或 分别列出.

    (2) binofit (x,n,alpha)根据试验成功的次数x和总的试验次数n, 对 中的p进行最大似然估计,

    同时返回置信度为100(1-alpha)%的置信区间pci.

    【例2-1】(书P692.3) 使用一测量仪器对同一值进行了12次独立测量, 其结果为 (单位:

    mm)

    232.50, 232.48, 232.15, 232.52, 232.53, 232.30, 232.48, 232.05, 232.45, 232.60, 232.47, 232.30

    试用矩法估计测量的真值和方差 (设仪器无系统误差).

    ·编写命令文件exercise2_3.m:

    %P66_2.3 mu与sigma^2的矩估计

    x=[232.50, 232.48, 232.15, 232.52, 232.53, 232.30,...

    232.48, 232.05, 232.45, 232.60, 232.47, 232.30];

    mu_ju=mean(x)

    sigma2_ju=var(x,1)

    ·运行命令文件exercise2_3.m:

    >> exercise2_3

    mu_ju = 232.4025

    sigma2_ju

    = 0.0255

    【例2-2】(书P692.22) 随机地从一批零件中抽取16个, 测得长度 (单位: cm) 为:

    2.14, 2.10, 2.13, 2.15, 2.13, 2.12, 2.13, 2.10,

    2.15, 2.12, 2.14, 2.10, 2.13, 2.11, 2.14, 2.11

    设零件长度的分布为正态的, 试求总体均值的90%的置信区间:

    (1)若

    (cm); (2) 若 未知.

    (1)·编写函数文件zestimate.m:

    %P69_2.22(1)sigma已知时mu的区间估计

    function muci=zestimate(x,sigma,alpha)

    n=length(x);

    xhat=mean(x);

    u_alpha=norminv(1-alpha/2,0,1);

    delta1=sigma/sqrt(n)*u_alpha;

    muci=[xhat-delta1,xhat+delta1];

    ·调用函数文件zestimate.m:

    >> x=[2.14, 2.10, 2.13, 2.15,

    2.13, 2.12, 2.13, 2.10, 2.15, 2.12, 2.14, 2.10, 2.13, 2.11, 2.14,

    2.11];

    >> sigma=0.01;

    >> alpha=0.1;

    >>

    muci=zestimate(x,sigma,alpha)

    muci = 2.1209 2.1291

    (2)·编写命令文件exercise2_22_2.m:

    %P69_2.22(1)sigma未知时mu的区间估计

    x=[2.14, 2.10, 2.13, 2.15, 2.13, 2.12, 2.13, 2.10, 2.15, 2.12,

    2.14, 2.10, 2.13, 2.11, 2.14, 2.11];

    alpha=0.1;

    [muhat,sigmahat,muci,sigmaci]= normfit(x,alpha);

    muci

    ·运行命令文件exercise2_22_2.m:

    >> exercise2_22_2

    muci = 2.1175 2.1325

    【例2-3】(书P66例2.31) 对一批产品, 欲通过抽样检查其合格率. 若产品不合格率在5%以下,

    则该批产品可出厂. 检验时要求结果具有0.95的置信水平. 今抽取产品100件, 发现不合格品有4件, 问这批产品能否出厂?

    >>

    [phat,pci]=binofit(4,100,0.05)

    phat = 0.0400

    pci = 0.0110 0.0993

    由于置信区间的上限超出了规定指标(不合格率在5%以下), 因此不能出厂.

    展开全文
  • 数理统计:参数估计

    千次阅读 2020-12-29 22:57:30
    learning why, thinking what, then forgetting how. 随着时间的流逝,知识总会被遗忘和...统计推断主要分为参数估计和假设检验,参数估计又分为估计和区间估计。 2.1 参数的估计 首先提出参数和参数的估计量的.

    learning why, thinking what, then forgetting how.

    随着时间的流逝,知识总会被遗忘和被沉淀,我们无法选择去遗忘那一部分,但是我们可以选择去沉淀那一部分

    教材为:《数理统计(孙海燕等)》


    第二章 参数估计

    在解决实际问题中,当确定了总体的分布族后,我们要从样本来推断总体的具体分布或感兴趣的总体特征数。例如,总体的数学期望方差等。统计推断主要分为参数估计假设检验,参数估计又分为点估计区间估计


    2.1 参数的点估计

    首先提出参数参数的估计量的概念。

    • 参数:任何与总体有关的待估计量都看成参数。它可以是决定总体分布的参数θ本身,也可以是θ的实函数。不局限于参数统计范围,总体数学期望和方差等特征数也看成参数。
    • 参数的估计量:用于估计参数或其实函数的实值统计量。其值称为估计值。

    参数估计的实质:构造合适的统计量,作为参数的实函数的估计

    常见的参数估计方法:

    • 替换原理法:
      1. 频率替换法
      2. 矩估计法
    • 极大似然估计法
    • EM 算法

    2.1.1 频率替换估计

    1. 根据样本已知的频率确定一个使用的概率
    2. 将概率表示成待估计量的函数。
    3. 将待估计量反解成概率的函数。
    4. 使用已知样本频率替换总体概率。

    频率替换法所获得的估计可能不是唯一的。需要评估那个较优。

    2.1.2 矩估计

    大数定律可知,若总体矩存在,则样本矩依概率几乎必然收敛于相应的总体矩。只要总体矩存在,就可以用相应的样本矩作为总体矩的合理估计

    1. 使用待求的参数的函数表示总体原点矩总体中心矩
    2. 将待求的参数反解为总体原点矩或总体中心距的函数。
    3. 使用已知的样本原点矩或样本中心距替换总体原点矩或总体中心距。

    无论总体服从何种分布,只要总体的二阶矩存在,则样本平均值和二阶中心距就分别是总体均值和方差的矩估计

    只有总体矩存在,且总体原点绝对矩存在的阶数大于待估计参数的维数时,才能使用矩估计法来求参数的估计。

    根据不同总体矩的选择,矩估计有不唯一性,尽量选择低阶矩来估计参数。

    因为样本矩与总体分布的具体表达式无关,因此当总体的分布形式已知时,矩估计法并没有充分利用总体分布形式所提供的有关参数的信息。建立在已知总体分布形式上的估计方法就是极大似然估计法

    2.1.3 极大似然估计

    极大似然估计的直观思想:若在一次试验中,某个试验结果发生,则一般认为试验条件对这个结果的发生有利,也就是说这个结果发生的机会最大

    极大似然估计的前提一定是要假设数据总体的分布,如果不知道数据分布,是无法使用极大似然估计的。

    1. 写出联合概率分布函数作为似然函数
    2. 对似然函数取对数,并整理;
    3. 求导数,令导数为 0,得到似然方程
    4. 解似然方程,得到的参数即为参数的极大似然估计

    若考虑的参数空间不同,则极大似然估计的值会有所不同。求极大似然估计时一定要顾及参数所属的范围

    如果似然函数的偏导数不存在,或者似然方程组不存在,就只能根据原始定义采用别的方法求极大似然估计。例如穷举法求极大似然估计。

    由因子分解定理得,极大似然估计值一定是充分统计量的函数,这是极大似然估计的优点。而矩估计则不具有这样的性质。

    扩展:EM 算法(Expectation-Maximization)

    求解似然方程组可以获得极大似然估计的显式解,但是在实际中常常会遇到似然方程组难以求解的情况,此时可以求似然估计的近似解数值解。常用的求解方法有(1)Newton 法;(2)Fisher 法;(3)EM 算法等。

    前提:EM 算法和极大似然估计的前提是一样的,都要假设数据总体的分布,如果不知道数据分布,是无法使用 EM 算法的。

    问题描述:有些问题中的参数分为隐含参数模型参数,且参数之间相互依赖,单个参数易求得,而直接求出所有参数十分困难。因此可以采用迭代的方法,随机初始化一个参数,之后每次迭代求出一个参数,最终会收敛到一个解。

    算法流程

    1. 随机初始化模型参数的初始值
    2. 迭代:
      • E 步:计算隐含参数的条件概率期望
      • M 步:计算模型参数的极大似然解
    3. 迭代 E-M 步骤直到算法收敛

    算法理解:EM 算法可以理解为坐标上升法,类似梯度下降法。梯度下降法的目的是最小化代价函数,坐标上升法的目的是最优化似然函数。如下图所示,为迭代优化的路径,因为优化的函数不能直接求导,因此无法直接使用梯度下降法(或许两部的梯度下降法会有效),E-M 算法每次固定一个变量对另外的变量求极值,逐步逼近极值。

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qAiY6g0v-1609253314429)(./img_statistics/em.jpg)]

    算法分析:E-M 算法可以保证收敛到一个稳定点,但是却不能保证收敛到全局的极大值点,因此它是局部最优的算法。当然,如果我们的优化目标是凸的,则 E-M 算法可以保证收敛到全局极大值,这点和梯度下降法这样的迭代算法相同。

    更详细的步骤参见EM 算法详解:人人都懂 EM 算法


    2.2 估计量的评优准则

    对同一参数用不同估计方法可能得到不同的估计,即使使用相同的估计方法也可能得到不同的估计,甚至任何统计量都可以作为参数的估计。需要讨论估计量的优良性,以下主要讨论均方误差准则无偏性准则,以及满足最小均方误差和无偏的一致最小方差无偏估计

    2.2.1 均方误差准则

    评估估计好坏的一个直观标准就是绝对误差 ∣ T ( x ) − q ( θ ) ∣ | T(x) - q(θ)| T(x)q(θ。使用数学期望消除随机因素产生的影响,使用平方以获得良好的数学性质,使用均方误差(MSE)作为评估估计好坏的标准:

    M S E θ ( T ( X ) ) = E θ [ T ( x ) − q ( θ ) ] 2 = V a r θ ( T ( X ) ) + ( E θ [ T ( x ) − q ( θ ) ] ) 2 MSE_θ( T(X) ) = E_θ [ T(x) - q(θ) ]^2 = Var_θ( T(X) ) + (E_θ [ T(x) - q(θ) ])^2 MSEθ(T(X))=Eθ[T(x)q(θ)]2=Varθ(T(X))+(Eθ[T(x)q(θ)])2

    均方误差等于方差加偏差

    总体方差的两个估计量:样本方差和样本二阶中心距。样本方差无偏,但是均方误差较大;样本二阶中心距均方误差较小,但是有偏。

    对于待估计参数,均方误差最小的估计是不存在的,因为均方误差最小总是无限趋向于完全准确估计。即所考虑的估计类的范围太大了,因此可以提出额外的合理要求,在缩小的估计类范围内寻求最优估计。最常见的合理要求就是无偏性准则

    2.2.2 无偏估计

    无偏估计即偏差为零,其均方误差等于方差

    E θ [ T ( x ) ] = q ( θ ) E_θ [ T(x) ] = q(θ) Eθ[T(x)]=q(θ)

    E θ ( T ( X ) ) = V a r θ ( T ( X ) ) E_θ( T(X) ) = Var_θ( T(X) ) Eθ(T(X))=Varθ(T(X))

    无偏估计的性质

    1. 无偏估计要求对于所有的参数 θ,估计都是无偏的。
    2. 无偏估计可能不存在
    3. 若无偏估计存在,则一般是不唯一的。
    4. 在均方误差准则下,无偏估计不一定是好的估计。无偏但是方差很大
    5. 函数变换下,无偏性可能消失。

    2.2.3 一致最小方差无偏估计

    一致最小方差无偏估计(UMVUE):在无偏估计中,方差最小的估计。

    建立在充分统计量基础上,寻找一致最小方差无偏估计的方法:利用无偏估计量对充分统计量取条件期望,可以降低无偏估计量的方差

    提出完全统计量的概念, E θ ( g ( T ) ) = 0 E_θ(g(T)) = 0 Eθ(g(T))=0,则 T 为完全统计量。

    完全充分统计量

    p ( x 1 , x 2 , … … , x n ; θ ) = c ( θ ) h ( x 1 , x 2 , … … , x n ) e x p { ∑ k = 1 m w k ( θ ) T k ( x 1 , x 2 , … … , x n ) ) } p(x_1, x_2, ……, x_n; θ) = c(θ)h(x_1, x_2, ……, x_n) exp\{ \sum^m_{k=1} w_k(θ)T_k(x_1, x_2, ……, x_n)) \} p(x1,x2,,xn;θ)=c(θ)h(x1,x2,,xn)exp{k=1mwk(θ)Tk(x1,x2,,xn))}

    如果 w(θ) 值域包含内点,则统计量 T 是完全充分的。

    Lehmann-Scheffe 定理提供了两种寻求可估函数 q(θ) 的一致最小方差无偏估计 T(x) 的方法,前提条件是必须知道完全充分统计量 S(x):

    1. q(θ) 的无偏估计 φ(x) 关于 S(x) 的条件数学期望 T ( x ) = E θ ( φ ( x ) ∣ S ( x ) ) T(x) = E_θ(φ(x) | S(x)) T(x)=Eθ(φ(x)S(x)),即为一致最小方差无偏估计。
    2. 使用 S(x) 的函数 h(S(x)) 将完全充分统计量无偏化,就可以得到一致最小方差无偏估计。

    实际的求解一致最小方差无偏估计的方法:

    1. 求解完全充分统计量,分解后w(θ) 值域包含内点
    2. 求解完全充分统计量是否无偏
    3. 构造函数使其无偏化

    2.3 信息不等式

    无偏估计方差的下界是多少?一致最小方差无偏估计的方差是否可以达到方差的下界?提出Fisher 信息量信息不等式

    Fisher 信息量为

    I ( θ ) = ( E θ [ ∂ ∂ θ l n p ( x ; θ ) ] ) 2 = − E θ [ ∂ 2 ∂ θ 2 l n p ( x ; θ ) ] I(θ) = (E_θ[\frac {\partial} {\partial θ} lnp(x;θ)])^2 = - E_θ[\frac {\partial^2} {\partial θ^2} lnp(x;θ)] I(θ)=(Eθ[θlnp(x;θ)])2=Eθ[θ22lnp(x;θ)]

    n I ( θ ) = I n ( θ ) nI(θ) = I_n(θ) nI(θ)=In(θ),而信息不等式给出了方差的下界

    V a r θ ( q ^ ) ≥ [ q ′ ( θ ) ] 2 n I ( θ ) Var_θ(\hat q) ≥ \frac {[q^{'}(θ)]^2} {nI(θ)} Varθ(q^)nI(θ)[q(θ)]2

    若信息不等式取到等号,则达到了方差的下界,为有效估计,否则可以计算有效率 [ q ′ ( θ ) ] 2 n I ( θ ) / V a r θ ( q ^ ) \frac {[q^{'}(θ)]^2} {nI(θ)} / Var_θ(\hat q) nI(θ)[q(θ)]2/Varθ(q^)

    一致最小方差无偏估计不一定是有效的,但是有效估计一定是一致最小方差无偏估计


    考试题型

    1. 均方误差
    2. 频率替换估计
    3. 矩估计
    4. 极大似然估计
    5. 一致最小方差无偏估计
    6. 凑无偏估计
    7. Fisher 信息量
    8. 判断一致最小方差无偏估计是否有效

    历年考题

    2019

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    2016

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    2015

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    2014

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    展开全文
  • 最大似然参数估计的基本原理 前导知识:【概率密度函数估计的引入】 在最大似然估计中,我们做以下基本假设: 我们把要估计的参数记作θ\thetaθ,它是确定但未知的量(多个参数时向量)。 每类的样本集记作Xi,i=1,...
  • 1、1,参数估计MATLAB实现,估计,区间估计,2,估计,区间估计,矩估计,最大似然估计,参数估计,估计,参数估计主要内容,3,估计,Matlab统计工具箱给出了常用概率分布中参数的估计 (采用最大似然估计法) 与区间估计...
  • 参数估计之矩估计

    2021-01-15 09:12:07
    介绍参数估计中点估计的常用方法:矩估计法。并通过例题加深理解
  • 已经知道观测数据符合某些模型的概率下,我们可以利用参数估计方法来确定这些参数值,然后得出概率密度模型。这个过程中用到了一个条件,就是概率分布符合某些模型这个事实。在这个事实上进行加工。 ...
  • · 论文与报告 · 《战术导弹控制技术》 2007年 No.1(总56期 ) 基于遗传算法的威布尔分布的参数估计及 MATLAB实现 方华元 胡昌华 李 瑛 第二炮兵工程学院 302教研室,陕西西安 710025 摘 要 基于极大似然法的基本...
  • 摘 要 文章从概率、统计这两大基本概念入手,通过构造一个基本问题,利用四种参数估计方法及其思路分别对问题进行分析与解答,从而厘清四种方法各自的特征以及之间的差异之处。 关键词 极大似然估计 最大后验估计 ...
  • 统计狗来总结一下前面各个楼主的回答,先甩答案:logistic回归模型的参数估计问题,是可以用最小二乘方法的思想进行求解的,但和经典的(或者说用在经典线性回归的参数估计问题)最小二乘法不同,是用的是“迭代重加权...
  • 点估计和区间估计——统计学概念

    千次阅读 2021-01-24 15:33:15
    点估计和区间估计是通过样本统计量估计总体参数的两种方法点估计是在抽样推断中不考虑抽样误差,直接以抽样指标代替全体指标的一种推断方法。因为个别样本的抽样指标不等于全体指标,所以,用抽样指标直接代替...
  • 通过本次实验实现机器学习中常用参数估计和非参数估计方法 使用编程加深对最大似然估计、最大后验概率估计等方法的认识 建立数据集学习使用python对多元数据进行操作 二、代码框架 本次实验使用的函数框架...
  • 估计的MATLAB实现授课Tag内容描述:1、1,参数估计MATLAB实现,数学实验,估计,区间估计,2,估计,区间估计,矩估计,最大似然估计,参数估计,估计,参数估计主要内容,3,估计,Matlab统计工具箱给出了常用概率分布中...
  • 点击上方“3D视觉工坊”,选择“星标”干货第一时间送达在三维重建中,标定是很重要的一环,而在所有标定中,单目相机标定是最基础的,对于新手而言,跑通了一个相机标定代码,得到了一堆参数结果,...
  • 参数估计问题 在第一课中,提到使用样本估计模型(比如高斯分布)的参数,并说明了常用的极大似然估计法。假设现在有一枚硬币,但它质地不均匀,导致抛硬币的正面朝上与反面朝上的概率不相等,现在还是想研究正面...
  • 核密度估计,或Parzen窗,是非参数估计概率密度的一种。比如机器学习中还有K近邻法也是非参估计的一种,不过K近邻通常是用来判别样本类别的,就是把样本空间每个划分为与其最接近的K个训练抽样中,占比最高的类别...
  • 为随机信号建立参数模型是研究随机信号的一种基本方法,其含义是认为随机信号是由白噪激励某一确定系统的响应。只要白噪的参数确定了,研究随机信号就可以转化成研究产生随机信号的系统。 经典信号建模法前面已经...
  • 文章目录一 参数估计二 最大似然估计2.1 参数分量2.2 基本原理2.3 高斯情况2.3.1 协方差矩阵Σ\SigmaΣ已知,而均值μ\muμ未知2.3.2 协方差矩阵Σ\SigmaΣ和均值μ\muμ都未知三 贝叶斯估计3.1 基本原理3.2 高斯...
  • 在机器学习的参数估计(学习)中,常见三种更新方法:梯度下降,极大似然,EM算法;它们的本质目的均是让模型更好地拟合目标分布;在学习三种算法的联系前,需要先了解牛顿法; 牛顿法迭代 先从经典的牛顿法开始,...
  • 基于 MATLAB 的威布尔分布参数估计的图形界面设计 唐军军, 姜年朝, 宋军, 徐艳楠, 刘达 (总参第六十研究所, 江苏 南京 210016) 摘 要: 基于 MATLAB 平台, 设计了一款集最小二乘法、 相关系数法及超概率权重法...
  • 关注新蜂数字金融,ID:gh_c5ca7eb11df4这是新蜂数字金融的第145篇原创首发文章信用评分卡模型,作为金融业一项重要的风险控制手段,在行业中有着广泛的...01. 什么是评分卡模型信用评分卡模型一种常用的风险控制模...
  • 文章目录点估计估计量的评选标准区间估计 ...2,···x_nx1​,x2​,⋅⋅⋅xn​,代入θ^\hat{θ}θ^的表达式中所得到的具体数值称为θ的估计值,这样的方法称为参数点估计。 矩估计 用样本矩去估计相应总体
  • 1、什么是参数估计???? 参数估计:本质是对未知参数作出估计。又分为估计和区间估计两种类型。 设总体 X的分布函数的形式已知,但它的一个或多个参数未知,借助于总体的一个样本来估计总体未知参数的值的...
  • 问题描述 1. 最大似然估计 2. 贝叶斯参数估计 3. 顺序(sequential)贝叶斯学习
  • 本文将涉及到数理统计的最后一个模块——参数估计,后续将更新的模块是多项式计算、数据插值和曲线拟合。在讲述使用matlab来实现参数估计之前,有必要去了解一些基本原理。1.离散型随机变量的极大似然估计法:(1) ...
  • 描述性统计、参数估计和假设检验

    万次阅读 多人点赞 2021-04-03 01:15:43
    常用的分位数有四分位数与百分位数。 以四分位数为例,通过3个分位,将数据划分为4个区间(百分位数可根据四分位数对比理解)。 第1个分位称为1/4分位(下四分位)数据中1/4的数据小于该分位值。 第2个分位称为2/4分...
  • 原文:Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods摘要:基于视觉的单目人体姿态估计是计算...
  • 第七章 参数估计 7.1 参数估计的基本原理 7.1.1 估计量与估计值 7.1.2 估计和区间估计 估计 区间估计 7.1.3 评价估计量的标准 无偏性 有效性 一致性 7.2 一个总体参数的区间估计 7.2.1 总体均值的区间估计...
  • 前面,我们讨论了参数点估计。它是用样本算得的一个值去估计未知参数。但是,点估计值仅仅是未知参数的一个近似值,它没有反映出这个近似值的误差范围,使用起来把握不大。区间估计正好弥补了点估计的这个缺陷 。 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 106,016
精华内容 42,406
关键字:

参数点估计的常用方法

友情链接: 5路ADC采用成功.zip