精华内容
下载资源
问答
  • [转载]参数估计(matlab)

    2021-04-20 14:00:41
    参数估计包含两种常用方式: 点估计和区间估计.Matlab统计工具箱给出了常用概率分布中参数的点估计 (采用最大似然估计法) 与区间估计,另外还提供了部分分布的对数似然函数的计算功能.由于点估计中的矩估计法的实质是...

    参数估计包含两种常用方式: 点估计和区间估计.

    Matlab统计工具箱给出了常用概率分布中参数的点估计 (采用最大似然估计法) 与区间估计,

    另外还提供了部分分布的对数似然函数的计算功能.

    由于点估计中的矩估计法的实质是求与未知参数相应的样本的各阶矩, 统计工具箱提供了常用的求矩函数(见第一章),

    读者可根据需要选择合适的矩函数进行点估计.

    表2.1 统计工具箱中的参数估计函数 (fit / like)

    函数名称

    函数说明

    调用格式

    unifit

    均匀分布数据的参数点估计和区间估计

    [ahat,bhat,ACI,BCI] = unifit(X,alpha)

    expfit

    指数分布数据的参数点估计和区间估计

    [muhat,muci] = expfit(x,alpha)

    normfit

    正态分布数据的参数点估计和区间估计

    [muhat,sigmahat,muci,sigmaci]

    = normfit(X,alpha)

    binofit

    二项分布数据的参数点估计和区间估计

    [phat,pci] = binofit(x,n,alpha)

    poissfit

    泊松分布数据的参数点估计和区间估计

    [lambdahat,lambdaci]

    = poissfit(X,alpha)

    说明: 调用格式只罗列了其中的一种. 需另外说明的是:

    (1) unifit和normfit的格式与其它函数均不同, 此二者要求左边的输出变量必须将参数 或 分别列出.

    (2) binofit (x,n,alpha)根据试验成功的次数x和总的试验次数n, 对 中的p进行最大似然估计,

    同时返回置信度为100(1-alpha)%的置信区间pci.

    【例2-1】(书P692.3) 使用一测量仪器对同一值进行了12次独立测量, 其结果为 (单位:

    mm)

    232.50, 232.48, 232.15, 232.52, 232.53, 232.30, 232.48, 232.05, 232.45, 232.60, 232.47, 232.30

    试用矩法估计测量的真值和方差 (设仪器无系统误差).

    ·编写命令文件exercise2_3.m:

    %P66_2.3 mu与sigma^2的矩估计

    x=[232.50, 232.48, 232.15, 232.52, 232.53, 232.30,...

    232.48, 232.05, 232.45, 232.60, 232.47, 232.30];

    mu_ju=mean(x)

    sigma2_ju=var(x,1)

    ·运行命令文件exercise2_3.m:

    >> exercise2_3

    mu_ju = 232.4025

    sigma2_ju

    = 0.0255

    【例2-2】(书P692.22) 随机地从一批零件中抽取16个, 测得长度 (单位: cm) 为:

    2.14, 2.10, 2.13, 2.15, 2.13, 2.12, 2.13, 2.10,

    2.15, 2.12, 2.14, 2.10, 2.13, 2.11, 2.14, 2.11

    设零件长度的分布为正态的, 试求总体均值的90%的置信区间:

    (1)若

    (cm); (2) 若 未知.

    (1)·编写函数文件zestimate.m:

    %P69_2.22(1)sigma已知时mu的区间估计

    function muci=zestimate(x,sigma,alpha)

    n=length(x);

    xhat=mean(x);

    u_alpha=norminv(1-alpha/2,0,1);

    delta1=sigma/sqrt(n)*u_alpha;

    muci=[xhat-delta1,xhat+delta1];

    ·调用函数文件zestimate.m:

    >> x=[2.14, 2.10, 2.13, 2.15,

    2.13, 2.12, 2.13, 2.10, 2.15, 2.12, 2.14, 2.10, 2.13, 2.11, 2.14,

    2.11];

    >> sigma=0.01;

    >> alpha=0.1;

    >>

    muci=zestimate(x,sigma,alpha)

    muci = 2.1209 2.1291

    (2)·编写命令文件exercise2_22_2.m:

    %P69_2.22(1)sigma未知时mu的区间估计

    x=[2.14, 2.10, 2.13, 2.15, 2.13, 2.12, 2.13, 2.10, 2.15, 2.12,

    2.14, 2.10, 2.13, 2.11, 2.14, 2.11];

    alpha=0.1;

    [muhat,sigmahat,muci,sigmaci]= normfit(x,alpha);

    muci

    ·运行命令文件exercise2_22_2.m:

    >> exercise2_22_2

    muci = 2.1175 2.1325

    【例2-3】(书P66例2.31) 对一批产品, 欲通过抽样检查其合格率. 若产品不合格率在5%以下,

    则该批产品可出厂. 检验时要求结果具有0.95的置信水平. 今抽取产品100件, 发现不合格品有4件, 问这批产品能否出厂?

    >>

    [phat,pci]=binofit(4,100,0.05)

    phat = 0.0400

    pci = 0.0110 0.0993

    由于置信区间的上限超出了规定指标(不合格率在5%以下), 因此不能出厂.

    展开全文
  • 参数估计

    千次阅读 2020-12-25 22:24:51
    出发点:我们以前在参数估计中都是先假设样本点的分布有一个概率密度函数形式,比如高斯分布,然后从样本中估计参数。但是,有可能根本不是,所以也有非参数法研究的必要,比如我们中学就学过频率分布直方图,但是...

    引入

    出发点:我们以前在参数估计中都是先假设样本点的分布有一个概率密度函数形式,比如高斯分布,然后从样本中估计参数。但是,有可能样本点的分布根本不是高斯分布,那么我们的结果就错了。

    本文提出的非参数法讲究不需要先假设样本服从一个什么分布,而是直接从样本中统计得到,比如频率分布直方图。

    在这里插入图片描述
    这种情况下:我们要记录的是每一组的边界和每一组的数量,然后就能描述我们的样本分布。

    理论上,如果我们样本足够多,同时将频率分布直方图组距设置得特别小,组特别多,这就是在逼近样本点的真实概率密度函数。

    一般地,样本足够多的时候其可以表示出任意类型的分布!

    基础知识

    既然非参数法这么好,下面开始介绍基础建筑。
    在这里插入图片描述
    这个很好理解,R是指这个一定区域, p ( x ′ ) p(x^{'}) p(x)是概率密度函数。就有点像二维的情况。
    在这里插入图片描述
    所以上上幅图求的是样本落在R空间的概率。
    我们继续下一个知识点。
    在这里插入图片描述
    该区域等概率密度,那么不就可以算该区域的概率密度了嘛!
    在这里插入图片描述
    而这个由最前面的概念知道,这个是在样本落在空间R中的概率,我们假设R里面有k个样本,整个空间有n个样本,那么样本落在空间R中的概率就是 k n \frac{k}{n} nk
    从而求得空间R中的概率密度函数为

    在这里插入图片描述
    我们要估计样本的概率密度函数,但是这个V如何选择呢?这就有点像你要画个频率分布直方图,组距选择多大呢?显然,我们都认为:如果样本数无穷多个,那么我们空间V就选小点,这样就可以表示得更加精确。就像下面这样:
    在这里插入图片描述
    因此:
    在这里插入图片描述
    解释:上面的 p ( x ) p(x) p(x)表示的是真实概率密度函数,我们希望可以逼近它。
    上面都是理论,下面探讨细节。
    在这里插入图片描述
    上面的大家好好看一下就行,没懂也没关系,后面会展开介绍。

    Parzen窗估计

    在这里插入图片描述
    解释:这里拓展到了高维的情况,但是低维也适用。样本空间是d维。
    然后定义了一个窗函数,即在落在窗口内则函数值为1,否则为0。这个窗口在一维是一个关于原点对称的线段,长度为1;在二维是一个关于原点中心对称的正方形,面积为1;在三维是一个关于原点中心对称的正方体,体积为1。
    在这里插入图片描述
    注:上面 h n h_n hn是边长。
    我们现在用上窗函数了,即对于任意一个样本点 x i x_i xi,只要满足向量 x − x i x-x_i xxi的某一个维度 < = h n / 2 <=h_n/2 <=hn/2,那么值为1(相当于计数器加1),这不正是我们要求的该区域内样本数吗?
    然后代入到之前的公式里。
    在这里插入图片描述
    我们发现,我们上面用的窗函数是一个超立方体内为1,我们希望推广,找到一些其他的窗函数,但要满足
    在这里插入图片描述
    即:
    在这里插入图片描述
    为什么窗函数需要满足积分为1?其实主要是因为概率密度函数积分要为1,所以推得窗函数也要。
    在这里插入图片描述
    在这里插入图片描述

    除了之前的方窗函数,我们也经常选用如下形式的高斯窗函数。
    在这里插入图片描述
    然后用这个来估计样本概率密度。(我们先假设1维的情况下)
    在这里插入图片描述
    例子:下面展示的是只有一个样本点,我们使用高斯窗函数,选用不同的窗口大小得到的估计结果。
    在这里插入图片描述
    请注意,这里的纵轴没有标刻度,实际上 h = 0.1 h=0.1 h=0.1的时候函数是最高的,但是很窄,方差小。即:
    在这里插入图片描述

    例子:
    假设有一批样本点,我们选定一个 h n h_n hn,有如下结果。
    在这里插入图片描述
    解释:
    显然,估计的方法是:对每一个样本点的头上套一个窗(红色),然后叠加起来求平均,就是最终的样本概率密度了(蓝色)。(上面展示的图是直接相加,没有求平均,为了好看而已)
    显然上面的窗就是下面这个式子(对比 p n ( x ) p_n(x) pn(x)的表达式即可):
    在这里插入图片描述
    注意到,这个式子积分也是为1的!自己可以推一下。
    我们知道:直观上样本数量无穷大的时候,然后我们把窗口设得比较小的时候,可以拟合真实的概率密度函数,下面也有一个理论证明:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    上述求和除以n没有了是因为:
    在这里插入图片描述
    得到上述的积分等式之后,我们有结论:
    在这里插入图片描述

    我们继续举个分类的例子
    在这里插入图片描述
    使用parzen窗估计做法很简单,就是对每一类拟合一个样本概率密度函数,然后得到分界面如上所示。区别在于,在拟合样本概率密度的时候,选择窗口的大小不同会导致上面的不同,选择小的窗口可以带来过拟合。
    在这里插入图片描述
    改进办法:根据局部密度采用自适应窗口大小。
    在这里插入图片描述

    K近邻估计

    如何计算样本概率密度?
    在这里插入图片描述
    个人觉得V也是一个与k有关的数,k越大,V也越大。
    那么如何选择k呢?
    在这里插入图片描述
    例子:
    在这里插入图片描述
    有人难以理解,为什么是这样,我们可以假设k=1,那么变成最近邻,在任意样本点 x i x_i xi上面,其概率密度函数为 p n ( x i ) = 1 / n 0 = ∞ p_n(x_i)=\frac{1/n}{0}=\infty pn(xi)=01/n=。即k越小越突兀。为什么 V n V_n Vn为0?因为对于 x i x_i xi而言,最近的样本点是 x i x_i xi,所以,在一维平面上,有 V n = x i − x i = 0 V_n=x_i-x_i=0 Vn=xixi=0。即 V n V_n Vn是指最近的那个样本点到 x x x的距离的两倍(在一维中是距离或叫线段长度)。
    一般地,一维中有:
    在这里插入图片描述
    x k N N x_{kNN} xkNN是指离 x x x第k个最近的点。
    拓展,在二维中 V n V_n Vn是圆的面积,三维中是球体的体积。
    使用KNN来贝叶斯分类:
    在这里插入图片描述
    非常精彩,红色公式中下面是 p ( x ) p(x) p(x),上面是 p ( x , w i ) p(x,w_i) p(x,wi)联合概率密度。而且,这和我们的投票方法是一样的, k i k_i ki中谁大就分给谁。
    当然还有使用KNN分类的办法,上面不是唯一的。
    在这里插入图片描述
    原因很简单,因为 n n n趋于无穷的时候, p ( x ) p(x) p(x)估计准确,所以趋近于贝叶斯错误率。
    下面介绍一个特殊情况:最近邻分类。
    在这里插入图片描述

    K近邻的快速计算

    先计算部分欧式距离,总共d维,先计算前r维的距离。

    在这里插入图片描述
    假设:我们是快速计算最近邻。
    那么快速计算的方法是:先计算x对第一个样本的全部距离,设为最小值,然后计算与第二个样本的部分距离,一旦超过最小值,后面的部分距离就不用算了。
    再介绍一个思路
    在这里插入图片描述
    即先将样本预处理,将圆形黑色删除,因为删除不会导致误判!

    还有一些其他的算法,比如人工智能中很多非常重要的搜索算法,这里可能用得上!总之,应该意识到,快速计算非常重要,否则如果100万个点,k近邻很慢。

    Parzen窗方法的快速计算

    在这里插入图片描述
    在这里插入图片描述
    其中:
    在这里插入图片描述
    这样,预测x的类别的时候就方便了。 b j b_j bj早就算好了,算个 p n ( x ) p_n(x) pn(x)就行。
    例子:
    在这里插入图片描述
    展开到第2项。
    在这里插入图片描述
    从而提前计算好 b 1 , b 2 , b 0 b_1,b_2,b_0 b1,b2,b0即可。

    总结

    非参数估计和参数估计有联系但有很大区别,两者都非常重要。前者假定有一个概率密度函数形式,后者可以处理具有任意概率分布形式的数据。
    讨论:非参数估计中,在我们对所有训练样本非参数估计后,按理可以得到一个概率密度函数,一般这个是一个具有非常多参数的函数,我们可以保存起来,然后丢弃所有样本,就像在参数估计一样。但是也要注意到,正文中两个快速计算方法都是基于局部空间临时计算概率密度,即所有样本都还要保留,可见这是另一种做法。

    展开全文
  • 数理统计:参数估计

    千次阅读 2020-12-29 22:57:30
    learning why, thinking what, then forgetting how. 随着时间的流逝,知识总会被遗忘和...统计推断主要分为参数估计和假设检验,参数估计又分为点估计和区间估计。 2.1 参数的点估计 首先提出参数和参数的估计量的.

    learning why, thinking what, then forgetting how.

    随着时间的流逝,知识总会被遗忘和被沉淀,我们无法选择去遗忘那一部分,但是我们可以选择去沉淀那一部分

    教材为:《数理统计(孙海燕等)》


    第二章 参数估计

    在解决实际问题中,当确定了总体的分布族后,我们要从样本来推断总体的具体分布或感兴趣的总体特征数。例如,总体的数学期望方差等。统计推断主要分为参数估计假设检验,参数估计又分为点估计区间估计


    2.1 参数的点估计

    首先提出参数参数的估计量的概念。

    • 参数:任何与总体有关的待估计量都看成参数。它可以是决定总体分布的参数θ本身,也可以是θ的实函数。不局限于参数统计范围,总体数学期望和方差等特征数也看成参数。
    • 参数的估计量:用于估计参数或其实函数的实值统计量。其值称为估计值。

    参数估计的实质:构造合适的统计量,作为参数的实函数的估计

    常见的参数估计方法:

    • 替换原理法:
      1. 频率替换法
      2. 矩估计法
    • 极大似然估计法
    • EM 算法

    2.1.1 频率替换估计

    1. 根据样本已知的频率确定一个使用的概率
    2. 将概率表示成待估计量的函数。
    3. 将待估计量反解成概率的函数。
    4. 使用已知样本频率替换总体概率。

    频率替换法所获得的估计可能不是唯一的。需要评估那个较优。

    2.1.2 矩估计

    大数定律可知,若总体矩存在,则样本矩依概率几乎必然收敛于相应的总体矩。只要总体矩存在,就可以用相应的样本矩作为总体矩的合理估计

    1. 使用待求的参数的函数表示总体原点矩总体中心矩
    2. 将待求的参数反解为总体原点矩或总体中心距的函数。
    3. 使用已知的样本原点矩或样本中心距替换总体原点矩或总体中心距。

    无论总体服从何种分布,只要总体的二阶矩存在,则样本平均值和二阶中心距就分别是总体均值和方差的矩估计

    只有总体矩存在,且总体原点绝对矩存在的阶数大于待估计参数的维数时,才能使用矩估计法来求参数的估计。

    根据不同总体矩的选择,矩估计有不唯一性,尽量选择低阶矩来估计参数。

    因为样本矩与总体分布的具体表达式无关,因此当总体的分布形式已知时,矩估计法并没有充分利用总体分布形式所提供的有关参数的信息。建立在已知总体分布形式上的估计方法就是极大似然估计法

    2.1.3 极大似然估计

    极大似然估计的直观思想:若在一次试验中,某个试验结果发生,则一般认为试验条件对这个结果的发生有利,也就是说这个结果发生的机会最大

    极大似然估计的前提一定是要假设数据总体的分布,如果不知道数据分布,是无法使用极大似然估计的。

    1. 写出联合概率分布函数作为似然函数
    2. 对似然函数取对数,并整理;
    3. 求导数,令导数为 0,得到似然方程
    4. 解似然方程,得到的参数即为参数的极大似然估计

    若考虑的参数空间不同,则极大似然估计的值会有所不同。求极大似然估计时一定要顾及参数所属的范围

    如果似然函数的偏导数不存在,或者似然方程组不存在,就只能根据原始定义采用别的方法求极大似然估计。例如穷举法求极大似然估计。

    由因子分解定理得,极大似然估计值一定是充分统计量的函数,这是极大似然估计的优点。而矩估计则不具有这样的性质。

    扩展:EM 算法(Expectation-Maximization)

    求解似然方程组可以获得极大似然估计的显式解,但是在实际中常常会遇到似然方程组难以求解的情况,此时可以求似然估计的近似解数值解。常用的求解方法有(1)Newton 法;(2)Fisher 法;(3)EM 算法等。

    前提:EM 算法和极大似然估计的前提是一样的,都要假设数据总体的分布,如果不知道数据分布,是无法使用 EM 算法的。

    问题描述:有些问题中的参数分为隐含参数模型参数,且参数之间相互依赖,单个参数易求得,而直接求出所有参数十分困难。因此可以采用迭代的方法,随机初始化一个参数,之后每次迭代求出一个参数,最终会收敛到一个解。

    算法流程

    1. 随机初始化模型参数的初始值
    2. 迭代:
      • E 步:计算隐含参数的条件概率期望
      • M 步:计算模型参数的极大似然解
    3. 迭代 E-M 步骤直到算法收敛

    算法理解:EM 算法可以理解为坐标上升法,类似梯度下降法。梯度下降法的目的是最小化代价函数,坐标上升法的目的是最优化似然函数。如下图所示,为迭代优化的路径,因为优化的函数不能直接求导,因此无法直接使用梯度下降法(或许两部的梯度下降法会有效),E-M 算法每次固定一个变量对另外的变量求极值,逐步逼近极值。

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qAiY6g0v-1609253314429)(./img_statistics/em.jpg)]

    算法分析:E-M 算法可以保证收敛到一个稳定点,但是却不能保证收敛到全局的极大值点,因此它是局部最优的算法。当然,如果我们的优化目标是凸的,则 E-M 算法可以保证收敛到全局极大值,这点和梯度下降法这样的迭代算法相同。

    更详细的步骤参见EM 算法详解:人人都懂 EM 算法


    2.2 估计量的评优准则

    对同一参数用不同估计方法可能得到不同的估计,即使使用相同的估计方法也可能得到不同的估计,甚至任何统计量都可以作为参数的估计。需要讨论估计量的优良性,以下主要讨论均方误差准则无偏性准则,以及满足最小均方误差和无偏的一致最小方差无偏估计

    2.2.1 均方误差准则

    评估估计好坏的一个直观标准就是绝对误差 ∣ T ( x ) − q ( θ ) ∣ | T(x) - q(θ)| T(x)q(θ。使用数学期望消除随机因素产生的影响,使用平方以获得良好的数学性质,使用均方误差(MSE)作为评估估计好坏的标准:

    M S E θ ( T ( X ) ) = E θ [ T ( x ) − q ( θ ) ] 2 = V a r θ ( T ( X ) ) + ( E θ [ T ( x ) − q ( θ ) ] ) 2 MSE_θ( T(X) ) = E_θ [ T(x) - q(θ) ]^2 = Var_θ( T(X) ) + (E_θ [ T(x) - q(θ) ])^2 MSEθ(T(X))=Eθ[T(x)q(θ)]2=Varθ(T(X))+(Eθ[T(x)q(θ)])2

    均方误差等于方差加偏差

    总体方差的两个估计量:样本方差和样本二阶中心距。样本方差无偏,但是均方误差较大;样本二阶中心距均方误差较小,但是有偏。

    对于待估计参数,均方误差最小的估计是不存在的,因为均方误差最小总是无限趋向于完全准确估计。即所考虑的估计类的范围太大了,因此可以提出额外的合理要求,在缩小的估计类范围内寻求最优估计。最常见的合理要求就是无偏性准则

    2.2.2 无偏估计

    无偏估计即偏差为零,其均方误差等于方差

    E θ [ T ( x ) ] = q ( θ ) E_θ [ T(x) ] = q(θ) Eθ[T(x)]=q(θ)

    E θ ( T ( X ) ) = V a r θ ( T ( X ) ) E_θ( T(X) ) = Var_θ( T(X) ) Eθ(T(X))=Varθ(T(X))

    无偏估计的性质

    1. 无偏估计要求对于所有的参数 θ,估计都是无偏的。
    2. 无偏估计可能不存在
    3. 若无偏估计存在,则一般是不唯一的。
    4. 在均方误差准则下,无偏估计不一定是好的估计。无偏但是方差很大
    5. 函数变换下,无偏性可能消失。

    2.2.3 一致最小方差无偏估计

    一致最小方差无偏估计(UMVUE):在无偏估计中,方差最小的估计。

    建立在充分统计量基础上,寻找一致最小方差无偏估计的方法:利用无偏估计量对充分统计量取条件期望,可以降低无偏估计量的方差

    提出完全统计量的概念, E θ ( g ( T ) ) = 0 E_θ(g(T)) = 0 Eθ(g(T))=0,则 T 为完全统计量。

    完全充分统计量

    p ( x 1 , x 2 , … … , x n ; θ ) = c ( θ ) h ( x 1 , x 2 , … … , x n ) e x p { ∑ k = 1 m w k ( θ ) T k ( x 1 , x 2 , … … , x n ) ) } p(x_1, x_2, ……, x_n; θ) = c(θ)h(x_1, x_2, ……, x_n) exp\{ \sum^m_{k=1} w_k(θ)T_k(x_1, x_2, ……, x_n)) \} p(x1,x2,,xn;θ)=c(θ)h(x1,x2,,xn)exp{k=1mwk(θ)Tk(x1,x2,,xn))}

    如果 w(θ) 值域包含内点,则统计量 T 是完全充分的。

    Lehmann-Scheffe 定理提供了两种寻求可估函数 q(θ) 的一致最小方差无偏估计 T(x) 的方法,前提条件是必须知道完全充分统计量 S(x):

    1. q(θ) 的无偏估计 φ(x) 关于 S(x) 的条件数学期望 T ( x ) = E θ ( φ ( x ) ∣ S ( x ) ) T(x) = E_θ(φ(x) | S(x)) T(x)=Eθ(φ(x)S(x)),即为一致最小方差无偏估计。
    2. 使用 S(x) 的函数 h(S(x)) 将完全充分统计量无偏化,就可以得到一致最小方差无偏估计。

    实际的求解一致最小方差无偏估计的方法:

    1. 求解完全充分统计量,分解后w(θ) 值域包含内点
    2. 求解完全充分统计量是否无偏
    3. 构造函数使其无偏化

    2.3 信息不等式

    无偏估计方差的下界是多少?一致最小方差无偏估计的方差是否可以达到方差的下界?提出Fisher 信息量信息不等式

    Fisher 信息量为

    I ( θ ) = ( E θ [ ∂ ∂ θ l n p ( x ; θ ) ] ) 2 = − E θ [ ∂ 2 ∂ θ 2 l n p ( x ; θ ) ] I(θ) = (E_θ[\frac {\partial} {\partial θ} lnp(x;θ)])^2 = - E_θ[\frac {\partial^2} {\partial θ^2} lnp(x;θ)] I(θ)=(Eθ[θlnp(x;θ)])2=Eθ[θ22lnp(x;θ)]

    n I ( θ ) = I n ( θ ) nI(θ) = I_n(θ) nI(θ)=In(θ),而信息不等式给出了方差的下界

    V a r θ ( q ^ ) ≥ [ q ′ ( θ ) ] 2 n I ( θ ) Var_θ(\hat q) ≥ \frac {[q^{'}(θ)]^2} {nI(θ)} Varθ(q^)nI(θ)[q(θ)]2

    若信息不等式取到等号,则达到了方差的下界,为有效估计,否则可以计算有效率 [ q ′ ( θ ) ] 2 n I ( θ ) / V a r θ ( q ^ ) \frac {[q^{'}(θ)]^2} {nI(θ)} / Var_θ(\hat q) nI(θ)[q(θ)]2/Varθ(q^)

    一致最小方差无偏估计不一定是有效的,但是有效估计一定是一致最小方差无偏估计


    考试题型

    1. 均方误差
    2. 频率替换估计
    3. 矩估计
    4. 极大似然估计
    5. 一致最小方差无偏估计
    6. 凑无偏估计
    7. Fisher 信息量
    8. 判断一致最小方差无偏估计是否有效

    历年考题

    2019

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    2016

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    2015

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    2014

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    展开全文
  • 在机器学习的参数估计(学习)中,常见三更新方法:梯度下降,极大似然,EM算法;它们的本质目的均是让模型更好地拟合目标分布;在学习三算法的联系前,需要先了解牛顿法; 牛顿法迭代 先从经典的牛顿法开始,...


    在机器学习的参数估计(学习)中,常见三种更新方法:梯度下降,极大似然,EM算法;它们的本质目的均是让模型更好地拟合目标分布;在学习三种算法的联系前,需要先了解牛顿法;

    牛顿法迭代

    先从经典的牛顿法开始,给定一个复杂的非线性函数 f ( x ) f(x) f(x),希望获得其最小值;在高中的数学课上,我们会假设其是光滑的,那么最小值应属于极小值点,极小值处满足 f ′ ( x ) = 0 f'(x)=0 f(x)=0,此时,求解方程的根就能获得最小值。

    进入大学后,认识到了泰勒公式,基于泰勒公式,我可以在具体点处(比如 x n x_{n} xn)用"切抛物线"近似非线性函数:
    f ( x ) ≈ g ( x ) = f ( x n ) + f ′ ( x n ) ( x − x n ) + 1 2 f ′ ′ ( x n ) ( x − x n ) 2 f(x)\approx g(x)=f(x_{n})+f'(x_{n})(x-x_{n})+\frac{1}{2}f''(x_{n})(x-x_{n})^{2} f(x)g(x)=f(xn)+f(xn)(xxn)+21f(xn)(xxn)2
    这样做的几何意义在于:在 y = f ( x ) y=f(x) y=f(x) x = x n x=x_{n} x=xn处,用一条近似的曲线逼近原函数,近似的曲线容易求得最小值,因此我就用近似曲线的最小值代替原函数的最小值;

    近似的抛物线具有二阶精度,对当前抛物线来说,极值点为:
    g ′ ( x m ) = 0 → x m = x n − f ′ ( x n ) f ′ ′ ( x n ) g'(x_{m})=0\rightarrow x_{m}=x_{n}-\frac{f'(x_{n})}{f''(x_{n})} g(xm)=0xm=xnf(xn)f(xn)
    以极值点作为新的抛物线展开点,另作抛物线逼近原函数,再求该抛物线的最小值点,依次迭代,即为牛顿法:
    x n + 1 = x n − f ′ ( x n ) f ′ ′ ( x n ) x_{n+1}=x_{n}-\frac{f'(x_{n})}{f''(x_{n})} xn+1=xnf(xn)f(xn)
    牛顿法的迭代过程可以描述如下图:
    fig1

    如果原函数足够光滑,在全局只有一个极值点,牛顿法将能快速收敛,但真实函数通常并不能获得理想的过程:

    • 有些函数的二阶导数很复杂
    • 二阶导数的正负不固定,即抛物线的开口方向是不确定的,这导致迭代结果可能是一个极大值

    梯度下降

    为解决牛顿法的两大缺点,提出梯度下降,直接舍弃二阶精度,将 f ′ ′ ( x n ) f''(x_{n}) f(xn)一项改成一个固定的正数 1 / h 1/h 1/h
    g ( x ) = f ( x n ) + f ′ ( x n ) ( x − x n ) + 1 2 h ( x − x n ) 2 g(x)=f(x_{n})+f'(x_{n})(x-x_{n})+\frac{1}{2h}(x-x_{n})^{2} g(x)=f(xn)+f(xn)(xxn)+2h1(xxn)2
    同样的,求抛物线的极小值点,并迭代得到:
    x n + 1 = x n − h f ′ ( x n ) x_{n+1}=x_{n}-hf'(x_{n}) xn+1=xnhf(xn)
    对于高维空间,即表示为:
    x n + 1 = x n − h ▽ ( f ( x n ) ) x_{n+1}=x_{n}-h\triangledown (f(x_{n})) xn+1=xnh(f(xn))
    很明显,这就是典型的梯度下降法;

    极大似然

    极大似然的原理

    在估算概率的时候,通常优化目标是最大化似然函数。比如一个语言模型,仅用于估计任意两个词的共现概率;


    语言模型:用于衡量一句话是否合理,词顺序和选择哪些词也有要求,比如给出一句话,判断这句话(词的组合)的出现概率


    对于两个词 ( x , y ) (x,y) (x,y),其共现概率为 P ( x , y ) P(x,y) P(x,y),假设在一个规模为 N N N 的语料库中, ( x , y ) (x,y) (x,y)共现的次数为: £ ( x , y ) \pounds (x,y) £(x,y),可以得到统计结果:
    P ~ ( x , y ) = £ ( x , y ) N \widetilde{P}(x,y)=\frac{\pounds (x,y)}{N} P (x,y)=N£(x,y)
    这样的表示虽然简单,但对机器的存储来说,将任意两个词都统计一遍并保存是不能接受的;更好的解决方法是引入一个未知参数 θ \theta θ,将共现概率表示成一种函数 P ( x , y ; θ ) P(x,y;\theta) P(x,y;θ),比如定义一个神经网络,然后再优化这个参数;

    针对概率问题,统计学的研究者们提出了一个自然的解决方案:极大似然(最大化似然函数)。在哲学中,常提到存在即合理,极大似然的依据是"存在必合理",似然函数常定义为各组数据的概率连乘:
    L ( θ ) = ∏ x , y P ( x , y ; θ ) £ ( x , y ) L(\theta)=\prod_{x,y}P(x,y;\theta)^{\pounds (x,y)} L(θ)=x,yP(x,y;θ)£(x,y)
    观察似然函数,可以发现,这样的定义是具有实际意义的: ( x , y ) (x,y) (x,y)出现了 £ ( x , y ) \pounds (x,y) £(x,y)次,代表这个事件在数据集中确实发生了,那就认为它是合理的,因此,我们需要最大化概率的连乘,其本质是让之前定义的模型 P ( x , y ; θ ) P(x,y;\theta) P(x,y;θ)拟合原始数据的分布;

    为了便于计算,在似然函数上取对数,连乘转为累加:
    l o g ( L ( θ ) ) = ∑ x , y £ ( x , y ) l o g ( P ( x , y ; θ ) ) log(L(\theta))=\sum_{x,y}\pounds (x,y)log(P(x,y;\theta)) log(L(θ))=x,y£(x,y)log(P(x,y;θ))
    注意到, £ ( x , y ) \pounds (x,y) £(x,y)可以替换成统计的频率 P ~ ( x , y ) \widetilde{P}(x,y) P (x,y),于是得到等价的表达:
    ∑ x , y P ~ ( x , y ) l o g ( P ( x , y ; θ ) ) \sum_{x,y}\widetilde{P}(x,y)log(P(x,y;\theta)) x,yP (x,y)log(P(x,y;θ))
    对表达式取相反数,就得到了机器学习中常用的损失函数-交叉熵:
    l o s s ( θ ) = − ∑ x , y P ~ ( x , y ) l o g ( P ( x , y ; θ ) ) loss(\theta)=-\sum_{x,y}\widetilde{P}(x,y)log(P(x,y;\theta)) loss(θ)=x,yP (x,y)log(P(x,y;θ))

    可见,最小化交叉熵损失与最大化似然函数其实是等价的:
    m a x θ l o g ( L ( θ ) ) ⇔ m i n θ l o s s ( θ ) max_{\theta}log(L(\theta))\Leftrightarrow min_{\theta}loss(\theta) maxθlog(L(θ))minθloss(θ)


    极大似然为两步:

    • 1.找到似然函数
    • 2.对似然函数求导,令导数为零,直接解出参数

    扩展:关于隐变量和贝叶斯学派

    从一个特别地角度来看,将似然函数的参数 θ \theta θ视为一个变量,参数应该属于隐变量,因为参数 θ \theta θ确实存在,但是我无法获知它是多少;


    在概率论与数理统计中,对于一个变量,如果存在,但不能看到这个变量是多少,就称为隐变量;


    当我把参数也视为变量的时候,就进入了贝叶斯学派的范围,贝叶斯学派认为,一切对象皆为随机,任何事物都服从某个概率分布,贝叶斯学派是一个高深的领域。

    回顾机器学习笔记本-朴素贝叶斯分类器,观察模型参数的表达,确实符合上面的描述;

    EM算法

    在损失函数的最小化过程中,常常使用梯度下降,但面对某些复杂的优化问题时(含有隐变量的问题),梯度下降不能有效更新模型,于是引入EM算法;就像牛顿法用抛物线逼仅原函数一样,EM算法通过具体问题下的构造函数逼仅原函数,这个构造函数常被称为Q函数(质量函数);

    在了解EM的构造函数前,先了解jensen不等式;

    jensen不等式

    对于任意点集{ x i ∣ i ∈ M x_{i}|i\in M xiiM},若:
    ∑ i λ i = 1 , λ i ≥ 0 \sum_{i}\lambda_{i}=1,\lambda_{i}\geq 0 iλi=1,λi0
    对于一个 凸函数 f ( x ) f(x) f(x),以下不等式成立(琴生jensen不等式):
    f ( ∑ i = 1 M λ i x i ) ≤ ∑ i = 1 M λ i f ( x i ) f(\sum_{i=1}^{M}\lambda_{i}x_{i})\leq \sum_{i=1}^{M}\lambda_{i}f(x_{i}) f(i=1Mλixi)i=1Mλif(xi)
    如果将 λ i \lambda_{i} λi视为 x i x_{i} xi发生的概率,则全体 λ i x i \lambda_{i}x_{i} λixi求和即表示 x x x的期望,于是得到琴生表达式更一般的形式:
    f ( E [ x ] ) ≤ E [ f ( x ) ] f(E[x])\leq E[f(x)] f(E[x])E[f(x)]

    EM算法原理

    以前面极大似然部分的语言模型为例,为了方便表示,把 P ( x , y ; θ ) P(x,y;\theta) P(x,y;θ)记作 P ( x , y ) P(x,y) P(x,y)

    P ( x , y ) P(x,y) P(x,y)转为 P ( x ∣ y ) P ( y ) P(x|y)P(y) P(xy)P(y),再分解:
    P ( x ∣ y ) = ∑ z P ( x ∣ z ) P ( z ∣ y ) P(x|y)=\sum_{z}P(x|z)P(z|y) P(xy)=zP(xz)P(zy)
    其中, z z z可以理解为类别或文本的主题, z z z是一个隐变量,这样引入隐变量是为了提高模型的泛化能力; P ( x ∣ z ) P(x|z) P(xz)就是已知主题 z z z中出现词 x x x的概率; P ( z ∣ y ) P(z|y) P(zy)指的是已知词 y y y,判断其属于主题 z z z的概率;

    基于以上内容,交叉熵定义为:
    l o s s = − ∑ x , y P ~ ( x , y ) l o g ( P ( y ) ∑ z P ( x ∣ z ) P ( z ∣ y ) ) loss=-\sum_{x,y}\widetilde{P}(x,y)log(P(y)\sum_{z}P(x|z)P(z|y)) loss=x,yP (x,y)log(P(y)zP(xz)P(zy))
    其中的 P ( y ) P(y) P(y)可以由统计频率精确估计:
    P ( y ) = P ~ ( y ) = £ ( y ) N P(y)=\widetilde{P}(y)=\frac{\pounds(y)}{N} P(y)=P (y)=N£(y)
    损失函数化简为:
    l o s s = − c o n s t − ∑ x , y P ~ ( x , y ) l o g ( ∑ z P ( x ∣ z ) P ( z ∣ y ) ) ⇒ − ∑ x , y P ~ ( x , y ) l o g ( ∑ z P ( x ∣ z ) P ( z ∣ y ) ) loss=-const-\sum_{x,y}\widetilde{P}(x,y)log(\sum_{z}P(x|z)P(z|y))\Rightarrow -\sum_{x,y}\widetilde{P}(x,y)log(\sum_{z}P(x|z)P(z|y)) loss=constx,yP (x,y)log(zP(xz)P(zy))x,yP (x,y)log(zP(xz)P(zy))
    现在再次观察损失函数,发现待求参数的梯度计算涉及隐变量;

    原问题的难度一是在于对数内部有求和项,二是包含隐变量,如果依靠梯度下降,将是不便于计算梯度的;梯度下降不能处理含隐变量的问题

    利用jensen不等式( − l o g -log log即负对数是凸函数,则 l o g log log是凹函数),可以得到一个构造函数:
    l o s s n ′ = − ∑ x , y P ~ ( x , y ) ∑ z Q n ( z ) l o g ( P ( x ∣ z ) P ( z ∣ y ) Q n ( z ) ) loss_{n}'=-\sum_{x,y}\widetilde{P}(x,y)\sum_{z}Q_{n}(z)log(\frac{P(x|z)P(z|y)}{Q_{n}(z)}) lossn=x,yP (x,y)zQn(z)log(Qn(z)P(xz)P(zy))
    其中, n n n是迭代的步序;


    根据jensen不等式,有以下关系:
    l o g ( ∑ z P ( x ∣ z ) P ( z ∣ y ) ) = l o g ( ∑ z Q n ( z ) P ( x ∣ z ) P ( z ∣ y ) Q n ( z ) ) ≥ ∑ z Q n ( z ) l o g ( P ( x ∣ z ) P ( z ∣ y ) Q n ( z ) ) log(\sum_{z}P(x|z)P(z|y))=log(\sum_{z}Q_{n}(z)\frac{P(x|z)P(z|y)}{Q_{n}(z)})\geq \sum_{z}Q_{n}(z)log(\frac{P(x|z)P(z|y)}{Q_{n}(z)}) log(zP(xz)P(zy))=log(zQn(z)Qn(z)P(xz)P(zy))zQn(z)log(Qn(z)P(xz)P(zy))


    从几何意义的角度来看,最小化损失等价于极大似然,此时,我利用构造函数改进原似然函数,得到原似然函数的下界(相当于不再利用抛物线,而是换了一个下界曲线逼近原函数);用这个下界函数的最大值代替原函数的最大值;在EM算法中,又将构造函数称为Q函数:
    Q ( n ) = ∑ z Q n ( z ) l o g ( P ( x ∣ z ) P ( z ∣ y ) Q n ( z ) ) Q(n)=\sum_{z}Q_{n}(z)log(\frac{P(x|z)P(z|y)}{Q_{n}(z)}) Q(n)=zQn(z)log(Qn(z)P(xz)P(zy))
    观察函数 Q ( n ) Q(n) Q(n),未知的分布 Q n ( z ) Q_{n}(z) Qn(z)应该与 l o g ( P ( x ∣ z ) P ( z ∣ y ) Q n ( z ) ) log(\frac{P(x|z)P(z|y)}{Q_{n}(z)}) log(Qn(z)P(xz)P(zy))出现的概率相关,应该满足:
    ∑ z Q n ( z ) = 1 \sum_{z}Q_{n}(z)=1 zQn(z)=1
    所以可以得到未知分布的表达:
    Q n ( z ) = P ( x ∣ z ) P ( z ∣ y ) ∑ z P ( x ∣ z ) P ( z ∣ y ) Q_{n}(z)=\frac{P(x|z)P(z|y)}{\sum_{z}P(x|z)P(z|y)} Qn(z)=zP(xz)P(zy)P(xz)P(zy)
    现在得到了 Q n ( z ) Q_{n}(z) Qn(z),即得到了似然函数的表达,即EM算法的E步;最大化当前似然函数即为EM算法的M步;然后两个步骤交替迭代

    EM算法流程

    EM算法是一种迭代的框架,主要是"期望-最大化"的思想,EM算法可以描述如下,已知当前数据{ x 1 , . . . , x n x_{1},...,x_{n} x1,...,xn},引入隐变量 z ∈ { z 1 , . . . , z M } z\in \left\{z_{1},...,z_{M}\right\} z{z1,...,zM}的分布 P ( x , z ; θ ) P(x,z;\theta) P(x,z;θ),假设迭代 J J J次,则在 j = 1 , 2 , . . . , J j=1,2,...,J j=1,2,...,J时有:

    • E步:计算期望(用下界曲线逼近原函数)
      Q j ( x i , z m ) = P ( x i , z m ; θ j ) ∑ m = 1 M P ( x i , z m ; θ j ) , Q_{j}(x_{i},z_{m})=\frac{P(x_{i},z_{m};\theta_{j})}{\sum_{m=1}^{M}P(x_{i},z_{m};\theta_{j})}, Qj(xi,zm)=m=1MP(xi,zm;θj)P(xi,zm;θj),
      L ( θ j ) = ∑ i = 1 n ∑ m = 1 M Q j ( x i , z m ) l o g ( P ( x i , z m ; θ j ) Q j ( x i , z m ) ) L(\theta_{j})=\sum_{i=1}^{n}\sum_{m=1}^{M}Q_{j}(x_{i},z_{m})log(\frac{P(x_{i},z_{m};\theta_{j})}{Q_{j}(x_{i},z_{m})}) L(θj)=i=1nm=1MQj(xi,zm)log(Qj(xi,zm)P(xi,zm;θj))
    • M步:极大似然(用下界曲线的最优值点代替原函数的最优值点)
      θ j + 1 = a r g m a x θ L ( θ j ) \theta_{j+1}=argmax_{\theta}L(\theta_{j}) θj+1=argmaxθL(θj)
    • 判断模型是否收敛,输出参数 θ j + 1 \theta_{j+1} θj+1

    EM算法小结

    EM算法是迭代求解最大值的算法,同时算法在每一次迭代时分为两步,E步和M步,EM算法多用于处理含隐变量的问题。

    一个最直观了解EM算法思路的是K-Means算法。在K-Means聚类时,每个聚类簇的中心是隐变量。假设K个初始化中心,即EM算法的E步;然后计算得到每个样本最近的中心,并把样本聚类到最近的这个中心,即EM算法的M步。计算各类样本的中心,即回到E步。重复E步和M步,直到中心不再变化为止,这样就完成了K-Means聚类;

    EM 算法具备收敛性,但并不保证找到全局最大值,有可能找到局部最大值

    展开全文
  • Logistic逻辑回归模型与参数估计

    千次阅读 2021-04-14 14:33:53
    二、回归模型估算方法 Logistic回归模型有两种估算方法,一种是加权最小二乘法估计,用于分组数据的Logistic回归模型;另一种是最大似然估计,用于未分组数据的Logistic回归模型。 2.1 分组数据的Logistic回归模型 ...
  • 统计狗来总结一下前面各个楼主的回答,先甩答案:logistic回归模型的参数估计问题,是可以用最小二乘方法的思想进行求解的,但和经典的(或者说用在经典线性回归的参数估计问题)最小二乘法不同,是用的是“迭代重加权...
  • 机器学习中几主要参数估计方法的介绍
  • 机器学习-非参数估计

    2021-02-16 22:31:36
    不需要prior参数形式 复杂度取决于训练集的大小或者数据内部的复杂问题 非参数模型也成做实例-based 或者memory-based 学习算法 左右的训练实例存储O(N)的内存,根据所给输入找相似输出的计算量也是O(N),也称作...
  • R语言中的参数估计

    千次阅读 2020-12-25 11:52:44
    以下我将从点估计、区间估计来介绍区间估计,本文主要介绍R代码,具体的统计知识,详情可参考相关数理统计的专业书嗷参数估计R语言中的参数估计点估计距估计极大似然估计区间估计均值μ\muμ的估计两样本方差比的...
  • 本发明属于信号处理技术领域,具体涉及一广义帕累托分布参数估计方法,可用于海杂波背景下的目标检测。背景技术:海杂波背景下的目标检测技术是雷达应用技术中一个至关重要的研究方向,在军事和民用领域已经得到...
  • 基于 MATLAB 的威布尔分布参数估计的图形界面设计 唐军军, 姜年朝, 宋军, 徐艳楠, 刘达 (总参第六十研究所, 江苏 南京 210016) 摘 要: 基于 MATLAB 平台, 设计了一款集最小二乘法、 相关系数法及超概率权重法...
  • DSGE求解和模型参数估计的一些认识其实DSGE最难的地方不在于模型的optimality condition的推导,也不在于寻找Saddle-path。最难的还是在于参数估计,最大似然或者是贝叶斯估计。我下面一条一条地写出来一些认识,...
  • 参数估计方法 概率与统计: 概率:已知模型和参数,推数据结果出现的概率 统计:已知诸多结果,通过结果推概率分布(概率、参数、模型) 比如,我们现在要抛一个硬币,结果会是正面或者反面。我们可以把这个过程,...
  • 摘 要 文章从概率、统计这大基本概念入手,通过构造一个基本问题,利用四种参数估计方法及其思路分别对问题进行分析与解答,从而厘清四方法各自的特征以及之间的差异之处。 关键词 极大似然估计 最大后验估计 ...
  • 文章目录一 参数估计二 最大似然估计2.1 参数分量2.2 基本原理2.3 高斯情况2.3.1 协方差矩阵Σ\SigmaΣ已知,而均值μ\muμ未知2.3.2 协方差矩阵Σ\SigmaΣ和均值μ\muμ都未知三 贝叶斯估计3.1 基本原理3.2 高斯...
  • 大体上还是遵循着贝叶斯决策论,主要有个非参数估计的方向: 从训练样本中估计类条件概率密度:p(x∣ωi)p(\textbf{x}|\omega_i)p(x∣ωi​) 直接估计后验概率:P(ωj∣x)P(\omega_j|\textbf{x
  • 参数估计通常有点估计(Point Estimate) 和 区间估计(Interval Estimation) 两种形式。 1.1 点估计 点估计是用一个具体的值来估计一个总体的未知参数,也叫定值估计。能直接告诉我们未知参数的估计值是多少。但是样本...
  • 描述性统计、参数估计和假设检验

    万次阅读 多人点赞 2021-04-03 01:15:43
    q1_index = (n - 1) * 0.25 q2_index = (n - 1) * 0.5 q3_index = (n - 1) * 0.75 print(q1_index, q2_index, q3_index) 1.75 3.5 5.25 索引位置不是整数时,使用最近位置的个整数,加权计算来得到四分位的位置,...
  • 估计(随机变量分布的统计推断) 置信区间推断 样本空间:随机变量X构成的空间 参数空间:一个随机变量X的概率密度分布是已知的某种函数形式,该函数与未知参数 有关, 可能是Ω 集中的任意值。称 集为参数空间...
  • b站上有关优化理论的讲解,适合优化入门,会讲很多例子,并做几何解释,...第一项是通常意义上的参数估计的准则,第二项在估计领域可以认为是先验知识,||g||不是很大。L1-范数正则化的求解方法可以用二阶锥规划求解。
  • 概率论与数理统计(7):参数估计 引入: 理论依据: 文章目录概率论与数理统计(7):参数估计引入:理论依据:一.点估计1.矩估计2.极大似然估计定义:似然函数定义:极大似然估计二.点估计的优良性准则引入1.无偏性2....
  • 记(i)为第i+1次迭代开始时参数的估计值,则第i+1次迭代的步为:E步:在给定不完全数据和前一次迭代所得到的参数估计的情况下,计算完全数据对应的对数似然函数的条件期望:Q(|(i))Ez[lnf(Y|)|(i),Z](2)M步:极大化对数...
  • 标量无偏估计参数变换的CRLB定理: 如果要从采集到的一组观测量数据: 并利用概率密度函数(此时该函数被称为似然函数)去估计未知参数。如果满足正则条件,即: 那么对于参数的任意无偏估计的方差,满足: ...
  • 导入方式:把上面的第三个pvar放进STATA的如下位置ado——base——p文件夹下面,然后就可以用了 PAVR模型一共是要做以下几个步骤: 1、平稳性检验 2、协整 3、滞后阶数的选择 4、PVAR模型系数估计 5、格兰杰因果...
  • 第六章 参数估计

    2021-08-12 20:13:41
    参数估计点估计的几方法:矩估计、最大似然估计、贝叶斯估计矩估计-替换原理最大似然估计点估计的评价标准相合性无偏性有效性综合:均方误差最小方差无偏估计贝叶斯估计引入统计推断的基础贝叶斯公式的密度函数...
  • 其中,总体均值μ的区间估计又可分为两种:方差^2已知时的均值的区间估计和方差^2未知时的均值的区间估计。(1)方差^2已知是的均值的区间估计在R中没有现成的求已知方差时均值的区间估计的函数,因此我们这里首先就是...
  • structure from motion,运动恢复结构,1985年由Hartley等人提出,从图像序列中恢复场景或对象的结构信息。开源的sfm可以参考...从投影矩阵到投影过程,参数初始估计、到最后的最小化重投影误差。SfM无需标定的解析
  • .一个未知参数的无偏估计一定唯一

    千次阅读 2021-01-12 10:42:28
    【简答题】当机体缺水时 , 为什么尿量会减少 ?【单选题】有下列If语句,说法...【填空题】已知个变量m和n,利用If语句,使得m大于n。在下列程序中填写合适的语句,使得功能完善(答案不要有空格)。 If m < n Then __...
  • 参数估计的主要方法有两种:一种基于最大的似然的估计;一种是使用贝叶斯方法。贝叶斯网的MLE参数估计最大似然估计MLE简单示例:局部似然函数仅包含两个二元变量的网络,即弧 从上看出,似然函数被分解为两项,且每...
  • 参数估计和假设检验统计所研究...掌握 参数估计 和 假设检验 这个数理统计的最基本方法,方能有效地对数据进行描述和分析。文章目录参数估计和假设检验参数估计1. 点估计1. 最大似然法2. 矩法2. 区间估计假设检验...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 162,494
精华内容 64,997
关键字:

参数估计的两种形式