精华内容
下载资源
问答
  • UA MATH566 统计理论1 充分统计量指数族自然形式带多余参数的指数族充分统计量Neyman-Fisher因子分解定理最小充分统计量完备性分布族的完备性统计量的完备性Basu定理信息函数Fisher信息Kullback-Leibler信息 ...

    指数族

    Xf(xθ)X \sim f(x|\theta)θΘ\theta \in \Theta是指数族分布如果
    f(xθ)=h(x)eQT(θ)T(x)b(θ) f(x|\theta) = h(x)e^{Q^T(\theta)T(x)-b(\theta)}
    其中h(x)h(x)是非负可测函数,b(θ)b(\theta)被称为势函数,如果[1;Q(θ)][1; Q(\theta)][1;T(x)][1;T(x)]分别线性无关,称其为极小、满秩的指数族。判断一个分布是否属于指数分布族只需要看概率密度能不能写成这个形式,比如正态分布
    f(x)=12πσexp{(xμ)22σ2}=exp{12σ2x2+μσ2x(μ22σ2+ln2πσ2)} f(x) = \frac{1}{\sqrt{2\pi}\sigma}\exp{\{-\frac{(x-\mu)^2}{2\sigma^2}\}}=\exp{\{-\frac{1}{2\sigma^2}x^2 + \frac{\mu}{\sigma^2}x-(\frac{\mu^2}{2\sigma^2}+\ln \sqrt{2\pi\sigma^2})\}}
    对应的那些函数是
    h(x)=1,T(x)=[x2,x]T,Q(θ)=[12σ2,μσ2]T,b(θ)=μ22σ2+ln2πσ2 h(x)=1,T(x)=[x^2,x]^T,Q(\theta)=[-\frac{1}{2\sigma^2},\frac{\mu}{\sigma^2}]^T, b(\theta)=\frac{\mu^2}{2\sigma^2}+\ln \sqrt{2\pi\sigma^2}

    自然形式

    如果Q(θ)Q(\theta)正好等于state-of-nature,也就是分布的自然参数θ\theta,这种指数分布族叫自然形式的指数分布族。
    f(xθ)=h(x)eθTT(x)b(θ) f(x|\theta) = h(x)e^{\theta^TT(x)-b(\theta)}
    如果[1;T(x)][1;T(x)]线性无关,它就是极小、满秩的指数族,此时参数空间Θ\Theta被称为是分布族的自然参数空间。

    充分统计量

    一组简单随机样本X1,,Xnf(xθ)X_1,\cdots,X_n \sim f(x|\theta),根据其含义是可以用来表示分布的整体信息的。但这种表示方法维数是nn,样本量非常大之后要想直接用来计算是非常困难的。假设XX是概率空间(X,B(X),PX)(\mathcal{X},\mathcal{B}(\mathcal{X}),P_X)上的随机变量,XRn\mathcal{X} \subset \mathbb{R}^n。使用某种统计量T(X)T(X)来代替X={X1,,Xn}X=\{X_1,\cdots,X_n\}对分布信息进行表示,其意义是对信息表示方式进行降维:T(X):XTRkk<nT(X): \mathcal{X} \to \mathcal{T} \subset \mathbb{R}^k,k<n,其中TT是可测函数。显然T(X)T(X)是一个由复合函数定义的在概率空间(X,B(X),PX)(\mathcal{X},\mathcal{B}(\mathcal{X}),P_X)上的随机变量,非常自然地会想到既然做了降维,那么T(X)T(X)的概率空间也是可以一并缩小的。假设T(X)T(X)定义在(T,B(T),PT)(\mathcal{T},\mathcal{B}(\mathcal{T}),P_T)上,则TT是可测函数意味着BB(T),T1(B)B(X)\forall B \in \mathcal{B}(\mathcal{T}),T^{-1}(B) \in \mathcal{B}(\mathcal{X}),从而导出测度PTP_T可以表示为PT(B)=PX(T1(B))P_T(B)=P_X(T^{-1}(B))。这个关系可以用示性函数的积分表示:
    TIB(t)dPT=XIT1(B)(x)dPX \int_{\mathcal{T}} I_B(t)dP_T = \int_{\mathcal{X}} I_{T^{-1}(B)}(x)dP_X
    有了这个关系,可以将这个积分形式推广到简单可测函数,再进一步推广到一般可测函数,从而对可测函数m(t)m(t)
    Bm(t)dPT=T1(B)m(T(x))dPX \int_{B} m(t)dP_T = \int_{T^{-1}(B)} m(T(x))dP_X
    通常我们希望降维不会导致信息损失,也就是T(X)T(X)也可以描述分布整体信息,满足这种条件的统计量叫充分统计量,严格定义就是
    AB(X),PX(AT(X)=t)θ \forall A \in \mathcal{B}(\mathcal{X}), P_X(A|T(X)=t)与\theta无关
    直接用定义判断统计量是否为充分统计量只需要计算f(xt)f(x|t)并判断是否与θ\theta无关即可,这种方法叫直接法,下面举三个例子。(所有例子的答案在下一篇博文)

    例1.1 X1,,XniidBer(θ)X_1,\cdots,X_n \sim_{iid} Ber(\theta),验证T(X)=i=1nXiT(X)=\sum_{i=1}^n X_i是充分统计量。

    例1.2 X1,,XniidU(0,θ)X_1,\cdots,X_n \sim_{iid} U(0,\theta),验证T(X)=X(n)T(X)=X_{(n)}是充分统计量。

    例1.3 X1,,XniidΓ(α0,β)X_1,\cdots,X_n \sim_{iid} \Gamma(\alpha_0,\beta)α0\alpha_0是已知量,验证T(X)=i=1nXiT(X)=\sum_{i=1}^n X_i是充分统计量。

    Neyman-Fisher因子分解定理

    直接法只能用于判断统计量是否是充分统计量,不能用来构造充分统计量。要实现这个功能可以用Neyman-Fisher因子分解定理:
    T(X)f(xθ)=h(x)g(θ,T(X))T(X)是充分统计量的充要条件是f(x|\theta)=h(x)g(\theta,T(X))
    这里给一个证明:
    因为
    f(xθ)=f(xT(x),θ)f(T(x)θ) f(x|\theta) = f(x|T(x),\theta)f(T(x)|\theta)
    按充分统计量的定义,第一个因子f(xT(x),θ)f(x|T(x),\theta)与参数无关,将其记为h(x)h(x),第二个因子记为g(θ,T(X))g(\theta,T(X)),由此必要条件得证。
    假设这个分解成立,考虑用直接法验证充分性的思想,计算
    f(xt,θ)=f(x,tθ)f(tθ)=f(xθ)I(T(x)=t)x:T(x)=tf(xθ)=h(x)g(θ,t)I(T(x)=t)x:T(x)=th(x)g(θ,t)=h(x)I(T(x)=t)x:T(x)=th(x) f(x|t,\theta) = \frac{f(x,t|\theta)}{f(t|\theta)} = \frac{f(x|\theta)I(T(x)=t)}{\sum_{x:T(x)=t} f(x|\theta)} \\ = \frac{h(x)g(\theta,t)I(T(x)=t)}{\sum_{x:T(x)=t} h(x)g(\theta,t)} = \frac{h(x)I(T(x)=t)}{\sum_{x:T(x)=t} h(x)}
    这是与参数无关的,因此是充分统计量,由此充分条件得证。下面举好几个例子来说明因子分解定理咋用。例1.4到1.6说明因子分解定理可以用来验证某个统计量是充分统计量,例1.7-1.9说明因子分解定理可以用来寻找充分统计量。

    例1.4 X1,,XniidPois(λ)X_1,\cdots,X_n \sim_{iid} Pois(\lambda),验证T(X)=i=1nXiT(X)=\sum_{i=1}^n X_i是充分统计量。

    例1.5 X1,,XniidN(μ,σ2)X_1,\cdots,X_n \sim_{iid} N(\mu,\sigma^2),验证T(X)=(i=1nXi,i=1nXi2T(X)=(\sum_{i=1}^n X_i, \sum_{i=1}^{n} X^2_i)是充分统计量。

    例1.6 X1,,Xniidf(xθ)=h(x)eQT(θ)T(x)b(θ)X_1,\cdots,X_n \sim_{iid} f(x|\theta) = h(x)e^{Q^T(\theta)T(x)-b(\theta)},验证T(X)T(X)是充分统计量。

    例1.7 X1,,Xniidf(xθ)=1σe(xμ)/σI(x>μ)X_1,\cdots,X_n \sim_{iid} f(x|\theta) = \frac{1}{\sigma}e^{-(x-\mu)/\sigma}I(x > \mu),找充分统计量

    例1.8Γ(α,β)\Gamma(\alpha,\beta)的充分统计量

    例1.9 X1,,Xniidf(xθ)=12iθI(i(θ1)<x<i(θ+1))X_1,\cdots,X_n \sim_{iid} f(x|\theta) = \frac{1}{2i\theta}I(-i(\theta-1)<x < i(\theta+1)),找充分统计量

    Bayes充分性

    Bayes充分性主要还是用在贝叶斯统计中的,如果某个统计量T(X)T(X)对所有先验π(θ)\pi(\theta)均满足f(θX)=f(θT(X))f(\theta|X) = f(\theta|T(X)),则称T(X)T(X)是Bayes充分统计量。如果T(X)T(X)是充分统计量,那么它一定是Bayes充分统计量,简单证明:
    f(θX=x)=f(xθ)π(θ)Θf(xθ)π(θ)dθ=h(x)g(θ,t)π(θ)Θh(x)g(θ,t)π(θ)dθ=g(θ,t)π(θ)Θg(θ,t)π(θ)dθ=f(tθ)π(θ)Θf(tθ)π(θ)dθ=f(θT(X)=t) f(\theta|X=x) = \frac{f(x|\theta)\pi(\theta)}{\int_{\Theta}f(x|\theta)\pi(\theta)d\theta } = \frac{h(x)g(\theta,t)\pi(\theta)}{\int_{\Theta}h(x)g(\theta,t)\pi(\theta)d\theta } \\ = \frac{g(\theta,t)\pi(\theta)}{\int_{\Theta}g(\theta,t)\pi(\theta)d\theta } = \frac{f(t|\theta)\pi(\theta)}{\int_{\Theta}f(t|\theta)\pi(\theta)d\theta } = f(\theta|T(X)=t)
    相应的,如果T(X)T(X)是Bayes充分统计量,那么它也是充分统计量,简单证明:
    f(θx)=f(xθ)π(θ)f(x),f(θt)=f(tθ)π(θ)f(t) f(\theta|x) = \frac{f(x|\theta)\pi(\theta)}{f(x)}, f(\theta|t)=\frac{f(t|\theta)\pi(\theta)}{f(t)}
    T(X)T(X)是Bayes充分统计量意味着f(θx)=f(θt)f(\theta|x)=f(\theta|t)
    f(xθ)π(θ)f(x)=f(tθ)π(θ)f(t)f(xθ)=f(x)f(tθ)f(t) \frac{f(x|\theta)\pi(\theta)}{f(x)}=\frac{f(t|\theta)\pi(\theta)}{f(t)} \Leftrightarrow f(x|\theta) = f(x) \frac{f(t|\theta)}{f(t)}
    根据因子分解定理,显然它也是充分统计量。

    最小充分统计量

    这个概念直观上非常好理解,因为充分统计量是在没有信息损失的情况下对分布信息表示方式的一种降维,最小充分统计量那自然就是能降到最低维的那种表示了。严格定义如下:
    T(X)T(X)T(X)如果某一个充分统计量T^{*}(X)可以表示成任一充分统计量T(X)的函数\\那么T^{*}(X)就是最小充分统计量
    这个定义并不适合用来验证某个充分统计量是否是最小的,但下面这个定理可以:如果TT^{*}是充分统计量,那么下列条件成立时,TT^{*}是最小的
    x,yX,f(xθ)f(yθ)θT(x)=T(y)\forall x,y \in \mathcal{X},\frac{f(x|\theta)}{f(y|\theta)}与\theta无关 \Leftrightarrow T^{*}(x)=T^{*}(y)
    这个定理可以用来验证某个充分统计量是否是最小的,也可以用来寻找最小充分统计量,这里先给出这个定理的简单证明,然后举好几个例子来说明如何应用。不加证明地给出一个引理:
    T(x)=T(y)T(x)=T(y),x,yXϕ,(X)=ϕ(T(X))T(x)=T(y) \Rightarrow T^{*}(x) =T^{*}(y),x,y \in \mathcal{X}说明\exists \phi, ^{*}(X) = \phi(T(X))
    这个引理的逻辑其实就是一个映射只能一对一或者多对一,不能一对多。它给我们提供了证明这个定理的思路,只需要证明任一个充分统计量TTT(x)=T(y)T(x)=T(y)T(x)=T(y) \Rightarrow T^{*}(x) =T^{*}(y)即可,根据因子分解定理f(xθ)=h(x)g(θ,T(x))f(x|\theta)=h(x)g(\theta,T(x)),考虑
    f(xθ)f(yθ)=h(x)g(θ,T(x))h(y)g(θ,T(y)) \frac{f(x|\theta)}{f(y|\theta)} = \frac{h(x)g(\theta,T(x))}{h(y)g(\theta,T(y))}
    如果T(x)=T(y)T(x)=T(y),那么
    f(xθ)f(yθ)=h(x)h(y) \frac{f(x|\theta)}{f(y|\theta)} = \frac{h(x)}{h(y)}
    这个式子与θ\theta无关,因此T(x)=T(y)T^{*}(x) =T^{*}(y),根据引理,T(X)T^{*}(X)是最小充分统计量。

    例1.10 X1,,XniidBer(θ)X_1,\cdots,X_n \sim_{iid} Ber(\theta),验证T(X)=i=1nXiT(X)=\sum_{i=1}^n X_i是最小充分统计量。

    例1.11 X1,,Xniidf(xθ)=h(x)eQT(θ)T(x)b(θ)X_1,\cdots,X_n \sim_{iid} f(x|\theta) = h(x)e^{Q^T(\theta)T(x)-b(\theta)},验证T(X)T(X)是最小充分统计量。

    例1.12N(θ,1)N(\theta,1)的最小充分统计量

    例1.13Γ(α,β)\Gamma(\alpha,\beta)的最小充分统计量

    例1.14 X1,,XniidU(θ1,θ2)X_1,\cdots,X_n \sim_{iid} U(\theta_1,\theta_2),找最小充分统计量

    例1.15 X1,,Xniidf(xθ)=e(xθ)(1+e(xθ))2X_1,\cdots,X_n \sim_{iid} f(x|\theta)=\frac{e^{-(x-\theta)}}{(1+e^{-(x-\theta)})^2},找最小充分统计量

    完备性

    假设FθF_{\theta}表示一个以θΘ\theta \in \Theta为参数的分布族的分布,这个分布是由概率空间(X,B(X),PX)(\mathcal{X},\mathcal{B}(\mathcal{X}),P_X)上的概率测度PXP_X构造的。我们已经论述了统计量其实就是X\mathcal{X}上的可测函数,在后续利用统计量进行统计推断时,经常需要计算统计量或者统计量的函数的期望,因此在应用统计量前,我们希望统计量以及分布族是完备的,简单地说就是统计量或者统计量的函数与其期望的对应是唯一的:
    Eθ[h1(X)]=Eθ[h2(X)],θΘh1(X)=h2(X) a.s.PX E_{\theta}[h_1(X)] = E_{\theta}[h_2(X)], \forall \theta \in \Theta \Leftrightarrow h_1(X)=h_2(X)\ a.s. P_X
    这个结论看似显然,但对于最常见的正态分布都不一定成立。比如XN(0,σ2)X \in N(0,\sigma^2),令h1(X)=Xh_1(X)=Xh2(X)=0h_2(X)=0,显然Eσ[h1(X)]=Eσ[h2(X)]=0E_{\sigma}[h_1(X)] = E_{\sigma}[h_2(X)]=0,但h1(X)h_1(X)并没有几乎必然等于h2(X)h_2(X)。几乎必然相等可以简单理解为他们相等的概率为1。

    分布族的完备性

    根据这些对完备性的讨论,我们可以简单归纳一下分布族完备性需要满足的两个事实:1、不同统计量的期望一定是不同的;2、如果两个统计量期望相同,他们一定是几乎必然相等的。结合上面那个例子,这里给出两个等价的正式定义:对X\mathcal{X}上任意两个可测函数h1,h2h_1,h_2
    Eθ[h1(X)]=Eθ[h2(X)],θΘh1(X)=h2(X) a.s.PXE_{\theta}[h_1(X)] = E_{\theta}[h_2(X)], \forall \theta \in \Theta \Leftrightarrow h_1(X)=h_2(X)\ a.s. P_X
    则分布族FθF_{\theta}是完备的;或者对X\mathcal{X}上任一可测函数gg
    Eθ[g(X)]=0,θΘg(X)=0 a.s.PXE_{\theta}[g(X)] = 0, \forall \theta \in \Theta \Leftrightarrow g(X)=0\ a.s. P_X
    判断分布族是否是完备的可以直接根据定义判断,也可以从完备性的本质出发。定义
    ϕ(θ)=Eθ[g(X)]=Xg(x)dFθ(x)\phi(\theta)=E_{\theta}[g(X)]=\int_{\mathcal{X}}g(x)dF_{\theta}(x)
    显然ϕ(θ)\phi(\theta)g(x)g(x)是一对积分变换对,根据完备性的定义,分布族的完备性指的就是这个积分变换的唯一性。统计中最常用的积分变换是Fourier变换和Laplace变换,分别对应特征函数与矩母函数,因此如果某一分布族的特征函数或矩母函数具有唯一性,那么这个分布族是完备的。下面举两个例子来说明这个事实如何应用。

    统计量的完备性

    虽然已经验证了分布族的完备性,但到实际应用还有一段距离。在数理统计中,所有的样本都是独立同分布的,考虑分布族{f(x,θ)=i=1nf(xi,θ)}\{f(x,\theta)=\prod_{i=1}^nf(x_i,\theta)\},如果取g(x)=x1x2g(x)=x_1-x_2,显然Eθg(X)=0,θE_{\theta}g(X)=0, \forall \thetag(X)0 a.s.g(X) \ne 0\ a.s.,因此简单随机样本的联合分布族在任何情况下都不是完备分布族。因为统计推断中所有操作的核心都是统计量,所以讨论统计量的完备性比讨论分布族的完备性更实际一点。前面已经定义过统计量的导出测度PTP_T,根据这个测度定义的分布函数是统计量T(X)T(X)的分布族,记为FθTF_{\theta}^T,因此考察统计量的完备性不需要考察简单随机样本的分布族,直接考察统计量的这个分布族就好,对比分布族的完备性,下面给出两种正式的定义:
    T\mathcal{T}上任意两个可测函数h1,h2h_1,h_2
    Eθ[h1(t)]=Eθ[h2(t)],θΘh1(t)=h2(t) a.s.PTE_{\theta}[h_1(t)] = E_{\theta}[h_2(t)], \forall \theta \in \Theta \Leftrightarrow h_1(t)=h_2(t)\ a.s. P_T
    则分布族FθTF_{\theta}^T是完备的,或者说统计量T(X)T(X)是完备的;或者对T\mathcal{T}上任一可测函数gg
    Eθ[g(T)]=0,θΘg(T)=0 a.s.PTE_{\theta}[g(T)] = 0, \forall \theta \in \Theta \Leftrightarrow g(T)=0\ a.s. P_T
    下面给出好几个例子说明统计量的完备性。

    例1.16 X1,,XniidU(0,θ)X_1,\cdots,X_n \sim_{iid} U(0,\theta),验证T(X)=X(n)T(X)=X_{(n)}是完备统计量。

    例1.17 X1,,XniidN(0,σ2)X_1,\cdots,X_n \sim_{iid} N(0,\sigma^2),验证T(X)=X2T(X)=X^2是完备统计量。

    例1.18 X1,,XniidN(μ,σ2)X_1,\cdots,X_n \sim_{iid} N(\mu,\sigma^2),验证T(X)=(Xˉ,SST)T(X)=(\bar{X},SST)是完备统计量。

    例1.19 X1,,Xniidf(xθ)=h(x)eQT(θ)T(x)b(θ)X_1,\cdots,X_n \sim_{iid} f(x|\theta) = h(x)e^{Q^T(\theta)T(x)-b(\theta)},验证T(X)T(X)是完备统计量。

    例1.20 X1,,Xniidf(xθ)=θxθ1I(0,1)(x)X_1,\cdots,X_n \sim_{iid} f(x|\theta) = \theta x^{\theta-1}I_{(0,1)}(x),找完备充分统计量。

    辅助统计量与Basu定理

    完备充分统计量其中一个应用就是它与辅助统计量的独立性。这里先介绍一下辅助统计量。比较直观的理解是辅助统计量不包含关于分布参数的信息,因此如果一个统计A(X)A(X)的分布与θ\theta无关,它就是辅助统计量。位置-尺度分布族比较容易构造辅助统计量,举两个简单的例子。算了不举了,教材6.13/14/40,准备考试要紧【吐血.jpg】
    接下来介绍一个非常有用的Basu定理:有界完备最小充分统计量与辅助统计量独立。我们先简单证明一下这个定理,然后举一些例子说明它怎么用。
    记有界完备最小充分统计量为T(X)T(X),辅助统计量为A(X)A(X),则要证明二者独立,只需要
    PX{A(X)BT(X)=t}=PX{A(X)B}BBorel P_X\{A(X) \in B|T(X)=t\} = P_X\{A(X) \in B\},B是Borel集
    其中
    PX{A(X)BT(X)=t}=PX{XA1(B)T(X)=t}PX{A(X)B}=PX{XA1(B)} P_X\{A(X) \in B|T(X)=t\} = P_X\{X \in A^{-1}(B)|T(X)=t\} \\ P_X\{A(X) \in B\}=P_X\{X \in A^{-1}(B)\}
    PX{XA1(B)}=pP_X\{X \in A^{-1}(B)\} =p,因为PX{XA1(B)T(X)=t}=EX[IA1(B)(X)T(X)=t]P_X\{X \in A^{-1}(B)|T(X)=t\} =E_X[I_{A^{-1}(B)}(X)|T(X)=t],相当于需要证明
    EX[IA1(B)(X)T(X)=t]=p E_X[I_{A^{-1}(B)}(X)|T(X)=t]=p
    定义h(t)=EX[IA1(B)(X)T(X)=t]ph(t)=E_X[I_{A^{-1}(B)}(X)|T(X)=t]-p,计算
    E[h(T)]=ETEX[IA1(B)(X)T(X)=t]p=EX[IA1(B)(X)]p E[h(T)]=E_T E_X[I_{A^{-1}(B)}(X)|T(X)=t]-p = E_X[I_{A^{-1}(B)}(X)]-p
    因为EX[IA1(B)(X)]=PX{XA1(B)}=pE_X[I_{A^{-1}(B)}(X)]=P_X\{X \in A^{-1}(B)\} =p,因此E[h(T)]=0E[h(T)]=0,根据TT的完备性,h(t)=0 a.s.h(t)=0\ a.s.,定理得证。

    例1.21 X1,,XniidN(μ,σ2)X_1,\cdots,X_n \sim_{iid} N(\mu,\sigma^2),证明样本均值与样本方差、样本离差、样本极差独立。

    信息函数

    上面的论述中总是在提分布的信息、统计量的信息,那么具体怎么严格定义信息,以及怎么去衡量信息的多少?

    Fisher信息

    先给出一组正则条件,这些正则条件能够保证Cramer-Rao不等式能被成功推导出来,一般也称满足这些条件的分布族为正则分布族或者C-R分布族:

    1. θΘ\theta \in \ThetaΘ\Theta是开集,并且f(x,θ)=f(x,θ)θ=θf(x,\theta)=f(x,\theta^{'}) \Leftrightarrow \theta = \theta^{'}
    2. 记分布族的对数似然为L(θ)=lnf(x,θ)L(\theta)=\ln f(x,\theta),假设对数似然二阶可导
    3. 记得分函数S(x,θ)=L(θ)S(x,\theta)=\nabla L(\theta),并假设S(x,θ)L2(X,B(X),PX)S(x,\theta) \in L^2(\mathcal{X},\mathcal{B}(\mathcal{X}),P_X)
    4. 假设分布族FθF_{\theta}的支撑Sθ={x:f(x,θ)}>0S_{\theta}=\{x:f(x,\theta)\}>0θ\theta无关
    5. 假设f(x,θ)f(x,\theta)关于θ\theta可导

    先把这些条件放在这里,以后写Fisher信息的性质的时候会用上。我们从Cauchy-Schwarz不等式开始把信息的表示推导出来。Cauchy-Schwarz不等式说的是Cov(X,Y)2Var(X)Var(Y)Cov(X,Y)^2 \le Var(X)Var(Y),它的证明比较简单,考虑XbYX-bY的方差:
    Var(XbY)=Var(X)2bCov(X,Y)+b2Var(Y)0 Var(X-bY)=Var(X)-2bCov(X,Y)+b^2Var(Y) \ge 0
    这个方差可以看成关于bb的二次函数,要让这个二次函数非负,那么其最小值必定非负,根据这个就可以得到Cauchy-Schwarz不等式。假设d(X)d(X)θ\theta的一个无偏估计,
    Ed(X)=Xd(x)f(xθ)dx=θ Ed(X)=\int_{\mathcal{X}} d(x)f(x|\theta)dx=\theta
    θ\theta求导
    Xd(x)θf(xθ)dx=1=Xd(x)f(xθ)/θf(xθ)dx=Xd(x)θlnf(xθ)dx \int_{\mathcal{X}} d(x) \frac{\partial}{\partial \theta} f(x|\theta)dx=1 = \int_{\mathcal{X}} d(x) \frac{\partial f(x|\theta)/\partial \theta}{f(x|\theta)}dx = \int_{\mathcal{X}} d(x) \frac{\partial}{\partial \theta} \ln f(x|\theta)dx
    这个式子可以写成E[d(X)S(X,θ)]E[d(X)S(X,\theta)]。根据归一化条件
    Xf(xθ)dx=1 \int_{\mathcal{X}} f(x|\theta)dx=1
    θ\theta求导
    Xfθ(xθ)f(xθ)f(xθ)dx=0=E[θlnf(xθ)]=E[S(X,θ)] \int_{\mathcal{X}} \frac{f_{\theta}(x|\theta)}{f(x|\theta)} f(x|\theta)dx=0 = E[\frac{\partial}{\partial \theta} \ln f(x|\theta)] = E[S(X,\theta)]
    所以Cov(d(X),S(X,θ))=E[d(X)S(X,θ)]E[S(X,θ)]E[d(X)]=E[d(X)S(X,θ)]=1Cov(d(X),S(X,\theta))=E[d(X)S(X,\theta)]- E[S(X,\theta)]E[d(X)]\\=E[d(X)S(X,\theta)]=1
    根据Cauchy-Schwarz不等式,
    1=Cov(d(X),S(X,θ))2Var(d(X))Var(S(X,θ))Var(d(X))1Var(S(X,θ))1In(θ) 1=Cov(d(X),S(X,\theta))^2 \le Var(d(X))Var(S(X,\theta)) \\ Var(d(X)) \ge \frac{1}{Var(S(X,\theta))} \triangleq \frac{1}{I_n(\theta)}
    In(θ)I_n(\theta)就是Fisher信息,这个不等式又叫Cramer-Rao不等式,它给出了估计量方差的下界。由于
    S(x,θ)=L(θ)=lni=1nf(xiθ)=i=1nlnf(xiθ)=i=1nS(xi,θ)In(θ)=Var(S(X,θ))=Var(i=1nS(xi,θ))=i=1nVar(S(xi,θ))=nI1(θ) S(x,\theta)=\nabla L(\theta) = \nabla \ln \prod_{i=1}^n f(x_i|\theta)= \sum_{i=1}^n \nabla \ln f(x_i|\theta) = \sum_{i=1}^n S(x_i,\theta) \\ I_n(\theta)=Var(S(X,\theta))= Var(\sum_{i=1}^n S(x_i,\theta)) = \sum_{i=1}^n Var( S(x_i,\theta)) = nI_1(\theta)
    这个性质让我们不需要每次计算都从简单随机样本的联合分布开始。另外Fisher信息也可以用下面的公式计算
    In(θ)=E[HθL(θ)] I_n(\theta) = - E[H_{\theta}L(\theta)]
    HθH_{\theta}是Hessian。给一个简单的证明,
    L=1ff=HL+1fHfE[HθL(θ)]=E[HL]1fHfdx=0 \nabla L = \frac{1}{f} \nabla f = -HL+ \frac{1}{f}Hf \\ - E[H_{\theta}L(\theta)] = E[HL] - \frac{1}{f}H \int f dx = 0

    下面举两个例子解释Fisher信息怎么计算。

    例1.22 求正态分布均值与方差的Fisher信息;求正态分布均值与标准差的Fisher信息。

    例1.23 求自然形式的指数族的Fisher信息

    展开全文
  • 例1.12 找N(θ,1)N(\theta,1)N(θ,1)的最小充分统计量 计算样本的联合密度 f(x∣θ)=∏i=1n12πexp⁡(−(xi−θ)22)=(2π)−n/2exp⁡(−12∑i=1n(xi−θ)2)=(2π)−n/2exp⁡(−12∑i=1nxi2+θ∑i=1nxi−nθ22) f(x|\...

    UA MATH566 统计理论1 充分统计量例题答案2

    例1.12N(θ,1)N(\theta,1)的最小充分统计量
    计算样本的联合密度
    f(xθ)=i=1n12πexp((xiθ)22)=(2π)n/2exp(12i=1n(xiθ)2)=(2π)n/2exp(12i=1nxi2+θi=1nxinθ22) f(x|\theta) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi}} \exp(-\frac{(x_i-\theta)^2}{2}) \\ = (2\pi)^{-n/2} \exp(-\frac{1}{2} \sum_{i=1}^n (x_i - \theta)^2) \\ = (2\pi)^{-n/2} \exp(-\frac{1}{2} \sum_{i=1}^n x_i^2+\theta \sum_{i=1}^n x_i-\frac{n \theta^2}{2})
    计算(X,Y)(X,Y)两组样本联合密度的比值
    f(xθ)f(yθ)=(2π)n/2exp(12i=1nxi2+θi=1nxinθ22)(2π)n/2exp(12i=1nxi2+θi=1nxinθ22)=exp(12i=1nxi2+θi=1nxi)exp(12i=1nyi2+θi=1nyi)=exp(12i=1nxi2)exp(12i=1nyi2)eθ(i=1nxii=1nyi) \frac{f(x|\theta)}{f(y|\theta)} = \frac{(2\pi)^{-n/2} \exp(-\frac{1}{2} \sum_{i=1}^n x_i^2+\theta \sum_{i=1}^n x_i-\frac{n \theta^2}{2}) }{(2\pi)^{-n/2} \exp(-\frac{1}{2} \sum_{i=1}^n x_i^2+\theta \sum_{i=1}^n x_i-\frac{n \theta^2}{2}) } \\ = \frac{\exp(-\frac{1}{2} \sum_{i=1}^n x_i^2+\theta \sum_{i=1}^n x_i) } { \exp(-\frac{1}{2} \sum_{i=1}^n y_i^2+\theta \sum_{i=1}^n y_i )} = \frac{\exp(-\frac{1}{2} \sum_{i=1}^n x_i^2) } { \exp(-\frac{1}{2} \sum_{i=1}^n y_i^2)}e^{\theta(\sum_{i=1}^n x_i-\sum_{i=1}^n y_i)}
    显然要让这个比值与θ\theta无关,除非让i=1nxii=1nyi=0\sum_{i=1}^n x_i-\sum_{i=1}^n y_i=0,因此最小充分统计量是T(X)=i=1nXiT(X)=\sum_{i=1}^n X_i

    例1.13Γ(α,β)\Gamma(\alpha,\beta)的最小充分统计量
    计算样本的联合概率密度
    f(xα,β)=i=1nβαΓ(α)xiα1eβxi=(βαΓ(α))n(i=1nxi)α1eβi=1nxi f(x|\alpha,\beta) = \prod_{i=1}^n \frac{\beta^{\alpha}}{\Gamma{(\alpha)}}x_i^{\alpha-1}e^{-\beta x_i} = (\frac{\beta^{\alpha}}{\Gamma{(\alpha)}})^n (\prod_{i=1}^n x_i)^{\alpha-1}e^{-\beta \sum_{i=1}^n x_i}
    计算(X,Y)(X,Y)两组样本联合密度的比值
    f(xα,β)f(yα,β)=(βαΓ(α))n(i=1nxi)α1eβi=1nxi(βαΓ(α))n(i=1nyi)α1eβi=1nyi=(i=1nxi)α1eβi=1nxi(i=1nyi)α1eβi=1nyi=(i=1nxii=1nyi)α1eβ(i=1nxii=1nyi) \frac{f(x|\alpha,\beta)}{f(y|\alpha,\beta)} = \frac{(\frac{\beta^{\alpha}}{\Gamma{(\alpha)}})^n (\prod_{i=1}^n x_i)^{\alpha-1}e^{-\beta \sum_{i=1}^n x_i}}{(\frac{\beta^{\alpha}}{\Gamma{(\alpha)}})^n (\prod_{i=1}^n y_i)^{\alpha-1}e^{-\beta \sum_{i=1}^n y_i}} \\ = \frac{ (\prod_{i=1}^n x_i)^{\alpha-1}e^{-\beta \sum_{i=1}^n x_i}}{ (\prod_{i=1}^n y_i)^{\alpha-1}e^{-\beta \sum_{i=1}^n y_i}} = (\frac{\prod_{i=1}^n x_i} {\prod_{i=1}^n y_i})^{\alpha-1}e^{-\beta (\sum_{i=1}^n x_i-\sum_{i=1}^n y_i})
    要让这个比率与参数α,β\alpha,\beta无关,除非i=1nxi=i=1nyi\prod_{i=1}^n x_i=\prod_{i=1}^n y_ii=1nxi=i=1nyi\sum_{i=1}^n x_i=\sum_{i=1}^n y_i,所以最小充分统计量是(i=1nXi,i=1nXi)(\prod_{i=1}^n X_i,\sum_{i=1}^n X_i)

    例1.14 X1,,XniidU(θ1,θ2)X_1,\cdots,X_n \sim_{iid} U(\theta_1,\theta_2),找最小充分统计量
    计算样本的联合概率密度
    f(xθ1,θ2)=i=1nI(θ1xiθ2)θ1θ2=(θ1θ2)ni=1nI(xiθ1)I(xiθ2)=(θ1θ2)nI(x(1)θ1)I(x(n)θ2) f(x|\theta_1,\theta_2) = \prod_{i=1}^n \frac{I(\theta_1 \le x_i \le \theta_2)}{\theta_1-\theta_2} \\= (\theta_1-\theta_2)^{-n} \prod_{i=1}^n I(x_i \ge \theta_1)I(x_i \le \theta_2) \\ = (\theta_1-\theta_2)^{-n} I(x_{(1)} \ge \theta_1)I(x_{(n)} \le \theta_2)
    计算(X,Y)(X,Y)两组样本联合密度的比值
    f(xθ1,θ2)f(yθ1,θ2)=(θ1θ2)nI(x(1)θ1)I(x(n)θ2)(θ1θ2)nI(y(1)θ1)I(y(n)θ2)=I(x(1)θ1)I(x(n)θ2)I(y(1)θ1)I(y(n)θ2) \frac{f(x|\theta_1,\theta_2)}{f(y|\theta_1,\theta_2)} = \frac{(\theta_1-\theta_2)^{-n} I(x_{(1)} \ge \theta_1)I(x_{(n)} \le \theta_2)}{(\theta_1-\theta_2)^{-n} I(y_{(1)} \ge \theta_1)I(y_{(n)} \le \theta_2)} = \frac{I(x_{(1)} \ge \theta_1)I(x_{(n)} \le \theta_2)}{I(y_{(1)} \ge \theta_1)I(y_{(n)} \le \theta_2)}
    如果x(1)=y(1),x(n)=y(n)x_{(1)}=y_{(1)},x_{(n)}=y_{(n)},分子分母的值就会完全相同,这个比率就与参数无关,因此最小充分统计量是(X(1),X(n))(X_{(1)},X_{(n)})

    例1.15 X1,,Xniidf(xθ)=e(xθ)(1+e(xθ))2X_1,\cdots,X_n \sim_{iid} f(x|\theta)=\frac{e^{-(x-\theta)}}{(1+e^{-(x-\theta)})^2},找最小充分统计量
    计算样本的联合概率密度
    f(xθ)=i=1ne(xiθ)(1+e(xiθ))2=ei=1nxi+nθ[i=1n(1+e(xiθ))]2 f(x|\theta) = \prod_{i=1}^n \frac{e^{-(x_i-\theta)}}{(1+e^{-(x_i-\theta)})^2} = \frac{e^{-\sum_{i=1}^n x_i +n\theta}}{ [\prod_{i=1}^n (1+e^{-(x_i-\theta)})]^2 }
    计算(X,Y)(X,Y)两组样本联合密度的比值
    f(xθ)f(yθ)=ei=1nxi+nθei=1nyi+nθ[i=1n(1+e(yiθ))i=1n(1+e(xiθ))]2 \frac{f(x|\theta)}{f(y|\theta)} = \frac{e^{-\sum_{i=1}^n x_i +n\theta}}{e^{-\sum_{i=1}^n y_i +n\theta}} [\frac{\prod_{i=1}^n (1+e^{-(y_i-\theta)})}{\prod_{i=1}^n (1+e^{-(x_i-\theta)})}]^2
    第一个因子显然与参数θ\theta无关,第二个因子只要平方内的式子与参数无关,这个比值就会与参数无关。然而要做的这点,除非k\exists k是常数,满足
    1+e(yiθ)=(1+e(xiθ))k 1+e^{-(y_i-\theta)} = (1+e^{-(x_i-\theta)})k
    这个关系貌似看不出统计量来,但事实上这个函数是单调的,因此满足这个关系的一定是次序统计量,所以这个分布的最小充分统计量是(X(1),X(2),,X(n))(X_{(1)},X_{(2)},\cdots,X_{(n)})

    例1.16 X1,,XniidU(0,θ)X_1,\cdots,X_n \sim_{iid} U(0,\theta),验证T(X)=X(n)T(X)=X_{(n)}是完备统计量。
    例1.2已经计算过T(X)T(X)的密度了
    f(t)=ntn1θnI(0tθ) f(t) = nt^{n-1} \theta^{-n}I(0 \le t \le \theta)
    对任一可测函数h(T(X))h(T(X))
    E[h(T(X))]=h(t)ntn1θnI(0tθ)dt=00θh(t)tn1dt=0θ0θh(t)tn1dth(θ)θn1=0h(θ)=0 E[h(T(X))] = \int h(t) nt^{n-1} \theta^{-n}I(0 \le t \le \theta) dt = 0 \\ \Leftrightarrow \int_0^{\theta} h(t) t^{n-1} dt = 0 \Rightarrow \frac{\partial}{\partial \theta} \int_0^{\theta} h(t) t^{n-1} dt \\ \Rightarrow h(\theta) \theta^{n-1}=0 \Rightarrow h(\theta) = 0
    因此T(X)=X(n)T(X)=X_{(n)}是完备统计量。

    例1.17 X1,,XniidN(0,σ2)X_1,\cdots,X_n \sim_{iid} N(0,\sigma^2),验证T(X)=X2T(X)=X^2是完备统计量。
    因为T(X)/σ2χ2(1)T(X)/\sigma^2 \sim \chi^2(1),所以它的概率密度为
    f(t)=σ22πt1/2et/2 f(t) = \frac{\sigma^2}{2\sqrt{\pi}} t^{-1/2}e^{-t/2}
    对任一可测函数h(T(X))h(T(X))
    E[h(T(X))]=h(t)σ22πt1/2et/2dt=0h(t)t1/2et/2dt=0 E[h(T(X))] = \int h(t) \frac{\sigma^2}{2\sqrt{\pi}} t^{-1/2}e^{-t/2} dt = 0 \\ \Leftrightarrow \int h(t) t^{-1/2}e^{-t/2} dt = 0
    上式是函数h(t)/th(t)/\sqrt{t}的Laplace变换在1/2处的取值,因为Laplace是具有唯一性的积分变换(或者根据Laplace变换的反演公式),所以h(t)/t=0h(t)/\sqrt{t}=0。因此T(X)=X2T(X)=X^2是完备统计量。

    展开全文
  • Basu定理:有界完备最小充分统计量与辅助统计量独立。我们先简单证明一下这个定理,记有界完备最小充分统计量为T(X)T(X)T(X),辅助统计量为A(X)A(X)A(X),则要证明二者独立,只需要 PX{A(X)∈B∣T(X)=t}=PX{A(X)∈B}...

    UA MATH566 用Basu定理证明统计量不完备

    Basu定理:有界完备最小充分统计量与辅助统计量独立。我们先简单证明一下这个定理,记有界完备最小充分统计量为T(X)T(X),辅助统计量为A(X)A(X),则要证明二者独立,只需要
    PX{A(X)BT(X)=t}=PX{A(X)B}BBorel P_X\{A(X) \in B|T(X)=t\} = P_X\{A(X) \in B\},B是Borel集
    其中
    PX{A(X)BT(X)=t}=PX{XA1(B)T(X)=t}PX{A(X)B}=PX{XA1(B)} P_X\{A(X) \in B|T(X)=t\} = P_X\{X \in A^{-1}(B)|T(X)=t\} \\ P_X\{A(X) \in B\}=P_X\{X \in A^{-1}(B)\}
    PX{XA1(B)}=pP_X\{X \in A^{-1}(B)\} =p,因为PX{XA1(B)T(X)=t}=EX[IA1(B)(X)T(X)=t]P_X\{X \in A^{-1}(B)|T(X)=t\} =E_X[I_{A^{-1}(B)}(X)|T(X)=t],相当于需要证明
    EX[IA1(B)(X)T(X)=t]=p E_X[I_{A^{-1}(B)}(X)|T(X)=t]=p
    定义h(t)=EX[IA1(B)(X)T(X)=t]ph(t)=E_X[I_{A^{-1}(B)}(X)|T(X)=t]-p,计算
    E[h(T)]=ETEX[IA1(B)(X)T(X)=t]p=EX[IA1(B)(X)]p E[h(T)]=E_T E_X[I_{A^{-1}(B)}(X)|T(X)=t]-p = E_X[I_{A^{-1}(B)}(X)]-p
    因为EX[IA1(B)(X)]=PX{XA1(B)}=pE_X[I_{A^{-1}(B)}(X)]=P_X\{X \in A^{-1}(B)\} =p,因此E[h(T)]=0E[h(T)]=0,根据TT的完备性,h(t)=0 a.s.h(t)=0\ a.s.,定理得证。

    根据Basu定理,要证明某个最小充分统计量不完备,只需要找到它与某个辅助统计量不独立的反例即可。

    辅助统计量:分布与参数无关的统计量,位置参数族样本的差就是辅助统计量,尺度参数族样本的商就是辅助统计量。

    例1 N(μ0,σ2)N(\mu_0,\sigma^2)为总体,则i=1n(Xiμ0)2\sum_{i=1}^n (X_i-\mu_0)^2σ2\sigma^2的最小充分统计量,X1μ0X2μ0\frac{X_1-\mu_0}{X_2-\mu_0}是一个辅助统计量,显然这个辅助统计量与最小充分统计量并不独立,因此i=1n(Xiμ0)2\sum_{i=1}^n (X_i-\mu_0)^2不是完备统计量,也就不是σ2\sigma^2唯一的UMVUE,比如i=1nXi2nμ02\sum_{i=1}^n X_i^2 - n\mu_0^2就是另一个UMVUE。

    例2 U(θ1/2,θ+1/2)U(\theta-1/2,\theta+1/2)为总体,(X(1),X(n))(X_{(1)},X_{(n)})是最小充分统计量,但X(n)X(1)X_{(n)}-X_{(1)}是辅助统计量,因此(X(1),X(n))(X_{(1)},X_{(n)})不完备。

    展开全文
  • 在之前的学习中,主要基于充分统计量给出点估计,并且注重于点估计的无偏性与相合性。然而,仅有这两个性质是不足的,无偏性只能保证统计量的均值与待估参数一致,却无法控制统计量可能偏离待估参数的程度;相合性...

    在之前的学习中,主要基于充分统计量给出点估计,并且注重于点估计的无偏性与相合性。然而,仅有这两个性质是不足的,无偏性只能保证统计量的均值与待估参数一致,却无法控制统计量可能偏离待估参数的程度;相合性只能在大样本下保证统计量到均值的收敛性,但却对小样本情形束手无策。今天我们将注重于统计量的有效性,即无偏统计量的抽样分布的方差。由于本系列为我独自完成的,缺少审阅,如果有任何错误,欢迎在评论区中指出,谢谢!

    目录

    Part 1:一致最小方差无偏估计

    首先考虑这样的问题:如何刻画一个统计量的有效程度?注意到,一个统计量的取值既可能高于待估参数,亦可能低于待估参数,要综合考虑统计量对待估参数误差,需要用平方均衡这种双向偏差,因此,提出均方误差的概念:若\(\hat g(\boldsymbol{X})\)是\(g(\theta)\)的估计量,则\(\hat g(\boldsymbol{X})\)的均方误差定义为

    \[\mathrm{MSE}(\hat g(\boldsymbol{X}))= \mathbb{E}[\hat g(\boldsymbol{X})-g(\theta)]^2. \]

    对于确定的统计量\(\hat g(\boldsymbol{X})\)而言,\(\mathrm{MSE}(\hat g(\boldsymbol{X}))\)是\(\theta\)的函数。显然,一个统计量的均方误差越小,它就越在待估参数真值附近环绕,由此,用统计量的一次观测值作为待估参数的估计就有着越大的把握。

    如果对于\(g(\theta)\)的两个估计量\(\hat g_1(\boldsymbol{X})\)和\(\hat g_2(\boldsymbol{X})\),恒有\(\mathrm{MSE}(\hat g_1(\boldsymbol{X}))\le \mathrm{MSE}(\hat g_2(\boldsymbol{X}))\),且严格不等号至少在某个\(\theta\)处成立,就称\(\hat g_1(\boldsymbol{X})\)在均方误差准则下优于\(\hat g_2(\boldsymbol{X})\)。如果我们能找到均方误差最小的统计量\(\hat g(\boldsymbol{X})\),就相当于找到了均方误差准则下的最优统计量。

    不过,均方误差是\(\theta\)的函数,这就导致了某些统计量在\(\theta=\theta_1\)时均方误差小,在\(\theta=\theta_2\)时均方误差大,一致最小均方误差估计量便不存在,需要增加约束条件,找到更可能存在的“最优”。

    基于此,我们提出一致最小方差无偏估计(UMVUE)的概念,它将\(g(\theta)\)的估计量限制在了无偏估计之中,这使得UMVUE的存在可能性得以提高。并且,由于\(\mathbb{E}(\hat g(\boldsymbol{X}))=g(\theta)\),所以

    \[\mathrm{MSE}(\hat g(\boldsymbol{X}))=\mathbb{E}(\hat g(\boldsymbol{X})-g(\theta))^2=\mathbb{E}[\hat g(\boldsymbol{X})-\mathbb{E}(\hat g(\boldsymbol{X}))]^2=\mathbb{D}(\hat g(\boldsymbol{X})), \]

    即无偏估计的均方误差就是无偏估计的方差。

    不过首先要提出的是,UMVUE往往比一致最小均方误差估计量更容易存在,但依然不是所有参数都存在UMVUE的,并且,甚至可能有的参数根本不存在无偏估计。

    以下是一个典型的不存在无偏估计的例子:\(X\sim B(n,p)\),参数\(g(p)=1/p\)的无偏估计不存在。书上给出的证明过程如下:

    首先,无偏估计不依赖于样本容量,故假设\(n=1\)。若\(g(p)\)有无偏估计\(\hat g(X)\),则由于\(X=0,1,\cdots,n\),故\(\hat g(X)\)的取值只可能是\(a_0,a_1,\cdots,a_n\),可以写出其期望为

    \[\mathbb{E}(\hat g(X))=\sum_{j=0}^n a_jC_n^jp^j(1-p)^{n-j}, \]

    当\(\hat g(X)\)为无偏估计时,成立以下等式:

    \[\sum_{j=0}^na_jC_n^jp^j(1-p)^{n-j}=\frac{1}{p}, \]

    即对于某个多项式\(f\in\mathcal P_{n+1}(\mathbb{R})\),有

    \[f(p)=0,\quad \forall p\in(0,1). \]

    显然,要使上式恒成立,除非\(f\)为零多项式。但\(f\)并不是零多项式,这意味着\(f(p)=0\)只会在至多\(n+1\)个点处成立,这与无偏性要求矛盾。因此,\(g(p)=1/p\)不存在无偏估计。

    我们将存在无偏估计的待估参数称为可估参数,因此UMVUE仅对可估参数作讨论。我们的任务,就是用一定的方法,找到可估参数的UMVUE。

    Part 2:改进无偏估计量

    无偏估计量有许多,比如正态分布\(N(\mu,\sigma^2)\)中,\(\mu\)的无偏估计就有\(X_1,2X_2-X_1,\bar X\)等。充分统计量的条件期望法是改进无偏估计量的一个典型方式,它基于如下的定理:设\(T=T(\boldsymbol{X})\)是一个充分统计量,\(\hat g(\boldsymbol{X})\)是\(g(\theta)\)的一个普通无偏估计量,则\(h(T)=\mathbb{E}[\hat g(\boldsymbol{X})|T]\)是\(g(\theta)\)的无偏估计,且

    \[\mathbb{D}(h(T))\le \mathbb{D}(\hat g(\boldsymbol{X})),\quad \forall \theta\in\Theta. \]

    等号成立当且仅当\(\hat g(\boldsymbol{X})=h(T)\)是均方条件下成立的。它的证明不是很有必要掌握,权当了解。

    因为\(T\)是\(g(\theta)\)的充分统计量,故\(\mathbb{E}(\hat g(\boldsymbol{X})|T)\)与待估参数\(g(\theta)\)无关,可以作为统计量,即

    \[h(T)=\mathbb{E}(\hat g(\boldsymbol{X})|T) \]

    是合理定义的统计量。下证其无偏性,由全期望公式,有

    \[\mathbb{E}(h(T))=\mathbb{E}[\mathbb{E}(\hat g(\boldsymbol{X})|T)]=\mathbb{E}(\hat g(\boldsymbol{X}))=g(\theta). \]

    最后证明其比\(\hat g(\boldsymbol{X})\)更有效,利用一个常用的拆分技巧,得到

    \[\begin{aligned} \mathbb{D}(\hat g(\boldsymbol{X}))&=\mathbb{D}[\hat g(\boldsymbol{X})-h(T)+h(T)]\\ &=\mathbb{D}(h(T))+\mathbb{D}(\hat g(\boldsymbol{X})-h(T))+2\mathrm{Cov}(h(T),\hat g(\boldsymbol{X})-h(T)), \end{aligned} \]

    然后证明交叉项为0,这里需要再次用到全期望公式,有

    \[\begin{aligned} &\quad \mathrm{Cov}(h(T),\hat g(\boldsymbol{X})-h(T))\\ &=\mathbb{E}[h(T)-g(\theta)][\hat g(\boldsymbol{X})-h(T)]\\ &=\mathbb{E}[\mathbb{E}[(h(T)-g(\theta))(\hat g(\boldsymbol{X})-h(T))|T]]\\ &=\mathbb{E}[(h(T)-g(\theta))(\mathbb{E}(\hat g(\boldsymbol{X})|T)-h(T)]\\ &=0. \end{aligned} \]

    最后的等号是因为\(h(T)=\mathbb{E}(\hat g(\boldsymbol{X})|T)\),于是代回就得到

    \[\mathbb{D}(\hat g(\boldsymbol{X}))=\mathbb{D}(h(T))+\mathbb{D}(\hat g(\boldsymbol{X})-h(T))\ge \mathbb{D}(h(T)). \]

    等号成立当且仅当\(\mathbb{D}(\hat g(\boldsymbol{X})-h(T))^2=\mathbb{E}(\hat g(\boldsymbol{X})-h(T))^2=0\)。

    这个定理的重要意义在于,如果给定的无偏估计量不是充分统计量的函数,则可以通过条件期望法,将其转变成一个充分统计量的函数作为新的统计量,并且新的统计量总是更有效的。此外,这也对我们寻找UMVUE提出启示:UMVUE一定是充分统计量的函数。如果不然,则可以通过对充分统计量求期望,得到一个更有效的统计量。

    不过,改进后的充分统计量函数,尽管是更为有效的参数估计,但却并不一定是UMVUE,下面的定理将给出一个验证点估计是否为UMVUE的方法。

    Part 3:零无偏估计法

    零无偏估计法是用于判断某个估计量是否为UMVUE的方法,为此,首先要提出什么是零无偏估计。顾名思义,零无偏估计即零的无偏估计量,对某个统计量\(l(\boldsymbol{X})\),如果有\(\mathbb{E}(l(\boldsymbol{X}))=0\),则称\(l(\boldsymbol{X})\)是一个零无偏估计量;如果统计量\(T\)是待估参数\(g(\theta)\)的充分统计量,且\(\mathbb{E}(h(T))=0\),则\(h(T)\)也称为\(g(\theta)\)的零无偏估计量。

    零无偏估计法的思想、证明过程都与上述的充分统计量条件期望法类似。如果\(\hat g(\boldsymbol{X})\)是UMVUE,则对于任意其他无偏估计\(\hat g_1(\boldsymbol{X})\),都可以视为\(\hat g_1(\boldsymbol{X})=\hat g(\boldsymbol{X})+l(\boldsymbol{X})\),显然这里\(\mathbb{E}(l(\boldsymbol{X}))=0\),要使\(\hat g_1(\boldsymbol{X})\)的方差大于\(\hat g(\boldsymbol{X})\),可以进行拆分,即

    \[\mathbb{D}(\hat g_1(\boldsymbol{X}))=\mathbb{D}(\hat g(\boldsymbol{X}))+\mathbb{D}(l(\boldsymbol{X}))+2\mathrm{Cov}(\hat g(\boldsymbol{X}),l(\boldsymbol{X})). \]

    如果最后的协方差项为0,则必有\(\mathbb{D}(\hat g_1(\boldsymbol{X}))\ge \mathbb{D}(\hat g(\boldsymbol{X}))\)。综合以上讨论,给出零无偏估计法验证UMVUE的方式。

    设\(\hat g(\boldsymbol{X})\)是\(g(\theta)\)的一个无偏估计,\(\mathbb{D}(\hat g(\boldsymbol{X}))

    \[\mathrm{Cov}(\hat g(\boldsymbol{X}),l(\boldsymbol{X}))=0, \]

    则\(\hat g(\boldsymbol{X})\)是\(g(\theta)\)的UMVUE。

    如果\(\hat g(\boldsymbol{X})\)满足与任何零无偏估计无关,则它是UMVUE,这是一个充分条件。但反之,它也是一个必要条件,即UMVUE必定与任何零无偏估计量无关。

    如果不然,设\(\mathrm{Cov}(\hat g(\boldsymbol{X}),l(\boldsymbol{X}))=b(\theta)\ne 0\),则可以假设\(\mathbb{D}(l(\boldsymbol{X}))=a^2(\theta)>0\)。现在固定\(\theta=\theta_0\)为常数,并设\(a(\theta_0)=a,b(\theta_0)=b\),只要

    \[\mathbb{D}(l(\boldsymbol{X}))+2\mathrm{Cov}(\hat g(\boldsymbol{X}),l(\boldsymbol{X}))=a^2(\theta_0)+2b(\theta_0)=a^2+2b<0, \]

    就能找到一个在\(\theta=\theta_0\)处,比\(\hat g(\boldsymbol{X})\)方差更小的无偏估计,那么\(\hat g(\boldsymbol{X})\)就不是UMVUE。注意到,如果\(l(\boldsymbol{X})\)是零无偏估计,则\(\forall k\ne 0\),\(kl(\boldsymbol{X})\)也是零无偏估计,就有

    \[\mathbb{D}(kl(\boldsymbol{X}))+2\mathrm{Cov}(\hat g(\boldsymbol{X}),kl(\boldsymbol{X}))=k^2a^2+2bk, \]

    取\(k\)值为

    \[\left\{\begin{array}l -\frac{2b}{a}0; \\ 0

    就使得\(k^2a^2+2bk<0\)成立,于是

    \[\hat g_1(\boldsymbol{X})\xlongequal{def}\hat g(\boldsymbol{X})+kl(\boldsymbol{X}) \]

    是\(g(\theta)\)的无偏估计量,且当\(\theta=\theta_0\)时\(\mathbb{D}(\hat g_1(\boldsymbol{X}))

    有了这个方法,我们可以验证一些常用的充分统计量是UMVUE了。现以正态分布\(N(\mu,\sigma^2)\)的充分统计量\((\bar X,S^2)\)为例,它们是否是UMVUE呢?如果直接验证会稍显繁琐,对零无偏估计法稍加修改可以得到以下的推论:

    如果\(T\)是充分统计量且\(h(T)\)是\(g(\theta)\)的一个无偏估计,对任何\(\theta\in\Theta\)与一切零无偏估计量\(\delta (T)\)都有

    \[\mathrm{Cov}(h(T),\delta(T))=\mathbb{E}(h(T)\delta(T))=0, \]

    则\(h(T)\)是UMVUE。

    这里只是将样本的函数改成了充分统计量的函数,以上证明过程是依然适用的。并且,由于UMVUE一定是充分统计量的函数,因此这个推论会更有应用意义。

    对于正态分布而言,充分统计量可以视为

    \[T_1=\frac{1}{n}\sum_{j=1}^n X_j,\quad T_2=\sum_{j=1}^n (X_j-\bar X)^2,\\ T_1\sim N\left(\mu,\frac{\sigma^2}{n}\right),\quad \frac{T_2}{\sigma^2}\sim\chi^2(n-1)\Rightarrow T_2\sim\Gamma\left(\frac{n-1}{2},\frac{1}{2\sigma^2} \right). \]

    由于\(T_1,T_2\)独立,所以其联合密度函数容易写出,有

    \[f_1(t_1)=\frac{\sqrt{n}}{\sqrt{2\pi \sigma^2}}\exp\left\{-\frac{n(t_1-\mu)^2}{2\sigma^2} \right\},\\ f_2(t_2)=\frac{1}{2^{\frac{n-1}{2}}\Gamma(\frac{n-1}{2})\sigma^{n-1}}t_2^{\frac{n-1}{2}-1}e^{-\frac{t_2}{2\sigma^2}},\\ f(t_1,t_2)=\frac{C}{\sigma^n}t_2^{\frac{n-1}{2}-1}\exp\left\{-\frac{n(t_1-\mu)^2+t_2}{2\sigma^2} \right\}. \]

    如果\(\delta(t_1,t_2)\)是零均值的,则有

    \[\mathbb{E}(\delta(t_1,t_2))=\frac{C}{\sigma^n}\int_{-\infty}^\infty \delta(t_1,t_2)\cdot t_2^{\frac{n-1}{2}-1}\exp\left\{-\frac{n(t_1-\mu)^2+t_2}{2\sigma^2} \right\}\mathrm{d}t_1\mathrm{d}t_2=0. \]

    令\(\exp\)部分为\(H(\mu,\sigma^2)\),也就是我们获得了这个关键的等式(它是证明的核心):

    \[\int_{-\infty}^\infty\delta(t_1,t_2)\cdot t_2^{\frac{n-1}{2}-1}H(\mu,\sigma^2)\mathrm{d}t_1\mathrm{d}t_2=0 \]

    要验证\(\mathbb{E}(t_1,\delta(t_1,t_2))\)与\(\mathbb{E}(t_2,\delta(t_1,t_2))\)是否为0,先从第一个入手,写出其表达式为

    \[\mathbb{E}(t_1,\delta(t_1,t_2))=\frac{C}{\sigma^n}\int_{-\infty}^{\infty}\delta(t_1,t_2)t_1t_2^{\frac{n-1}{2}-1}H(\mu,\sigma^2)\mathrm{d}t_1\mathrm{d}t_2. \]

    要验证\(\mathbb{E}(t_1,\delta(t_1,t_2))=0\),实际上就是验证

    \[\int_{-\infty}^\infty \delta(t_1,t_2)t_1t_2^{\frac{n-1}{2}-1}H(\mu,\sigma^2)\mathrm{d}t_1\mathrm{d}t_2\stackrel{?}=0. \]

    不要被这个庞然大物吓到,事实上我们唯一的条件只有\(\mathbb{E}(\delta(t_1,t_2))=0\)所对应的等式,注意到上面的等式无论\(\mu,\sigma\)的真值是多少都应该成立,所以是\(\mu,\sigma\)的二元函数,我们能做的事也很有限——对参数求导。这里涉及到了求导与积分是否可交换的问题,我们姑且不考虑,默认视为可交换即可,由于\(\sigma^2\)很复杂,所以对\(\mu\)求导即可。唯一含有\(\mu\)的项是积分号中间的\(\exp\)部分,其导数为

    \[H(\mu,\sigma^2)=\exp\left\{-\frac{n(t_1-\mu)^2+t_2}{2\sigma^2} \right\},\\ \frac{\partial H(\mu,\sigma^2)}{\partial \mu}=\frac{2n(t_1-\mu)}{\sigma^2}H(\mu,\sigma^2), \]

    于是就有

    \[\frac{\partial \mathbb{E}(\delta_1,\delta_2)}{\partial\mu}=\frac{C}{\sigma^n}\int_{-\infty}^\infty\delta(t_1,t_2)t_2^{\frac{n-1}{2}-1}\frac{2n(t_1-\mu)}{\sigma^2}H(\mu,\sigma^2)\mathrm{d}t_1\mathrm{d}t_2=0, \]

    将求导后得到的式子展开,提取出参数并代入上面的结果,就有

    \[\int_{-\infty}^\infty\delta(t_1,t_2)t_1t_2^{\frac{n-1}{2}-1}H(\mu,\sigma)\mathrm{d}t_1\mathrm{d}t_2=0, \]

    也就说明了\(\mathbb{E}(t_1,\delta(t_1,t_2))=0\),由\(\delta(t_1,t_2)\)的任意性以及\(T_1\)的无偏性,可知\(\bar X\)是\(\mu\)的UMVUE。

    下一步证明\(T_2/(n-1)\)是\(\sigma^2\)的UMVUE,也就是证明\(\mathbb{E}(t_2,\delta(t_1,t_2))=0\),同样写出需要验证的等式为

    \[\int_{-\infty}^\infty\delta(t_1,t_2) t_2^{\frac{n-1}{2}}H(\mu,\sigma^2)\mathrm{d}t_1\mathrm{d}t_2\stackrel{?}=0. \]

    现在我们尝试将关键的等式对\(\sigma^2\)求导,同样,先计算\(H\)对\(\sigma^2\)的偏导,有

    \[H(\mu,\sigma^2)=\exp\left\{-\frac{n(t_1-\mu)^2+t_2}{2\sigma^2} \right\},\\ \frac{\partial H(\mu,\sigma^2)}{\partial \sigma^2}=\frac{n(t_1-\mu)^2+t_2}{2\sigma^4}H(\mu,\sigma^2), \]

    可以看到,这里除了出现已经确认代入能为0的常数项和\(t_1\)外,还多了\(t_1^2\)与\(t_2\)的项,\(t_2\)就是我们的目标,所以再处理一下\(t_1^2\)这一项。显然,对\(\mu\)求导一次能得到\(t_1\)的一次项,那么对\(\mu\)求二阶导,就能得到\(t_1^2\)项,所以

    \[\frac{\partial H(\mu,\sigma^2)}{\partial \mu}=\frac{2n(t_1-\mu)}{\sigma^2}H(\mu,\sigma^2),\\ \frac{\partial^2H(\mu,\sigma^2)}{\partial\mu^2}=H(\mu,\sigma^2)\left[\frac{4n^2(t_1-\mu)^2}{\sigma^4}-\frac{2n}{\sigma^2} \right]. \]

    这样就出现了需要的\(t_1^2\)项,剩下的工作只有繁琐的代入计算而已,我们实际上已经完成了证明的主要步骤,因此\(S^2\)也是\(\sigma^2\)的UMVUE。

    对于一元连续或离散情形下UMVUE的验证,难度要比二元情形下小得多,因此读者只要掌握了正态分布的零无偏估计法验证,理论上其他UMVUE的验证便不成问题。读者可以自己尝试其他UMVUE的验证。

    今天,我们提出了UMVUE的概念,重点在于利用充分统计量改进普通的无偏估计,并且利用零无偏估计法验证某个充分统计量函数是否是UMVUE。但是,我们并没有给出寻找UMVUE的方法,如果依靠感觉没有方向地寻找再一个个验证是否为UMVUE,是十分繁琐且难以成功的。比如对于\(B(1,p)\)的参数估计\(g(p)=p(1-p)\),如果用先猜想后验证的方法来寻找UMVUE,甚至没有入手点。

    因此,明天我们将学习寻找UMVUE的方法,并介绍一个被我们忽略已久的概念——指数族。

    展开全文
  • 常用的分布的分布函数、概率密度、期望、方差、矩母函数、是否具有可加性、与其他分布的关系、最小充分统计量、完备性、MLE以及统计量的分布。 Part zero Uniform DIstribution Part a Geometric Distribution Part ...
  • *2.6 指数族 2.7 充分统计量 *2.8 完全统计量 习题二第3章 点估计 3.1 引言 3.2 矩估计 3.3 极大似然估计 *3.4 一致最小方差无偏估计 3.5 Cramer-Rao不等式 习题三第4章 区间估计 4.1 区间估计的基本概念 4.2 枢轴...
  • 估计——一般最小方差无偏估计

    千次阅读 2019-03-22 22:14:43
    - 回顾 前面一直在讲述估计量的有效性(CRLB,线性模型),而没有提到假如估计量的方差没有达到CRLB,即是有效估计量不存在,但能够求出MVU估计量(假定存在)仍然是一个重要的事(可参考文章中...- 充分统计量(Su...
  • 目录知识储备正态分布族泊松分布族伽马分布族(含指数分布族)两点分布族彩蛋:利用basu定理化简条件期望(0)知识储备充分统计量常用因子分解定理求某参数的充分统计量指数分布族、满秩指数分布族、正则分布族的...
  • 我们在工作中将l1范数或重新加权的l1范数合并到最小误差熵(MEE)标准中,以开发新的稀疏自适应滤波器,其性能可能比基于MSE的方法好得多,尤其是在重型尾非高斯态,因为误差熵可以捕获误差的高阶统计量。...
  • 最后应用幂级数分布族性质确定这些离散型分布的完备充分统计量的分布形式、参数的一致最小方差无偏估计的方法以及随机变量的取值问题.得出结论:两点分布、二项分布、泊松分布、几何分布和负二项分布等常见离散型随机...
  • Stata 9 很好的统计软件

    热门讨论 2008-11-24 11:45:14
     Stata 是一个统计分析软件,但它也具有很强的程序语言功能,这给用户提供了一个广阔的开发应用的天地,用户可以充分发挥自己的聪明才智,熟练应用各种技巧,真正做到随心所欲。事实上, Stata 的 ado 文件 ( 高级...
  • 利用MATLAB工具箱,以平均气温、日照时数、平均风速为输入变量,建立了新疆石河子地区棉花耗水的RBF人工神经网络预测系统,通过2008年实测数据的检验表明,此预测系统网络模型的绝对误差最大为0.0967mm/d、最小为0...
  • 浅谈广义线性回归

    千次阅读 2017-08-22 11:06:12
     其中为自然参数,它可能是一个向量,而叫做充分统计量,也可能是一个向量,通常来说。  实际上线性最小二乘回归和Logistic回归都是广义线性模型的一个特例。当随机变量服从高斯分布,那么  得到的是线性...
  • 1.4 统计量充分性 附录因子分解定理的证明 第2章 无偏估计与同变估计 2.1 风险一致最小的无偏估计 2.2 cramer-Rao不等式 2.3 估计的容许性 2.4 同变估计 附录 第3章 Bayes估计与Minimax估计 3.1 Bayes估计...
  • 高斯消元求最小步数,二进制... 0-1开关,n*n个方程,n*n个未知,求最小操作的步数 思路: 充分理解高斯消元的过程,如果有变元,二进制枚举 利用初等行变换最终的上三角阵,自下向上求解剩余变量,统计1的个数
  • 来财猫 v1.0.2.0.zip

    2019-07-15 14:55:59
    通过来财猫可以快速提升APP应用的新增用户数、应用启动次数、日活用户、留存率等各项指标,从 而帮助APP开发者提高应用的人气和知名度,这些数据在友盟、百度等各大统计器都能统计到,来财猫是移动营销和app推广的...
  • 分词系统是基于字符串匹配的分词方法 ,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与 一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。...
  • 9.4统计量估计中的重采样技术 9.5分类器设计中的重采样技术 9.6分类器的评价和比较 9.7组合分类器 本章小结 文献和历史评述 习题 上机练习 参考文献 ------------------------------- 第十章无监督学习和...
  • 9.4统计量估计中的重采样技术 9.5分类器设计中的重采样技术 9.6分类器的评价和比较 9.7组合分类器 本章小结 文献和历史评述 习题 上机练习 参考文献 ------------------------------- 第十章无监督学习和...
  • 利用MATLAB工具箱,以平均气温、日照时数、平均风速为输入变量,建立了新疆石河子地区棉花耗水的RBF人工神经网络预测系统,通过2008年实测数据的检验表明,此预测系统网络模型的绝对误差最大为0.0967mm/d、最小为0...
  • 通过数据的无缝联接,大大减少了开料工人手工录入的工作,确保了数据的准确性。 五、专业的实施服务 经过八年的锤炼,历经众多客户的实践,点信公司培养了一批富有实践经验的开料专家。我们深信:只有配以良好和...
  • 满足企业充分利用现有资源快速高效地进行生产经营的需求,进一步提高工作效率和扩大竞争优势。计划、执行、审核与处置功能在整个方案流程中得到实现,使企业整个管理流程更加清晰、预算控制更加有效、企业决策更加...
  • Ncstudio™基于Microsoft Windows操作系统,充分发挥32位计算和多任务的强大优势。同时,标准的Windows风格用户界面具有操作简便可靠、简单易学的优点。 该数控系统除具有手动、步进、自动和回机械原点功能外,还...
  • OTN原理、发展白皮书

    2012-05-09 13:24:34
    因此,基于WB/PLC的ROADM,可以充分利用现有的成熟技术,对网络的影响最小,易于实现从FOADM到2维ROADM的升级,具有极高的成本效益。而基于WSS的ROADM,可以在所有方向提供波长粒度的信道,远程可重配置所有直通端口...
  • 统计相关性本身含有最佳化过程,最佳化技术和统计相关性在发展预测方法论方面起着重要作用。  经济学内部分类和决策学内部分类都有重叠;此外,经济学和决策学这两者之间也有大量重叠。例如,经济学的许多重要...
  • Discuz! 3.1.2 商业版

    2006-02-23 09:05:59
    力争占用数据库资源最小,页面处理时间最短.在一台配置良好的 P4 级 UNIX 主机上, 100 万贴论坛平均页面处理时间不超过 0.03 秒(搜索除外),页面平均数据库查询数不超过5 个,最大承载在线人数超过 5000 人,如果构建 ...
  • 友情链接及网页访问量统计显示:在博客的个人页面中还提供了推荐给普通网络用户的相关友情链接,此外,对个人页面的访问也在随时进行统计,并在个人页面中进行直观的显示。 博客主页面的用例图如图3所示: 图3 ...
  • 友情链接及网页访问量统计显示:在博客的个人页面中还提供了推荐给普通网络用户的相关友情链接,此外,对个人页面的访问也在随时进行统计,并在个人页面中进行直观的显示。 博客主页面的用例图如图3所示: 图3 ...

空空如也

空空如也