精华内容
下载资源
问答
  • 次序统计量 所谓次序统计量,针对的是从总体中挑选n个样本的概念。 比如,X可取0,1,2。则当n=3时,可以知道共有27种可能性。 将其从大到小排序,结果可能只有9种情况。 所谓X(2)表示排序后第2个数取值的可能性。X...
    1. 次序统计量
      所谓次序统计量,针对的是从总体中挑选n个样本的概念。
      比如,X可取0,1,2。则当n=3时,可以知道共有27种可能性。
      将其从大到小排序,结果可能只有9种情况。
      所谓X(2)表示排序后第2个数取值的可能性。X(2)=0,1,2
      相加肯定为一
      在这里插入图片描述
      在这里插入图片描述

    2. 充分统计量
      数理统计的本质是通过样本来做推断,也就是说统计推断是这个学科的主要负责功能。而直观来说,推理需要证据,需要信息,这也就是充分统计量诞生的来源:统计量可不可以尽量少,并且包含样本提供的我们感兴趣的所有信息?你想,如果可以包含一个样本的所有信息,那么这个统计量,直白的来说就可以代替这个样本中的所有数据,从某种意义上来说也是一种降维。这也是为什么充分统计量具有非常大的统计学上的意义。
      若给定统计量的值,样本联合密度的条件分布与未知参数无关,则这个统计量为充分统计量。

    伽马函数:详见
    https://blog.csdn.net/weixin_43077261/article/details/96167713

    展开全文
  • 次序统计量与百分位点的区间估计,赵琳琳,,本文给出了未知连续型总体百分位点的一种次序统计量的区间估计方法。首先介绍次序统计量的定义及其概率密度函数和分布函数,然后
  • 对任意3个次序统计量的分布及任意l(1≤l≤n)个次序统计量的分布给出详细的证明.
  • UA MATH564 概率论IV 次序统计量次序统计量的分布例子例1:均匀分布的次序统计量例2:Dirichlet分布 次序统计量的分布 次序统计量的作用是比较大的,经常可以作为某些分布的充分统计量,统计量的含义以及次序统计量...

    次序统计量的分布

    次序统计量的作用是比较大的,经常可以作为某些分布的充分统计量,统计量的含义以及次序统计量的重要性可以参考统计理论那个系列。假设样本为{X1,X2,,Xn}\{X_1,X_2,\cdots,X_n\},总体分布为F(X)F(X),概率密度为f(x)f(x)。将这组样本按从小到大的顺序排列,并记为{X(1),X(2),,X(n)}\{X_{(1)},X_{(2)},\cdots,X_{(n)}\},则这种统计量叫做样本的次序统计量。

    定理1(单个次序统计量的分布)
    FX(j)=k=jnCnk[F(x)]k[1F(x)]nkF_{X_{(j)}} = \sum_{k=j}^n C_n^k [F(x)]^k[1-F(x)]^{n-k}
    证明
    先描述一个比较直观的推导:要计算X(j)X_{(j)}的分布就是要想办法估计P(X(j)x)P(X_{(j)} \le x),显然X(1)X_{(1)}X(j1)X_{(j-1)}也要小于xx。这意味着在原来的nn个样本{X1,X2,,Xn}\{X_1,X_2,\cdots,X_n\}中,至少有jj个比xx小。简单随机样本独立同分布,因此比xx小的样本数目服从二项分布binom(n,F(x))binom(n,F(x))。如果有kjk\ge j个比xx小,那么概率就是Cnk[F(x)]k[1F(x)]nkC_n^k [F(x)]^k[1-F(x)]^{n-k},对所有可能的kk求和就可以得到P(X(j)x)P(X_{(j)} \le x)
    下面给出正式证明:
    定义Yj=I(,x](Xj)Y_j = I_{(-\infty,x]}(X_j),记
    p=P(Yj=1)=P(Xjx)=F(x)p = P(Y_j=1)=P(X_j \le x) = F(x)
    从而YjBer(F(x))Y_j \sim Ber(F(x))。定义Sn=j=1nYjS_n = \sum_{j=1}^n Y_j,根据Bernoulli分布的可加性,SnBinom(n,F(x))S_n \sim Binom(n,F(x))。从而
    FX(j)=P(X(j)x)=P(Snj)=k=jnCnk[F(x)]k[1F(x)]nkF_{X_{(j)}} = P(X_{(j)} \le x) = P(S_n \ge j) \\ = \sum_{k=j}^n C_n^k [F(x)]^k[1-F(x)]^{n-k}

    定理2(单个次序统计量的概率密度)
    fX(j)(x)=jCnj[F(x)]j1[1F(x)]njf(x)f_{X_{(j)}}(x) = jC_n^j [F(x)]^{j-1}[1-F(x)]^{n-j}f(x)
    证明
    这个其实可以直接硬算,但这里给一个比较直观的推导:考虑
    fX(j)(x)Δx=P(xX(j)<x+Δx)f_{X_{(j)}}(x) \Delta x = P(x \le X_{(j)}<x+\Delta x)
    这个概率可以分成三部分来求:

    1. 有一个样本在[x,x+Δx)[x,x+\Delta x)中;
    2. j1j-1个样本在(,x)(\infty,x)中;
    3. njn-j个样本在[x+Δx,+)[x+\Delta x,+\infty)中;

    第一条对应的概率为Cn1f(x)ΔxC_n^1f(x) \Delta x;第二条对应的概率为Cn1j1[F(x)]j1C_{n-1}^{j-1}[F(x)]^{j-1};第三条对应的概率为[1F(x)]nj[1-F(x)]^{n-j}。因此
    fX(j)(x)Δx=[Cn1f(x)Δx][Cn1j1[F(x)]j1][[1F(x)]nj]=jCnj[F(x)]j1[1F(x)]njf(x)Δxf_{X_{(j)}}(x) \Delta x = [C_n^1f(x) \Delta x][C_{n-1}^{j-1}[F(x)]^{j-1}][[1-F(x)]^{n-j}] \\ =jC_n^j [F(x)]^{j-1}[1-F(x)]^{n-j}f(x) \Delta x
    这里只用了一个nCn1j1=jCnjnC_{n-1}^{j-1} = jC_n^j的关系。

    定理3(两个次序统计量的联合概率密度)不妨假设j>ij>i,则
    fX(i),X(j)(xi,xj)=(n)2f(xi)f(xj)Cn2i1Cni3ji1[F(xi)]i1[F(xj)F(xi)]ji1[1F(xj)]njf_{X_{(i)},X_{(j)}}(x_i,x_j)=(n)_2f(x_{i})f(x_{j}) C_{n-2}^{i-1}C_{n-i-3}^{j-i-1}[F(x_i)]^{i-1}[F(x_j)-F(x_i)]^{j-i-1}[1-F(x_j)]^{n-j}
    证明
    用上面那个定理那种比较直观的推导办法。
    fX(i),X(j)(xi,xj)(Δx)2=P(xiX(i)<xi+Δx,xjX(j)<xj+Δx)f_{X_{(i)},X_{(j)}}(x_i,x_j) (\Delta x)^2 = P(x_i \le X_{(i)} < x_i + \Delta x, x_j\le X_{(j)} < x_j + \Delta x)
    将这个概率分成四部分计算:

    1. 有两个样本,一个在[xi,xi+Δx)[x_i,x_i+\Delta x)中,另一个在[xj,xj+Δx)[x_j,x_j+\Delta x)中;
    2. i1i-1个样本在(,xi)(\infty,x_i)中;
    3. ji1j-i-1个样本在[xi+Δx,xj][x_i+\Delta x,x_j]中;
    4. njn-j个样本在[xj+Δx,+)[x_j+\Delta x,+\infty)中;

    第一条对应的概率是(n)2f(xi)Δxf(xj)Δx(n)_2f(x_i)\Delta x f(x_j)\Delta x;第二条对应的概率是Cn2i1[F(xi)]i1C_{n-2}^{i-1}[F(x_i)]^{i-1};第三条对应的概率是Cni3ji1[F(xj)F(xi)]ji1C_{n-i-3}^{j-i-1}[F(x_j)-F(x_i)]^{j-i-1};第四条对应的概率是[1F(xj)]nj[1-F(x_j)]^{n-j}。因此
    fX(i),X(j)(xi,xj)(Δx)2=[(n)2f(xi)Δxf(xj)Δx][Cn2i1[F(xi)]i1][Cni3ji1[F(xj)F(xi)]ji1][[1F(xj)]nj]f_{X_{(i)},X_{(j)}}(x_i,x_j) (\Delta x)^2=[(n)_2f(x_i)\Delta x f(x_j)\Delta x][C_{n-2}^{i-1}[F(x_i)]^{i-1}][C_{n-i-3}^{j-i-1}[F(x_j)-F(x_i)]^{j-i-1}][[1-F(x_j)]^{n-j}]

    例子

    例1:均匀分布的次序统计量

    假设{U1,,Un}\{U_1,\cdots,U_n\}是一组[0,1][0,1]上的均匀分布的简单随机样本,则
    F(x)=x,f(x)=1F(x)=x,f(x) = 1
    根据定理2:
    fU(j)(x)=jCnj[F(x)]j1[1F(x)]njf(x)=n!(j1)!(nj)!xj1(1x)nj=Γ(n+1)Γ(j)Γ(nj+1)xj1(1x)njf_{U_{(j)}}(x) = jC_n^j [F(x)]^{j-1}[1-F(x)]^{n-j}f(x) \\ = \frac{n!}{(j-1)!(n-j)!}x^{j-1}(1-x)^{n-j} \\ = \frac{\Gamma(n+1)}{\Gamma{(j)}\Gamma(n-j+1)}x^{j-1}(1-x)^{n-j}
    因此U(j)Beta(j,nj+1)U_{(j)} \sim Beta(j,n-j+1)。即均匀分布U[0,1]U[0,1]的次序统计量会服从beta分布。根据定理3:
    fU(i),U(j)(xi,xj)=(n)2Cn2i1Cni3ji1[F(xi)]i1[F(xj)F(xi)]ji1[1F(xj)]nj=n!(i1)!(ji1)!(nj)!xii1(xjxi)ji1(1xj)nj=Γ(n+1)Γ(i)Γ(ji)Γ(nj+1)xii1(xjxi)ji1(1xi(xjxi))njf_{U_{(i)},U_{(j)}}(x_i,x_j)=(n)_2C_{n-2}^{i-1}C_{n-i-3}^{j-i-1}[F(x_i)]^{i-1}[F(x_j)-F(x_i)]^{j-i-1}[1-F(x_j)]^{n-j} \\ = \frac{n!}{(i-1)!(j-i-1)!(n-j)!}x_i^{i-1}(x_j-x_i)^{j-i-1}(1-x_j)^{n-j} \\ =\frac{\Gamma(n+1)}{\Gamma(i)\Gamma(j-i)\Gamma(n-j+1)} x_i^{i-1}(x_j-x_i)^{j-i-1}(1-x_i - (x_j-x_i))^{n-j}
    ui=xi,uj=xjxiu_i=x_i,u_j=x_j-x_i
    fU(i),U(j)(ui,uj)=Γ(n+1)Γ(i)Γ(ji)Γ(nj+1)uii1ujji1(1uiuj)njf_{U_{(i)},U_{(j)}}(u_i,u_j)=\frac{\Gamma(n+1)}{\Gamma(i)\Gamma(j-i)\Gamma(n-j+1)} u_i^{i-1}u_j^{j-i-1}(1-u_i-u_j)^{n-j}
    这个是二元的beta分布,可以记为beta(i,ji,nj+1)beta(i,j-i,n-j+1)

    例2:Dirichlet分布

    在上面的例子中,提到一个多元beta分布的东西,但它一般被称为Dirichlet分布,其一般形式为
    f(xα)=Γ(i=1nαi)i=1nΓ(αi)i=1nxiαi1f(x|\alpha) = \frac{\Gamma(\sum_{i=1}^n \alpha_i)}{\prod_{i=1}^n \Gamma(\alpha_i)} \prod_{i=1}^n x_i^{\alpha_i-1}
    这个分布定义在n1n-1维(因为是n1n-1维的线性流形)的单纯形Δn1={x:i=1nxi=1,xi0}\Delta^{n-1}=\{x:\sum_{i=1}^n x_i=1,x_i \ge 0\}上,分布可以记为Dir(α1,,αn)Dir(\alpha_1,\cdots,\alpha_n)。关于Dirichlet分布有几个有趣的性质:

    1. αi=1,i\alpha_i=1,\forall i,Dirichlet分布退化为单纯形Δn\Delta^n上的均匀分布;
    2. (X1,,Xi+Xi+1,,Xn)Dir(α1,,αi+αi+1,,αn)(X_1,\cdots,X_i+X_{i+1},\cdots,X_n)\sim Dir(\alpha_1,\cdots,\alpha_i+\alpha_{i+1},\cdots,\alpha_n)
    3. Xibeta(αi,j=1nαjαi)X_i \sim beta(\alpha_i,\sum_{j=1}^n \alpha_j - \alpha_i)
    4. {U1,,Un}\{U_1,\cdots,U_n\}mm个次序统计量(序号为i1,,imi_{1},\cdots,i_{m})的联合分布为Dir(i1,i2i2,,nim+1)Dir(i_1,i_2-i_2,\cdots,n-i_m+1)
    展开全文
  • 由于估计量都是基于次序统计量来构建的,所以估计量所包含的上次序统计量的个数的选取就是一个值得探讨的问题。基于作者曾经提出的一类新的Pickands型估计量,在一定的正则变换条件下,本文给出了该估计量的渐近展式,...
  • 以载荷-强度干涉理论为基础,以共因失效机理为依据,借用次序统计量的概念,通过实际样本强度分布(即系统中n个零件的强度分布)与次序统计量的映射关系,针对3种典型系统,提出了基于两端截尾次序统计量的系统级串联、并联...
  • 本文主要讨论了抽样分布的基本概念,与正态总体有关的一些统计量的精确分布,重点介绍了次序统计量的概念及其分布。

    Chapter 2:抽样分布与次序统计量

    一、抽样分布及预备知识

    Part 1:样本均值和样本方差的基本性质

    统计量的分布通常称为抽样分布,或称为诱导分布。当总体 XX 的分布类型已知时,样本 (X1,X2,,Xn)(X_1,X_2,\cdots,X_n) 的分布类型也是已知的,因此理论上我们也可以推导出统计量 T=T(X1,X2,,Xn)T=T(X_1,X_2,\cdots,X_n) 的分布的表达式,这种分布称为精确抽样分布。

    我们可以用抽样分布来研究统计量的性质以及衡量一个统计推断方法的优良性。英国统计学家 R.A. Fisher 把抽样分布、参数估计和假设检验看作统计推断的三个中心内容。

    样本均值和样本方差是统计推断中最常用的两个统计量,因此研究样本均值和样本方差的分布也是数理统计中必不可少的环节。上一章中,我们介绍了样本均值和样本方差的基本概念,在这里我们来简单了解一下它们的基本性质。

    假设有总体 XF(x)X\sim F(x) ,已知 X=(X1,X2,,Xn)\boldsymbol{X}=(X_1,X_2,\cdots,X_n) 为来自该总体的简单随机样本,Xˉ\bar{X}S2S^2 为其样本均值与样本方差,记 Sn2S_n^2 为二阶样本中心矩。若总体的方差存在,并记 E(X)=μ{\rm E}(X)=\muVar(X)=σ2{\rm Var}(X)=\sigma^2 ,则有
    E(Xˉ)=μ ,    Var(Xˉ)=σ2n ,    E(S2)=σ2 ,    E(Sn2)=n1nσ2 . {\rm E}(\bar{X})=\mu \ , \ \ \ \ {\rm Var}(\bar{X})=\frac{\sigma^2}{n} \ , \ \ \ \ {\rm E}\left(S^2\right)=\sigma^2 \ , \ \ \ \ {\rm E}\left(S_n^2\right)=\frac{n-1}{n}\sigma^2 \ .
    关于样本均值的期望,我们利用期望的性质很容易计算:

    E(Xˉ)=E(1ni=1nXi)=1ni=1nE(Xi)=1ni=1nμ=μ . {\rm E}\left(\bar{X}\right)={\rm E}\left(\frac{1}{n}\sum_{i=1}^nX_i\right)=\frac1n\sum_{i=1}^n{\rm E}(X_i)=\frac1n\sum_{i=1}^n\mu=\mu \ .

    关于样本均值的方差,我们需要用到方差的性质和简单随机样本的独立性:
    Var(Xˉ)=Var(1ni=1nXi)=1n2i=1nVar(Xi)=1n2i=1nσ2=σ2n . {\rm Var}\left(\bar{X}\right)={\rm Var}\left(\frac{1}{n}\sum_{i=1}^nX_i\right)=\frac{1}{n^2}\sum_{i=1}^n{\rm Var}(X_i)=\frac{1}{n^2}\sum_{i=1}^n\sigma^2=\frac{\sigma^2}{n} \ .
    关于样本方差的期望。我们首先需要计算两个量:
    E(Xi2)=Var(Xi)+[E(Xi)]2=σ2+μ2 . {\rm E}\left(X_i^2\right)={\rm Var}(X_i)+[{\rm E}(X_i)]^2=\sigma^2+\mu^2 \ .

    E(Xˉ2)=Var(Xˉ)+[E(Xˉ)]2=σ2n+μ2 . {\rm E}\left({\bar{X}}^2\right)={\rm Var}(\bar{X})+\left[{\rm E}(\bar{X})\right]^2=\frac{\sigma^2}{n}+\mu^2 \ .

    接着,我们将样本方差的计算公式进行变形:
    S2=1n1i=1n(XiXˉ)2=1n1(i=1nXi2nXˉ2) . S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2=\frac{1}{n-1}\left(\sum_{i=1}^nX_i^2-n\bar{X}^2\right) \ .
    对上式两边求期望得:
    E(S2)=1n1[i=1nE(Xi2)nE(Xˉ2)]=1n1[n(σ2+μ2)(σ2+nμ2)]=σ2 . {\rm E}\left(S^2\right)=\frac{1}{n-1}\left[\sum_{i=1}^n{\rm E}\left(X_i^2\right)-n{\rm E}\left({\bar{X}}^2\right)\right]=\frac{1}{n-1}\left[n\left(\sigma^2+\mu^2\right)-\left(\sigma^2+n\mu^2\right)\right]=\sigma^2 \ .
    关于样本中心矩的期望,可以由样本方差的期望得到:
    E(Sn2)=E(n1nS2)=n1nE(S2)=n1nσ2 . {\rm E}\left(S_n^2\right)={\rm E}\left(\frac{n-1}{n}S^2\right)=\frac{n-1}{n}{\rm E}\left(S^2\right)=\frac{n-1}{n}\sigma^2 \ .
    以上四个关于样本均值和样本方差的基本性质,在各种统计推断中都具有很重要的作用。事实上,能求出统计量的精确分布的情形不多,已知的精确抽样分布大多是在正态条件下得到的。我们知道,正态分布的信息完全由它的期望和方差所决定,因此如果我们假定总体是服从正态分布的,就只需要对它的期望和方差作估计。

    Part 2:随机变量线性变换的期望和方差

    假设在两个随机变量 X=(X1,X2,,Xn)T\boldsymbol X=(X_1,X_2,\cdots,X_n)^{\rm T}Y=(Y1,Y2,,Yn)T\boldsymbol Y=(Y_1,Y_2,\cdots,Y_n)^{\rm T} 之间有一个线性变换 Y=AX\boldsymbol Y =\boldsymbol A \boldsymbol X ,其中 A=(aij)\boldsymbol A=(a_{ij})n×nn\times n 的矩阵,即
    [Y1Y2Yn]=[a11a12a1na21a22a2nan1an2ann]=[X1X2Xn] , \left[ \begin{array}{c} Y_1 \\ Y_2 \\ \vdots \\ Y_n \end{array} \right]= \left[ \begin{array}{cccc} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n1} & a_{n2} & \cdots & a_{nn} \\ \end{array} \right]= \left[ \begin{array}{c} X_1 \\ X_2 \\ \vdots \\ X_n \end{array} \right] \ ,
    则有随机变量线性变换的期望和方差:
    E(Y)=E(AX)=AE(X) ,Var(Y)=Var(AX)=AVar(X)AT . {\rm E}(\boldsymbol Y)={\rm E}(\boldsymbol A\boldsymbol X)=\boldsymbol A{\rm E}(\boldsymbol X) \ , \quad {\rm Var}(\boldsymbol Y)={\rm Var}(\boldsymbol A\boldsymbol X)=\boldsymbol A{\rm Var}(\boldsymbol X)\boldsymbol A^{\rm T} \ .

    将线性变换 Y=AX\boldsymbol Y =\boldsymbol A \boldsymbol X 写为求和的形式,由期望的性质显然可得:
    Yi=j=1naijXjE(Yi)=j=1naijE(Xj)E(Y)=AE(X) . Y_i=\sum_{j=1}^n a_{ij}X_j \quad \Longrightarrow \quad {\rm E}(Y_i)=\sum_{j=1}^na_{ij}{\rm E}(X_j) \quad \Longrightarrow \quad {\rm E}(\boldsymbol Y)=\boldsymbol A{\rm E}(\boldsymbol X) \ .

    计算线性变换的方差,则有
    Var(Y)=E[(YE(Y))(YE(Y))T]=E[(AXAE(X))(AXAE(X))T]=E[A(XE(X))(XE(X))TAT]=AE[(XE(X))(XE(X))T]AT=AVar(X)AT . \begin{aligned} {\rm Var}(\boldsymbol Y)&={\rm E}\left[\big(\boldsymbol Y-{\rm E}(\boldsymbol Y)\big)\big(\boldsymbol Y-{\rm E}(\boldsymbol Y)\big)^{\rm T}\right] \\ &={\rm E}\left[\big(\boldsymbol A\boldsymbol X-\boldsymbol A{\rm E}(\boldsymbol X)\big)\big(\boldsymbol A\boldsymbol X-\boldsymbol A{\rm E}(\boldsymbol X)\big)^{\rm T}\right] \\ &={\rm E}\left[\boldsymbol A\big(\boldsymbol X-{\rm E}(\boldsymbol X)\big)\big(\boldsymbol X-{\rm E}(\boldsymbol X)\big)^{\rm T}\boldsymbol A^{\rm T}\right] \\ &=\boldsymbol A{\rm E}\left[\big(\boldsymbol X-{\rm E}(\boldsymbol X)\big)\big(\boldsymbol X-{\rm E}(\boldsymbol X)\big)^{\rm T}\right]\boldsymbol A^{\rm T} \\ &=\boldsymbol A{\rm Var}(\boldsymbol X)\boldsymbol A^{\rm T} \ . \end{aligned}
    这两个计算公式应该在概率论的学习中便已经掌握,在我们接下来要讨论的正态总体的抽样分布中,将会多次使用以上公式。下面,我们就对正态总体的样本均值和样本方差的分布展开讨论。

    二、正态总体的抽样分布

    Part 1:正态分布的概率论准备

    在给出正态总体的样本均值和样本方差的分布之前,我们先回忆一下几个概率论中的定义和结论。

    1. 如果 nn 维随机变量 X=(X1,X2,,Xn)T\boldsymbol X=(X_1,X_2,\cdots,X_n)^{\rm T} 服从 nn 维正态分布,则它的线性变换 Y=AX\boldsymbol Y =\boldsymbol A \boldsymbol X 也服从正态分布。

    2. 正态分布具有可加性,即对任意一组相互独立的正态随机变量,它们的和仍然服从正态分布,其期望和方差可以由各个分量直接加和得到。

    3. 如果 (X1,X2,,Xn)T(X_1,X_2,\cdots,X_n)^{\rm T} 服从 nn 维正态分布,则 X1,X2,,XnX_1,X_2,\cdots,X_n 相互独立的充要条件为它们之间两两不相关。

    4. 自由度为 nnχ2\chi^2 分布:设 X1,X2,,Xni.i.d.N(0,1)X_1,X_2,\cdots,X_n\stackrel{\mathrm {i.i.d.}}\sim N(0,1) ,则将随机变量 K=i=1nXi2K=\sum\limits_{i=1}^nX_i^2 的分布定义为自由度为 nnχ2\chi^2 分布,记为 Kχ2(n)K\sim\chi^2(n)

    在上述结论的基础上,我们给出下面的定理并进行严格的推导证明。

    Part 2:正态总体的样本均值和样本方差的分布

    X1,X2,,XnX_1,X_2,\cdots,X_n 是取自正态总体 N(μ,σ2)N(\mu,\sigma^2) 的一组简单随机样本。Xˉ\bar{X}S2S^2 分别为样本均值和样本方差,则有

    1. 样本均值的分布:XˉN(μ,σ2n)\bar{X}\sim N\left(\mu,\dfrac{\sigma^2}{n}\right)

    2. 样本方差的分布:(n1)S2σ2χ2(n1)\dfrac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)

    3. 独立性:Xˉ\bar{X}S2S^2 独立。

    对于 1,我们可以定义统计量
    Tn=i=1nXi ,Xˉ=1ni=1nXi=1nTn , T_n=\sum_{i=1}^nX_i \ , \quad \bar{X}=\frac1n\sum_{i=1}^nX_i=\frac1n T_n \ ,
    利用正态分布的可加性,所以有
    TnN(nμ,nσ2) . T_n\sim N\left(n\mu,n\sigma^2\right) \ .
    再利用正态分布的数乘性质,所以有
    Xˉ=1nTnN(μ,σ2n) . \bar{X}=\frac{1}{n}T_n\sim N\left(\mu,\frac{\sigma^2}{n}\right) \ .
    对于 2 ,使用施密特正交化构造一个如下的正交阵
    A=[1n1n1n1n1211210013213223201n(n1)1n(n1)1n(n1)(n1)n(n1)] . \boldsymbol A=\left[ \begin{array}{ccccc} \frac{1}{\sqrt{n}} & \frac{1}{\sqrt{n}} & \frac{1}{\sqrt{n}} & \cdots & \frac{1}{\sqrt{n}} \\ \frac{1}{\sqrt{2\cdot1}} &\frac{-1}{\sqrt{2\cdot1}} & 0 & \cdots & 0 \\ \frac{1}{\sqrt{3\cdot2}} & \frac{1}{\sqrt{3\cdot2}} & \frac{-2}{\sqrt{3\cdot2}} & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ \frac{1}{\sqrt{n(n-1)}} & \frac{1}{\sqrt{n(n-1)}} & \frac{1}{\sqrt{n(n-1)}} & \cdots & \frac{-(n-1)}{\sqrt{n(n-1)}} \\ \end{array} \right] \ .
    X=(X1,X2,,Xn)T\boldsymbol X=(X_1,X_2,\cdots,X_n)^{\rm T} ,构造线性变换:
    Y=(Y1,Y2,,Yn)T=defAX , \boldsymbol Y=(Y_1,Y_2,\cdots,Y_n)^{\rm T}\xlongequal{def}\boldsymbol A\boldsymbol X \ ,
    则有
    Y1=i=1n1nXi=nXˉN(nμ,σ2) . Y_1=\sum_{i=1}^n\frac{1}{\sqrt{n}}X_i=\sqrt{n}\bar{X} \sim N(\sqrt{n}\mu,\sigma^2) \ .
    由正交变换保持向量长度不变的性质,得到
    Y12+Y22++Yn2=X12+X22++Xn2 . Y_1^2+Y_2^2+\cdots+Y_n^2=X_1^2+X_2^2+\cdots+X_n^2 \ .
    所以有
    (n1)S2=i=1n(XiXˉ)2=i=1nXi2nXˉ2=i=1nYi2Yi2=i=2nYi2 . (n-1)S^2=\sum_{i=1}^n(X_i-\bar{X})^2=\sum_{i=1}^nX_i^2-n\bar{X}^2=\sum_{i=1}^nY_i^2-Y_i^2=\sum_{i=2}^nY_i^2 \ .
    接下来证明 Y2,Y3,,YnY_2,Y_3,\cdots,Y_n 是服从 N(0,σ2)N(0,\sigma^2) 的独立同分布的随机变量。由于正态变量的线性组合的性质,知道 Y2,Y3,,YnY_2,Y_3,\cdots,Y_n 都是服从正态分布的。因此只需考虑他们的均值和方差。

    不妨设 YiN(μi,σi2)Y_i\sim N\left(\mu_i,\sigma_i^2\right) ,对 i=2,3,,ni=2,3,\cdots,n ,有
    μi=j=1naijE(Xj)=μj=1naij=0 ,σi2=j=1naij2Var(Xi)=σ2j=1naij2=σ2 . \mu_i=\sum_{j=1}^n a_{ij}{\rm E}(X_j)=\mu\sum_{j=1}^na_{ij}=0 \ , \quad \sigma_i^2=\sum_{j=1}^na_{ij}^2{\rm Var}(X_i)=\sigma^2\sum_{j=1}^na_{ij}^2=\sigma^2 \ .
    由于正态分布的独立和不相关等价,所以证明 ij\forall i\neq jYiY_iYjY_j 相互独立,只需证他们的协方差为 00
    Cov(Yi,Yj)=Cov(k=1naikXk,l=1najlXl)=σ2k=1naikajk=0 {\rm Cov}(Y_i,Y_j)={\rm Cov}\left(\sum_{k=1}^na_{ik}X_k,\sum_{l=1}^na_{jl}X_l\right)=\sigma^2\sum_{k=1}^na_{ik}a_{jk}=0
    用矩阵的形式可以写为
    E(Y)=AE(X)=A(μ,μ,,μ)T=(nμ,0,0,,0)T . {\rm E}(\boldsymbol Y)=\boldsymbol A{\rm E}(\boldsymbol X)=\boldsymbol A(\mu,\mu,\cdots,\mu)^{\rm T}=(\sqrt{n}\mu,0,0,\cdots,0)^{\rm T} \ .

    Var(Y)=AVar(X)AT=A(σ2I)AT=(σ2I)AAT=σ2I . {\rm Var}(\boldsymbol Y)=\boldsymbol A{\rm Var}(\boldsymbol X)\boldsymbol A^{\rm T}=\boldsymbol A\left(\sigma^2\boldsymbol I\right)\boldsymbol A^{\rm T}=\left(\sigma^2\boldsymbol I\right)\boldsymbol A\boldsymbol A^{\rm T}=\sigma^2\boldsymbol I \ .

    这就说明 Y1,Y2,,YnY_1,Y_2,\cdots,Y_n 相互独立,且 Y2,Y3,,YnY_2,Y_3,\cdots,Y_n 独立同分布于 N(0,σ2)N(0,\sigma^2) 。所以有
    (n1)S2σ2=j=2n(Yjσ)2χ2(n1) . \frac{(n-1)S^2}{\sigma^2}=\sum_{j=2}^n\left(\frac{Y_j}{\sigma}\right)^2\sim\chi^2(n-1) \ .
    这样变换的意义在于,右边变成了 n1n-1 个独立同分布的标准正态分布的随机变量的平方和。

    对于 3 ,只需要将 Xˉ\bar{X}S2S^2 写成 Y1,Y2,,YnY_1,Y_2,\cdots,Y_n 的表达式:
    Xˉ=Y1n ,S2=1n1i=2nYi2 , \bar{X}=\frac{Y_1}{\sqrt{n}} \ , \quad S^2=\frac{1}{n-1}\sum_{i=2}^nY_i^2 \ ,
    利用 Y1,Y2,,YnY_1,Y_2,\cdots,Y_n 相互独立的性质,即可知道 Xˉ\bar{X}S2S^2 相互独立。

    三、次序统计量及其分布

    Part 1:次序统计量的概念

    X1,X2,,XnX_1,X_2,\cdots,X_n 为从总体 FF 中抽取的样本,将其按大小排列为

    X(1)X(2)X(n) , X_{(1)}\leq X_{(2)}\leq\cdots\leq X_{(n)} \ ,
    则称 (X(1),X(2),,X(n))\left(X_{(1)},X_{(2)},\cdots,X_{(n)}\right) 为样本 (X1,X2,,Xn)(X_1,X_2,\cdots,X_n) 的次序统计量。 特别地,X(1)X_{(1)} 称为最小次序统计量,X(n)X_{(n)} 称为最大次序统计量。

    简单随机样本 X1,X2,,XnX_1,X_2,\cdots,X_n 是独立同分布的,但次序统计量 X(1),X(2),,X(n)X_{(1)},X_{(2)},\cdots,X_{(n)} 不一定是独立同分布的。

    Part 2:次序统计量的分布

    设总体为连续分布,分布函数为 F(x)F(x) ,概率密度函数为 f(x)f(x) 。设 X1,X2,,XnX_1,X_2,\cdots,X_n 为简单随机样本。下面我们将分别求单个次序统计量的分布和次序统计量的联合分布。

    单个次序统计量的分布

    单个次序统计量 X(k)X_{(k)} 的密度函数为
    fk(x)=n!(k1)!(nk)![F(x)]k1[1F(x)]nkf(x) . f_k(x)=\frac{n!}{(k-1)!(n-k)!}[F(x)]^{k-1}[1-F(x)]^{n-k}f(x) \ .
    最大次序统计量 X(n)X_{(n)} 的分布函数和密度函数为
    Fn(x)=P(X(n)<x)=[F(x)]n ,fn(x)=n[F(x)]n1f(x) . F_n(x)=P\left(X_{(n)}<x\right)=[F(x)]^n \ , \quad f_n(x)=n[F(x)]^{n-1}f(x) \ .
    最小次序统计量 X(1)X_{(1)} 的分布函数和密度函数为
    F1(x)=P(X(1)<x)=1[1F(x)]n ,f1(x)=n[1F(x)]n1f(x) . F_1(x)=P\left(X_{(1)}<x\right)=1-[1-F(x)]^n \ , \quad f_1(x)=n[1-F(x)]^{n-1}f(x) \ .

    关于次序统计量的密度函数,我们可以用一种微元的处理方式,即
    fk(x)=Fk(x)=limΔx0Fk(x+Δx)Fk(x)Δx , f_k(x)=F_k'(x)=\lim_{\Delta x\to0}\frac{F_k(x+\Delta x)-F_k(x)}{\Delta x} \ ,
    单独分析极限以内的部分,我们可以把 Fk(x+Δx)Fk(x)F_k(x+\Delta x)−F_k(x) 理解为 X(k)X_{(k)} 落在 xxx+Δxx+\Delta x 之间的概率。这个事件相当于在 nn 个样本中,有 k1k-1 个落在 xx 之前,nkn−k 个落在 x+Δxx+\Delta x 之后,剩下一个刚好落在这个区间内部。因此,我们需要考虑将容量为 nn 的样本中的个体分成这样的三组,共有多少种分法:
    Cnk1Cnk+1nk=n!(k1)!(nk+1)!×(nk+1)=n!(k1)!(nk)! . C_n^{k-1}C_{n-k+1}^{n-k}=\frac{n!}{(k-1)!(n-k+1)!}\times(n-k+1)=\frac{n!}{(k-1)!(n-k)!} \ .
    结合样本的独立性,所以
    P(X(k)[x,x+Δx])=n!(k1)!(nk)![F(x)]k1[1F(x+Δx)]nk[F(x+Δx)F(x)] . P\left(X_{(k)}\in[x,x+\Delta x]\right)=\frac{n!}{(k-1)!(n-k)!} [F(x)]^{k-1}[1-F(x+\Delta x)]^{n-k}[F(x+\Delta x)-F(x)] \ .
    对上式两边同除 Δx\Delta x 并取极限 Δx0\Delta x\to0 ,则有
    fk(x)=n!f(x)(k1)!(nk)![F(x)]k1[1F(x)]nkf(x) . f_k(x)=\frac{n!}f(x){(k-1)!(n-k)!} [F(x)]^{k-1}[1-F(x)]^{n-k}f(x) \ .
    这就得到了单个次序统计量 X(k)X_{(k)} 的密度函数。特别地,把 k=nk=nk=1k=1 代入即可得到最大和最小次序统计量的密度函数。当然,我们也可以利用逻辑关系先求出最大和最小次序统计量的分布函数,再通过求导得出密度函数。

    两个次序统计量的联合分布

    两个次序统计量 (X(i),X(j)),i<j\left(X_{(i)},X_{(j)}\right),\,i<j 的联合密度函数为
    fij(x,y)=n!(i1)!(ji1)!(nj)!f(x)f(y)[F(x)]i1[F(y)F(x)]ji1[1F(y)]nj . f_{ij}(x,y)=\frac{n!}{(i-1)!(j-i-1)!(n-j)!}f(x)f(y)\left[F(x)\right]^{i-1}\left[F(y)-F(x)\right]^{j-i-1}\left[1-F(y)\right]^{n-j} \ .
    其中联合密度的支撑为 xyx\leq yi<ji<j

    特别地, (X(1),X(n))\left(X_{(1)},X_{(n)}\right) 的联合密度函数为
    f1n(x1,xn)=n(n1)f(x1)f(xn)[F(xn)F(x1)]n2 ,x1xn . f_{1n}(x_1,x_n)=n(n-1)f(x_1)f(x_n)\left[F(x_n)-F(x_1)\right]^{n-2} \ , \quad x_1\leq x_n \ .

    我们同样利用概率微元的方式来处理,
    fij(x,y)=limΔx0Δy0Fij(x+Δx,y+Δy)Fij(x,y)ΔxΔy . f_{ij}(x,y)=\lim_{\Delta x\to0\\ \Delta y \to 0}\frac{F_{ij}(x+\Delta x,y+\Delta y)-F_{ij}(x,y)}{\Delta x\Delta y} \ .
    通过相似的计算,即可得出两个次序统计量的联合密度函数。

    nn 个次序统计量的联合分布

    nn 个次序统计量 (X(1),X(2),,X(n))\left(X_{(1)},X_{(2)},\cdots,X_{(n)}\right) 的联合密度函数为
    f(x1,x2,,xn)=n!f(x1)f(x2)f(xn) ,x1x2xn . f(x_1,x_2,\cdots,x_n)=n!f(x_1)f(x_2)\cdots f(x_n) \ ,\quad x_1\leq x_2\leq\cdots \leq x_n \ .

    这个我们就给出结论,不予证明了。

    Part 3:样本极差、样本中位数与分位数

    由次序统计量出发,可以构造出很多有用的统计量。

    样本极差的概念:Rn=X(n)X(1)R_n=X_{(n)}-X_{(1)} 称为样本极差,它是反映总体分布分散程度的信息。

    样本极差的密度函数为:
    fR(r)=n(n1)f(r+z)f(z)[F(r+z)F(z)]n2dz ,r>0 . f_R(r)=\int_{-\infty}^\infty n(n-1)f(r+z)f(z)[F(r+z)-F(z)]^{n-2}{\rm d}z \ , \quad r>0 \ .
    我们可以推导一下样本极差的密度函数。作如下变换 U=X(1),V=X(n)X(1)U=X_{(1)},\,V=X_{(n)}-X_{(1)} ,容易计算该变换的Jacobi 行列式绝对值 J=1|J|=1 ,所以有:
    f(u,v)=f1n(u,u+v)J=n(n1)f(u)f(u+v)[F(u+v)F(u)]n2 . f(u,v)=f_{1n}(u,u+v)\cdot|J|=n(n-1)f(u)f(u+v)\left[F(u+v)-F(u)\right]^{n-2} \ .
    样本极差的密度函数即为 VV 的边际密度函数,所以有积分:
    fR(r)=fV(r)=f(u,v)du=n(n1)f(u)f(u+v)[F(u+v)F(u)]n2du . f_R(r)=f_V(r)=\int_{-\infty}^\infty f(u,v){\rm d}u=\int_{-\infty}^\infty n(n-1)f(u)f(u+v)\left[F(u+v)-F(u)\right]^{n-2}{\rm d}u \ .
    将字母改写一下就得到了所求的样本极差的密度函数。

    样本中位数的概念:
    me={X(n+12) ,n为奇数 ,12(X(n2)+X(n2+1)) ,n为偶数 . m_e=\left\{ \begin{array}{ll} X_{\left(\frac{n+1}{2}\right)} \ , & n\,\text{为奇数} \ , \\ \\ \dfrac12\left(X_{\left(\frac{n}{2}\right)}+X_{\left(\frac{n}{2}+1\right)}\right) \ , & n\,\text{为偶数} \ . \end{array} \right.
    样本中位数反映总体中位数的信息,当总体分布关于某点对称时,对称中心既是总体中位数又是总体均值。

    样本 pp 分位数的概念:对于给定的 0<p<10<p<1 ,定义
    mp=X([np])+(n+1)(p[np]n+1)(X([np]+1)X([np])) , m_p=X_{([np])}+(n+1)\left(p-\frac{[np]}{n+1}\right)\left(X_{([np]+1)}-X_{([np])}\right) \ ,
    称为样本下侧 pp 分位数。关于样本 pp 分位数的定义有很多种,但它们均是一个次序统计量,且随着样本容量的增大,它们之间的差别并不大。

    展开全文
  • 论文研究-基于次序统计量的发电公司竞价策略研究.pdf,
  • 设W_1……,W_n是n个随机变量,W_1~(n)≤…≤W_n~((n))是它们的次序统计量次序统计量的项W_(k_n)~((n))当n→∞时如满足,称为中项;如满足或=1,称为边项。当W_1,W_2,…是独立同分布随机变量序列时,格涅坚科求出了极大...
  • UA MATH564 概率论IV 次序统计量例题3次序统计量常用公式答案 次序统计量常用公式 定理1(单个次序统计量的分布) FX(j)=∑k=jnCnk[F(x)]k[1−F(x)]n−kF_{X_{(j)}} = \sum_{k=j}^n C_n^k [F(x)]^k[1-F(x)]^{n-k}FX...

    UA MATH564 概率论IV 次序统计量例题3

    次序统计量常用公式

    定理1(单个次序统计量的分布)
    FX(j)=k=jnCnk[F(x)]k[1F(x)]nkF_{X_{(j)}} = \sum_{k=j}^n C_n^k [F(x)]^k[1-F(x)]^{n-k}
    定理2(单个次序统计量的概率密度)
    fX(j)(x)=jCnj[F(x)]j1[1F(x)]njf(x)f_{X_{(j)}}(x) = jC_n^j [F(x)]^{j-1}[1-F(x)]^{n-j}f(x)
    定理3(两个次序统计量的联合概率密度)不妨假设j>ij>i,则
    fX(i),X(j)(xi,xj)=n!(i1)!(ji1)!(nj)!f(xi)f(xj)[F(xi)]i1[F(xj)F(xi)]ji1[1F(xj)]njf_{X_{(i)},X_{(j)}}(x_i,x_j)=\frac{n!}{(i-1)!(j-i-1)!(n-j)!}f(x_{i})f(x_{j})[F(x_i)]^{i-1}[F(x_j)-F(x_i)]^{j-i-1}[1-F(x_j)]^{n-j}
    定理4(所有次序统计量的联合概率密度)
    f(x(1),,x(n))=n!f(x1)f(x2)f(xn)f(x_{(1)},\cdots,x_{(n)})=n!f(x_1)f(x_2)\cdots f(x_n)

    答案

    例3 如果X1,,XnX_1,\cdots,X_n独立同分布,并记其概率密度为f(x)f(x),定义R=X(n)X(1),V=(X(n)+X(1))/2R=X_{(n)}-X_{(1)},V=(X_{(n)} + X_{(1)})/2,如果总体为均匀分布U(0,θ)U(0,\theta),计算条件密度VR=rV|R=r
    先根据定理3计算X(1)X_{(1)}X(n)X_{(n)}的联合概率密度,
    fX(1),X(n)(x1,xn)=n!(n2)!f(x1)f(xn)[F(xn)F(x1)]n2f_{X_{(1)},X_{(n)}}(x_1,x_n) = \frac{n!}{(n-2)!}f(x_1)f(x_n)[F(x_n)-F(x_1)]^{n-2}
    因为
    X(1)=(2VR)/2, X(n)=(2V+R)/2X_{(1)} = (2V-R)/2,\ X_{(n)}=(2V+R)/2
    计算Jacobi行列式(的绝对值),
    J(R,V)=(X(1),X(n))(R,V)=1/21/211=1=1J(R,V) = \left| \left| \frac{\partial(X_{(1)},X_{(n)})}{\partial(R,V)} \right| \right| = \left| \left| \begin{matrix} -1/2 & 1/2 \\ 1 & 1 \\ \end{matrix} \right| \right| = |-1| = 1
    所以R,VR,V的联合概率密度是
    fR,V(r,v)=J(r,v)fX(1),X(n)((2vr)/2,(2v+r)/2)=(n)2f((2vr)/2)f((2v+r)/2)[F((2v+r)/2)F((2vr)/2)]n2f_{R,V}(r,v) = J(r,v)f_{X_{(1)},X_{(n)}}((2v-r)/2,(2v+r)/2) \\ = (n)_2 f((2v-r)/2)f((2v+r)/2)[F((2v+r)/2)-F((2v-r)/2)]^{n-2}

    其中r/2<v<θr/2r/2 < v < \theta - r/2。如果总体服从U(0,θ)U(0,\theta),则
    f(x)=1θ,  F(x)=xθ,0xθf(x)=\frac{1}{\theta},\ \ F(x) = \frac{x}{\theta},0\le x \le \theta
    R,VR,V的联合概率密度可以写成
    fR,V(r,v)=(n)2(rθ)n2,r/2<v<θr/2f_{R,V}(r,v) = (n)_2 \left( \frac{r}{\theta} \right)^{n-2},r/2 < v < \theta - r/2
    从而RR的边缘概率密度是
    fR(r)=r