精华内容
下载资源
问答
  • 统计学之参数估计

    千次阅读 2019-12-29 22:48:48
    参数估计的基本原理 估计量与估计值 如果我们得到总体的全部数据,做统计描述即可得到总体特征,但现实是,难以得到全部数据。因而需要参数估计参数估计:用样本统计量去估计总体的参数。如样本均值估计总体均值。...

    参数估计的基本原理

    估计量与估计值

    如果我们得到总体的全部数据,做统计描述即可得到总体特征,但现实是,难以得到全部数据。因而需要参数估计。参数估计:用样本统计量去估计总体的参数。如样本均值估计总体均值。在参数估计中,用来估计总体参数的统计量称为估计量,用符号θ^表示,如样本均值、样本方差。根据一个具体的样本计算出来的估计量的数值称为估计值。

    点估计与区间估计

    点估计:用样本统计量θ^的某个取值直接作为总体参数θ的估计值。如样本均值直接作为总体均值的估计值。
    在用点估计值代表总体参数值的同时,必须给出点估计值的可靠性,即点估计值与总体参数的真实值接近的程度。但一个点估计值的可靠性由抽样标准误差来衡量,即一个具体的点估计值无法给出估计的可靠性度量,故而需要区间估计。
    区间估计:在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。与点估计不同,区间估计可以根据样本统计量的抽样分布对样本统计量与总体参数的接近程度给出一个概率度量。
    在这里插入图片描述
    如果抽取100个样本,根据每个样本构造一个置信区间,由100个样本构造的总体参数的100个置信区间中,95%的区间包含总体参数的真值,95%这个值称为置信水平。即将构造置信区间这个步骤重复多次,置信区间中包含总体参数真值的次数所占的比例称为置信水平。
    在这里插入图片描述
    有关置信区间的概念可用下图来表示:
    在这里插入图片描述
    注意:

    1.置信区间的宽度随着置信系数的增大而增大

    2.用某种方法构造的所有区间有95%包含真值,那么,用该方法构造的区间称为置信水平为95%的置信区间

    3.总体参数的真值是固定的,未知的,而用样本构造的区间是不固定的,即抽取不同的样本,可以得到不同的区间

    4.实际问题中,估计时常用一个样本,构造的区间是一个特定的区间,不再是随机区间,无法知道是否包含真值。

    展开全文
  • 多元线性回归的参数估计方法,吴仕勋,赵东方,本文依据高斯—马尔可夫定理,通过对最小二乘估计方法得出的参数估计值的分析,从另外两个角度出发得出了参数估计的值与最小二乘
  • R语言学习笔记(四)参数估计

    千次阅读 2020-07-04 22:42:27
    总结一下数理统计中的参数估计,即点估计(矩估计、极大似然估计)和区间估计(置信区间)部分的R语言实现

    写在前面

    这次总结一下数理统计中的参数估计,即**点估计(矩估计、极大似然估计)区间估计(置信区间)**部分的R语言实现,由于这部分内容没有相应的R语言内置函数,所以需要编程的地方比较多,篇幅也相应地比较长。

    • 在计算非线性方程组的根时,采用了自定义函数Newtons(),运用Newton法进行求根。
    # 定义Newton法迭代的函数:计算非线性方程组
    Newtons <- function(fun, x, eps=1e-5, it_max=100) {
        index <- 0; k <- 1;
        while (k <= it_max) {
            x1 <- x; obj <- fun(x);
            x <- x - solve(obj$J, obj$f);
            norm <- sqrt((x - x1) %*% (x - x1))
            # 达到精度,跳出循环,index赋值为1表示计算成功
            if (norm < eps) {
                index <- 1; break
            }
            k <- k + 1
        }
        obj <- fun(x);
        list(root=x, it_num=k, index=index, FunVal=obj$f)
    }
    

    点估计

    极大似然估计

    极大似然估计(Maximum Likelihood Estimate, MLE),最早由统计学家Fisher提出,是一种充分利用总体分布函数信息的估计方式,方法是寻找使似然函数达到最大的参数 θ \theta θ

    • 定义:设总体X的概率密度函数或分布律为 f ( x ;   θ ) ,   θ ∈ Θ f(x;\,\theta),\,\theta\in\Theta f(x;θ),θΘ是未知参数, X 1 ,   X 2 ,   ⋯   ,   X n X_1,\,X_2,\,\cdots,\,X_n X1,X2,,Xn为来自总体 X X X的样本,称
      L ( θ ;   x ) = L ( θ ; x 1 ,   x 2 ,   ⋯   ,   x n ) = ∏ i = 1 n f ( x i ;   θ ) L(\theta;\,x)=L(\theta;x_1,\,x_2,\,\cdots,\,x_n)=\prod\limits_{i=1}^nf(x_i;\,\theta) L(θ;x)=L(θ;x1,x2,,xn)=i=1nf(xi;θ)
      θ \theta θ的极大似然函数(likelihood function)。

    • 定义:设总体X的概率密度函数或分布律为 f ( x ;   θ ) ,   θ ∈ Θ f(x;\,\theta),\,\theta\in\Theta f(x;θ),θΘ是未知参数, X 1 ,   X 2 ,   ⋯   ,   X n X_1,\,X_2,\,\cdots,\,X_n X1,X2,,Xn为来自总体 X X X的样本, L ( θ ;   x ) L(\theta;\,x) L(θ;x) θ \theta θ的似然函数, 若 θ ^ = θ ^ ( X ) = θ ^ ( X 1 ,   X 2 ,   ⋯   ,   X n ) \hat{\theta}=\hat{\theta}(X)=\hat{\theta}(X_1,\,X_2,\,\cdots,\,X_n) θ^=θ^(X)=θ^(X1,X2,,Xn)是一个统计量,且满足:
      L ( θ ^ ( X ) ;   X ) = sup ⁡ θ ∈ Θ L ( θ ;   X ) L(\hat{\theta}(X);\,X)=\sup\limits_{\theta\in\Theta}L(\theta;\,X) L(θ^(X);X)=θΘsupL(θ;X)
      则称 θ ^ \hat{\theta} θ^ θ \theta θ的最大似然估计。

    下面介绍几种常见分布的似然函数及其推导。

    • 均匀分布

      显然得到 a ^ = X ( 1 ) ,   b ^ = X ( n ) \hat{a}=X_{(1)},\,\hat{b}=X_{(n)} a^=X(1),b^=X(n).

    • 指数分布

      服从指数分布的最大似然估计函数为
      L ( λ ;   x ) = λ n e − λ ∑ i = 1 n x i L(\lambda;\,x) =\lambda^n\mathrm{e}^{-\lambda\sum\limits_{i=1}^nx_i} L(λ;x)=λneλi=1nxi
      取对数并求导得到
      ∂ ln ⁡ L ( λ ;   x ) ∂ λ = ( n ln ⁡ λ − λ ∑ i = 1 n x i ) λ = n λ − ∑ i = 1 n x i = 0 \frac{\partial \ln L(\lambda;\,x)}{\partial \lambda} =\left(n\ln\lambda-\lambda\sum\limits_{i=1}^nx_i\right)_{\lambda} =\frac{n}{\lambda}-\sum_{i=1}^n x_i=0 λlnL(λ;x)=(nlnλλi=1nxi)λ=λni=1nxi=0
      λ = n ∑ i = 1 n x i \lambda=\dfrac{n}{\sum\limits_{i=1}^nx_i} λ=i=1nxin.

    • 正态分布

      正态分布的似然函数为

    L ( μ ,   σ 2 ;   x ) = ∏ i = 1 n f ( x i ;   μ ,   σ 2 ) = ( 2 π σ 2 ) − n 2 exp ⁡ [ − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 ] , L(\mu,\,\sigma^2;\,x)=\prod_{i=1}^nf(x_i;\,\mu,\,\sigma^2)=(2\pi\sigma^2)^{-\frac n2}\exp\left[-\frac1{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2\right], L(μ,σ2;x)=i=1nf(xi;μ,σ2)=(2πσ2)2nexp[2σ21i=1n(xiμ)2],

    对数似然函数为
    ln ⁡ L ( μ ,   σ 2 ;   x ) = − n 2 ln ⁡ ( 2 π σ 2 ) − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 , \ln L(\mu,\,\sigma^2;\,x) =-\frac n2\ln(2\pi\sigma^2)-\frac1{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2, lnL(μ,σ2;x)=2nln(2πσ2)2σ21i=1n(xiμ)2,

    { ∂ ln ⁡ L ( μ ,   σ 2 ;   x ) ∂ μ = 1 σ 2 ∑ i = 1 n ( x i − μ ) = 0 , ∂ ln ⁡ L ( μ ,   σ 2 ;   x ) ∂ σ 2 = − n 2 σ 2 + 1 2 σ 4 ∑ i = 1 n ( x i − μ ) 2 = 0 , \begin{cases} \dfrac{\partial \ln L(\mu,\,\sigma^2;\,x)}{\partial \mu} =\dfrac1{\sigma^2}\sum\limits_{i=1}^n(x_i-\mu)=0, \\ \dfrac{\partial \ln L(\mu,\,\sigma^2;\,x)}{\partial \sigma^2} =-\dfrac{n}{2\sigma^2}+\dfrac1{2\sigma^4}\sum\limits_{i=1}^n(x_i-\mu)^2=0, \end{cases} μlnL(μ,σ2;x)=σ21i=1n(xiμ)=0,σ2lnL(μ,σ2;x)=2σ2n+2σ41i=1n(xiμ)2=0,
    解此似然方程组得到:
    μ = 1 n ∑ i = 1 n x i = x ‾ , σ 2 = 1 n ∑ i = 1 n ( x i − x ‾ ) 2 , \mu=\dfrac1n\sum\limits_{i=1}^nx_i=\overline{x},\quad \sigma^2=\dfrac1n\sum_{i=1}^n(x_i-\overline{x})^2, μ=n1i=1nxi=x,σ2=n1i=1n(xix)2,
    进一步验证,对于对数似然函数 ln ⁡ L ( μ ,   σ 2 ;   x ) \ln L(\mu,\,\sigma^2;\,x) lnL(μ,σ2;x)的二阶Hesse矩阵
    [ − n σ 2 − 1 σ 4 ∑ i = 1 n ( x i − μ ) − 1 σ 4 ∑ i = 1 n ( x i − μ ) n 2 σ 4 − 1 σ 6 ∑ i = 1 n ( x i − μ ) 2 ] = [ − n σ 2 0 0 − n 2 σ 4 ] \begin{bmatrix} -\dfrac n{\sigma^2} & -\dfrac1{\sigma^4}\sum\limits_{i=1}^n(x_i-\mu)\\ -\dfrac1{\sigma^4}\sum\limits_{i=1}^n(x_i-\mu) & \dfrac n{2\sigma^4}-\dfrac1{\sigma^6}\sum\limits_{i=1}^n(x_i-\mu)^2 \end{bmatrix} = \begin{bmatrix} -\dfrac n{\sigma^2} & 0\\ 0 & -\dfrac{n}{2\sigma^4} \end{bmatrix} σ2nσ41i=1n(xiμ)σ41i=1n(xiμ)2σ4nσ61i=1n(xiμ)2=σ2n002σ4n
    为负定矩阵,所以 ( x ‾ ,   1 n ∑ i = 1 n ( x i − x ‾ ) 2 ) \left(\overline{x},\,\dfrac1n\sum\limits_{i=1}^n(x_i-\overline{x})^2\right) (x,n1i=1n(xix)2) L ( μ ,   σ 2 ;   x ) L(\mu,\,\sigma^2;\,x) L(μ,σ2;x)的极大值点。故 ( μ ,   σ 2 ) (\mu,\,\sigma^2) (μ,σ2)的最大似然估计为
    μ ^ = X ‾ , σ ^ 2 = 1 n ∑ i = 1 n ( X i − X ‾ ) 2 . \hat{\mu}=\overline{X},\quad\hat{\sigma}^2=\dfrac1n\sum\limits_{i=1}^n(X_i-\overline{X})^2. μ^=X,σ^2=n1i=1n(XiX)2.

    下面分两种情况进行极大似然估计中参数的计算。

    可求出解析解

    首先采用Newton法实现:

    # 定义待求方程
    model <- function(e) {
        set.seed(7)
        x <- rnorm(10)
        n <- length(x)
        f <- c(sum(x - e[1]), 
               -n + sum((x - e[1])^2 / e[2]^4))
        J <- matrix(c(-n, 0, -2 * sum(x - e[1]) / e[2]^4,
                    -4 * e[2]^(-3) * sum((x - e[1])^2)), 
                    nrow=2, byrow=T)
        list(f=f, J=J)
    }
    
    # 调用自定义函数`Newtons()`进行求解
    Newtons(model, c(0, 1))
    
    ## $root
    ## [1] 0.1039757 1.0962031
    ## 
    ## $it_num
    ## [1] 7
    ## 
    ## $index
    ## [1] 1
    ## 
    ## $FunVal
    ## [1] -3.608225e-16  1.878941e-05
    

    下面介绍一个简单的方法,需要调用rootSolve外部包的multiroot()函数,求解有 n n n个方程、 n n n个未知量的非线性方程组。

    # 定义待求方程
    model <- function(e, x) {
        n <- length(x)
        F1 <- sum(x - e[1])
        F2 <- -n + sum((x - e[1])^2 / e[2]^4)
        c(F1, F2)
    }
    
    # 调用函数`multiroot()`进行求解
    set.seed(7)
    x <- rnorm(10)
    # 导入外部包
    library(rootSolve)
    #  求解
    multiroot(f=model, start=c(0, 1), x=x)
    
    ## $root
    ## [1] 0.1039757 1.0962036
    ## 
    ## $f.root
    ## [1] -3.469447e-16  5.412950e-10
    ## 
    ## $iter
    ## [1] 5
    ## 
    ## $estim.precis
    ## [1] 2.706477e-10
    

    不易或无法求出解析解

    采用数值解法

    以Cauchy分布的最大似然估计为例

    • 采用uniroot()函数
    # 参数为1的cauchy分布
    set.seed(7)
    x <- rcauchy(100, 1)
    f <- function(p) sum((x - p) / (1 + (x - p)^2))
    out <- uniroot(f, c(0, 5)); out
    
    ## $root
    ## [1] 1.08361
    ## 
    ## $f.root
    ## [1] -0.0001693485
    ## 
    ## $iter
    ## [1] 6
    ## 
    ## $init.it
    ## [1] NA
    ## 
    ## $estim.prec
    ## [1] 6.103516e-05
    
    • 采用optimize()函数,可以达到与uniroot()函数一致的结果。
    # 生成参数为1的Cauchy分布样本
    set.seed(7)
    x <- rcauchy(100, 1)
    loglike <- function(p) {
        n <- length(x)
        -log(pi) * n - sum(log(1 + (x - p)^2))
    }
    optimize(loglike, c(0, 5), maximum = T)
    
    ## $maximum
    ## [1] 1.083612
    ## 
    ## $objective
    ## [1] -257.9063
    

    矩估计

    使用矩估计进行参数估计的方法称为矩法(method of moments),由英国统计学家K · Pearson提出,思想是用样本矩去估计总体矩,总体矩与总体的参数有关,从而得到总体参数的估计。

    利用矩法估计总体的均值和方差,就等价于用样本的一阶原点矩估计均值,用样本的二阶中心矩估计方差。

    下面介绍一些常用分布的矩估计推导。

    • 均匀分布

      分为两种情况,第一种只需要求解一阶原点矩,而第二种(一般情况)还需要计算二阶中心矩。

      • 情形一(特殊情况)
        E X = ∫ 0 θ x 1 θ d x = θ 2 , EX=\int_0^\theta x\frac1\theta\mathrm{d}x=\frac\theta2, EX=0θxθ1dx=2θ,
        所以其矩估计为 θ ^ = 2 X ‾ = 2 n ∑ i = 1 n X i \hat{\theta}=2\overline{X}=\dfrac2n\sum\limits_{i=1}^nX_i θ^=2X=n2i=1nXi.

      • 情形二(一般情况)

      E X = ∫ a b x 1 b − a d x = b + a 2 , D X = ∫ a b x 2 1 b − a d x − ( b + a 2 ) 2 = ( b − a ) 2 12 , \begin{aligned} EX&=\int_a^b x\frac1{b-a}\mathrm{d}x=\frac{b+a}2,\\ DX&=\int_a^b x^2\frac1{b-a}\mathrm{d}x-\left(\frac{b+a}2\right)^2=\frac{(b-a)^2}{12}, \end{aligned} EXDX=abxba1dx=2b+a,=abx2ba1dx(2b+a)2=12(ba)2,

      { b + a 2 = X ‾ ( b − a ) 2 12 = 1 n ∑ i = 1 n X i 2 \begin{cases} \dfrac{b+a}2=\overline{X}\\ \dfrac{(b-a)^2}{12}=\dfrac1n\sum\limits_{i=1}^nX_i^2 \end{cases} 2b+a=X12(ba)2=n1i=1nXi2
      解得 a ^ = X ‾ − 3 n ∑ i = 1 n X i 2 ,   b ^ = X ‾ + 3 n ∑ i = 1 n X i 2 . \hat{a}=\overline{X}-\sqrt{\dfrac3n\sum\limits_{i=1}^nX_i^2},\ \hat{b}=\overline{X}+\sqrt{\dfrac3n\sum\limits_{i=1}^nX_i^2}. a^=Xn3i=1nXi2 , b^=X+n3i=1nXi2 .

    • 指数分布
      E X = ∫ 0 + ∞ λ x e − λ x d x = 1 λ , EX=\int_0^{+\infty}\lambda x\mathrm{e}^{-\lambda x}\mathrm{d}x=\frac1\lambda, EX=0+λxeλxdx=λ1,
      因此其矩估计为 λ ^ = n ∑ i = 1 n X i \hat{\lambda}=\dfrac{n}{\sum\limits_{i=1}^{n}X_i} λ^=i=1nXin.

    • 正态分布

      算总体 X X X的一阶、二阶原点矩

      M 1 = E X = μ , M 2 = E X 2 = σ 2 + μ 2 M_1 =EX=\mu,\quad M_2 =EX^2=\sigma^2+\mu^2 M1=EX=μ,M2=EX2=σ2+μ2
      以及样本的一阶、二阶原点矩

      A 1 = X ‾ = 1 n ∑ i = 1 n X i , A 2 = 1 n ∑ i = 1 n X i 2 . A_1=\overline{X}=\frac1n\sum_{i=1}^nX_i,\quad A_2=\frac1n\sum_{i=1}^nX_i^2. A1=X=n1i=1nXi,A2=n1i=1nXi2.

      所以得到方程组

      { μ = X ‾ σ 2 + μ 2 = 1 n ∑ i = 1 n X i 2 \begin{cases} \mu=\overline{X}\\ \sigma^2+\mu^2=\dfrac1n\sum\limits_{i=1}^nX_i^2 \end{cases} μ=Xσ2+μ2=n1i=1nXi2

      解上述方程,得均值 μ \mu μ和方差 σ 2 \sigma^2 σ2的矩估计

      μ ^ = X ‾ , σ ^ 2 = 1 n ∑ i = 1 n X i 2 − X ‾ 2 = 1 n ∑ i = 1 n ( X i − X ‾ ) 2 = n − 1 n S 2 . \begin{aligned}\hat{\mu}&=\overline{X},\\\hat{\sigma}^2&=\dfrac1n\sum\limits_{i=1}^nX_i^2-\overline{X}^2=\dfrac1n\sum\limits_{i=1}^n(X_i-\overline{X})^2=\frac{n-1}nS^2.\end{aligned} μ^σ^2=X,=n1i=1nXi2X2=n1i=1n(XiX)2=nn1S2.

    # 定义待求方程组
    moment_fun <- function(p) {
        f <- c(p[1] * p[2] - M1, 
               p[1] * p[2] - p[1] * p[2]^2 - M2)
        J <- matrix(c(p[2], p[1], p[2] - p[2]^2, 
                      p[1] - 2 * p[1] * p[2]), nrow=2, byrow=T)
        list(f=f, J=J)
    }
    
    
    # 主函数
    # N=20, p=0.7, 试验次数n=100
    # 设置随机数种子,使每次运行得到相同的结果
    set.seed(7)
    # 生成服从二项分布的随机数作为输入数据
    x <- rbinom(100, 20, 0.7);
    n <- length(x)
    M1 <- mean(x)
    M2 <- (n-1) / n * var(x)
    # 计算矩估计参数
    p <- c(10, 0.5); 
    Newtons(moment_fun, p)
    
    ## $root
    ## [1] 20.1441323  0.6875451
    ## 
    ## $it_num
    ## [1] 6
    ## 
    ## $index
    ## [1] 1
    ## 
    ## $FunVal
    ## [1] -1.776357e-15  8.881784e-16
    

    区间估计

    这部分的内容比较多,因为涉及到的情况分类多。不过编程不难,直接根据公式与对应的适应情况进行编程即可,主要用到了if-else条件分支语句。

    一个正态总体的置信区间

    σ 2 \sigma^2 σ2已知时, μ \mu μ的区间估计

    # 编写函数计算置信区间
    # sigma默认取值为-1,代表sigma未知的情况
    interval_estimate1 <- function(x, sigma=-1, alpha=0.05) { 
       n <- length(x); 
       xb <- mean(x)
       if (sigma >= 0) {
         tmp <- sigma / sqrt(n) * qnorm(1 - alpha / 2); 
         df <- n
         }
       else {
         tmp <- sd(x) / sqrt(n) * qt(1 - alpha / 2, n - 1);
         df <- n - 1   
         }
       list(mean=xb, df=df, a=xb - tmp, b=xb + tmp)
    }
    
    # 例题求解
    x <- c(14.6, 15.1, 14.9, 14.8, 15.2, 15.1)
    interval_estimate1(x, sigma=0.2)
    
    ## $mean
    ## [1] 14.95
    ## 
    ## $df
    ## [1] 6
    ## 
    ## $a
    ## [1] 14.78997
    ## 
    ## $b
    ## [1] 15.11003
    
    t.test(x)
    
    ## 
    ## 	One Sample t-test
    ## 
    ## data:  x
    ## t = 162.16, df = 5, p-value = 1.692e-10
    ## alternative hypothesis: true mean is not equal to 0
    ## 95 percent confidence interval:
    ##  14.713 15.187
    ## sample estimates:
    ## mean of x 
    ##     14.95
    

    σ 2 \sigma^2 σ2未知时, μ \mu μ的区间估计

    interval_estimate1(x)
    
    ## $mean
    ## [1] 14.95
    ## 
    ## $df
    ## [1] 5
    ## 
    ## $a
    ## [1] 14.713
    ## 
    ## $b
    ## [1] 15.187
    
    t.test(x)
    
    ## 
    ## 	One Sample t-test
    ## 
    ## data:  x
    ## t = 162.16, df = 5, p-value = 1.692e-10
    ## alternative hypothesis: true mean is not equal to 0
    ## 95 percent confidence interval:
    ##  14.713 15.187
    ## sample estimates:
    ## mean of x 
    ##     14.95
    

    方差 σ 2 \sigma^2 σ2的区间估计

    # 编写自定义函数计算置信区间
    # 默认mu=Inf,代表mu未知的情况
    interval_var1 <- function(x, mu=Inf, alpha=0.05) { 
       n <- length(x) 
       if (mu < Inf) {
         S2 <- sum((x - mu)^2) / n; 
         df <- n   
         }
       else{      
         S2 <- var(x); 
         df <- n-1
         }
       a <- df * S2 / qchisq(1 - alpha / 2, df)
       b <- df * S2 / qchisq(alpha / 2, df)
       list(var=S2, df=df, a=a, b=b)
    }
    
    # 例题求解
    x <- c(10.1, 10, 9.8, 10.5, 9.7, 10.1, 9.9, 10.2, 10.3, 9.9)
    
    # mu已知
    interval_var1(x, mu=10)
    
    ## $var
    ## [1] 0.055
    ## 
    ## $df
    ## [1] 10
    ## 
    ## $a
    ## [1] 0.0268513
    ## 
    ## $b
    ## [1] 0.1693885
    
    # mu未知
    interval_var1(x)
    
    ## $var
    ## [1] 0.05833333
    ## 
    ## $df
    ## [1] 9
    ## 
    ## $a
    ## [1] 0.02759851
    ## 
    ## $b
    ## [1] 0.1944164
    

    两个正态总体的置信区间

    • 使用函数t.test()进行 t t t检验的一部分结果即为置信区间

    均值差的置信区间

    # 默认sigma未知,且不相等
    interval_estimate2 <- function(x, y, 
       sigma=c(-1, -1), var.equal=FALSE, alpha=0.05) { 
       n1 <- length(x); 
       n2 <- length(y)
       xb <- mean(x); 
       yb <- mean(y)
       if (all(sigma >= 0)) 
    {      tmp <- qnorm(1 - alpha / 2) * sqrt(sigma[1]^2 / n1 + sigma[2]^2 / n2)
          df <- n1 + n2
          }
       else {
          if (var.equal ==  TRUE) { 
            Sw <- ((n1 - 1)*var(x) + (n2 - 1)*var(y))/(n1 + n2 - 2)
            tmp <- sqrt(Sw*(1/n1 + 1/n2))*qt(1 - alpha/2,n1 + n2 - 2)
            df <- n1 + n2 - 2 
            }
          else {
            S1 <- var(x); 
            S2 <- var(y)
            nu <- (S1/n1 + S2/n2)^2 / (S1^2/n1^2/(n1 - 1) + S2^2/n2^2/(n2 - 1))
            tmp <- qt(1 - alpha/2, nu)*sqrt(S1/n1 + S2/n2)
            df <- nu
          }
         }
      list(mean=xb - yb, df=df, 
                 a=xb - yb - tmp, b=xb - yb + tmp)
    }
    
    # 例题求解
    # sigma未知时
    set.seed(7)
    x <- rnorm(100, 5.32, 2.18)
    y <- rnorm(100, 5.76, 1.76)
    interval_estimate2(x, y, sigma=c(2.18, 1.76))
    
    ## $mean
    ## [1] -0.3672189
    ## 
    ## $df
    ## [1] 200
    ## 
    ## $a
    ## [1] -0.9163587
    ## 
    ## $b
    ## [1] 0.1819209
    
    set.seed(7)
    x <- rnorm(12, 501.1, 2.4)
    y <- rnorm(17, 499.7, 4.7)
    interval_estimate2(x, y, var.equal=TRUE)
    
    ## $mean
    ## [1] 0.001928064
    ## 
    ## $df
    ## [1] 27
    ## 
    ## $a
    ## [1] -3.201143
    ## 
    ## $b
    ## [1] 3.204999
    
    # 采用`t.test()`函数的方法
    t.test(x, y, var.equal = TRUE)
    
    ## 
    ## 	Two Sample t-test
    ## 
    ## data:  x and y
    ## t = 0.0012351, df = 27, p-value = 0.999
    ## alternative hypothesis: true difference in means is not equal to 0
    ## 95 percent confidence interval:
    ##  -3.201143  3.204999
    ## sample estimates:
    ## mean of x mean of y 
    ##  501.9227  501.9208
    

    配对数据情形均值差的置信区间

    配对数据作差,然后做单样本t检验,其中含有差的变化的区间估计

    x <- c(11.3,15.0,15.0,13.5,12.8,10.0,11.0,12.0,13.0,12.3)
    y <- c(14.0,13.8,14.0,13.5,13.5,12.0,14.7,11.4,13.8,12.0)
    t.test(x-y)
    
    ## 
    ## 	One Sample t-test
    ## 
    ## data:  x - y
    ## t = -1.3066, df = 9, p-value = 0.2237
    ## alternative hypothesis: true mean is not equal to 0
    ## 95 percent confidence interval:
    ##  -1.8572881  0.4972881
    ## sample estimates:
    ## mean of x 
    ##     -0.68
    

    方差比的区间估计

    μ 1 ,   μ 2 \mu_1,\,\mu_2 μ1,μ2已知

    interval_var2 <- function(x, y, mu=c(Inf, Inf), alpha=0.05) { 
       n1 <- length(x); 
       n2 <- length(y) 
       # 均值已知
       if (all(mu < Inf)) {  
         Sx2<-1/n1*sum((x-mu[1])^2); 
         Sy2<-1/n2*sum((y-mu[2])^2)
         df1<-n1; 
         df2<-n2
       }
       # 均值未知
       else {      
         Sx2<-var(x); 
         Sy2<-var(y); 
         df1<-n1-1; 
         df2<-n2-1   
       }
       r <- Sx2/Sy2
       a <- r/qf(1-alpha/2,df1,df2)
       b <- r/qf(alpha/2,df1,df2)
       list(rate=r, df1=df1, df2=df2, a=a, b=b)
    }
    
    a <- c(79.98,80.04,80.02,80.04,80.03,80.03,80.04,79.97,80.05,80.03,80.02,80.00,80.02)
    b <- c(80.02,79.94,79.98,79.97,79.97,80.03,79.95,79.97)
    #均值已知μ1, μ2 =80
    interval_var2(a, b, mu=c(80,80)) 
    
    ## $rate
    ## [1] 0.7326007
    ## 
    ## $df1
    ## [1] 13
    ## 
    ## $df2
    ## [1] 8
    ## 
    ## $a
    ## [1] 0.1760141
    ## 
    ## $b
    ## [1] 2.482042
    
    #均值未知
    interval_var2(a, b)
    
    ## $rate
    ## [1] 0.5837405
    ## 
    ## $df1
    ## [1] 12
    ## 
    ## $df2
    ## [1] 7
    ## 
    ## $a
    ## [1] 0.1251097
    ## 
    ## $b
    ## [1] 2.105269
    

    非正态总体的区间估计

    采用中心极限定理进行推导

    首先进行数据标准化,当 n n n充分大时,有
    ∑ i = 1 n X i − u μ n σ ∼ N ( 0 ,   1 ) , \frac{\sum\limits_{i=1}^nX_i-u\mu}{\sqrt{n}\sigma}\sim N(0,\,1), n σi=1nXiuμN(0,1),
    参数 μ \mu μ的区间估计( σ \sigma σ已知)
    [ X ‾ − σ n Z α / 2 ,   X ‾ + σ n Z α / 2 ] \left[\overline{X}-\frac{\sigma}{\sqrt n}Z_{\alpha/2},\,\overline{X}+\frac{\sigma}{\sqrt n}Z_{\alpha/2}\right] [Xn σZα/2,X+n σZα/2]

    参数 μ \mu μ的区间估计( σ \sigma σ未知)

    [ X ‾ − S n Z α / 2 ,   X ‾ + S n Z α / 2 ] \left[\overline{X}-\frac{S}{\sqrt n}Z_{\alpha/2},\,\overline{X}+\frac{S}{\sqrt n}Z_{\alpha/2}\right] [Xn SZα/2,X+n SZα/2]

    编程得到

    interval_estimate3<-function(x,sigma=-1,alpha=0.05) { 
       n<-length(x); 
       xb<-mean(x)
       if (sigma>=0)
          tmp<-sigma/sqrt(n)*qnorm(1-alpha/2)
       else
          tmp<-sd(x)/sqrt(n)*qnorm(1-alpha/2)
       list(mean=xb, a=xb-tmp, b=xb+tmp)
    }
    
    # 例题求解
    x <- rexp(50,1/2.266)
    interval_estimate3(x)
    
    ## $mean
    ## [1] 2.202523
    ## 
    ## $a
    ## [1] 1.654711
    ## 
    ## $b
    ## [1] 2.750334
    

    单侧置信区间

    单个总体均值的单侧置信区间

    interval_estimate4<-function(x, sigma=-1, side=0, alpha=0.05){ 
       n<-length(x); xb<-mean(x)
       if (sigma>=0) { # σ已知
    # side(标记),当标记<0时(左侧),按置信上限公式求置信区间
          if (side<0) {         
            tmp<-sigma/sqrt(n)*qnorm(1-alpha)
            a <- -Inf; 
            b <- xb+tmp      
            }
          else if (side>0) {         
            tmp<-sigma/sqrt(n)*qnorm(1-alpha)
            a <- xb-tmp; 
            b <- Inf      
            }
          else {         
            tmp <- sigma/sqrt(n)*qnorm(1-alpha/2)
            a <- xb-tmp; b <- xb+tmp      
            } #默认side=0,求双侧置信区间
          df<-n   
          }
       else {      
         if (side<0) {         
           tmp <- sd(x)/sqrt(n)*qt(1-alpha,n-1)
             a <- -Inf; 
             b <- xb+tmp      
             }
          else if (side>0) {        
            tmp <- sd(x)/sqrt(n)*qt(1-alpha,n-1)
            a <- xb-tmp; b <- Inf      
            }
          else {         
            tmp <- sd(x)/sqrt(n)*qt(1-alpha/2,n-1)
             a <- xb-tmp; b <- xb+tmp      
             } #求双侧置信区间
          df<-n-1   
          }
       list(mean=xb, df=df, a=a, b=b)
    }
    
    # 例题求解
    x <- c(1050,1100,1120,1250,1280)
    interval_estimate4(x, side=1)
    
    ## $mean
    ## [1] 1160
    ## 
    ## $df
    ## [1] 4
    ## 
    ## $a
    ## [1] 1064.9
    ## 
    ## $b
    ## [1] Inf
    

    单个总体方差的单侧置信区间

    interval_var3<-function(x,mu=Inf,side=0,alpha=0.05) { 
       n<-length(x)
       if (mu<Inf) {      
         S2<-sum((x-mu)^2)/n; df<-n   
         }
       else {      
         S2<-var(x); df<-n-1   
         }
       if (side<0) {      
         a <- 0
         b <- df*S2/qchisq(alpha,df)   
          }
       else if (side>0) {      
         a <- df*S2/qchisq(1-alpha,df)
         b <- Inf   
       }
       else {      
         a<-df*S2/qchisq(1-alpha/2,df) 
         b<-df*S2/qchisq(alpha/2,df)   
         }
    list(var=S2, df=df, a=a, b=b)
    }
    
    # 例题求解
    x <- c(10.1,10,9.8,10.5,9.7,10.1,9.9,10.2,10.3,9.9)
    interval_var3(x, side=-1)
    
    ## $var
    ## [1] 0.05833333
    ## 
    ## $df
    ## [1] 9
    ## 
    ## $a
    ## [1] 0
    ## 
    ## $b
    ## [1] 0.1578894
    

    两个总体均值差的单侧置信区间

    interval_estimate5<-function(x, y,sigma=c(-1,-1), var.equal=FALSE, side=0, alpha=0.05) {
      n1<-length(x); n2<-length(y)
      xb<-mean(x); yb<-mean(y); zb<-xb-yb
      if (all(sigma>=0)){
        if (side<0){
        tmp<-qnorm(1-alpha)*sqrt(sigma[1]^2/n1+sigma[2]^2/n2)
        a <- -Inf; b <- zb+tmp
        }
      else if (side>0){
        tmp<-qnorm(1-alpha)*sqrt(sigma[1]^2/n1+sigma[2]^2/n2)
        a <- zb-tmp; b <- Inf
      }
      else{
        tmp<-qnorm(1-alpha/2)*sqrt(sigma[1]^2/n1+sigma[2]^2/n2)
        a <- zb-tmp; b <- zb+tmp
      }
      df<-n1+n2
      }
      else{
        if (var.equal == TRUE){
          Sw<-((n1-1)*var(x)+(n2-1)*var(y))/(n1+n2-2)
          if (side<0){
            tmp<-sqrt(Sw*(1/n1+1/n2))*qt(1-alpha,n1+n2-2)
            a <- -Inf; b <- zb+tmp
          }
        else if (side>0){
          tmp<-sqrt(Sw*(1/n1+1/n2))*qt(1-alpha,n1+n2-2)
          a <- zb-tmp; b <- Inf
        }
        else{
          tmp<-sqrt(Sw*(1/n1+1/n2))*qt(1-alpha/2,n1+n2-2)
          a <- zb-tmp; b <- zb+tmp
        }
        df<-n1+n2-2
      }
      else{
        S1<-var(x); S2<-var(y)
        nu<-(S1/n1+S2/n2)^2/(S1^2/n1^2/(n1-1)+S2^2/n2^2/(n2-1))
          if (side<0){
            tmp<-qt(1-alpha, nu)*sqrt(S1/n1+S2/n2)
            a <- -Inf; b <- zb+tmp
          }
          else if (side>0){
            tmp<-qt(1-alpha, nu)*sqrt(S1/n1+S2/n2)
            a <- zb-tmp; b <- Inf
          }
          else{
            tmp<-qt(1-alpha/2, nu)*sqrt(S1/n1+S2/n2)
            a <- zb-tmp; b <- zb+tmp
          }
        df<-nu
        }
      }
    list(mean=zb, df=df, a=a, b=b)
    }
    

    两个总体方差的置信区间

    interval_var4<-function(x,y,mu=c(Inf, Inf), side=0, alpha=0.05){
      n1<-length(x); n2<-length(y)
      if (all(mu<Inf)) {
        Sx2<-1/n1*sum((x-mu[1])^2); df1<-n1
        Sy2<-1/n2*sum((y-mu[2])^2); df2<-n2
      }
      else{
        Sx2<-var(x); Sy2<-var(y); df1<-n1-1; df2<-n2-1
      }
      r<-Sx2/Sy2
      if (side<0) {
        a <- 0
        b <- r/qf(alpha,df1,df2)
      }
      else if (side>0) {
        a <- r/qf(1-alpha,df1,df2)
        b <- Inf
      }
      else{
        a<-r/qf(1-alpha/2,df1,df2)
        b<-r/qf(alpha/2,df1,df2)
      }
      list(rate=r, df1=df1, df2=df2, a=a, b=b)
    }
    
    展开全文
  • 集中趋势和离散趋势的度量: 众数、中位数和平均数: 方差和标准差: 相对离散程度:离散系数的作用: 怎样理解置信区间 影响区间宽度的因素 解释95%的置信区间 ...参数估计和假设检验的区别和联系 假设检验的步骤
  • 参数估计方法整理

    万次阅读 多人点赞 2018-08-06 10:33:27
    参数估计:是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。 参数估计包括点估计和区间估计。 常见点估计方法:矩估计、最小二乘估计、极大似然估计、贝叶斯估计 区间估计:利用已知的抽样分布、...

    参数估计:是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。

    参数估计包括点估计和区间估计

    常见点估计方法:矩估计、最小二乘估计、极大似然估计、贝叶斯估计

    区间估计:利用已知的抽样分布、利用区间估计与假设检验的联系、利用大样本理论

    一、点估计
    1、矩估计

    矩估计法的理论依据是大数定律。矩估计是基于一种简单的“替换”思想,即用样本矩估计总体矩
    优点:简单易行, 并不需要事先知道总体是什么分布。(根据均值方差来计算未知参数)
    缺点:当总体类型已知时,没有充分利用分布提供的信息(有一定随意性)

    2、最小二乘估计
    对于最小二乘估计来说,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值与观测值之差的平方和最小。
    目标最小化估计值与观测值之差的平方和。Q表示误差平方和,Yi表示估计值,Ŷ i表示观测值,即Q=∑(Yi−Ŷ i)^2 i = 1,2,……,n

    3、极大似然估计
    对于最大似然估计来说,最合理的参数估计量应该使得从模型中抽取该n组样本的观测值的概率最大,也就是概率分布函数或者似然函数最大。

    典型例题:
    这里写图片描述

    4、贝叶斯估计
    这里写图片描述
    这里写图片描述
    这里写图片描述

    二、区间估计

    区间估计 = 点估计 ± 边际误差
    根据样本求出未知参数的估计区间,并使这个区间包含未知参数的可靠程度达到预定要求(这个预定要求就是个置信度,用上α位分点来体现这个置信度)。

    步骤:

    1.构造合适的包含待估参数的统计量U,且统计量的分布已知。

    2.根据给定的置信度,按照P(U1

    展开全文
  • 参数估计

    千次阅读 2019-09-02 22:09:01
    参数估计包括点估计和区间估计两类。 点估计 点估计是以抽样得到的样本指标作为总体指标的估计量,并以样本指标的实际值直接作为总体未知参数的估计值的一种推断方法。 点估计(point estimate)是用样本统计量的某个...

    参数估计包括点估计和区间估计两类。

    点估计

    点估计是以抽样得到的样本指标作为总体指标的估计量,并以样本指标的实际值直接作为总体未知参数的估计值的一种推断方法。

    点估计(point estimate)是用样本统计量的某个取值直接作为总体参数的估计值。例如,用样本均值x直接作为总体均值μ的估计值,用样本方差s2直接作为总体方差σ2的估计值。点估计的方法有:矩估计法、顺序统计量法、最大似然法、最小二乘法。

    矩估计法:矩是指以期望为基础而定义的数字特征,一般分为原点矩和中心矩。设X为随机变量,对任意正整数k,称E(Xk)为随机变量X的k阶原点矩,记为:
    m k = E ( X k ) m_k=E(X^k) mk=E(Xk)
    当k=1时,m1=E(X)=μ,可见一阶原点矩为随机变量X的数学期望。

    把Ck=E[X-E(X)]k称为以E(X)为中心的k阶中心矩。显然,当k=2时,C2=E[X-E(x)]22,可见二阶中心矩为随机变量X的方差。

    顺序统计量法:用样本中位数估计总体的数学期望的方法称数学期望的顺序统计量估计法。顺序统计量估计法的优点是计算简便,且中位数不易受个别异常数据的影响.如果一组样本值某一数据异常(如过于小或过于大),则这个异常数据可能是总体的随机性造成的,也可能是受外来干扰造成的(如工作人员粗心,记录错误),当原因属于后者,用样本平均值\overline{x}估计E(x)显然受到影响,但用样本中位数估计总体期望时,由于一个(甚至几个)异常的数据不易改变中位数的取值,所以估计值不易受到影响。

    最大似然法(Maximum Likelihood):它用来求一个样本集的相关概率密度函数的参数。

    最小二乘法(generalized least squares):是一种数学优化技术,它通过最小化误差的平方和找到一组数据的最佳函数匹配。 最小二乘法是用最简的方法求得一些绝对不可知的真值,而令误差平方之和为最小。 最小二乘法通常用于曲线拟合。很多其他的优化问题也可通过最小化能量或最大化熵用最小二乘形式表达。

    区间估计

    区间估计(interval estimate)是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。与点估计不同,进行区间估计时,根据样本统计量的抽样分布可以对样本统计量与总体参数的接近程度给出一个概率度量。

    区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间(confidence interval),其中区间的最小值称为置信下限,最大值称为置信上限。

    如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例称为置信水平(confidence level),也称为置信度或置信系数(confidence coefficient)。

    区间估计的正确理解方式:区间估计并不是总体参数落在某个区间的概率,而是抽取的多个样本中有多大的概率包含总体参数,由此通过概率可以知道在多次抽样得到的区间中大概有多少个区间包含了参数的真值。

    一个总体参数的区间估计

    研究一个总体时,所关心的参数主要有总体均值μ、总体比例π和总体方差σ2等。

    1. 总体均值的区间估计

      对总体均值进行区间估计时,需要考虑总体是否为正态分布,总体方差是否已知,用于构造估计量的样本是大样本(通常要求n≥30)还是小样本(n<30)等几种情况。下面分两种情况来分析:

      (1)正态总体、方差已知,或非正态总体、大样本

      当总体服从正态分布且方差已知,或总体非正态分布但样本为大样本时,样本均值x的抽样分布服从正态分布,其数学期望为总体均值μ,方差为σ2/n。样本均值经过标准化后的随机变量则服从正态分布,即
      z = x ‾ − μ σ / n ∼ N ( 0 , 1 ) z=\frac{\overline{x}-\mu}{\sigma/\sqrt{n}}\thicksim N(0,1) z=σ/n xμN(0,1)
      根据式上式和正态分布的性质可以得出总体均值μ在1-α置信水平下的置信区间为:
      x ‾ ± z α / 2 σ n \overline{x}\pm{z_{\alpha/2}}\frac{\sigma}{\sqrt{n}} x±zα/2n σ

      (2)正态总体、方差未知、小样本

      在总体服从正态分布的情况下,如果总体方差σ2未知,且样本较小的情况下,需要用样本方差s2代替σ2。这时,样本均值经过标准化以后的随机变量服从自由度为(n-1)的t分布,即
      t = x ‾ − μ s / n ∼ t ( n − 1 ) t=\frac{\overline{x}-\mu}{s/\sqrt{n}}\thicksim{t(n-1)} t=s/n xμt(n1)
      因此需要采用t分布来建立总体均值μ的置信区间。根据t分布建立的总体均值μ在1-α置信水平下的置信区间为:
      x ‾ ± t α / 2 s n \overline{x}\pm{t_{α/2}\frac{s}{\sqrt{n}}} x±tα/2n s

    2. 总体比例的区间估计

      在大样本的前提下,样本比例p的抽样分布可用正态分布近似。p的数学期望为E§=π,p的方差为σ2p=π(1-π)/n。而样本比例经标准化后的随机变量则服从标准正态分布,即
      z = p − π π ( 1 − π ) / n ∼ N ( 0 , 1 ) z=\frac{p-\pi}{\sqrt{\pi(1-\pi)/n}}\thicksim{N(0,1)} z=π(1π)/n pπN(0,1)
      与总体均值的区间估计类似,在样本比例p的基础上加减估计误差zα/2σp,即得总体比例π在1-α置信水平下的置信区间为:
      p ± z α / 2 π ( 1 − π ) n p\pm{z_{\alpha/2}\sqrt{\frac{\pi(1-\pi)}{n}}} p±zα/2nπ(1π)
      当通过上式计算总体比例π的置信区间时,π值应该是已知的。但实际情况不然,π值恰好是要估计的,所以需要用样本比例p来代替π。这种情况下,总体比例的置信区间可表示为:
      p ± z α / 2 p ( 1 − p ) n p\pm{z_{\alpha/2}\sqrt{\frac{p(1-p)}{n}}} p±zα/2np(1p)

    3. 总体方差的区间估计

      对于总体方差的估计,这里只讨论正态总体方差的估计。根据样本方差的抽样分布可知,样本方差服从自由度为n-1的χ2分布。因此用χ2分布构造总体方差的置信区间。

      总体方差σ2在1-α置信水平下的置信区间为:
      ( n − 1 ) s 2 χ α / 2 2 ≤ σ 2 ≤ ( n − 1 ) s 2 χ 1 − α / 2 2 \frac{(n-1)s^2}{{\chi^2_{\alpha/2}}}\leq\sigma^2\leq\frac{(n-1)s^2}{\chi^2_{1-\alpha/2}} χα/22(n1)s2σ2χ1α/22(n1)s2

    两个总体参数的区间估计后续讨论。

    样本量的确定

    通过区间估计可以了解到样本量的选择对于问题的求解至关重要,大样本(n≥30)和小样本(n<30)求解的方法不同。同样是大样本选择多大的样本来估计参数比较合适?

    通常,样本量的确定与可以容忍的置信区间的宽度以及对此区间设置的置信水平有一定关系。因此如何确定一个适当的样本量,也是抽样估计中需要考虑的问题。

    估计总体均值时样本量的确定

    总体均值的置信区间是由样本均值x和估计误差两部分组成的。在重复抽样或无限总体抽样条件下,估计误差为:
    z α / 2 σ n z_{\alpha/2}\frac{\sigma}{\sqrt{n}} zα/2n σ
    其中zα/2的值和样本n共同确定了估计误差的大小。当确定了置信水平1-α,zα/2的值就确定了。对于给定的zα/2的值和总体标准差σ,就可以确定任一希望的估计误差所需要的样本量。令E代表所希望达到的估计误差,即:
    E = z α / 2 σ n E=z_{\alpha/2}\frac{\sigma}{\sqrt{n}} E=zα/2n σ
    通过上式可以推导出确定样本量的公式如下:
    n = ( z α / 2 ) 2 σ 2 E 2 n=\frac{(z_{\alpha/2})^2\sigma^2}{E^2} n=E2(zα/2)2σ2
    式中的E值是使用者在给定的置信水平下可以接受的估计误差,zα/2的值可直接由区间估计中所用到的置信水平确定。当σ未知时,可以用样本的标准差来代替;也可以用试验调查的办法,选择一个初始样本,以该样本的标准差作为σ的估计值。

    从上式可以看出,样本量与置信水平成正比,在其他条件不变的情况下,置信水平越大,所需要的样本量也就越大;样本量与总体方差成正比,总体的差异越大,所要求的样本量也越大;样本量与估计误差的平方成反比,即可以接受的估计误差的平方越大,所需的样本量就越小。

    估计总体比例时样本量的确定

    与估计总体均值时样本量确定的方法类似,在重复抽样或无限总体抽样条件下,估计总体比例置信区间的估计误差为:
    z α / 2 π ( 1 − π ) n {z_{\alpha/2}\sqrt{\frac{\pi(1-\pi)}{n}}} zα/2nπ(1π)
    由上式可知,zα/2的值、总体比例π和样本量n共同确定了估计误差的大小。令E代表所希望达到的估计误差,即:
    E = z α / 2 π ( 1 − π ) n E=z_{\alpha/2}\sqrt{\frac{\pi(1-\pi)}{n}} E=zα/2nπ(1π)
    据此可以推导出重复抽样或无限总体抽样条件下确定样本量的公式如下:
    n = ( z α / 2 ) 2 π ( 1 − π ) E 2 n=\frac{(z_{\alpha/2})^2\pi(1-\pi)}{E^2} n=E2(zα/2)2π(1π)
    式中的估计误差E必须是使用者事先确定的,大多数情况下,一般取E的值小0.10。zα/2的值可直接由区间估计中所用导的置信水平确定。如果π未知,可以用类似的样本比例来代替;也可以用试验调查的办法,选择一个初始样本,以该样本的比例作为π的估计值。当π的值无法知道时,通常取使π(1-π)最大时的0.5。

    参考文献

    点估计

    顺序量统计法

    最大似然估计

    最小二乘法

    《统计学(第六版)》:贾俊平

    展开全文
  • 2、步骤 注: 二、正态总体均值与方差的区间估计 1、单正态总体 (1)、均值μ 置信水平为1-α (2)、方差σ2 2、双正态总体 (1)、两个总体均值差μ1-μ2 ①、σ12、σ22已知 ②、σ12=σ22=σ2,但σ2未知 (3)...
  • 参数估计(点估计和区间估计)

    万次阅读 多人点赞 2019-09-06 12:07:06
    1.点估计就是用样本统计量来估计总体参数。 概念理解:当我们想知道某一总体的某个指标的情况时,测量整体该指标的数值 的工作量太大,或者不符合实际,这时我们可以采用抽样的方法选取一部分样本测量出他们数值,...
  • 威布尔分布参数估计在EXCEL中的实现方法研究,史景钊,花恒明,三参数威布尔分布的参数估计比较复杂,大多数估计方法都需要编程计算。推导了相关系数优化法求解三参数威布尔分布位置参数的公式
  • 推断统计:参数估计和假设检验

    千次阅读 多人点赞 2020-03-03 00:35:24
    目录 ...  3、参数估计(点估计和区间估计)    1)参数估计、点估计和区间统计的概念    2)点估计说明    3)区间估计说明   4、中心极限定理    1)中心极限定理的概念    2...
  • 参数估计方法——OLS、MLE、MAP

    千次阅读 2019-07-31 15:17:22
    文章目录1、前言2、最大似然估计法 MLE3、最大后验估计 MAP4、贝叶斯估计5、其他的参数估计方法 1、前言 我们讨论的是有参的情况,在这种情况中,我们的目标是估计参数值(假设有可能确定真是参数),而不是函数值。...
  • 《统计学》学习笔记之参数估计

    千次阅读 2020-03-16 15:05:29
    文章目录参数估计参数估计的基本原理评价估计量的标准一个总体参数的区间估计两个总体参数估计 参数估计 参数估计是推断统计的重要内容之一。它是在抽样及抽样分布的基础上,根据样本统计量来推断所关心的总体参数...
  • 浅谈参数估计

    千次阅读 2019-09-03 09:38:34
    参数估计是推断统计的重要内容之一,它是在抽样及抽样分布的基础上,根据样本统计量来推断所关心的总体参数. 估计量 如果能够掌握总体的全部数据,那么只需要作一些简单的统计描述,就可以得到所关心的总体特征,比如,...
  • 参数估计的计算方法

    千次阅读 2020-05-27 19:21:58
    参数估计的计算方法极大后验(MAP)及拉普拉斯逼近基于马尔可夫链的蒙特卡洛参数推断(MCMC)期望极大化(EM) (参数估计所有内容) 极大后验(MAP)及拉普拉斯逼近 极大后验估计: MAP是通过确定后验分布的极大值得到的,...
  • 概率论 参数估计与假设检验 区分及例子动机区分概念假设检验基本思想小概率原理原理几种常见假设检验假设检验规则和两类错误检验规则两类错误明确步骤 动机 国内本科教材重计算技巧,轻内在逻辑,大家学完容易忘记。...
  • 我们观测世界,得到了一些数据,我们要从这些数据里面去找出规律来认识世界,一般来说,在概率上我们有一个一般性的操作步骤 1. 观测样本的存在2. 每个样本之间是独立的3. 所有样本符合一个概率模型 我们最终想要...
  • 通过观测世界得到了一些数据,我们要从这些数据里面去找出规律来认识世界,一般来说,在概率上我们有一个一般性的操作步骤: 1. 观测样本的存在 2. 每个样本之间是独立的 3. 所有样本符合一个概率模型 我们最终...
  • 关于参数估计(点估计和参数估计)的详细笔记。
  • 参数估计 已经知道观测数据符合某些模型的概率下,我们可以利用参数估计的方法来确定这些参数值,然后得出概率密度模型。这个过程中用到了一个条件,就是概率分布符合某些模型这个事实。在这个事实上进行加工。 ...
  • 概率论基础知识(三) 参数估计

    千次阅读 2018-09-23 14:04:33
    概率论基础知识(三) 参数估计 1、矩 矩是用来描述随机变量的某些特征的数字,即求平均值,用大写字母E表示。 矩是更具有一般意义的数字特征。 设有随机变量X,若E(∣X∣k)&amp;amp;amp;amp;lt;+∞E(|X|^k)&...
  • 在现实生活中,由于被试者的能力不能通过可观测的数据进行描述,所以IRT模型用一个潜变量θθ来表示,并考虑与项目相关的一组参数来分析正确回答测试项目的概率。目前常见的IRT模型有2-PL模型和3-PL模型。其具体...
  • 目录1 概念1.1 核平滑的概念和计算1.2 Nadaraya-Watson回归1.3 高斯核2 高斯核平滑过程-Python实现2.1 加载库和生成数据2.2 Full ...核平滑是一种用来估计实值方程的统计方法,来作为周围观察数据的加权平均值。...
  • 关于参数估计

    千次阅读 2018-01-25 18:11:08
    虽然非计算机专业,但因为一些原因打算学习西瓜书,可由于长时间没有碰过概率统计的知识,有所遗忘。所以特意重新复习了一遍类似的知识,写在这里权当...参数估计的方法有多种,各种估计方法得出的结果不一定相同,...
  • 三、抽样与参数估计

    千次阅读 2021-01-29 22:04:29
    令E代表所希望达到的估计误差,即: 据此可以推导出重复抽样或无限总体抽样条件下确定样本量的公式如下: 总结: 1、抽样分布是参数估计中的一个重要概念,是抽样估计的基础 抽样分布是指样本统计量的分布,样本均值...
  • AR模型的参数估计

    千次阅读 2020-06-20 22:24:47
    AR模型的参数估计 一、AR模型概述 AR模型属于随机信号参数模型的一种。在AR模型中,随机信号x(n)由本身的若干次过去值x(n−k)和当前的激励值w(n)线性组合产生。 x(n)=w(n)−∑k=1pakx(n−k)(1) x(n) = w(n) − \sum_...
  • 统计学——参数估计与假设检验

    千次阅读 2019-02-13 17:15:04
    第 7 章 参数估计 7.1 参数估计的基本原理 参数估计就是用样本统计量去估计总体的参数。比如,用样本均值估计总体均值,用样本比例估计总体比例。 在参数估计中,用来估计总体参数的统计量称为估计量。样本均值、...
  • 状态空间模型中实际参数估计

    千次阅读 2020-05-27 19:23:05
    状态空间模型中实际参数估计状态扩增法线性状态空间模型的参数估计利用高斯滤波与平滑的参数估计(非线性模型)基于粒子滤波与平滑的参数估计参数的 Rao-Blackwell 化 (参数估计所有内容) 状态扩增法 线性状态空间...
  • 最后,我们研究第三个问题,参数估计问题。也即是给定一个观察序列O=O1O2O3...OTO=O_{1}O_{2}O_{3}...O_{T}O=O1​O2​O3​...OT​,如何根据最大似然估计来求模型的参数值?即如何调节模型μ=(S,K,A,B,π)\mu =\left...
  • 对目前参数估计的方法进行了总结与对比.针对不完整数据参数估计时的情况,分析了目前关于参数估计方法存在的问题.利用Mat1ab求解非线性方程,提出了一种高精度数值解析法.利用少量的实验数据便可求出一组参数的解,然后...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 86,861
精华内容 34,744
关键字:

参数估计步骤