精华内容
下载资源
问答
  • 总体分布是正态分布,且方差已知,则无论样本容量是大是小,样本均值的抽样分布都服从正态分布; 而如果总台的分布是正态分布,抽出的样本为小样本,且方差未知,则样本均值的抽样分布服从t分布。...

    若总体的分布是正态分布,且方差已知,则无论样本容量是大是小,样本均值的抽样分布都服从正态分布;

    而如果总台的分布是正态分布,抽出的样本为小样本,且方差未知,则样本均值的抽样分布服从t分布。

    展开全文
  • 梳理一下 假设检验、卡方检验、t检验、F检验、P值、置信区间、置信水平、AB测等问题。 首先明确几个关于总体和样本的概念及符号: 总体 样本 样本均值

    本文介绍关于总体、样本、样本抽样分布的理解,及2个重要的统计学原理:中心极限定理和大数定理。

    总体:就是一个概率分布。
    样本:从总体中随机抽取的一个子集。其中,样本具有和总体相同的分布,样本之间两两独立。
    抽样分布:对原来的分布总体,以一定样本容量抽取样本值,多次抽取后,样本的统计量(比如均值或方差)形成的分布。
    其中,
    样本容量(大小)/样本量:每个样本里有多少个数据,每一次试验的样本值个数,通常说n个(x1,x2,...,xn)x_1,x_2,...,x_n)
    样本数量(空间):抽样的时候,包含多少个样本,或者说抽多少次。
    抽样分布可以分为两类:
    一类:关于均值的分布:正态分布和t-分布;
    一类:关于方差的分布:卡方分布和F-分布。

    今天先说样本均值的抽样分布,此处涉及中心极限定理
    通俗的说,给定一个任意分布的总体,每次从这些总体中随机抽取 n 个样本值(样本容量),一共抽 m 次(样本数量),然后把这 m 组样本分别求出平均值, 这些平均值(样本均值)的分布接近正态分布。
    其中,
    1、总体本身的分布不要求正态分布;
    2、样本容量n越大,样本均值的分布约趋近于正态分布,标准差越小,即分布越集中。

    所以,样本均值的抽样分布是服从正态分布,即x\overline{x}~N(μ,σ2/n\mu,σ^2/n)

    (参考:网易公开课-可汗学院-统计学
    网站:http://onlinestatbook.com/stat_sim/sampling_dist/index.html)

    通过模拟试验,可以看到有关于样本均值抽样分布的图形化过程,当n取不同值时,抽样分布的形状。
    下图是从视频中截取的示例图,最上面深灰色的是总体分布,中间的是n=5的样本均值抽样分布,最下面是n=25的样本均值抽样分布。
    可以发现抽样发生10000次时,不同样本容量的均值相差不大分别为14.48和14.44,和总体均值近似。但是标准差相差较多,n=5时,sd=4.34;n=25时,st=1.91,即样本容量更大时,分布更集中了。另外n=25时的偏度和峰度都比n=5时更小。
    在这里插入图片描述

    接下来,再看看上述3类分布的均值、方差、标准差常用的基本符号和计算:
    p.s.第一次编辑数学公式,方法参考:https://www.zybuluo.com/codeep/note/163962

    均值 方差 标准差
    总体(容量N) μ\mu σ2σ^2 σ\sigma
    样本(容量n) x\overline{x} S2S^2 SS
    样本均值的抽样分布(容量n) μx\mu_{\overline{x}} σx2\sigma_{\overline{x}}^{2} σx\sigma_{\overline{x}}

    其中,

    • 均值

      • 总体均值μ=i=1NxiN\mu=\frac { \sum_{i=1}^N{x_i} } {N}

      • 样本均值x=xn=i=1nxin\overline{x}=\overline{x}_n=\frac { \sum_{i=1}^n{x_i }} {n}

      • 大数定理:当n—>∞时,xn\overline{x}_n—>E(X)=μ。即当样本量n足够大的时候,样本均值收敛于总体均值或随机变量期望值,揭示了频率和概率的关系。

      • 样本均值抽样分布的均值μx\mu_{\overline{x}}是总体均值μ的估计,即可以认为:μx=μ\mu_{\overline{x}}=\mu

    • 方差

      • 总体方差σ2=i=1N(xiμ)2Nσ^2=\frac { \sum_{i=1}^N(x_i - \mu)^2 } {N}

      • 样本方差Sn2=i=1n(xix)2nS_{n}^2=\frac { \sum_{i=1}^n(x_i - {\overline{x}})^2 } {n}
        因为n<N,抽到的样本会比总体相对更集中,波动更小一些,即样本方差S2S^2通常会比总体方差σ2σ^2小,所以需要对样本方差进行了修正。

      • 修正后的样本方差(无偏方差)Sn12=i=1n(xix)2n1S_{n-1}^2=\frac { \sum_{i=1}^n(x_i - {\overline{x}})^2 } {{n-1} }

      • 如果知道总体均值μμ,那么就不用(n-1)进行无偏估计,可以直接写成:Sn2=i=1n(xiμ)2nS_{n}^2=\frac { \sum_{i=1}^n(x_i - \mu)^2 } {n}

      • 样本均值抽样分布的方差(均值方差)
        这里区分总体方差已知和总体方差未知2种情况:
        总体方差σ2σ^2已知:σx2=σ2n\sigma_{\overline{x}}^{2}=\frac {σ^2 } {n}
        总体方差σ2σ^2未知,则用样本方差S2S^2来估计:
        σx2=σ2nS2n\sigma_{\overline{x}}^{2}=\frac {σ^2 } {n}≈\frac {S^2 } {n}

    当样本容量n>30时,可以认为,样本方差SS可以比较好的估计总体方差σ\sigma,根据中心极限定理,认为样本均值的抽样分布符合正态分布;
    n<30时,样本方差SS和总体方差σ\sigma相差比较大,认为符合t分布。

    展开全文
  • 2020/11/11为了便于计算,假设 之间相互独立,且 对 成立。...从而 的期望为:可以计算 的期望为:从而, 的方差为:令 表示样本均值,则样本均值的倒数为 ,故样本均值的倒数的期望为样本均值的倒数的方差为整...

    2020/11/11

    为了便于计算,假设

    之间相互独立,且

    成立。令

    由于指数分布是特殊的gamma分布,则由gamma分布的可加性知,

    从而

    的概率密度函数为

    ,则易得

    的概率密度函数为

    也可以通过定义求解

    的分布函数,再求导得到其概率密度函数。从而

    的期望为:

    可以计算

    的期望为:

    从而,

    的方差为:

    表示样本均值,则样本均值的倒数为

    ,故样本均值的倒数的期望为

    样本均值的倒数的方差为

    整体思路就是,根据总体分布求样本和的分布,再求和的倒数的分布,计算出和的倒数的均值和方差,最后求样本均值的倒数的均值和方差。亦可用原概率密度函数直接对均值倒数求期望和方差,如有错误请指正~

    期中考以后用蒙特卡洛模拟看看结果对不对

    2020/12/3

    回来更新啦~

    一般情况:设样本的每个个体独立同分布服从于参数为

    的指数分布,即

    ,也可写成

    。则

    ,根据上述步骤,容易计算得到:

    因此样本均值倒数的期望为:

    方差为:

    根据中心极限定理,通过蒙特卡洛模拟获取的期望和方差的样本数据,其样本均值的概率分布近似为正态分布,并且随着样本量(模拟次数)趋于无穷大,样本均值会收敛于期望值,因此我们可以通过样本均值估计理论值,并进行假设检验,验证理论值是否reasonable。原假设和备择假设分别为:

    以及:

    这里以

    为例,模拟通过Python实现,代码如下:

    import numpy as np

    import random

    from scipy.stats import norm

    #生成服从指数分布的 x 总体

    np.random.seed(0)

    beta = 5

    u = np.random.uniform(0, 1, 1000)

    population = (-1/beta * np.log(1 - u)).tolist()

    #初始化样本容量 n

    n = 50

    #通过 m 次抽样获得的目标值(样本均值倒数)的波动,用于检验方差

    m = 100

    #初始化模拟次数 M

    M = 1000

    #定义用于检验方差的函数,每调用一次这个函数,会返回一个方差估计值(基于 m 次抽取容量为 n 的样本数据)

    def var_est(population, m, n):

    data = [1/np.mean(random.sample(population, n)) for i in range(m)]

    return np.var(data, ddof = 1)

    #定义模拟函数,参数 target 用于选择要研究的统计量

    def simulation(population, M = 1000, n = 50, target = 'mean'):

    if target == 'mean':

    theoretical_value = n * beta / (n-1)

    data = [1/np.mean(random.sample(population, n)) for i in range(M)]

    elif target == 'variance':

    theoretical_value = n**2 * beta**2 / (n-1)**2 / (n-2)

    data = [var_est(population, m, n) for i in range(M)]

    return theoretical_value, data

    #模拟两组数据,分别用于检验期望和方差

    random.seed(1)

    mean_theory, data_mean = simulation(population, M, n, target = 'mean')

    variance_theory, data_var = simulation(population, M, n, target = 'variance')

    #先看看期望和方差的理论值

    mean_theory, variance_theory(5.1020408163265305, 0.5423087602387894)

    #再看看样本数据的均值

    np.mean(data_mean), np.mean(data_var)(5.080338272542856, 0.5403331158305243)

    差异不大。

    设定显著性水平为5%,分别计算两个假设检验问题的检验统计量和对应的p值:

    test_mean = abs(np.mean(data_mean) - mean_theory) / np.std(data_mean, ddof = 1)

    test_var = abs(np.mean(data_var) - variance_theory) / np.std(data_var, ddof = 1)

    p_mean = 2 - 2 * norm.cdf(test_mean, loc = 0, scale = 1).round(3)

    p_var = 2 - 2 * norm.cdf(test_var, loc = 0, scale = 1).round(3)

    #输出 p 值

    p_mean, p_var(0.976, 0.982)

    两组假设检验的p值均大于0.05,因此没有充分证据表明我们的理论值是错误的~感兴趣的小伙伴可以调整样本容量,模拟次数和

    展开全文
  • 关于样本方差的推导,如果我们认为方差样本形如总体样本: 因为 所以(1)式中第二项第三项减去后原式 然后第一项在中心极限中就是总体方差的无偏估计,而第二项当等于0时,全式就是总体方差了。但是很可惜,因为...
  • 【练习一】对example1_1.Rdata中数据,利用R软件,完成分别有放回无放回抽取10名学生的姓名组成一个随机样本,输出学生姓名分别有放回无放回抽取10名学生的姓名分数组成一个随机样本,同时输出学生姓名分数。...
  • “不靠押题靠实力” ——李林 抽样分布是考研概统部分的高频考点,考生需掌握的有各分布的性质、联系以及合成样本的分布、数字特征,综合性较强。...二、样本:均值分布和数字特征定义:设任意总体X,总...
  • 总体和样本

    2017-02-09 20:28:00
    总体和样本 总体:指在某种共性的基础上由许多个别事物结合起来的整体。简言之总体是我们要调查或统计某一现象全部数据的集合。比如调查国内教师薪水情况中全中国的所有教师,调查某一高中高三学生成绩分布中所有的...
  • p¯\bar{p} 的抽样分布样本比率 p¯\bar{p} 的所有可能值的概率分布。 下面我们了解下 p¯\bar{p} 的期望、标准差、形状这些数学特征。 p¯\bar{p} 的数学期望 E(p¯)=pE(\bar{p})=p ,其中p为总体比率。 ...
  • 文章目录小知识定理1定理2定理3证明...X‾,S2\overline{X},S^2X,S2是样本均值方差 于是有E(X‾)=μ,E(S2)=σ2E(\overline{X})=\mu,E(S^2)=\sigma^2E(X)=μ,E(S2)=σ2 D(X‾)=σ2nD(\overline{X})=\frac{\sigma^2}nD(X
  • 文章目录一、总体样本1...在对总体进行统计研究时,我们所关心的是表征总体状况的某个(或某几个)数量指标 XXX(可以是向量)该指标在总体中的分布情况。 例如:总体是一批灯泡,XXX 是寿命;总体是某市市民,XXX
  • 例如:方差,标准差,样本原点矩中心距,以及最简单的均值。 正态总体下的四大分布 u统计量~标准正态分布 t统计量~t分布 卡方统计量~卡方分布 F统计量~F分布 上述图片介绍了4大分布 知识前提:学过概率统计...
  • Python数据分析:统计学知识补充一、总体和样本:1、什么是总体(population)?什么是样本(sample)?1)总体:是你研究对象的整个群体;2)样本:是从总体中选取的一部分,用于代表总体;3)样本数量:是你有多少个...
  • 一、概率分布1、随机变量随机变量是指一个量化随机事件的函数,它将...3、概率分布概率分布分为两个类型,离散概率分布和连续概率分布。离散随机变量的概率计算公式要通过概率质量函数(PMF)来计算,在统计图中的形状...
  • 样本方差的抽样分布 χ2(n) ...,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方∑ξi∧2构成一新的随机变量,其分布规律称为χ2(n)分布(chi-square ...
  • 正确判断一个样本所来自的总体分布情况是一个重要话题,总体的分布情况与统计方法选择密切相关。那么,有没有靠谱的方法判断一个样本来自什么样的总体?答案是否定的。因为总体基本不可获得,所以总体的真实分布类型...
  • 本文对抽样分布的概念、无偏差和最小偏差等性质,以及中心极限定理和样本比例的抽样分布进行总结。2 抽样分布基本概念 参数(parameter):参数是对总体的数值描述,因为是总体,所以值经常是未知的。 样本统计量...
  • 后面部分很好推导,将括号展开后,由三部分组成,中间的部分为2倍的样本和样本均值的乘积,将样本的和变成n倍的样本均值即可。 那么分四种情况进行讨论。分别是: 样本均值服从什么样的分布?特殊的卡方1分布。 ...
  • 总体和样本的估计 点估计量 样本均值被称为总体均值的点估计量 点估计量可以近似总体参数 样本均值就是样本数据之和除以样本数据量 样本方差的点估计值计算方法 因为总体方差往往比样本方差大,所以需要n-1 比例的...
  • 问题在现实研究当中,受限于疾病的罕见程度财力支持,一些研究很难收集到大量的样本,这使得研究获得的连续性资料常常呈现偏态分布,如何描述资料的集中趋势离散趋势成为了一个问题,一般常用的方法是用中位数...
  • 不管是在练习项目还是实际工作中,我们基本上是抽样获取数据,通过一定的抽样设置得到一定数据量,然后从样本数据推断总体分布。但是不同情景下的数据分布是不同的,为了数据分析后期模型建立,我们需要了解数据的...
  • 一是样本的数字特征,二是样本方差和样本均值的方差的区别,三是三大分布怎样构造抽样分布。 (一) 为了简便,假设有一个正态分布总体ξ~N(µ,σ2),设想我们从中随机抽取n个样本,ξ1,。。。ξn。 此时就...
  • 一、概率分布1、随机变量随机变量是指一个量化随机事件的函数,它...3、概率分布概率分布分为两个类型,离散概率分布和连续概率分布。离散随机变量的概率计算公式要通过概率质量函数(PMF)来计算,在统计图中的形状...
  • 1.3统计量(续)上一讲中给出了常用的统计量,下面进一步计算其中样本均值和样本方差的数字特征.假设总体服从的分布的期望为 ,方差为 样本均值的期望和方差为 其中利用了期望与求和的可交换性,以及独立随机变量和的...
  • 正态总体抽样分布推导Survey research concerns taking samples of a target population. Using those samples, we can estimate the views of that population.调查研究涉及对目标人群进行抽样。 使用这些样本,...
  • 样本:如果x1,x2,x3,⋯,xn,x_1,x_2,x_3,\cdots,x_n,相互独立且与总体X同分布则称x1,x2,x3,⋯,xn,x_1,x_2,x_3,\cdots,x_n,为来自总体的简单随机样本。 ∮3抽样分布 统计量是统计理论中用来对数据进行分析、检验的...
  • 总体样本方差的无偏估计样本方差为什么除以n-1

    万次阅读 多人点赞 2018-08-01 15:02:22
    1)基本概念 我们先从最基本的一些概念入手。...应该把样本和总体样本一样进行抽象化理解,因此样本也存在期望方差。 这里有一个重要的假设,就是随机选取的样本总体样本分布,它的意思...
  • 本篇目录参考资料:电子工业出版社的《深入浅出统计学》前言具体内容一、总体均值的估计二、总体方差的估计三、比例的抽样分布1、比例分布的期望方差2、比例分布的概率计算四、均值的抽样分布1、均值分布的期望...
  • 一、统计量样本均值:从总体中抽样的数据集叫样本样本总和除以样本总数即为样本均值。样本方差:样本样本均值之差的平方的,除以(样本总数-1)。样本变异系数:样本标准差与样本均值之比,是在消除量纲影响后...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,117
精华内容 446
关键字:

总体分布和样本分布