精华内容
下载资源
问答
  • 正态总体统计量的分布
    2021-08-03 10:47:44

    一、单个正太总体的统计量的分布
    从总体X中抽取容量为n的样本 X 1 , X 2 , . . . , X n , X_1,X_2,...,X_n, X1,X2,...,Xn,样本均值与样本方差分别是
    X ˉ = 1 n ∑ i = 1 n X i , S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 \bar{X}=\frac{1}{n} \sum_{i=1}^{n}X_i,S^2=\frac{1}{n-1} \sum_{i=1}^{n}\left ( X_i-\bar X\right)^2 Xˉ=n1i=1nXi,S2=n11i=1n(XiXˉ)2
    定理1:设总体X服从正态分布 N ( μ , σ 2 ) N\left ( \mu ,\sigma ^2 \right ) N(μ,σ2),则样本均值 X ˉ ∼ N ( μ , σ 2 n ) \bar X\sim N\left ( \mu ,\frac{\sigma ^2}{n} \right ) XˉN(μ,nσ2)
    定理2:设总体X服从正态分布 N ( μ , σ 2 ) N\left ( \mu ,\sigma ^2 \right ) N(μ,σ2),则统计量 u = X ˉ − μ σ / n u=\frac{\bar X-\mu }{\sigma /\sqrt{n} } u=σ/n Xˉμ服从标准正态分布N(0,1) ,即
    u = X ˉ − μ σ / n ∼ N ( 0 , 1 ) u=\frac{\bar X-\mu }{\sigma /\sqrt{n} } \sim N\left ( 0,1 \right ) u=σ/n XˉμN(0,1)
    定理3:设总体X服从正态分布 N ( μ , σ 2 ) N\left ( \mu ,\sigma ^2 \right ) N(μ,σ2),则统计量 1 σ 2 ∑ i = 1 n ( X i − μ ) 2 \frac{1}{\sigma^2}\sum_{i=1}^{n}\left ( X_i-\mu \right )^2 σ21i=1n(Xiμ)2 服从自由度为n的 χ 2 \chi^2 χ2分布,即 χ 2 = 1 σ 2 ∑ i = 1 n ( X i − μ ) 2 ∼ χ 2 ( n ) \chi^2=\frac{1}{\sigma^2}\sum_{i=1}^{n}\left ( X_i-\mu \right )^2 \sim \chi^2\left ( n \right ) χ2=σ21i=1n(Xiμ)2χ2(n)
    定理4:设总体X服从正态分布 N ( μ , σ 2 ) N\left ( \mu ,\sigma ^2 \right ) N(μ,σ2),则
    (1)样本均值 X ˉ \bar X Xˉ与样本方差 S 2 S^2 S2相互独立;
    (2)统计量 χ 2 = ( n − 1 ) S 2 σ 2 \chi^2=\frac{\left ( n-1 \right )S^2 }{\sigma^2} χ2=σ2(n1)S2服从自由度为n-1的 χ 2 \chi^2 χ2分布,即
    χ 2 = ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) \chi^2=\frac{\left ( n-1 \right )S^2 }{\sigma^2}\sim \chi^2\left ( n-1 \right ) χ2=σ2(n1)S2χ2(n1)
    定理5:设总体X服从正态分布 N ( μ , σ 2 ) N\left ( \mu ,\sigma ^2 \right ) N(μ,σ2),则统计量 t = X ˉ − μ S / n t=\frac{\bar X-\mu }{S/\sqrt{n} } t=S/n Xˉμ服从自由度为n-1的t分布,即:
    t = X ˉ − μ S / n ∼ t ( n − 1 ) t=\frac{\bar X-\mu }{S/\sqrt{n} }\sim t\left ( n-1 \right ) t=S/n Xˉμt(n1)
    二、两个正态总体的统计量的分布
    从总体X中抽取容量为 n x n_x nx的样本 X 1 , X 2 , . . . , X n x X_1,X_2,...,X_nx X1,X2,...,Xnx,从总体Y中抽取容量为 n y n_y ny的样本 Y 1 , Y 2 , . . . , Y n y Y_1,Y_2,...,Y_ny Y1,Y2,...,Yny。假设所有的抽样都是相互独立的,由此得到的样本 X i ( i = 1 , 2 , . . . , n x ) X_i\left ( i=1,2,...,n_{x} \right ) Xi(i=1,2,...,nx) Y i ( i = 1 , 2 , . . . , n x ) Y_i\left ( i=1,2,...,n_{x} \right ) Yi(i=1,2,...,nx) 都是相互独立的随机变量。把取自两个总体的样本均值分别记作
    X ˉ = 1 n x ∑ i = 1 n x X i , Y ˉ = 1 n y ∑ i = 1 n y Y i \bar X=\frac{1}{n_x}\sum_{i=1}^{n_x}X_i, \bar Y= \frac{1}{n_y}\sum_{i=1}^{n_y}Y_i Xˉ=nx1i=1nxXi,Yˉ=ny1i=1nyYi
    样本方差分别记作
    S x 2 = 1 n x − 1 ∑ i = 1 n x ( X − X ˉ ) 2 , S y 2 = 1 n y − 1 ∑ j = 1 n y ( Y − Y ˉ ) 2 S_x^2=\frac{1}{n_x-1}\sum_{i=1}^{n_x}\left ( X-\bar X \right )^2,S_y^2=\frac{1}{n_y-1}\sum_{j=1}^{n_y}\left ( Y-\bar Y \right )^2 Sx2=nx11i=1nx(XXˉ)2,Sy2=ny11j=1ny(YYˉ)2
    定理6:设总体X服从正态分布 N ( μ x , σ x 2 ) N\left ( \mu_x ,\sigma_x ^2 \right ) N(μx,σx2),总体Y服从正态分布 N ( μ y , σ y 2 ) N\left ( \mu_y ,\sigma_y ^2 \right ) N(μy,σy2),则统计量 U = ( X ˉ − Y ˉ ) − ( μ x − μ y ) σ 2 n x + σ 2 n y U=\frac{\left ( \bar X-\bar Y \right )-\left ( \mu _x-\mu _y \right ) }{\sqrt{\frac{\sigma ^2}{n_x}+ \frac{\sigma ^2}{n_y}} } U=nxσ2+nyσ2 (XˉYˉ)(μxμy) 服从标准正态分布。
    U = ( X ˉ − Y ˉ ) − ( μ x − μ y ) σ 2 n x + σ 2 n y ∼ N ( 0 , 1 ) U=\frac{\left ( \bar X-\bar Y \right )-\left ( \mu _x-\mu _y \right ) }{\sqrt{\frac{\sigma ^2}{n_x}+ \frac{\sigma ^2}{n_y}} }\sim N\left ( 0,1 \right ) U=nxσ2+nyσ2 (XˉYˉ)(μxμy)N(0,1)
    定理7:设总体X服从正态分布 N ( μ x , σ x 2 ) N\left ( \mu_x ,\sigma_x ^2 \right ) N(μx,σx2),总体Y服从正态分布 N ( μ y , σ y 2 ) N\left ( \mu_y ,\sigma_y ^2 \right ) N(μy,σy2),则统计量 T = ( X ˉ − Y ˉ ) − ( μ x − μ y ) S w 1 n x + 1 n y T=\frac{\left ( \bar X-\bar Y \right )-\left ( \mu _x-\mu _y \right ) }{S_w\sqrt{\frac{1}{n_x}+ \frac{1}{n_y}} } T=Swnx1+ny1 (XˉYˉ)(μxμy)服从自由度为 n x + n y − 2 n_x+n_y-2 nx+ny2的t分布,即
    T = ( X ˉ − Y ˉ ) − ( μ x − μ y ) S w 1 n x + 1 n y ∼ t ( n x + n y − 2 ) T=\frac{\left ( \bar X-\bar Y \right )-\left ( \mu _x-\mu _y \right ) }{S_w\sqrt{\frac{1}{n_x}+ \frac{1}{n_y}} }\sim t\left ( n_x+n_y-2 \right ) T=Swnx1+ny1 (XˉYˉ)(μxμy)t(nx+ny2)
    其中: S w = ( n x − 1 ) S x 2 + ( n y − 1 ) S y 2 n x + n y − 2 S_w=\sqrt{\frac{\left ( n_x-1 \right )S_x^2+\left ( n_y-1 \right )S_y^2 }{n_x+n_y-2} } Sw=nx+ny2(nx1)Sx2+(ny1)Sy2
    定理8:设总体X服从正态分布 N ( μ x , σ x 2 ) N\left ( \mu_x ,\sigma_x ^2 \right ) N(μx,σx2),总体Y服从正态分布 N ( μ y , σ y 2 ) N\left ( \mu_y ,\sigma_y ^2 \right ) N(μy,σy2),则统计量 F = ∑ i = 1 n x ( X i − μ x ) 2 / n x σ x 2 ∑ j = 1 n y ( Y i − μ y ) 2 / n y σ y 2 F=\frac{\sum_{i=1}^{n_x}\left ( X_i-\mu _x \right )^2/n_x\sigma _x^2 }{\sum_{j=1}^{n_y}\left ( Y_i-\mu _y \right )^2/n_y\sigma _y^2} F=j=1ny(Yiμy)2/nyσy2i=1nx(Xiμx)2/nxσx2服从自由度为 ( n x , n y ) \left ( n_x,n_y \right ) (nx,ny)的F分布。即
    F = ∑ i = 1 n x ( X i − μ x ) 2 / n x σ x 2 ∑ j = 1 n y ( Y i − μ y ) 2 / n y σ y 2 ∼ F ( n x , n y ) F=\frac{\sum_{i=1}^{n_x}\left ( X_i-\mu _x \right )^2/n_x\sigma _x^2 }{\sum_{j=1}^{n_y}\left ( Y_i-\mu _y \right )^2/n_y\sigma _y^2} \sim F\left ( n_x,n_y \right ) F=j=1ny(Yiμy)2/nyσy2i=1nx(Xiμx)2/nxσx2F(nx,ny)
    定理9:设总体X服从正态分布 N ( μ x , σ x 2 ) N\left ( \mu_x ,\sigma_x ^2 \right ) N(μx,σx2),总体Y服从正态分布 N ( μ y , σ y 2 ) N\left ( \mu_y ,\sigma_y ^2 \right ) N(μy,σy2),则统计量 F = S x 2 / σ x 2 S y 2 / σ y 2 F=\frac{S_x^2/\sigma _x^2}{S_y^2/\sigma _y^2} F=Sy2/σy2Sx2/σx2服从自由度为 ( n x − 1 , n y − 1 ) \left ( n_x-1,n_y-1 \right ) (nx1,ny1)的F分布,即
    F = S x 2 / σ x 2 S y 2 / σ y 2 ∼ N ( n x − 1 , n y − 1 ) F=\frac{S_x^2/\sigma _x^2}{S_y^2/\sigma _y^2}\sim N\left ( n_x-1,n_y-1 \right ) F=Sy2/σy2Sx2/σx2N(nx1,ny1)

    更多相关内容
  • 统计综合指标有哪些?

    千次阅读 2020-02-28 13:13:01
    统计指标按照其反映的内容或其数值表现形式可以分为总量指标、相对指标、平均指标、变异指标。按其所反映总体现象的数量特性的性质不同可分为数量指标和质量指标。 一、总量指标 ​ 总量指标是反映社会经济现象...

    CDA数据分析师 出品

    ​ 统计指标按照其反映的内容或其数值表现形式可以分为总量指标、相对指标、平均指标、变异指标。按其所反映总体现象的数量特性的性质不同可分为数量指标和质量指标。

    一、总量指标

    ​ 总量指标是反映社会经济现象发展的总规模、总水平的综合指标。即数量指标,也称为绝对数。例如国内生产总值**、**人口总数、粮食总产量等。

    1、按反映的时间状况不同分为时期指标和时点指标

    ​ 时期指标:表明现象总体在一段时期内发展过程的总量。它具有可加性、数值大小与时期长短有直接关系、需要连续登记汇总。例如,在某一段时期内的出生人数、死亡人数等。

    ​ 时点指标:表明现象总体在某一时刻(瞬间)的数量状况。它不具有可加性、数值大小与时期长短没有直接关系、由一次性登记调查得到。例如,在某一时点的总人口数。

    2、按反映的总体内容不同分为总体单位总量和总体标志总量

    ​ 总体单位总量:总体所包含的总体单位的数量。

    ​ 总体标志总量:总体单位在某一数量标志上的标志值的总和。

    ​ 只有可加总体能够计算总体单位总量,不可加总体没有总体单位总量;一个总体中只有一个单位总量,但可以有多个标志总量,它们由总体单位的数量标志值汇总而来。

    3、按计量单位不同可分为实物指标、劳动指标和价值指标

    二、相对指标

    ​ 相对指标又称统计相对数,它是两个有相互联系的现象数量的比率,用以反映现象的发展程度、结构、强度,普遍程度或比例关系 。把两个具体数值抽象化,使人们对现象之间所存在的固有联系有较为深刻的认识,相对指标在社会经济领域广泛存在,借助于相对指标对现象进行对比分析,是统计分析的基本方法。

    1、结构相对数

    ​ 它是在资料分组的基础上,以总体总量作为比较标准,求出各组总量占总体总量的比重,来反映总体内部组成情况的综合指标。例如,恩格尔系数。公式如下:
    结 构 相 对 数 = 总 体 部 分 数 值 总 体 全 部 数 值 ∗ 100 % 恩 格 尔 系 数 = 消 费 支 出 中 用 于 食 品 的 支 出 全 部 消 费 支 出 ∗ 100 % 结构相对数=\frac{总体部分数值}{总体全部数值} \ast 100 \% \\ 恩格尔系数=\frac{消费支出中用于食品的支出}{全部消费支出} \ast 100 \% =100%=100%
    ​ 用来分析现象总体的内部构成状况。

    2、比例相对指标

    ​ 它是总体中不同部分数量之比的相对指标,用以分析总体范围内各个局部、各个分组之间的比例关系和协调平衡状况。
    比 例 相 对 数 = 总 体 中 某 一 部 分 数 值 总 体 中 另 一 部 分 数 值 ∗ 100 % 比例相对数=\frac{总体中某一部分数值}{总体中另一部分数值} \ast 100 \% =100%
    ​ 用来反映组与组之间的联系程度或比例关系。

    3、比较相对指标

    ​ 它是不同总体或单位的同类现象数量对比而确定的相对指标,用以说明某一同类现象在同一时间内各单位发展的不平衡程度,以表明同类事物在不同条件下的数量对比关系。
    比 较 相 对 数 = 某 总 体 或 单 位 的 某 一 指 标 另 一 总 体 或 单 位 的 同 一 指 标 ∗ 100 % 比较相对数=\frac{某总体或单位的某一指标}{另一总体或单位的同一指标} \ast 100 \% =100%
    ​ 用来说明现象发展的不均衡程度。

    4、强度相对数

    ​ 它是两个性质不同而有联系的总量指标之间的对比,用来表明某一现象在另一现象中发展的强度、密度和普遍程度。
    强 度 相 对 数 = 某 一 总 量 指 标 数 值 另 一 有 联 系 但 性 质 不 同 的 总 量 指 标 数 值 ∗ 100 % 强度相对数=\frac{某一总量指标数值}{另一有联系但性质不同的总量指标数值} \ast 100 \% =100%
    ​ 不是同类现象指标的对比。

    5、动态相对数

    ​ 它又称***发展速度***,表示同类事物的水平报告期(被研究的时期又称本期、计算期)与基期(作为比较基准的时期)对比发展变化的程度。
    发 展 速 度 = 报 告 期 指 标 数 值 基 期 指 标 数 值 ∗ 100 % 发展速度=\frac{报告期指标数值}{基期指标数值} \ast 100 \% =100%
    ​ 用来反映现象的数量在时间上的变动程度。

    6、计划完成程度相对数

    ​ 用来检查、监督计划执行情况,它以现象在某一段时间内的实际完成数与计划任务数对比,借以观察计划完成程度。
    计 划 完 成 程 度 相 对 数 = 实 际 完 成 数 计 划 完 成 数 ∗ 100 % 计划完成程度相对数=\frac{实际完成数}{计划完成数} \ast 100 \% =100%
    ​ 在上述公式中,分子是根据实际完成情况进行统计而得的数据,分母是下达的计划指标,公式中的分子和分母数值表明计划执行的绝对效果。

    对短期计划完成情况来说,考察计划执行进度情况的公式为:
    计 划 完 成 进 度 = 累 计 至 本 期 止 实 际 完 成 数 全 期 计 划 任 务 数 ∗ 100 % 计划完成进度=\frac{累计至本期止实际完成数}{全期计划任务数} \ast 100 \% =100%
    对长期计划完成情况的检查,有两种方法,分别是累计法和水平法。累计法是指计划指标按计划期内各年的总和规定任务,公式如下:
    计 划 完 成 程 度 = 计 划 期 内 实 际 完 成 累 计 数 计 划 任 务 总 数 ∗ 100 % 提 前 完 成 计 划 时 间 = 计 划 全 部 时 间 − 自 计 划 执 行 日 起 至 累 计 实 际 数 量 已 达 到 计 划 任 务 数 所 需 要 的 时 间 计划完成程度=\frac{计划期内实际完成累计数}{计划任务总数} \ast 100 \%\\ 提前完成计划时间=计划全部时间-自计划执行日起至累计实际数量已达到计划任务数所需要的时间 =100%=
    水平法是指计划指标以计划末期应达到的水平规定。
    计 划 完 成 程 度 = 计 划 末 期 实 际 达 到 的 水 平 计 划 规 定 末 期 应 达 到 的 水 平 ∗ 100 % 提 前 完 成 计 划 时 间 = 计 划 全 部 时 间 − 出 现 连 续 12 个 月 的 实 际 完 成 数 达 到 计 划 任 务 数 所 需 要 的 时 间 计划完成程度=\frac{计划末期实际达到的水平}{计划规定末期应达到的水平} \ast 100 \%\\ 提前完成计划时间=计划全部时间-出现连续12个月的实际完成数达到计划任务数所需要的时间 =100%=12

    三、平均指标

    ​ 平均指标是用以反映社会经济现象总体某一数量标志在一定时间、地点条件下所达到的一般水平的相对指标。平均指标的种类有:算术平均数、调和平均数、几何平均数、众数和中位数。前三种平均数是根据总体所有标志值计算的所以称为数值平均数,后两种平均数是根据标志值所处的位置确定的,因此称为位置平均数。在一定条件下用下中位数和众数去反映变量数列的一般水平是非常有效的。

    1、算数平均数

    ​ 算术平均数是计算平均指标的最常用方法,它的基本公式形式是总体标志总量除以总体单位总量。在实际工作中,由于资料的不同,算术平均数有两种计算形式:

    ​ 简单算数平均数:适用于总体资料未经分组整理、尚为原始资料的情况。

    简单算数平均数

    ​ 加权算数平均数:适用于总体资料经过分组整理形成变量数列的情况 。

    加权算数平均数

    2、调和平均数

    ​ 在实际工作中,有时由于缺乏总体的单位数资料,而不能直接计算平均数,这时就可采用调和平均数计算。因此在统计工作中,调和平均数常常被作为算术平均数的变形来使用。调和平均数也有简单调和平均数和加权调和平均数两种形式。

    ​ 简单调和平均数:加权调和平均数的特例,当各组标志总量等于1。

    简单调和平均数

    ​ 加权调和平均数: 适用于总体资料经过分组整理形成变量数列的情况。

    加权调和平均数

    3、几何平均数

    ​ 是N项变量值连乘积的开N次方根,用于计算现象的平均比率或平均速度。 几何平均数也分为简单几何平均数和加权几何平均数。

    ​ 应用的前提条件:各个比率或速度的连乘积等于总比率或总速度;相乘的各个比率或速度不为零或负值。

    ​ 简单几何平均数: 适用于未分组资料 。

    简单几何平均数

    ​ 加权几何平均数: 适用于未分组资料 。

    加权几何平均数

    4、中位数

    ​ 中位数是将总体各单位标志值按大小顺序排列后,处于中间位置的那个数值。根据未分组资料和分组资料都可确定中位数。

    ​ 中位数不受极端值及开口组的影响;对于分配不对称的数据,中位数比平均值更适合当集中趋势的代表值;对某些不具有数字特征或不能用数字测定的现象,可用中位数表示其一般水平。

    5、众数

    ​ 众数是总体中出现次数最多的变量值。在单位数不多或一个无明显集中趋势的资料中,众数的测定没有意义。一般来讲,只有根据分组数列才能确定众数。

    ​ 它也不受极端数值的影响,用来说明总体中大多数单位所达到的一般水平,适用于定类数据。

    6、众数、中位数和算术平均数的比较

    ​ a、算术平均数综合反映了全部数据的信息,众数和中位数由数据分布的特定位置所确定。

    ​ b、算术平均数和中位数在任何一组数据中都存在而且具有惟一性。

    ​ c、算术平均数只能用于定量(数值型)数据,中位数适用于定序数据和定量数据,众数适用于所有形式(类型、计量层次)的数据。

    ​ d、算术平均数要受数据中极端值的影响。而众数和中位数都不受极端值的影响。

    ​ e、算术平均数可以推算总体的有关总量指标,而中位数和众数则不宜用作此类推算。

    四、变异指标

    ​ 变异指标是综合反映总体各单位标志值及其分布的差异程度的指标。变异指标包括以下几种:四分位差、平均差、标准差和方差。当比较两个不同水平总体的平均数代表性大小时,须采用变异指标中的全距指标。

    1、四分位差和全距

    ​ 全距是标志的最大值和最小值的差。四分位差即数据分布中第25个和第75个百分位数的间距,也即第1个和第3个四分位数的间距。在一定程度上四分位差是对极差的一种改进,避免了极端值的干扰,适用于定序数据和定量数据,尤其是当用中位数来测度数据集中趋势时。

    2、平均差

    ​ 平均差是各个数据与其算术平均数的离差绝对值的算术平均数。

    3、方差与标准差

    ​ 方差(variance)是各变量值与其均值离差平方的平均数。标准差(standard deviation)是方差的平方根,又称“均方差”。

    展开全文
  • 1、概述 总体、个体、样本 2、点估计和区间估计 2.1、点估计 2.2、区间估计 置信度:总体参数有多大的概率位于置信区间 置信区间:

    注意学习方式,学习本部分是为数据分析铺垫,不关注数学公式的推导,关注结果及代码验证
    理解假设检验的方法,会看结果代表什么,计算可以调库实现

    1、概述

    总体、个体、样本

    2、点估计和区间估计

    2.1、点估计

    点估计使用样本代替总体,易受到随机抽样的影响,无法保证结论的准确性

    2.2、区间估计

    置信度:总体参数有多大的概率位于置信区间
    置信区间:均值±1/2/3倍标准差
    使用置信区间与置信度,表示总体参数有多少可能(置信度)会在某范围(置信区间内)

    2.2.1、中心极限定理

    如果总体(是不是正态分布无所谓)均值为μ,方差为σ²,那我们进行随机抽样,样本容量为n,当n增大时,则样本均值逐渐趋近服从正态分布:
    在这里插入图片描述
    中心极限定理结论:

    • 多次抽样,每次抽样计算出一个均值,这些均值会围绕在总体均值左右,呈正态分布

    • 样本容量n足够大时,样本均值服从正态分布:

      • 样本均值构成的正态分布,其均值等于总体的均值μ
      • 样本均值构成的正态分布,其标准差等于总体标准差σ/根号n

    代码验证样本均值构成的正态分布:

    #验证从总体中随机抽样n次,得到的样本均值分布是否为正态分布
    test=np.random.normal(loc=10,scale=80,size=10000)
    mean_array=np.zeros(1000)
    for i in range(len(mean_array)):
    	#注意此处replace为False代表本次抽样的过程64个是不能放回去的。本次抽样完成,进行下次抽样时这64个才放回去
        mean_array[i]=np.random.choice(test,size=64,replace=False).mean()
    #1000次样本均值的均值
    print(mean_array.mean())
    #标准误差,简称标准误。为总体的标准差/根号n
    print(mean_array.std())
    #注意skew需要pandas才能用
    print(pd.Series(mean_array).skew())
    sns.distplot(mean_array)
    

    在这里插入图片描述

    2.2.2、正态分布特征(数据分布比例)图很重要

    正态分布的均值、中位数、众数相等
    其数据分布如下:

    • 以均值为中心,在一倍标准差内,包含68%的样本数据
    • 以均值为中心,在二倍标准差内,包含95%的样本数据
    • 以均值为中心,在三倍标准差内,包含99.7%的样本数据

    在这里插入图片描述

    #验证正态分布的数据分布概率
    #标准差50
    scale=50
    test=np.random.normal(0,scale,size=100000)
    #分别计算一倍标准差,二倍及三倍下数据分布的概率
    for i in range(1,4):
        test_scale=test[(test>(-i*scale))&(test<i*scale)]
        p=len(test_scale)*100/len(test)
        print('{}倍标准差概率为{}%' .format(i,p))
    

    在这里插入图片描述

    应用:基于以上理论,验证一次抽样的结果,是否真的落在置信区间内
    理解:对总体进行1次抽样,该样本的均值有95%的概率落在二倍标准差内(此处的标准差为样本均值构成的正态分布的标准差,也称为标准误,不要理解错了)

    #验证一次抽样结果,是否在2倍标准差内
    #随机获取一个总体的均值
    mean=np.random.randint(-10000,10000)
    print('总体均值:',mean)
    std=50
    #构造一个总体,正态分布
    test=np.random.normal(mean,std,size=10000)
    #从总体中进行一次抽样,n=50,并求均值
    one_mean=np.random.choice(test,size=50,replace=False).mean()
    print('一次抽样样本的均值:',one_mean)
    plt.plot(mean,0,marker='*',color='orange',ms=15)
    plt.plot(one_mean,0,marker='o',color='r')
    one_std=std/np.sqrt(50)
    left_one=mean-2*one_std
    right_one=mean+2*one_std
    print('95%置信度的置信区间为:',(left_one,right_one))
    plt.axvline(left_one,color='r',ls='--',label='左边界')
    plt.axvline(right_one,color='g',ls='--',label='右边界')
    plt.legend()
    plt.show()
    

    在这里插入图片描述
    在这里插入图片描述

    3、假设检验(反证法思想)(有很多假设检验方式)

    原假设、备则假设
    认为取一次事件,不可能发生小概率事件

    3.1、小概率事件

    置信区间外,就认为他是小概率事件,一次抽样是不可能发生的。所以拒绝原假设

    3.2 P-Value与显著性水平

    显著性水平使用α
    α=0.05=1-置信度
    当P-Value(支持原假设的概率)大于α即0.05时,支持原假设,否则拒绝

    3.3、假设检验的步骤

    1. 设置原假设和备择假设
    2. 设置显著性水平α,一般α=0.05
    3. 根据问题,选择假设检验的方式,并计算统计量(z检验就是计算z),通过统计量获取P值
    4. 根据P值和α值,判断结果

    4、常用的假设检验

    4.1、Z检验

    适用场景:

    • 总体呈正态分布
    • 总体方差已知
    • 样本容量较大(≥30)
      在这里插入图片描述
      在这里插入图片描述
    • 理解:样本均值-总体均值即为偏离中心均值的程度,除以标准误差,即可得出是正态分布的1倍(68%)还是2倍(95%)还是3倍(99.7%),Z若小于2代表该值在置信区间内,P值大于5%,原假设成立。若Z大于2,说明原假设落在了95%之外,为小概率事件,原假设不成立。
    • 代码验证:鸢尾花平均花瓣长度为3.5cm,是否可靠?
    #通过t检验验证鸢尾花花瓣长度为3.5cm是否可靠
    iris = load_iris()
    iris_data=np.concatenate((iris.data,iris.target.reshape(-1,1)),axis=1)
    df=pd.DataFrame(iris_data,columns=['sepal length','sepal width','petal length','petal width','type'])
    #假设可靠,那么总体的均值为3.5。
    #计算样本均值
    df_mean=df['petal length'].mean()
    std=1.8
    z=(df_mean-3.5)/(std/np.sqrt(len(df)))
    print(z)
    

    在这里插入图片描述

    z=1.755,小于2,说明在2倍标准差内,P应该大于5%,接受原假设

    4.2、t检验(更常用,因为一般总体方差都不知道)

    4.2.1、t检验原理及验证

    与Z检验类似,t检验是基于t分布的。随着样本容量增大,t分布接近正态分布,此时t检验近似Z检验
    使用场景:

    • 总体呈正态分布
    • 总体方差未知
    • 样本容量较少(<30)(大于30也可以,只不过近似Z检验)

    在这里插入图片描述
    在这里插入图片描述

    • 原理同z检验,区别在于使用样本均值的标准误差
    • 代码验证:
    #t检验
    df_mean=df['petal length'].mean()
    df_std=df['petal length'].std()
    t=(df_mean-3.5)/(df_std/np.sqrt(len(df)))
    print(t)
    

    在这里插入图片描述

    t小于2,说明在2倍标准差内,P应该大于5%,接受原假设

    4.2.2、scipy提供的stats.ttest_lsamp方法计算t检验

    from scipy import stats
    tt=stats.ttest_lsamp(df['petal length'],3.5)
    print('t值',tt.statistic)
    print('p值',tt.pvalue)
    

    t值为偏离均值多少倍的标准差
    p值为p_value,大于0.05即不能推翻原假设

    展开全文
  • 最近做实验需要统计实验结果的均值,标准差,mark一下,方便查阅! 总体标准差 样本标准差 有的也叫无偏样本标准差,就是自由度为 n-1 代码 imimport numpy as np each_acc1 = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] ...

    前言

    最近做实验需要统计实验结果的均值,标准差,mark一下,方便查阅!

    总体标准差

    在这里插入图片描述

    样本标准差

    有的也叫无偏样本标准差,就是自由度为 n-1
    在这里插入图片描述

    代码

    imimport numpy as np
    each_acc1 = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
    print("总体标准差:", np.std(each_acc1))
    print("样本标准差:", np.std(each_acc1, ddof=1))
    
    样本标准差: 3.0276503540974917
    总体标准差: 2.8722813232690143
    

    按列计算均值,总体标准差,样本标准差

    imimport numpy as np
    each_list = []
    each_acc1 = [1.0, 2.323, 3.323, 45.321321, 6.312, 6.312, 8.3123, 99.3232]
    each_acc2 = [0.99233, 2.3212, 3.323, 45.321321, 7.312, 7.312, 8.666, 100]
    each_acc3 = [1.32323, 1.32, 6.323, 35.321321, 8.312, 7.312, 8.7877, 100.0]
    each_list.append(each_acc1)
    each_list.append(each_acc2)
    each_list.append(each_acc3)
    a = np.array(each_list)
    print('原始数组:\n', a)
    print('每列均值:\n', a.mean(axis=0))
    print('每列总体标准差:\n', np.around(a.std(axis=0),decimals=2))
    print('每列样本标准差:\n', np.around(a.std(axis=0,ddof=1),decimals=2))
    
    原始数组:
     [[  1.         2.323      3.323     45.321321   6.312      6.312      8.3123    99.3232  ]
     [  0.99233    2.3212     3.323     45.321321   7.312      7.312      8.666    100.      ]
     [  1.32323    1.32       6.323     35.321321   8.312      7.312      8.7877   100.      ]]
    每列均值:
     [ 1.10518667  1.98806667  4.323      41.98798767  7.312       6.97866667  8.58866667 99.7744    ]
    每列总体标准差:
     [0.15 0.47 1.41 4.71 0.82 0.47 0.2  0.32]
    每列样本标准差值:
     [0.19 0.58 1.73 5.77 1.   0.58 0.25 0.39]
    
    展开全文
  • 以 t 分布(未知)为基础的一类比较均数的假设检验方法,t 分布的发现使得小样本统计推断成为可能。 二、t 检验的应用条件 随机样本; 来自正态分布总体(小样本时); 两独立样本比较时,要求两总体方差相等...
  • 推断统计研究的是如何根据样本数据去推测总体特征的方法。进行推断的原因是在实际生产中,获取总体数据通常比较困难,甚至不可能完成,因此需要对总体进行抽样,通过样本统计量去估计总体参数。
  • 中国环境统计指标体系研究及框架性建议,宋国君,金书秦,本文首先对环境统计的相关概念进行了研究和界定,进而归纳我国环境统计指标体系存在的问题,通过系统地介绍FDES环境统计框架及其�
  • 总体统计量的估计方法

    千次阅读 2019-06-26 09:56:00
    总体统计量的估计方法 1 点估计量法 可以用点估计量来估计总体的均值、方差或一定比例的精确值。但是无法可定估计完全正确,只是对总体做出假设。 1.1 通过样本估算总体均值 符号定义: $\mu$:总体均值。 $...
  • **总体:**在一个统计问题中,我们把研究对象的全体成为全体 **个体:**构成总体的每个成员 用概率分布可描述与归纳总体总体可看作是一个分布 从总体中抽样等价于从分布中抽样 总体分为有限总体与无限总体,本书以...
  • 一.总体和样本 1.总体 总体(population)是包含所研究的全部个体(数据...总的来说总体是个体的一个集合,所有的参加实验和测试的个体都包含在总体中,而每一个个体在总体集合中就是一个元素 2.样本 样本可以看作是.
  • 本文介绍总体参数 总体包含所有研究样本,总体参数即是描述总体分布的参数,如总体均值、标准差,【机器学习中训练集得到的模型可以理解为一种总体参数】。 实际研究中,由于时间和经济的原因,我们几乎无法获取所有...
  • 共回答了20个问题采纳率:100%样本标准差在真实世界中,除非在某些特殊情况下,找到一个总体的真实的标准差是不现实的....样本标准总体标准总体指标称为参数,用希腊字母表示,如总体均数(μ),总体标准差(σ...
  • 标准适用范围为根据《银行业监管统计管理暂行办法》(2004年第6号主席令)开展监管统计工作的全部银行业金融机构(下文简称“银行”)。标准总体框架包含5方面要素,分别为:组织机构及人员,制度建设,系统保障和...
  • 标准差(Standard Deviation) ,中文环境中又常称均方差...公式:1、如是总体(即估算总体方差),根号内除以n(对应excel函数:STDEVP);2、如是抽样(即估算样本方差),根号内除以(n-1)(对应excel函数:STDEV);3、因...
  • 推论统计分析

    2021-01-06 23:22:55
    使用样本的统计量代替总体参数。但受随机抽样影响,无法保证准确性。 区间估计 根据样本的统计量,计算出一个可能的区间和概率,表示总体的参数会有多少概率位于该区间中。 指定的区间称为置信区间,概率称为置信度...
  • 数理统计基础 正态总体抽样分布

    千次阅读 2020-11-01 16:24:29
    目录 ... 抽样分布 ...在参数统计推断问题中,经常需要利用总体的样本构造出合适的统计量,并使其服从或渐近地服从已知的确定分布,统计学中泛称统计量的分布为抽样分布。 正态分布性质 设随机变量XXX服
  • 如何理解总体标准差、样本标准差与标准误 1 总体标准差 已知随机变量 XXX 的数学期望为 μ\muμ,标准差为 σ\sigmaσ,则其方差为: σ2=E[(X−μ)2] \sigma^2=E[(X-\mu)^2] σ2=E[(X−μ)2]此处 σ\sigmaσ 即为...
  • 本短文介绍了总体、样本、总体方差、样本方差、抽样方差和标准误等概念以及它们之间的一些关系。因为一些外文材料的翻译不善以及老师课堂教学中的不重视,我身边仍有许多人将它们混淆。本短文的参考资料主要包括...
  • 数据统计分析常用指标

    千次阅读 2020-05-13 14:12:28
    下面是数据统计分析常用的指标或术语:    1.平均数  一般指算术平均数。算术平均数是指全部数据累加除以数据个数。它是非常重要的基础性指标。  几何平均数:适用于对比率数据的平均,并主要用于计算数据平均...
  • 导读:数据指标体系是构建数据中台的重要一环。数据指标的建立让运营及产品人员更直观地看到基本指标的变动,让数据分析师更便捷地开展数据分析工作。数据指标就是将大数据之“大”的精髓给提炼出来,展...
  • 1.2利用“描述统计”对成绩进行总体分析 5 实例1-2 5   本章将以初三年级的期中考试成绩为例,应用EXCEL中的数据透视表和数据分析中的描述统计功能,先对本次的成绩进行总体分析。   参考人数共652人,14个...
  • 国民经济核算及相关统计指标简介二OO五年九月一、国民经济核算简介 国民经济核算是宏观层次的总体核算,它来源于统计、会计、业务三大核算,又是三大核算的综合,它把来自各方面的核算资料纳入统一的国民经济核算
  • 数据的统计指标

    2021-04-01 11:58:50
    什么是统计指标 体现总体数量特征的概念和数值 根据数据分析的目的不同统计指标也会发生变化 比如我们选择一个理财产品,那么它的往期业绩、风险系数、年化收益都是我们的统计指标 有下面几种分类 ①总量指标: 特定...
  • 描述性统计分析,就是用来概括、描述数据整体状况以及数据各特征的统计方法。...常见指标分类描述性统计指标大致可分为三类:集中趋势指标、离散趋势指标、分布形态指标。集中趋势指标集中趋势指标用于测量...
  • 老板的任务 一切的噩梦来自于,老板给你的任务: 计算所有肝脏细胞中X基因表达量大于30的可能性。 现在,假设已经拿到在...将刚刚的直方图趋势,对应于分布,可以得到均值为20,标准差为10的正态分布曲线 现在,换个
  • 中级统计资料

    2018-12-18 14:49:52
    ⒊根据样本统计量的抽样分布,对总体参数进行估计;根据影响样本量的主要因素,确定恰当的样本量。 ⒋运用时间序列的分析指标、分析方法,对社会经济现象随时间变化的状况进行研究和预测。 ⒌根据统计指数的原理和...
  • 0x1:数理统计中为什么要引入总体和个体这个概念 概率论与数理统计中,一个很重要的研究对象就是总体的概率分布,理论上说,我们希望获得被研究对象的总体样本,基于这份总体样本进一步研究其概率分布,但是遗憾地...
  • 样本方差是总体方差的无偏估计

    千次阅读 2020-07-30 20:47:55
    总体均值 μ=1N∑xi\mu = \frac{1}{N}\sum x_iμ=N1​∑xi​, 总体方差 σ2=1N∑i(xi−μ)2\sigma^2 = \frac{1}{N}\sum_i (x_i - \mu)^2σ2=N1​∑i​(xi​−μ)2 样本均值 xˉ=1n∑xi\bar{x} = \frac{1}{n}\sum x_...
  • 在概率论和数理统计中,方差(英文Variance)用来度量随机变量和其数学期望(即均值)之间的偏离程度。在许多实际问题中,研究随机变量和均值之间的偏离程度有着很重要的意义。 2、标准差 方差开根号。 3、协方差...
  • 通过两个总体方差的假设检验发现F分布带来的F检验效果非常明显,由此推断的两个总体方差也是有理有据的。

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 85,565
精华内容 34,226
关键字:

总体的统计指标是什么

友情链接: DS1302.rar