-
2019-01-01 16:06:11
若总体的分布是正态分布,且方差已知,则无论样本容量是大是小,样本均值的抽样分布都服从正态分布;
而如果总台的分布是正态分布,抽出的样本为小样本,且方差未知,则样本均值的抽样分布服从t分布。
更多相关内容 -
总体、样本、样本的抽样分布
2020-06-07 21:48:08梳理一下 假设检验、卡方检验、t检验、F检验、P值、置信区间、置信水平、AB测等问题。 首先明确几个关于总体和样本的概念及符号: 总体 样本 样本均值本文介绍关于总体、样本、样本抽样分布的理解,及2个重要的统计学原理:中心极限定理和大数定理。
总体:就是一个概率分布。
样本:从总体中随机抽取的一个子集。其中,样本具有和总体相同的分布,样本之间两两独立。
抽样分布:对原来的分布总体,以一定样本容量抽取样本值,多次抽取后,样本的统计量(比如均值或方差)形成的分布。
其中,
样本容量(大小)/样本量:每个样本里有多少个数据,每一次试验的样本值个数,通常说n个( x 1 , x 2 , . . . , x n ) x_1,x_2,...,x_n) x1,x2,...,xn)。
样本数量(空间):抽样的时候,包含多少个样本,或者说抽多少次。
抽样分布可以分为两类:
一类:关于均值的分布:正态分布和t-分布;
一类:关于方差的分布:卡方分布和F-分布。今天先说样本均值的抽样分布,此处涉及中心极限定理:
通俗的说,给定一个任意分布的总体,每次从这些总体中随机抽取 n 个样本值(样本容量),一共抽 m 次(样本数量),然后把这 m 组样本分别求出平均值, 这些平均值(样本均值)的分布接近正态分布。
其中,
1、总体本身的分布不要求正态分布;
2、样本容量n越大,样本均值的分布约趋近于正态分布,标准差越小,即分布越集中。所以,样本均值的抽样分布是服从正态分布,即 x ‾ \overline{x} x~N( μ , σ 2 / n \mu,σ^2/n μ,σ2/n)
(参考:网易公开课-可汗学院-统计学
网站:http://onlinestatbook.com/stat_sim/sampling_dist/index.html)
通过模拟试验,可以看到有关于样本均值抽样分布的图形化过程,当n取不同值时,抽样分布的形状。
下图是从视频中截取的示例图,最上面深灰色的是总体分布,中间的是n=5的样本均值抽样分布,最下面是n=25的样本均值抽样分布。
可以发现抽样发生10000次时,不同样本容量的均值相差不大分别为14.48和14.44,和总体均值近似。但是标准差相差较多,n=5时,sd=4.34;n=25时,st=1.91,即样本容量更大时,分布更集中了。另外n=25时的偏度和峰度都比n=5时更小。
接下来,再看看上述3类分布的均值、方差、标准差常用的基本符号和计算:
(p.s.第一次编辑数学公式,方法参考:https://www.zybuluo.com/codeep/note/163962)均值 方差 标准差 总体(容量N) μ \mu μ σ 2 σ^2 σ2 σ \sigma σ 样本(容量n) x ‾ \overline{x} x S 2 S^2 S2 S S S 样本均值的抽样分布(容量n) μ x ‾ \mu_{\overline{x}} μx σ x ‾ 2 \sigma_{\overline{x}}^{2} σx2 σ x ‾ \sigma_{\overline{x}} σx 其中,
-
均值:
-
总体均值: μ = ∑ i = 1 N x i N \mu=\frac { \sum_{i=1}^N{x_i} } {N} μ=N∑i=1Nxi
-
样本均值: x ‾ = x ‾ n = ∑ i = 1 n x i n \overline{x}=\overline{x}_n=\frac { \sum_{i=1}^n{x_i }} {n} x=xn=n∑i=1nxi
-
大数定理:当n—>∞时, x ‾ n \overline{x}_n xn—>E(X)=μ。即当样本量n足够大的时候,样本均值收敛于总体均值或随机变量期望值,揭示了频率和概率的关系。
-
样本均值抽样分布的均值: μ x ‾ \mu_{\overline{x}} μx是总体均值μ的估计,即可以认为: μ x ‾ = μ \mu_{\overline{x}}=\mu μx=μ
-
-
方差:
-
总体方差: σ 2 = ∑ i = 1 N ( x i − μ ) 2 N σ^2=\frac { \sum_{i=1}^N(x_i - \mu)^2 } {N} σ2=N∑i=1N(xi−μ)2
-
样本方差: S n 2 = ∑ i = 1 n ( x i − x ‾ ) 2 n S_{n}^2=\frac { \sum_{i=1}^n(x_i - {\overline{x}})^2 } {n} Sn2=n∑i=1n(xi−x)2
因为n<N,抽到的样本会比总体相对更集中,波动更小一些,即样本方差 S 2 S^2 S2通常会比总体方差 σ 2 σ^2 σ2小,所以需要对样本方差进行了修正。 -
修正后的样本方差(无偏方差): S n − 1 2 = ∑ i = 1 n ( x i − x ‾ ) 2 n − 1 S_{n-1}^2=\frac { \sum_{i=1}^n(x_i - {\overline{x}})^2 } {{n-1} } Sn−12=n−1∑i=1n(xi−x)2
-
如果知道总体均值 μ μ μ,那么就不用(n-1)进行无偏估计,可以直接写成: S n 2 = ∑ i = 1 n ( x i − μ ) 2 n S_{n}^2=\frac { \sum_{i=1}^n(x_i - \mu)^2 } {n} Sn2=n∑i=1n(xi−μ)2
-
样本均值抽样分布的方差(均值方差):
这里区分总体方差已知和总体方差未知2种情况:
总体方差 σ 2 σ^2 σ2已知: σ x ‾ 2 = σ 2 n \sigma_{\overline{x}}^{2}=\frac {σ^2 } {n} σx2=nσ2
总体方差 σ 2 σ^2 σ2未知,则用样本方差 S 2 S^2 S2来估计:
σ x ‾ 2 = σ 2 n ≈ S 2 n \sigma_{\overline{x}}^{2}=\frac {σ^2 } {n}≈\frac {S^2 } {n} σx2=nσ2≈nS2
-
当样本容量n>30时,可以认为,样本方差 S S S可以比较好的估计总体方差 σ \sigma σ,根据中心极限定理,认为样本均值的抽样分布符合正态分布;
n<30时,样本方差 S S S和总体方差 σ \sigma σ相差比较大,认为符合t分布。 -
-
用样本频率分布估计总体分布.ppt
2021-09-16 07:45:23用样本频率分布估计总体分布.ppt -
随机抽样用样本估计总体正态分布.pptx
2021-09-23 19:00:40随机抽样用样本估计总体正态分布.pptx -
用样本频率分布估计总体分布周军.ppt
2021-09-16 07:45:24用样本频率分布估计总体分布周军.ppt -
用样本频率分布估计总体分布分析.ppt
2021-09-16 07:45:24用样本频率分布估计总体分布分析.ppt -
用样本的频率分布估计总体分布2.ppt
2021-09-18 17:11:40用样本的频率分布估计总体分布2.ppt -
用样本的频率分布估计总体分布高考题.doc
2021-10-08 21:42:10用样本的频率分布估计总体分布高考题.doc -
正态总体的样本均值与样本方差的分布定理
2020-09-15 20:41:51正态总体的样本均值与样本方差的分布相关定理引理
-
设总体 X X X(不管服从什么分布,只要均值和方差存在)的均值为 μ \mu μ,方差为 σ 2 \sigma^2 σ2, X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn是来自 X X X的一个样本, X ‾ , S 2 \overline{X},S^2 X,S2 分别是样本均值和样本方差,则有 E ( X ‾ ) = μ , D ( X ‾ ) = σ 2 / n , E ( S 2 ) = σ 2 E(\overline{X})=\mu,\quad D(\overline{X})=\sigma^2/n, \quad E(S^2)=\sigma^2 E(X)=μ,D(X)=σ2/n,E(S2)=σ2
-
正态分布线性可加性: 若 X i ∼ N ( μ i , σ i 2 ) , i = 1 , 2 , ⋯ , n X_i\sim N(\mu_i,\sigma_i^2),i=1,2,\cdots,n Xi∼N(μi,σi2),i=1,2,⋯,n,且他们相互独立,则他们的线性组合: C 1 X 1 + C 2 X 2 + ⋯ + C n X n C_1X_1+C_2X_2+\cdots+C_nX_n C1X1+C2X2+⋯+CnXn,( C 1 , C 2 , ⋯ , C n C_1,C_2,\cdots,C_n C1,C2,⋯,Cn是不全为 0 0 0的常数)仍然服从正态分布,且有 C 1 X 1 + C 2 X 2 + ⋯ + C n X n ∼ N ( ∑ i = 1 n C i μ i , ∑ i = 1 n C i 2 σ i 2 ) C_1X_1+C_2X_2+\cdots+C_nX_n\sim N(\sum\limits_{i=1}^nC_i\mu_i,\sum\limits_{i=1}^nC_i^2\sigma_i^2) C1X1+C2X2+⋯+CnXn∼N(i=1∑nCiμi,i=1∑nCi2σi2)
-
n n n维正态随机变量重要性质
1 0 1^0\quad 10 n n n维正态随机变量 ( X 1 , X 2 , ⋯ , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,⋯,Xn)的每一个分量 X i , i = 1 , 2 , ⋯ , n X_i,i=1,2,\cdots,n Xi,i=1,2,⋯,n都是正态随机变量,反之,若 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn都是正态随机变量,且相互独立,则 ( X 1 , X 2 , ⋯ , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,⋯,Xn)是 n n n维正态随机变量
2 0 2^0\quad 20 n n n维随机变量 ( X 1 , X 2 , ⋯ , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,⋯,Xn)服从 n n n维正态分布的充要条件是 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn的任意线性组合 l 1 X 1 + l 2 X 2 + ⋯ + l n X n l_1X_1+l_2X_2+\cdots+l_nX_n l1X1+l2X2+⋯+lnXn 服从一维正态分布(其中 l 1 , l 2 , ⋯ , l n l_1,l_2,\cdots,l_n l1,l2,⋯,ln不全为零)
3 0 3^0\quad 30 若 ( X 1 , X 2 , ⋯ , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,⋯,Xn)服从 n n n维正态分布,设 Y 1 , Y 2 , ⋯ , Y k Y_1,Y_2,\cdots,Y_k Y1,Y2,⋯,Yk是 X j ( j = 1 , 2 , ⋯ , n ) X_j(j=1,2,\cdots,n) Xj(j=1,2,⋯,n)的线性函数,则 ( Y 1 , Y 2 , ⋯ , Y k ) (Y_1,Y_2,\cdots,Y_k) (Y1,Y2,⋯,Yk)也服从多维正态分布,这一性质称为正态变量的线性变换不变性
4 0 4^0\quad 40 设 ( X 1 , X 2 , ⋯ , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,⋯,Xn)服从 n n n维正态分布,则” X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn相互独立”与” X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn两两不相关“是等价的。
定理一
-
设 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn是来自正态总体 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)的样本, X ‾ \overline{X} X是样本均值,则有 X ‾ ∼ N ( μ , σ 2 / n ) . \overline{X}\sim N(\mu,\sigma^2/n). X∼N(μ,σ2/n).
证明很简单,由引言1可知, E ( X ‾ ) = μ , D ( X ‾ ) = σ 2 / n E(\overline{X})=\mu,\quad D(\overline{X})=\sigma^2/n E(X)=μ,D(X)=σ2/n
而 X ‾ = 1 n ∑ i = 1 n X i \overline{X}=\frac{1}{n}\sum\limits_{i=1}^nX_i X=n1i=1∑nXi , X i X_i Xi 服从正态分布,则根据引理2可知, X ‾ ∼ N ( μ , σ 2 / n ) . \overline{X}\sim N(\mu,\sigma^2/n). X∼N(μ,σ2/n).
定理二
-
设 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn是来自正态总体 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)的样本, X ‾ , S 2 \overline{X},S^2 X,S2 分别是样本均值和样本方差,则有
1 0 ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) 1^0\quad \frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1) 10σ2(n−1)S2∼χ2(n−1)
2 0 X ‾ 2^0\quad \overline{X} 20X和 S 2 S^2 S2相互独立
证明:
( n − 1 ) S 2 σ 2 = ( n − 1 ) σ 2 × 1 ( n − 1 ) ∑ i = 1 n ( X i − X ‾ ) 2 = ∑ i = 1 n ( X i − X ‾ ) 2 σ 2 = ∑ i = 1 n [ ( X i − μ ) − ( X ‾ − μ ) ] 2 σ 2 = ∑ i = 1 n ( X i − μ σ − X ‾ − μ σ ) 2 \begin{aligned} \frac{(n-1)S^2}{\sigma^2} &= \frac{(n-1)}{\sigma^2}\times \frac{1}{(n-1)}\sum\limits_{i=1}^n(X_i-\overline{X})^2 \\&= \frac{\sum\limits_{i=1}^n(X_i-\overline{X})^2}{\sigma^2}\\&=\frac{\sum\limits_{i=1}^n[(X_i-\mu)-(\overline{X}-\mu)]^2}{\sigma^2}\\&= \sum\limits_{i=1}^n\bigg(\frac{X_i-\mu}{\sigma}-\frac{\overline{X}-\mu}{\sigma}\bigg)^2\end{aligned} σ2(n−1)S2=σ2(n−1)×(n−1)1i=1∑n(Xi−X)2=σ2i=1∑n(Xi−X)2=σ2i=1∑n[(Xi−μ)−(X−μ)]2=i=1∑n(σXi−μ−σX−μ)2
为了方便,我们令 Z i = X i − μ σ Z_i=\frac{X_i-\mu}{\sigma} Zi=σXi−μ ,由于 X i ∼ N ( μ , σ 2 ) X_i\sim N(\mu,\sigma^2) Xi∼N(μ,σ2) ,因此 Z i ∼ N ( 0 , 1 ) Z_i\sim N(0,1) Zi∼N(0,1)
且 Z ‾ = X ‾ − μ σ \overline{Z} = \frac{\overline{X}-\mu}{\sigma} Z=σX−μ ,则
( n − 1 ) S 2 σ 2 = ∑ i = 1 n ( Z i − Z ‾ ) 2 = ∑ i = 1 n ( Z i 2 − 2 Z i Z ‾ + Z ‾ 2 ) = ∑ i = 1 n Z i 2 − 2 Z ‾ ∑ i = 1 n Z i + ∑ i = 1 n Z ‾ 2 = ∑ i = 1 n Z i 2 − 2 n Z ‾ 2 + n Z ‾ 2 = ∑ i = 1 n Z i 2 − n Z ‾ 2 \begin{aligned} \frac{(n-1)S^2}{\sigma^2} &= \sum\limits_{i=1}^n(Z_i-\overline{Z})^2 \\&= \sum\limits_{i=1}^n(Z_i^2-2Z_i\overline{Z}+\overline{Z}^2) \\&= \sum\limits_{i=1}^nZ_i^2-2\overline{Z}\sum\limits_{i=1}^nZ_i+\sum\limits_{i=1}^n\overline{Z}^2 \\&= \sum\limits_{i=1}^nZ_i^2-2n\overline{Z}^2+n\overline{Z}^2\\&=\sum\limits_{i=1}^nZ_i^2-n\overline{Z}^2 \end{aligned} σ2(n−1)S2=i=1∑n(Zi−Z)2=i=1∑n(Zi2−2ZiZ+Z2)=i=1∑nZi2−2Zi=1∑nZi+i=1∑nZ2=i=1∑nZi2−2nZ2+nZ2=i=1∑nZi2−nZ2
取一个 n n n阶正交矩阵 A = ( a i j ) A=(a_{ij}) A=(aij),其第一行元素均为 1 / n 1/\sqrt{n} 1/n
A = [ 1 / n 1 / n ⋯ 1 / n a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋮ ⋮ a n 1 a n 2 ⋯ a n n ] A = \begin{bmatrix}1/\sqrt{n} & 1/\sqrt{n} & \cdots & 1/\sqrt{n} \\ a_{21} & a_{22} & \cdots &a_{2n}\\ \vdots & \vdots & \vdots & \vdots \\ a_{n1} & a_{n2} & \cdots & a_{nn}\end{bmatrix} A=⎣⎢⎢⎢⎡1/na21⋮an11/na22⋮an2⋯⋯⋮⋯1/na2n⋮ann⎦⎥⎥⎥⎤
对 A A A做正交变换 Y = A Z Y=AZ Y=AZ ,有
Y = [ Y 1 Y 2 ⋮ Y n ] , Z = [ Z 1 Z 2 ⋮ Z n ] Y = \begin{bmatrix}Y_1 \\Y_2\\ \vdots \\Y_n \end{bmatrix},Z = \begin{bmatrix}Z_1 \\Z_2\\ \vdots \\Z_n \end{bmatrix} Y=⎣⎢⎢⎢⎡Y1Y2⋮Yn⎦⎥⎥⎥⎤,Z=⎣⎢⎢⎢⎡Z1Z2⋮Zn⎦⎥⎥⎥⎤
由于 Y i = ∑ j = 1 n a i j Z j , i = 1 , 2 , ⋯ , n Y_i=\sum\limits_{j=1}^na_{ij}Z_j,\quad i=1,2,\cdots ,n Yi=j=1∑naijZj,i=1,2,⋯,n ,因此 Y i Y_i Yi仍服从正态分布,由 Z i ∼ N ( 0 , 1 ) Z_i \sim N(0,1) Zi∼N(0,1) 可知
E ( Y i ) = E ( ∑ j = 1 n a i j Z j ) = ∑ j = 1 n a i j E ( Z j ) = 0 E(Y_i) = E(\sum\limits_{j=1}^na_{ij}Z_j) = \sum\limits_{j=1}^na_{ij}E(Z_j) = 0 E(Yi)=E(j=1∑naijZj)=j=1∑naijE(Zj)=0
D ( Y i ) = D ( ∑ j = 1 n a i j Z j ) = ∑ j = 1 n a i j 2 D ( Z j ) = ∑ j = 1 n a i j 2 = 1 D(Y_i) = D(\sum\limits_{j=1}^na_{ij}Z_j) = \sum\limits_{j=1}^na_{ij}^2D(Z_j) = \sum\limits_{j=1}^na_{ij}^2=1 D(Yi)=D(j=1∑naijZj)=j=1∑naij2D(Zj)=j=1∑naij2=1
又由 C o v ( Z i , Z j ) = δ i j = { 0 , i ≠ j 1 , i = j , i , j = 1 , 2 , ⋯ , n Cov(Z_i,Z_j) = \delta_{ij}=\begin{cases}0,\quad i\neq j \\1,\quad i=j\end{cases} \quad ,i,j=1,2,\cdots,n Cov(Zi,Zj)=δij={0,i=j1,i=j,i,j=1,2,⋯,n
C o v ( Y i , Y k ) = C o v ( ∑ j = 1 n a i j Z j , ∑ l = 1 n a k l Z l ) = ∑ j = 1 n ∑ l = 1 n a i j a k l C o v ( Z j , Z l ) = ∑ j = 1 n a i j a k j = { 0 , i ≠ j 1 , i = j ( 正 交 矩 阵 性 质 , 各 行 均 是 单 位 向 量 且 两 两 正 交 ) \begin{aligned}Cov(Y_i,Y_k) &= Cov(\sum\limits_{j=1}^na_{ij}Z_j,\sum\limits_{l=1}^na_{kl}Z_l)\\&=\sum\limits_{j=1}^n\sum\limits_{l=1}^n a_{ij}a_{kl}Cov(Z_j,Z_l) \\&=\sum\limits_{j=1}^na_{ij}a_{kj} \\&=\begin{cases}0,\quad i\neq j \\1,\quad i=j\end{cases}(正交矩阵性质,各行均是单位向量且两两正交)\end{aligned} Cov(Yi,Yk)=Cov(j=1∑naijZj,l=1∑naklZl)=j=1∑nl=1∑naijaklCov(Zj,Zl)=j=1∑naijakj={0,i=j1,i=j(正交矩阵性质,各行均是单位向量且两两正交)
由此可知 Y 1 , Y 2 , ⋯ , Y n Y_1,Y_2,\cdots,Y_n Y1,Y2,⋯,Yn 两两互不相关。又由于 n n n维随机变量 ( Y 1 , Y 2 , ⋯ , Y n ) (Y_1,Y_2,\cdots,Y_n) (Y1,Y2,⋯,Yn)是由 n n n维随机变量 ( X 1 , X 2 , ⋯ , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,⋯,Xn)经线性变换得到,因此 ( Y 1 , Y 2 , ⋯ , Y n ) (Y_1,Y_2,\cdots,Y_n) (Y1,Y2,⋯,Yn)也是 n n n维正态随机变量,由引理3性质4可知, Y 1 , Y 2 , ⋯ , Y n Y_1,Y_2,\cdots,Y_n Y1,Y2,⋯,Yn两两互不相关也即是 Y 1 , Y 2 , ⋯ , Y n Y_1,Y_2,\cdots,Y_n Y1,Y2,⋯,Yn互相独立。前面已经计算出 E ( Y i ) = 0 , D ( Y i ) = 1 E(Y_i)=0,D(Y_i)=1 E(Yi)=0,D(Yi)=1 因此 Y i ∼ N ( 0 , 1 ) , i = 1 , 2 , ⋯ , n . Y_i\sim N(0,1),i=1,2,\cdots,n. Yi∼N(0,1),i=1,2,⋯,n.
Y 1 = ∑ j = 1 n a 1 j Z j = ∑ j = 1 n 1 n Z j = 1 n ∗ n Z ‾ = n Z ‾ \begin{aligned}Y_1&=\sum\limits_{j=1}^na_{1j}Z_j \\&= \sum\limits_{j=1}^n\frac{1}{\sqrt{n}}Z_j\\&=\frac{1}{\sqrt{n}}*n\overline{Z}\\&=\sqrt{n}\overline{Z}\end{aligned} Y1=j=1∑na1jZj=j=1∑nn1Zj=n1∗nZ=nZ
∑ i = 1 n Y i 2 = Y T Y = ( A Z ) T ( A Z ) = Z T A T A Z = Z T Z = ∑ i = 1 n Z i 2 \begin{aligned}\sum\limits_{i=1}^nY_i^2&=Y^TY=(AZ)^T(AZ)\\&=Z^TA^TAZ = Z^TZ = \sum\limits_{i=1}^nZ_i^2\end{aligned} i=1∑nYi2=YTY=(AZ)T(AZ)=ZTATAZ=ZTZ=i=1∑nZi2
此时有
( n − 1 ) S 2 σ 2 = ∑ i = 1 n Z i 2 − n Z ‾ 2 = ∑ i = 1 n Y i 2 − Y 1 2 = ∑ i = 2 n Y i 2 \begin{aligned} \frac{(n-1)S^2}{\sigma^2} &=\sum\limits_{i=1}^nZ_i^2-n\overline{Z}^2 \\&=\sum\limits_{i=1}^nY_i^2-Y_1^2\\&=\sum\limits_{i=2}^nY_i^2\end{aligned} σ2(n−1)S2=i=1∑nZi2−nZ2=i=1∑nYi2−Y12=i=2∑nYi2
由于 Y 2 , Y 3 , ⋯ , Y n Y_2,Y_3,\cdots,Y_n Y2,Y3,⋯,Yn相互独立,且 Y i ∼ N ( 0 , 1 ) Y_i\sim N(0,1) Yi∼N(0,1) ,因此 ( n − 1 ) S 2 σ 2 = ∑ i = 2 n Y i 2 ∼ χ 2 ( n − 1 ) . \frac{(n-1)S^2}{\sigma^2}=\sum\limits_{i=2}^nY_i^2\sim\chi^2(n-1). σ2(n−1)S2=i=2∑nYi2∼χ2(n−1).
其次, X ‾ = σ Z ‾ + μ = σ Y 1 n + μ \overline{X} = \sigma\overline{Z}+\mu = \frac{\sigma Y_1}{\sqrt{n}}+\mu X=σZ+μ=nσY1+μ 仅跟 Y 1 Y_1 Y1有关,而 S 2 = σ 2 n − 1 ∑ i = 2 n Y i 2 S^2=\frac{\sigma^2}{n-1}\sum\limits_{i=2}^nY_i^2 S2=n−1σ2i=2∑nYi2 仅依赖于 Y 2 , Y 3 , ⋯ , Y n Y_2,Y_3,\cdots,Y_n Y2,Y3,⋯,Yn ,又因为 Y 1 , Y 2 , ⋯ , Y n Y_1,Y_2,\cdots,Y_n Y1,Y2,⋯,Yn相互独立,因此有 X ‾ \overline{X} X和 S 2 S^2 S2相互独立
定理三
-
设 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn是来自正态总体 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)的样本, X ‾ , S 2 \overline{X},S^2 X,S2 分别是样本均值和样本方差,则有 X ‾ − μ S / n ∼ t ( n − 1 ) \frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1) S/nX−μ∼t(n−1)
证明:
由定理一可知, X ‾ ∼ N ( μ , σ 2 / n ) . \overline{X}\sim N(\mu,\sigma^2/n). X∼N(μ,σ2/n).
进行标准化之后有 X ‾ − μ σ / n ∼ N ( 0 , 1 ) . \frac{\overline{X}-\mu}{\sigma /\sqrt{n}}\sim N(0,1). σ/nX−μ∼N(0,1).
由定理二可知, ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) \frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1) σ2(n−1)S2∼χ2(n−1)
根据 t t t分布定义有 X ‾ − μ σ / n ( n − 1 ) S 2 σ 2 ( n − 1 ) = X ‾ − μ S / n ∼ t ( n − 1 ) \begin{aligned} \frac{\frac{\overline{X}-\mu}{\sigma/ \sqrt{n}}}{\sqrt{\frac{(n-1)S^2}{\sigma^2(n-1)}}} = \frac{\overline{X}-\mu}{S/\sqrt{n}} \sim t(n-1)\end{aligned} σ2(n−1)(n−1)S2σ/nX−μ=S/nX−μ∼t(n−1)
证明完毕
定理四
-
设 X 1 , X 2 , ⋯ , X n 1 X_1,X_2,\cdots,X_{n_1} X1,X2,⋯,Xn1与 Y 1 , Y 2 , ⋯ , Y n 1 Y_1,Y_2,\cdots,Y_{n_1} Y1,Y2,⋯,Yn1是来自正态总体 N ( μ 1 , σ 1 2 ) N(\mu_1,\sigma_1^2) N(μ1,σ12)和 N ( μ 2 , σ 2 2 ) N(\mu_2,\sigma_2^2) N(μ2,σ22)的样本,且这两个样本 相互独立. 设 X ‾ = 1 n 1 ∑ i = 1 n 1 X i , Y ‾ = 1 n 2 ∑ i = 1 n 2 Y i \overline{X}=\frac{1}{n_1}\sum\limits_{i=1}^{n_1}X_i,\overline{Y}=\frac{1}{n_2}\sum\limits_{i=1}^{n_2}Y_i X=n11i=1∑n1Xi,Y=n21i=1∑n2Yi 分别是这两个样本的样本均值; S 1 2 = 1 n 1 − 1 ∑ i = 1 n 1 ( X i − X ‾ ) 2 , S 2 2 = 1 n 2 − 1 ∑ i = 1 n 2 ( Y i − Y ‾ ) 2 S_1^2=\frac{1}{n_1-1}\sum\limits_{i=1}^{n_1}(X_i-\overline{X})^2,S_2^2=\frac{1}{n_2-1}\sum\limits_{i=1}^{n_2}(Y_i-\overline{Y})^2 S12=n1−11i=1∑n1(Xi−X)2,S22=n2−11i=1∑n2(Yi−Y)2分别是两个样本的样本方差,则有
1 0 S 1 2 / S 2 2 σ 1 2 / σ 2 2 ∼ F ( n 1 − 1 , n 2 − 1 ) 1^0\quad \frac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2}\sim F(n_1-1,n_2-1) 10σ12/σ22S12/S22∼F(n1−1,n2−1)
2 0 2^0\quad 20 当 σ 1 2 = σ 2 2 = σ 2 \sigma_1^2=\sigma_2^2=\sigma^2 σ12=σ22=σ2时, ( X ‾ − Y ‾ ) − ( μ 1 − μ 2 ) S w 1 n 1 + 1 n 2 ∼ t ( n 1 + n 2 − 2 ) \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\sim t(n_1+n_2-2) Swn11+n21(X−Y)−(μ1−μ2)∼t(n1+n2−2)
其中 S w 2 = ( n 1 − 1 ) S 1 2 + ( n 2 − 1 ) S 2 2 n 1 + n 2 − 2 , S w = S w 2 S_w^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}, S_w=\sqrt{S_w^2} Sw2=n1+n2−2(n1−1)S12+(n2−1)S22,Sw=Sw2
证明:
1 0 1^0 \quad 10 由定理二可知 ( n 1 − 1 ) S 1 2 σ 1 2 ∼ χ 2 ( n 1 − 1 ) ( 1 ) ( n 2 − 1 ) S 2 2 σ 2 2 ∼ χ 2 ( n 2 − 1 ) ( 2 ) \frac{(n_1-1)S_1^2}{\sigma_1^2}\sim \chi^2(n_1-1) \quad(1) \\\frac{(n_2-1)S_2^2}{\sigma_2^2}\sim \chi^2(n_2-1)\quad(2) σ12(n1−1)S12∼χ2(n1−1)(1)σ22(n2−1)S22∼χ2(n2−1)(2)
此时有 ( n 1 − 1 ) S 1 2 ( n 1 − 1 ) σ 1 2 / ( n 2 − 1 ) S 2 2 ( n 2 − 1 ) σ 2 2 ∼ F ( n 1 − 1 , n 2 − 1 ) \frac{(n_1-1)S_1^2}{(n_1-1)\sigma_1^2}\bigg/\frac{(n_2-1)S_2^2}{(n_2-1)\sigma_2^2} \sim F(n_1-1,n_2-1) (n1−1)σ12(n1−1)S12/(n2−1)σ22(n2−1)S22∼F(n1−1,n2−1)
即
S 1 2 / S 2 2 σ 1 2 / σ 2 2 ∼ F ( n 1 − 1 , n 2 − 1 ) \frac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2}\sim F(n_1-1,n_2-1) σ12/σ22S12/S22∼F(n1−1,n2−1)
2 0 2^0\quad 20 由式 ( 1 ) (1) (1)和 ( 2 ) (2) (2),以及 χ 2 \chi^2 χ2分布的可加性可知 ( n 1 − 1 ) S 1 2 σ 1 2 + ( n 2 − 1 ) S 2 2 σ 2 2 服 从 χ 2 ( n 1 + n 2 − 2 ) \frac{(n_1-1)S_1^2}{\sigma_1^2}+\frac{(n_2-1)S_2^2}{\sigma_2^2} 服从\chi^2(n_1+n_2-2) σ12(n1−1)S12+σ22(n2−1)S22服从χ2(n1+n2−2)
由 σ 1 2 = σ 2 2 = σ 2 \sigma_1^2=\sigma_2^2=\sigma^2 σ12=σ22=σ2可知, ( n 1 − 1 ) S 1 2 + ( n 2 − 1 ) S 2 2 σ 2 ∼ χ 2 ( n 1 + n 2 − 2 ) ( 3 ) \frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{\sigma^2} \sim \chi^2(n_1+n_2-2)\quad (3) σ2(n1−1)S12+(n2−1)S22∼χ2(n1+n2−2)(3)
由定理一可知 X ‾ ∼ N ( μ 1 , σ 2 / n ) , Y ‾ ∼ N ( μ 2 , σ 2 / n ) . \overline{X}\sim N(\mu_1,\sigma^2/n),\overline{Y}\sim N(\mu_2,\sigma^2/n). X∼N(μ1,σ2/n),Y∼N(μ2,σ2/n).
因此 X ‾ − Y ‾ ∼ N ( μ 1 − μ 2 , σ 2 / n 1 + σ 2 / n 2 ) \overline{X}-\overline{Y}\sim N(\mu_1-\mu_2,\sigma^2/n_1+\sigma^2/n_2) X−Y∼N(μ1−μ2,σ2/n1+σ2/n2) ,对其进行标准化有
( X ‾ − Y ‾ ) − ( μ 1 − μ 2 ) σ 2 / n 1 + σ 2 / n 2 ∼ N ( 0 , 1 ) ( 4 ) \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\sigma^2/n_1+\sigma^2/n_2}} \sim N(0,1)\quad (4) σ2/n1+σ2/n2(X−Y)−(μ1−μ2)∼N(0,1)(4)
由式 ( 3 ) 、 ( 4 ) (3)、(4) (3)、(4)可知 ( X ‾ − Y ‾ ) − ( μ 1 − μ 2 ) σ 2 / n 1 + σ 2 / n 2 / ( n 1 − 1 ) S 1 2 + ( n 2 − 1 ) S 2 2 σ 2 ( n 1 + n 2 − 2 ) ∼ t ( n 1 + n 2 − 2 ) \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\sigma^2/n_1+\sigma^2/n_2}}\bigg/\sqrt{\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{\sigma^2(n_1+n_2-2)}} \sim t(n_1+n_2-2) σ2/n1+σ2/n2(X−Y)−(μ1−μ2)/σ2(n1+n2−2)(n1−1)S12+(n2−1)S22∼t(n1+n2−2)
即 ( X ‾ − Y ‾ ) − ( μ 1 − μ 2 ) S w 1 n 1 + 1 n 2 ∼ t ( n 1 + n 2 − 2 ) \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\sim t(n_1+n_2-2) Swn11+n21(X−Y)−(μ1−μ2)∼t(n1+n2−2)
证明完毕
-
-
t分布f分布与样本均值抽样分布_常用概率分布
2020-11-22 00:09:06数学期望:随机变量的平均取值的大小 一个概率性事件的平均大小:盒子里没球的概率0.01 1个球的概率:...越大说明密度越大 概率密度分布:某事件发生概率的分布 离散型分布:二项分布,泊松分布 连续型分布:指数分...数学期望:随机变量的平均取值的大小 一个概率性事件的平均大小:盒子里没球的概率0.01 1个球的概率:0.7 2个球概率0.2,3个球的概率0.09
一个各自最有可能的球数:0.01*0+0.7*1+0.2*2+0.09*3 = 1.37
概率密度: 某种事物发生的概率占总概率1的比例,越大说明密度越大
概率密度分布:某事件发生概率的分布
- 离散型分布:二项分布,泊松分布
- 连续型分布:指数分布,正态分布,卡方分布,t分布,F分布(后三个也属于抽样分布)
- 抽样分布只与自由度有关:即(抽样)样本含量
1.二项分布
重复试验:每种结果概率恒定
所有概率组成一个分布:二项分布
2.泊松分布
一个单位(时间,空间,面积等)某稀有事件发生的概率:
所有概率组成一个分布:泊松分布
产生条件:随机事件相继出现:符合平稳性,无后效性,普通性
平稳性:在任意时间区间内,事件发生k次法概率只依赖于区间的长度而与区间端点无关。
无后效性:在不相重叠的时间段内,事件发生是相互独立的。
普通性:如果时间区间充分小,事件出现两次或两次以上的概率可忽略不计。
二项分布在事件发生的概率很小,重复次数很大的情况下,分布接近泊松分布。
- 均匀分布
连续型均匀分布:
可能的结果是连续的,每种可能概率相等
离散型均匀分布:n中可能的结果,每种可能概率相等
2.指数分布
用于表示独立随机事件发生的时间间隔,比如旅客进机场的时间间隔
- 连续性分布,每个点的概率
无记忆性:已经有历史数据,但是发生概率与未发生的事件的发生概率相同
3.正态分布
- 描述一个群体的某个指标
- 指标连续
- 特定指标在整个群体都有一个概率
所有概率组成一个分布:正态分布中心极限定理:
不论总体的分布形式如何,只有样本(抽样样本)含量n足够大,样本均数的分布近似正态分布,均数与总体均数相等,标准差为 总体标准差/n的开方。
由此:t分布,F分布,卡方分布在抽样样本含量很大时不需要对总体样本是否正态有要求。
4.t分布
- 总体样本为正态分布(抽样样本含量小时:要求为正态分布;较大时由于中心极限定理,近似正态分布,因而差值的概率也呈正态分布,实际上t分布的每条曲线都是正态分布曲线。
- 从总体样本中抽样很多小样本,每个小样本有一个均值,均值与总体均值有差值t,差值用t估计。
- 可能很多差值估计都是t,t出现的次数占所有小样本的比例:概率,所有t值的概率分布:t分布的一个曲线
- 另外做个抽样,每个小样本包含的观测数不同,形成t分布的另外一个曲线。
- t分布只与自由度有关,自由度越大,越接近正态分布,自由度:抽样小样本的具体观测值的个数(抽样样本含量)-1
5.卡方分布(chi square distribution):
- 从总体样本中抽样很多小样本,观测值平方后求和:卡方,重复抽样获得多个卡方值。
- 可能很多卡方都是相同,相同卡方出现的次数占总次数的比例:概率,所有概率组成的分布:卡方分布的一个曲线。
- 另外做个抽样,选取每个小样本包含的观测数不同,形成卡方分布的另外一个曲线。
- 其余自由度,样本要求同t分布相同,这里也只是将差值换做卡方。
- 卡方的概率密度分布图:
6.F分布
- 两总体样本方差比的分布。
- 抽取两个样本,两个样本的观测数可以相同也可不同,分别计算卡方,新变量F:重复抽样获得多个F值。
- 可能很多F值都是相同,相同F值出现的次数占总次数的比例:概率,所有概率组成的分布:F分布的一个曲线。
- 其余与t分布相同。
t分布:在推算总体平均值时,基于样本平均数的抽样分布。
卡方分布:用样本方差估计总体方差时,必须已知样本方差的抽样方差。
F分布:比较两个总体方差比是否相等时,必须已知样本方差的联合抽样分布。
-
高中数学配套用样本频率分布估计总体分布PPT课件.pptx
2021-10-10 08:01:44高中数学配套用样本频率分布估计总体分布PPT课件.pptx -
数学用样本的频率分布估计总体分布PPT学习教案.pptx
2021-10-05 07:37:03数学用样本的频率分布估计总体分布PPT学习教案.pptx -
正态总体的样本均值与样本方差的分布
2020-05-14 16:49:50文章目录小知识定理1定理2定理3证明...X‾,S2\overline{X},S^2X,S2是样本均值和方差 于是有E(X‾)=μ,E(S2)=σ2E(\overline{X})=\mu,E(S^2)=\sigma^2E(X)=μ,E(S2)=σ2 D(X‾)=σ2nD(\overline{X})=\frac{\sigma^2}nD(X -
(说课稿)用样本的频率分布估计总体分布.doc
2021-09-22 20:31:50(说课稿)用样本的频率分布估计总体分布.doc -
数学必修用样本的频率分布估计总体分布PPT学习教案.pptx
2021-10-05 07:29:12数学必修用样本的频率分布估计总体分布PPT学习教案.pptx -
2017_2018学年高中数学第二章统计2.2用样本估计总体2.2.1用样本的频率分布估计总体分布优化练习新人教A版...
2021-09-10 01:35:272017_2018学年高中数学第二章统计2.2用样本估计总体2.2.1用样本的频率分布估计总体分布优化练习新人教A版必修320180731445 -
用样本的频率分布估计总体分布-公开课11-19.ppt
2021-09-18 17:11:41用样本的频率分布估计总体分布-公开课11-19.ppt -
§2.2.1用样本的频率分布估计总体分布习题 (2).pdf
2021-08-15 20:11:35§2.2.1用样本的频率分布估计总体分布习题 (2).pdf -
t分布f分布与样本均值抽样分布_常见的统计分布--数据分析
2020-11-22 00:09:20大纲:常见的离散型概率分布(二项,几何,超几何,泊松)常见的连续型概率分布(指数,正态,均匀)三大抽样分布(卡方,t,F)一些推论和分布之间的关系离散型分布二项分布实验重复n次,每次实验相互独立(伯努利... -
数学用样本频率分布估计总体分布新人教A必修PPT学习教案.pptx
2021-10-05 07:37:09数学用样本频率分布估计总体分布新人教A必修PPT学习教案.pptx -
高中数学用样本的频率分布估计总体分布新人教A必修PPT课件.pptx
2021-10-10 07:54:08高中数学用样本的频率分布估计总体分布新人教A必修PPT课件.pptx -
人教高中数学必修用样本的频率分布估计总体分布PPT学习教案.pptx
2021-10-04 11:07:39人教高中数学必修用样本的频率分布估计总体分布PPT学习教案.pptx -
数学用样本的频率分布估计总体分布新人教A必修时PPT学习教案.pptx
2021-10-05 07:37:05数学用样本的频率分布估计总体分布新人教A必修时PPT学习教案.pptx -
2015高中数学 2.2.1用样本的频率分布估计总体分布总结 新人教A版必修3
2021-08-19 15:37:392015高中数学 2.2.1用样本的频率分布估计总体分布总结 新人教A版必修3 -
2015高中数学 2.2.1 用样本的频率分布估计总体分布练习 新人教A版必修3
2021-08-19 14:59:262015高中数学 2.2.1 用样本的频率分布估计总体分布练习 新人教A版必修3 -
2015高中数学 2.2.1用样本的频率分布估计总体分布讲解 新人教A版必修3
2021-08-19 14:56:022015高中数学 2.2.1用样本的频率分布估计总体分布讲解 新人教A版必修3 -
R语言抽样并验证总体分别为正态分布、均匀分布、指数分布时样本均值的抽样分布
2021-03-04 17:17:45【练习一】对example1_1.Rdata中数据,利用R软件,完成分别有放回和无放回抽取10名学生的姓名组成一个随机样本,输出学生姓名分别有放回和无放回抽取10名学生的姓名和分数组成一个随机样本,同时输出学生姓名和分数。... -
新课标人教A高中数学必修三用样本的频率分布估计总体分布PPT课件.pptx
2021-10-08 09:55:46新课标人教A高中数学必修三用样本的频率分布估计总体分布PPT课件.pptx -
新课标人教A高中数学必修三用样本的频率分布估计总体分布PPT学习教案.pptx
2021-10-08 11:04:06新课标人教A高中数学必修三用样本的频率分布估计总体分布PPT学习教案.pptx