-
2021-04-18 05:25:10
进行参数估计和假设检验时,通常总是假定总体服从正态分布,虽然在许多情况下这个假定是合理的,但是当要以此为前提进行重要的参数估计或假设检验,或者人们对它有较大怀疑的时候,就确有必要对这个假设进行检验,进行总体正态性检验的方法有很多种,以下针对MATLAB统计工具箱中提供的程序,简单介绍几种方法。
1)Jarque-Bera检验
利用正态分布的偏度g1和峰度g2,构造一个包含g1,g2的分布统计量(自由度n=2),对于显著性水平,当分布统计量小于分布的分位数时,接受H0:总体服从正态分布;否则拒绝H0,即总体不服从正态分布。这个检验适用于大样本,当样本容量n较小时需慎用。Matlab命令:h
=jbtest(x),[h,p,jbstat,cv] =jbtest(x,alpha)。
2)Kolmogorov-Smirnov检验
通过样本的经验分布函数与给定分布函数的比较,推断该样本是否来自给定分布函数的总体。容量n的样本的经验分布函数记为Fn(x),可由样本中小于x的数据所占的比例得到,给定分布函数记为G(x),构造的统计量为,即两个分布函数之差的最大值,对于假设H0:总体服从给定的分布G(x),及给定的,根据Dn的极限分布(n??时的分布)确定统计量关于是否接受H0的数量界限。
因为这个检验需要给定G(x),所以当用于正态性检验时只能做标准正态检验,即H0:总体服从标准正态分布。Matlab命令:h
=kstest(x)。
3)Lilliefors检验
它将Kolmogorov-Smirnov检验改进用于一般的正态性检验,即H0:总体服从正态分布,其中由样本均值和方差估计。Matlab命令:
h =lillietest(x),[h,p,lstat,cv]=lillietest(x,alpha)。
4)另外还有一种方法:首先对于数据进行标准化:Z =
ZSCORE(X),然后在进行2)的Kolmogorov-Smirnov检验,检验是否为标准正态分布,类似于对于方法2)的改进。
更多相关内容 -
Mulnortest:多元正态性统计检验。-matlab开发
2021-06-01 20:29:17在文献中,有几种可用的多元正态性检验(约 50)。 其中包括基于观测值平方 Mahalanobis 距离的卡方分位数-分位数图的图形方法。 除了图形 qq 接近之外,在这个文件中,我们提出了一个替代的统计测试。 它只需要多元... -
Roystest:Royston 的多元正态性检验。-matlab开发
2021-06-01 18:43:55众所周知,许多多元统计程序需要多元正态性 (MVN) ... Royston (1983) 的边际方法首先使用 Shapiro-Wilk 统计量检验每个 p 变量的单变量正态性,然后将 p 相关检验组合成一个综合检验统计量以实现多元正态性。 Royston -
HZmvntest:Henze-Zirkler 的多元正态性检验。-matlab开发
2021-05-31 00:46:13Henze-Zirkler 检验基于测量两个分布函数之间的距离的非负函数距离:多元正态性的特征函数和经验特征函数。 Henze-Zirkler 统计量近似呈对数正态分布。 对数正态分布用于计算原假设概率。 根据 Henze-Wagner ... -
多元正态总体检验
2015-07-30 01:59:17多元正态检验例题,源于多元统计分析课程。使用正态总体检验的SAS软件操作。 -
R语言:多元正态分布的检验
2020-04-24 21:46:25多元正态分布的检验多元正态分布mshapiro.test {mvnormtest}mvn {MVN} 多元正态分布 转自个人微信公众号【Memo_Cleon】的统计学习笔记:多元正态分布检验的R实现方法。 多元正态分布也称多元高斯分布。如同正态分布...多元正态分布
转自个人微信公众号【Memo_Cleon】的统计学习笔记:多元正态分布检验的R实现方法。
多元正态分布也称多元高斯分布。如同正态分布在单变量分析中的地位类似,在对多个因变量(多元)同时进行分析时,常常假设因变量组合成的向量服从一个多元正态分布。比如重复测量数据将重复的测量结果(比如各个时间点上的测量结果)视为不同的因变量,可以采用多元方差分析,此时就要求各个因变量的组合向量服从多元正态分布。对多元正态分布的判断通常采用的边际分布来判断,即每个因变量的分布呈正态或近似正态。但实际上单因变量正态是多因变量多元正态的必要非充分条件:所有因变量的组合服从多元正态分布,每个因变量的分布(边际分布)必然呈正态;每个因变量的分布呈正态分布,所有因变量的组合未必呈正态分布。只要有一个因变量不服用正态分布则组合分布肯定不服从多元正态分布。虽然我们可以通过边际分布来大体判断,有没有统计方法直接判断是否满足多元正态分布呢?当然,R有无所不能的“包”!比如程序包mvnormtest【函数mshapiro.test】、程序包mvShapiroTest【mvShapiro.Test】、程序包MVN【函数mvn】、程序包mvnTest【函数AD.test、CM.test、DH.test、HZ.test、R.test、S2.test等】、程序包mvtnorm【函数pmvnorm】、程序包energy【函数mvnorm.e、mvnorm.test、mvnorm.etest】……
我们以mshapiro.test {mvnormtest}和mvn {MVN}为例演示多元正态分布检验的R实现方法。
mshapiro.test {mvnormtest}
mshapiro.test(U):Performs the Shapiro-Wilk test for multivariate normality。U要求是数值型矩阵,且a matrix with number of columns (sample size) between 3 and 5000。因为在一般在录入时行表示观测/记录,列表示变量/字段,因此使用此函数需要先对行和列进行转置,转置函数为t(“矩阵或数据框”)。
示例:两组新生儿出生时的体重与身长数据如下。预对两组的体重和身高同时进行检验,可以考虑多元方差分析,应考察多元正态性。
文件导入:
library(openxlsx) #调用程序包openxlsx
mn<-read.xlsx(“D:/Temp/multivnorm.xlsx”,1) #从名称为multivnorm的excel文件中导入第1个sheet的数据到数据框mn中**将数据调整成mshapiro.test的分析格式:**对数据框mn的行列进行转置
A<-t(mn[1:8,3:4])
B<-t(mn[9:16,3:4])多元正态分析:
library(mvnormtest) #调用程序包mvnormtest
mshapiro.test(A)
mshapiro.test(B)结果显示A组多元正态分布SW检验W=0.912,P
=0.366>0.05,呈二元正态分布;B组多元正态分布SW检验W=0.861,P=0.122>0.05,呈二元正态分布。mvn {MVN}
mvn(data, subset = NULL, mvnTest = c(“mardia”, “hz”, “royston”, “dh”, “energy”), covariance = TRUE, tol = 1e-25, alpha = 0.5, scale = FALSE, desc = TRUE, transform = “none”, R = 1000, univariateTest = c(“SW”, “CVM”, “Lillie”, “SF”, “AD”), univariatePlot = “none”, multivariatePlot = “none”, multivariateOutlierMethod = “none”, bc = FALSE, bcType = “rounded”, showOutliers = FALSE, showNewData = FALSE)。Data为矩阵或数据框。
示例:10名肥胖患者在医生指导下服用药物减肥,按统一标准记录服药前和服药后1-4周的体重。
这是一个典型的无对照的重复测量数据,如将各个时点的体重视为不同的因变量,因变量(结果变量)就不止一个,此时可考虑多元方差分析(MANOVA)对它们同时进行分析。多元方差分析要求多元正态性、组间方差-协方差矩阵同质性、各因变量间有一定的相关性(个体内不独立,但个体间独立)。library(openxlsx) #调用程序包openxlsx
mn2<-read.xlsx(“D:/Temp/multivnorm.xlsx”,2) #从名称为multivnorm的excel文件中导入第2个sheet的数据到数据框mn2中
U<-mn2[1:10,2:6]
library(MVN)
mvn(U, mvnTest = c(“dh”), multivariatePlot = “qq”)注:本例10行6列,列名为id、W0、W1、W2、W3、W4。分析时仅筛选列,行不进行筛选,U<-multivnorm[1:10,2:6]可以直接U<-multivnorm[2:6]或者U<-multivnorm[-1]都可以。
结果:本例采用Doornik-Hansen了多变量正态性检验,当然也可以在语句中修改命令,换成Marida, Royston, Henze-Zirkler’s, E-Statistics等方法。结果显示E=6.79,P=0.75>0.05,数据满足多元正态分布。同时结果还给出了每个变量的Shapiro-Wilk检验结果,结果显示W0、W1、W2、W3、W4均满足正态分布。另外本例同时给出了多元正态性的QQ图。转自个人微信公众号【Memo_Cleon】的统计学习笔记:多元正态分布检验的R实现方法。
-
Python数据正态性检验实现过程
2020-12-20 10:55:031.scipy.stats.shapiro ——Shapiro-Wilk test,属于专门用来做正态性检验的模块,其原假设:样本数据符合正态分布。 注:适用于小样本。 其函数定位为: def shapiro(x): """ Perform the Shapiro-Wilk test for... -
R语言学习——一元与多元正态分布检验(也可以用于其他分布的检验)
2020-03-27 19:12:41生成随机数: # 生成随机数 ... # 标准正态分布N(0,1) y2 <- rexp(100,2); # 参数为2的指数分布Exp(2) y3 <- rt(100,1); # 自由度为1的t分布t(1) y4 <- -y2; # -Exp(2) 1 图像法 1.1 直方图 ...文章目录
生成随机数:
# 生成随机数 set.seed(1230) # 随机数种子 y1 <- rnorm(100); # 标准正态分布N(0,1) y2 <- rexp(100,2); # 参数为2的指数分布Exp(2) y3 <- rt(100,1); # 自由度为1的t分布t(1) y4 <- -y2; # -Exp(2)
1 一元正态的评估
1.1 图像法
1.1.1 直方图
直方图是最简单最直白的方法,但是不太适用于少量数据。
# ----------------- 直方图--------------------- # par(mfrow=c(2,2)) # par是图像参数设置函数,mfrow=c(2,2)是生成2x2的子图 hist(y1,main='Histogram for 100 random numbers from N(0,1)',xlim=c(-5,5)) hist(y2,main='Histogram for 100 random numbers from Exp(2)') hist(y3[abs(y3) < 5],main='Histogram for 100 random numbers from t(1)',xlim=c(-5,5),xlab='y3') hist(y4,main='Histogram for 100 random number fram -Exp(2)')
结果:
1.1.2 Q-Q图
Q-Q图的横坐标是理论的分位数,纵坐标是样本分位数,如果样本服从正态分布,那么图中的点应该与直线大致重合。
# ----------------- QQ图--------------------- # par(mfrow=c(2,2)) qqnorm(y1,main='Q-Q plot for y1 from N(0,1)');qqline(y1) # 在Q-Q图中添加直线 qqnorm(y2,main='Q-Q plot for y2 from Exp(2)');qqline(y2) qqnorm(y3,main='Q-Q plot for y3 from t(1)');qqline(y3) qqnorm(y4,main='Q-Q plot for y4 form -Exp(2)');qqline(y4)
结果:
那么应该如何分析Q-Q图呢?
因此上图从上到下,从左到右依次为:薄尾(但是程度很弱,基本是直线,可以认为是正态)、右偏、厚尾、左偏。
1.2 峰度和偏度
正态分布的偏度应该是0,峰度应该是3.
# ----------------- 偏度和峰度--------------------- # library(moments) # skewness skewness(y1);kurtosis(y1) skewness(y2);kurtosis(y2) skewness(y3);kurtosis(y3) skewness(y4);kurtosis(y4)
结果:
> skewness(y1);kurtosis(y1) [1] -0.02211832 [1] 2.451047 > skewness(y2);kurtosis(y2) [1] 1.572117 [1] 4.872045 > skewness(y3);kurtosis(y3) [1] -1.896557 [1] 12.09301 > skewness(y4);kurtosis(y4) [1] -1.572117 [1] 4.872045
第一个比较接近标准正态的偏度与峰度,而其他的都明显不符合。
1.3 统计检验
以上方法都存在明显缺陷,图像方法对于小样本并不适用,图像方法以及偏度峰度只提供了一个粗糙而不正式的检验方法,没有一个明确的决定准则。
因此接下来做正式的统计检验,他们基于以下假设:
H 0 : H_0: H0:数据来自正态分布
H 1 : H_1: H1:数据不来自正态分布
1.3.1 Shapiro-Wilks检验
Shapiro-Wilks检验统计量为:
W = ( ∑ i = 1 n a ( i ) y ( i ) ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 W=\frac{\left(\sum_{i=1}^{n} a_{(i)} y_{(i)}\right)^{2}}{\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}} W=∑i=1n(yi−yˉ)2(∑i=1na(i)y(i))2
这里 y ( i ) y_{(i)} y(i)是第 i i i个样本次序统计量; a ( i ) a_{(i)} a(i)是标准正态分布中第 i i i个次序统计量标准化的期望值。该方法有三个值得注意的地方:
- W \sqrt{W} W约等于实际数据与正态得分之间的相关系数;
- 当 W = 1 W=1 W=1时,数据恰好完全是正态分布;
- “ W W W显著小于1”则表明数据非正态。
代码:
# ----------------- Shapiro-Wilks检验--------------------- # shapiro.test(y1) # p越小说明在原假设成立的条件下该事件越不容易发生 shapiro.test(y2) shapiro.test(y3) shapiro.test(y4)
结果:
> shapiro.test(y1) # p越小说明在原假设成立的条件下该事件越不容易发生 Shapiro-Wilk normality test data: y1 W = 0.98635, p-value = 0.3952 > shapiro.test(y2) Shapiro-Wilk normality test data: y2 W = 0.80837, p-value = 4.513e-10 > shapiro.test(y3) Shapiro-Wilk normality test data: y3 W = 0.82433, p-value = 1.488e-09 > shapiro.test(y4) Shapiro-Wilk normality test data: y4 W = 0.80837, p-value = 4.513e-10
以上数据中,y1的 W W W值非常接近于1,且 p p p值很大,因此接受原假设。而其他几组数据的 p p p非常小,而我们知道, p p p越小,可以认为在原假设成立的条件下该样本越不可能发生,在这里就是越不可能是正态分布的数据。
1.3.2 Kolmogorov-Smirnov 检验
Kolmogorov-Smirnov检验的统计量为:
D = n sup y ∣ F n ( y ) − F 0 ( y ) ∣ D=\sqrt{n} \sup _{y}\left|F_{n}(y)-F_{0}(y)\right| D=nysup∣Fn(y)−F0(y)∣
这里的 F n ( y ) F_n(y) Fn(y)是数据的经验累积分布函数(cdf); F 0 ( y ) F_0(y) F0(y)是与数据同均值、同方差的正态分布的累积分布函数。
该检验方法值得注意的一点是:若 D D D值很大,则拒绝原假设 H 0 H_0 H0,也就是 D D D越小越好,怎么理解呢?当数据很接近正态分布时,那么按理来说, F n ( y ) F_n(y) Fn(y)应该比较接近 F 0 ( y ) F_0(y) F0(y), D D D也就越小。
代码:
# ----------------- Kolmogorov-Smirnov检验--------------------- # library(nortest) # package for normality test ks.test(y1,'pnorm',mean(y1),sqrt(var(y1))) ks.test(y2,'pnorm',mean(y2),sqrt(var(y2))) ks.test(y3,'pnorm',mean(y3),sqrt(var(y3))) ks.test(y4,'pnorm',mean(y4),sqrt(var(y4)))
结果:
> ks.test(y1,'pnorm',mean(y1),sqrt(var(y1))) One-sample Kolmogorov-Smirnov test data: y1 D = 0.043044, p-value = 0.9925 alternative hypothesis: two-sided > ks.test(y2,'pnorm',mean(y2),sqrt(var(y2))) One-sample Kolmogorov-Smirnov test data: y2 D = 0.1882, p-value = 0.001676 alternative hypothesis: two-sided > ks.test(y3,'pnorm',mean(y3),sqrt(var(y3))) One-sample Kolmogorov-Smirnov test data: y3 D = 0.15339, p-value = 0.01809 alternative hypothesis: two-sided > ks.test(y4,'pnorm',mean(y4),sqrt(var(y4))) One-sample Kolmogorov-Smirnov test data: y4 D = 0.1882, p-value = 0.001676 alternative hypothesis: two-sided
第一个的 p p p值很大,而其他的都要小于0.05,因此第一个接受原假设,其他的拒绝原假设。
此外,K-S检验还常常用于其他分布的检验,举个例子,为验证每小时参与讨论的人数是否服从泊松分布,原理与正态分布检验是一致的。可以用MATLAB软件进行K-S检验,主要代码程序如下:
lambda = poissfit(A,alpha); % 对A进行泊松分布拟合 p = poisscdf(A,lambda); % 生成经验分布函数 H = kstest(A,[A,p],alpha); % K-S检验
其中A表示由每小时讨论人数组成的向量,alpha为置信率。如果运行结果H=0,则表示A服从泊松分布。对热点话题样本运行的结果显示H=0,因此每小时参与讨论的人数服从泊松分布。
1.3.3 Cramer-von Mises检验
Cramer-von Mises检验的检验统计量为:
C = ∫ [ F n ( y ) − F 0 ( y ) ] 2 d F 0 ( y ) C=\int\left[F_{n}(y)-F_{0}(y)\right]^{2} d F_{0}(y) C=∫[Fn(y)−F0(y)]2dF0(y)C C C也是和以上的几个检验差不多,越小越好,原理同Kolmogorov-Smirnov检验差不多。
代码:
# ----------------- Cramer-von Mises检验--------------------- # library(nortest) cvm.test(y1) cvm.test(y2) cvm.test(y3) cvm.test(y4)
结果:
> cvm.test(y1) Cramer-von Mises normality test data: y1 W = 0.025708, p-value = 0.8987 > cvm.test(y2) Cramer-von Mises normality test data: y2 W = 1.1379, p-value = 7.37e-10 Warning message: In cvm.test(y2) : p-value is smaller than 7.37e-10, cannot be computed more accurately > cvm.test(y3) Cramer-von Mises normality test data: y3 W = 0.70914, p-value = 5.184e-08 > cvm.test(y4) Cramer-von Mises normality test data: y4 W = 1.1379, p-value = 7.37e-10 Warning message: In cvm.test(y4) : p-value is smaller than 7.37e-10, cannot be computed more accurately
结果分析同上,第一个 p p p很大,因此接受原假设,而其他的则拒绝。
1.3.4 Anderson-Darling检验
Anderson-Darling检验的检验统计量为:
A = ∫ [ F n ( y ) − F 0 ( y ) ] 2 F 0 ( y ) ( 1 − F 0 ( y ) ) d F 0 ( y ) A=\int \frac{\left[F_{n}(y)-F_{0}(y)\right]^{2}}{F_{0}(y)\left(1-F_{0}(y)\right)} d F_{0}(y) A=∫F0(y)(1−F0(y))[Fn(y)−F0(y)]2dF0(y)
对这个检验的理解和上面Kolmogorov-Smirnov检验是一样的,就不多说了。
代码:
# ----------------- Anderson-Darling检验--------------------- # ad.test(y1) ad.test(y2) ad.test(y3) ad.test(y4)
结果:
> ad.test(y1) Anderson-Darling normality test data: y1 A = 0.24449, p-value = 0.7564 > ad.test(y2) Anderson-Darling normality test data: y2 A = 6.5289, p-value = 3.969e-16 > ad.test(y3) Anderson-Darling normality test data: y3 A = 4.0526, p-value = 3.724e-10 > ad.test(y4) Anderson-Darling normality test data: y4 A = 6.5289, p-value = 3.969e-16
结果理解同上,不多说了。
2 多元正态分布的评估
有三种方法来检验一个 p p p维总体 y y y的随机样本 { y 1 , ⋯ , y n } \{y_1,\cdots,y_n \} {y1,⋯,yn}是否来自于多元正态分布:
- 1、检验向量的每一维是否都是一元正态分布——如果数据服从多元正态分布,那么每一维都服从一元正态分布,如果检验出有一个不是正态分布,那么联合分布就不是多元正态;
- 2、检验是否每一组二维散点图都没有线性趋势——如果数据服从多元正态分布,那么两个维度之间要么独立,要么成线性关系;
- 3、根据QQ图,检验统计距离
{
d
1
,
⋯
,
d
n
}
\{d_1,\cdots,d_n\}
{d1,⋯,dn}是否距离
χ
2
(
p
)
\chi^2(p)
χ2(p)很远,其中统计距离定义为:
d i = ( y i − y ‾ ) ′ S − 1 ( y i − y ‾ ) d_{i}=\left(\mathbf{y}_{i}-\overline{\mathbf{y}}\right)^{\prime} \mathbf{S}^{-1}\left(\mathbf{y}_{i}-\overline{\mathbf{y}}\right) di=(yi−y)′S−1(yi−y)
注意,这只是一种近似方法。
以下以一个例子讲解上面三种方法。
2.1 一元检验
首先我们检查每一个变量的QQ图:
二氧化硫分布比较集中,降水以及降水天数背离了正态性;制造企业数和人口数存在很多异常值。综上,该多元数据不服从多元正态分布。2.2 线性关系检验
接着,绘制两两散点图矩阵:
非线性部分显示了数据与多元正态分布的偏离,显然也说明不是多元正态。2.3 多元QQ图检验
进一步地,我们绘制整体QQ图:
该图除了检验正态性这一用处外,也可以用来发现可能的异常值。如果正态性不成立,可以采用一些变量变换方法来获取正态性,如Box-Cox 变换(见我之前的文章,有MATLAB实现方法及原理)。
2.4 R语言实现
# ----------------- 多元正态性--------------------- # library(HSAUR2) # which contains the data # 每一个的QQ图(individual Q-Q plot) layout(matrix(1:8,4,2,byrow = TRUE)) # 4x2最好不要改动了,不然会出现错误: Error in plot.new() : figure margins too large sapply(colnames(USairpollution), function(x) { qqnorm(USairpollution[[x]], main=x); qqline(USairpollution[[x]]) }) # Scatterplot matrix pairs(USairpollution) # chi-square Q-Q plot with outlier detection par(mfrow=c(1,1)) y <- USairpollution cm <- colMeans(y) S <- cov(y) d <- apply(y,1,function(y) t(y-cm) %*% solve(S) %*% (y-cm)) plot(qc <- qchisq( (1:nrow(y)-1/2)/nrow(y),df=7), sd <- sort(d), xlab = expression(paste(chi[7]^2,"Quantile")), ylab = "Ordered distances", xlim = range(qc)*c(1,1.1)) oups <- which(rank(abs(qc - sd), ties="random") > nrow(y) - 3) text(qc[oups],sd[oups]-1.5,names(oups)) abline(a=0,b=1)
对以上代码的理解:
-
layout(matrix(c(1,1,2,3),2,2,byrow=TRUE))
,其中的2,2表示2×2的图形矩阵;byrow=TRUE表示按列排图,其中的c(1,1,2,3),中有3个不同的值1,2,3,表示2×2的图形矩阵中有3个图,按
1 1
2 3
进行排列。其中1 ,1表示图hist(wt)位于图形矩阵的第一行的1,2列;2表示图hist(mpg)位于2行1列;3表示图hist(disp)位于2行2列。得到上面的图形矩阵。 -
sapply()
类似于MATLAB中的arrayfun()
函数,可以对一个向量批量使用某一个函数。 -
pairs()
是绘制两两的散点图,pairs
在英文中就代表着成双成对,很好理解。 -
par()
是修改图形参数的函数,与layout()
作用差不多。 -
apply()
函数的使用方法可以见apply函数的使用方法。 -
which()
函数返回的是满足相应条件的下标/索引,使用方法见which函数的使用方法。 -
rank()
函数是获得每一个元素排序后的序号,“random” 是相同元素随机编排次序,避免了“先到先得”,“权重”优于“先后顺序”的机制增大了随机的程度。使用方法见rank函数的使用方法。 -
text()
函数就是添加文本标记,它是向绘图区域内部添加文本,而mtext()
则向图形的四个边界之一添加文本。 -
abline()
则常用用于为图形添加参考线,其使用格式为abline(h=yvalues, v=xvalues, params)
,其中h
为水平方向添加,而v
为纵向。
练习题
练习1
代码:# 练习 data <- c(-0.6,3.1,25.3,-16.8,-7.1,-6.2,25.2,22.6,26.0) # (a) qqnorm(data,mian='1996-2005年间道琼斯工业平均指数的年回报率');qqline(data) # (b) shapiro.test(data)
结果:
> shapiro.test(data) Shapiro-Wilk normality test data: data W = 0.85607, p-value = 0.08688
练习2
代码:Y1 <- c(1,2,3,3,4,5,6,8,9,11) Y2 <- c(18.95,19.00,17.95,15.54,14.00,12.95,8.94,7.49,6.00,3.99) # (a) data <- data.frame(Y1,Y2) mu <- c(0,0) mu[1] <- mean(Y1) mu[2] <- mean(Y2) cov.y1y2 <- cov(data) cor.y1y2 <- cor(data) # (b) d <- apply(data,1,function(data) t(data-mu) %*% solve(cov.y1y2) %*% (data-mu)) # (c) plot(qc <- qchisq((1:length(d) - 1/2)/length(d) , df=length(d)-1), sd <- sort(d))
结果:
# (a) > mu [1] 5.200 12.481 > cov.y1y2 Y1 Y2 Y1 10.62222 -17.71022 Y2 -17.71022 30.85437 > cor.y1y2 Y1 Y2 Y1 1.0000000 -0.9782684 Y2 -0.9782684 1.0000000 # (b) > d [1] 1.8753045 2.0203262 2.9009088 0.7352659 0.3105192 0.0176162 3.7329012 0.8165401 1.3753379 4.2152799
( C ):
附录——对p值的理解
求法方面的理解:p值可以理解为在原假设成立的情况下当前样本或倾向于备择假设成立的极端情况的发生概率
含义方面的理解:在原假设成立的情况下拒绝原假设的最小显著性水平。如果显著性水平α>p,拒绝原假设,反过来则接受原假设
-
【多元统计分析】09.独立性检验与正态性检验
2020-11-02 22:15:26首先讨论正态分布分量间的独立性检验,最后,讨论对于给定总体的正态性检验。九、独立性检验和正态性检验
1.独立性检验
独立性检验,指的是将一个多元总体 X ∼ N p ( μ , Σ ) X\sim N_p(\mu,\Sigma) X∼Np(μ,Σ)划分成 k k k个部分,探究每个部分之间是否独立的问题,这样做的好处是显而易见的,如果一个总体 X X X可以划分成多个独立的部分,那么只需要对每一个部分分开讨论即可,无疑降低了运算量。在多元统计中,可以视为有如下分解:
X = [ X ( 1 ) ⋮ X ( k ) ] , μ = [ μ ( 1 ) ⋮ μ ( k ) ] , Σ = [ Σ 11 ⋯ Σ 1 k ⋮ ⋮ Σ k 1 ⋯ Σ k k ] . X=\begin{bmatrix} X^{(1)} \\ \vdots \\ X^{(k)} \end{bmatrix}, \mu=\begin{bmatrix} \mu^{(1)} \\ \vdots \\ \mu^{(k)} \end{bmatrix}, \Sigma=\begin{bmatrix} \Sigma_{11} & \cdots & \Sigma_{1k} \\ \vdots & & \vdots \\ \Sigma_{k1} & \cdots & \Sigma_{kk} \end{bmatrix}. X=⎣⎢⎡X(1)⋮X(k)⎦⎥⎤,μ=⎣⎢⎡μ(1)⋮μ(k)⎦⎥⎤,Σ=⎣⎢⎡Σ11⋮Σk1⋯⋯Σ1k⋮Σkk⎦⎥⎤.
每一个分向量 X ( t ) X^{(t)} X(t)都是 p t p_t pt维的,对应的 μ ( t ) \mu^{(t)} μ(t)也是 p t p_t pt维的, Σ t t \Sigma_{tt} Σtt是 p t × p t p_t\times p_t pt×pt的。在多元正态分布的介绍中提到,如果 X ( 1 ) , ⋯ , X ( k ) X^{(1)},\cdots,X^{(k)} X(1),⋯,X(k)是独立的,那么 Σ i j = O \Sigma_{ij}=O Σij=O对任何 i ≠ j i\ne j i=j都成立,反之也成立,因此在正态总体下,假设检验就变成了以下的形式:
H 0 : ∀ i ≠ j , Σ i j = O ⇔ H 1 : ∃ i ≠ j , Σ i j ≠ O . H_0:\forall i\ne j,\Sigma_{ij}=O\Leftrightarrow H_1:\exist i\ne j,\Sigma_{ij}\ne O. H0:∀i=j,Σij=O⇔H1:∃i=j,Σij=O.
由于样本均值、样本离差阵是对总体均值、自协方差矩阵的估计,因此我们也可以对样本均值和样本离差阵作同型分解。如果 H 0 H_0 H0成立,则 X ( α ) ( t ) ∼ N p ( μ ( t ) , Σ t t ) X_{(\alpha)}^{(t)}\sim N_p(\mu^{(t)},\Sigma_{tt}) X(α)(t)∼Np(μ(t),Σtt)且相互独立,那么似然函数就是
L ( μ , Σ ) = ∏ t = 1 k L t ( μ ( t ) , Σ t t ) , L(\mu,\Sigma)=\prod_{t=1}^kL_t(\mu^{(t)},\Sigma_{tt}), L(μ,Σ)=t=1∏kLt(μ(t),Σtt),
取最大值的情况显然是 μ ( t ) = X ˉ ( t ) , Σ t t = A t t / n \mu^{(t)}=\bar X^{(t)},\Sigma_{tt}=A_{tt}/n μ(t)=Xˉ(t),Σtt=Att/n,所以似然比统计量的分子是
∏ t = 1 n ( 2 π ) − n p t / 2 ∣ A t t / n ∣ − n / 2 exp { − 1 2 ∑ α = 1 n ( X ( α ) ( t ) − X ˉ ( t ) ) ′ ( A t t n ) − 1 ( X ( α ) ( t ) − X ˉ ( t ) ) } = ( 2 π ) − n p / 2 exp { − 1 2 ∑ α = 1 n ( X ( α ) − X ˉ ) ′ ( A n ) − 1 ( X ( α ) − X ˉ ) } ∏ t = 1 k ∣ A t t n ∣ − n / 2 . \begin{aligned} &\prod_{t=1}^n(2\pi)^{-np_t/2}|A_{tt}/n|^{-n/2}\exp\left\{-\frac12\sum_{\alpha=1}^n(X_{(\alpha)}^{(t)}-\bar X^{(t)})'\left(\frac{A_{tt}}{n} \right)^{-1}(X_{(\alpha)}^{(t)}-\bar X^{(t)}) \right\}\\ =&(2\pi)^{-np/2}\exp\left\{-\frac12\sum_{\alpha=1}^n(X_{(\alpha)}-\bar X)'\left(\frac{A}{n} \right)^{-1}(X_{(\alpha)}-\bar X) \right\}\prod_{t=1}^k\left|\frac{A_{tt}}n{} \right|^{-n/2}. \end{aligned} =t=1∏n(2π)−npt/2∣Att/n∣−n/2exp{−21α=1∑n(X(α)(t)−Xˉ(t))′(nAtt)−1(X(α)(t)−Xˉ(t))}(2π)−np/2exp{−21α=1∑n(X(α)−Xˉ)′(nA)−1(X(α)−Xˉ)}t=1∏k∣∣∣∣nAtt∣∣∣∣−n/2.
这里的转换可以用之前常用的迹变换得出。观察分子与分母,发现其大部分是相同的,所以得到似然比统计量为
λ = ∏ t = 1 k ∣ A t t / n ∣ − n / 2 ∣ A / n ∣ − n / 2 = ( ∣ A ∣ ∏ t = 1 n ∣ A t t ∣ ) n / 2 = d e f V n / 2 . \lambda =\frac{\prod_{t=1}^k|A_{tt}/n|^{-n/2}}{|A/n|^{-n/2}}=\left(\frac{|A|}{\prod_{t=1}^n|A_{tt}|} \right)^{n/2}\stackrel {\rm def}=V^{n/2}. λ=∣A/n∣−n/2∏t=1k∣Att/n∣−n/2=(∏t=1n∣Att∣∣A∣)n/2=defVn/2.
所以我们取检验统计量为
V = ∣ A ∣ ∏ i = 1 k ∣ A t t ∣ . V=\frac{|A|}{\prod_{i=1}^k|A_{tt}|}. V=∏i=1k∣Att∣∣A∣.
并且有结论保证,在 H 0 H_0 H0成立的条件下, − b ln V → H 0 χ 2 ( f ) -b\ln V\stackrel {H_0}\to \chi^2(f) −blnV→H0χ2(f),这里
b = n − 3 2 − p 3 − ∑ t = 1 k p t 3 3 ( p 2 − ∑ t = 1 k p t 2 ) , f = 1 2 [ p ( p + 1 ) − ∑ t = 1 k p t ( p t + 1 ) ] . b=n-\frac32-\frac{p^3-\sum_{t=1}^k p_t^3}{3(p^2-\sum_{t=1}^k p_t^2)}, \\ f=\frac 12\left[p(p+1)-\sum_{t=1}^k p_t(p_t+1) \right]. b=n−23−3(p2−∑t=1kpt2)p3−∑t=1kpt3,f=21[p(p+1)−t=1∑kpt(pt+1)].
事实上 − b ln V -b\ln V −blnV是 − 2 ln λ -2\ln \lambda −2lnλ的近似,故 b b b也是 n n n的近似,而 f f f就是两个参数空间的维度之差。2.一元数据正态性检验
回顾我们之前提到的假设检验,包括均值向量、自协方差矩阵、独立性的检验,都基于一个前提——总体是多维正态分布,如果这个正态性不满足,与三大分布相关的统计量转化、似然比统计量的表现形式都将不同于此形式,从而无法应用已有的结论。因此,本节探讨样本的正态性检验,概括起来就是,给定 n n n个 p p p维样本 X ( α ) X_{(\alpha)} X(α),判断总体 X X X是否服从 N p ( μ , Σ ) N_p(\mu,\Sigma) Np(μ,Σ)分布。
多元数据的正态性检验问题,常常转化为多个一元或二元数据的正态性检验,或者先求 X X X的分量的线性组合再化为一元数据的正态性检验等。虽然我们知道,边缘分布的正态性不能推出总体分布的正态性,但是在实际应用中,这种情况并不常见,所以我们可以先将目光放在一元数据的正态性检验。
常用于一元数据检验的方法有Pearson χ 2 \chi^2 χ2检验法(比较适合离散情形)、Kolmogorov检验法(比较适合连续情形),不过在Kolmogorov检验中我们需要得知总体的参数,即均值和方差,在实际应用中这个条件很难满足,所以我们会使用总体均值和总体方差代替,这就是Lilliefors检验。
还有一些仅适用于正态分布的检验法:偏度峰度检验法,Q-Q图和P-P图检验法、Anderson-Darling统计量检验法、Cramer-von Mises统计量检验法等。
偏度峰度法指的是,计算样本偏度和样本峰度:
G 1 = ∑ ( X i − X ˉ ) 3 [ ∑ ( X i − X ˉ ) 2 ] 3 / 2 , G 2 = ∑ ( X i − X ˉ ) 4 [ ∑ ( X i − X ˉ ) 2 ] 2 , G_1=\frac{\sum(X_i-\bar X)^3}{[\sum(X_i-\bar X)^2]^{3/2}},\quad G_2=\frac{\sum(X_i-\bar X)^4}{[\sum(X_i-\bar X)^2]^2}, G1=[∑(Xi−Xˉ)2]3/2∑(Xi−Xˉ)3,G2=[∑(Xi−Xˉ)2]2∑(Xi−Xˉ)4,
在正态性成立时,近似有
G 1 ∼ N ( 0 , 6 ( n − 2 ) ( n + 1 ) ( n + 3 ) ) , G 2 ∼ N ( 3 − 6 n − 1 , 24 n ( n − 2 ) ( n − 3 ) ( n + 1 ) 2 ( n + 3 ) ( n + 5 ) ) . G_1\sim N\left(0,\frac{6(n-2)}{(n+1)(n+3)} \right), \\ G_2\sim N\left(3-\frac6{n-1},\frac{24n(n-2)(n-3)}{(n+1)^2(n+3)(n+5)} \right). G1∼N(0,(n+1)(n+3)6(n−2)),G2∼N(3−n−16,(n+1)2(n+3)(n+5)24n(n−2)(n−3)).
很容易用Z检验找到其拒绝域。Q-Q(Quantile Quantile)图检验法是一种图示检验法,绘制 ( q i , x ( i ) ∗ ) (q_i,x_{(i)}^*) (qi,x(i)∗)散点图,这里 q i = Φ − 1 ( p i ) q_i=\Phi^{-1}(p_i) qi=Φ−1(pi)是样本的 p i p_i pi分位数, x ( i ) ∗ x_{(i)}^* x(i)∗是样本的 p i p_i pi分位数,如果 X X X是一元正态总体,则这些散点应该散布在一条直线上。P-P图检验法也是图示检验,绘制的数据点是 ( p i , F ( x ( i ) ∗ ) ) (p_i,F(x_{(i)}^*)) (pi,F(x(i)∗)),其中 p i p_i pi是经验分布函数 F n ( x ) F_n(x) Fn(x)在 x ( i ) ∗ x_{(i)}^* x(i)∗上的值, F ( x ( i ) ∗ ) F(x_{(i)}^*) F(x(i)∗)是 Φ ( x ) \Phi(x) Φ(x)在 x ( i ) ∗ x_{(i)}^* x(i)∗上的值。在实际应用Q-Q图检验和P-P图检验时, x ( i ) ∗ x_{(i)}^* x(i)∗要先选好。
Anderson-Darling A 2 A^2 A2检验(AD检验)的检验统计量是
A 2 = n ∫ − ∞ ∞ ( F n ( x ) − Φ ( x ) ) 2 Φ ( x ) ( 1 − Φ ( x ) ) d Φ ( x ) , A^2=n\int_{-\infty}^\infty \frac{(F_n(x)-\Phi(x))^2}{\Phi(x)(1-\Phi(x))}{\rm d}\Phi(x), A2=n∫−∞∞Φ(x)(1−Φ(x))(Fn(x)−Φ(x))2dΦ(x),
这里 [ Φ ( x ) ( 1 − Φ ( x ) ) ] − 1 [\Phi(x)(1-\Phi(x))]^{-1} [Φ(x)(1−Φ(x))]−1是权重函数,如果权重函数取 1 1 1,就得到Cramer-von Mises W 2 W^2 W2检验的检验统计量
W 2 = n ∫ − ∞ ∞ ( F n ( x ) − Φ ( x ) ) 2 d Φ ( x ) . W^2=n\int_{-\infty}^\infty (F_n(x)-\Phi(x))^2{\rm d}\Phi(x). W2=n∫−∞∞(Fn(x)−Φ(x))2dΦ(x).
结合Kolmogorov-Smirnov统计量 D = sup ∣ F n ( x ) − Φ ( x ) ∣ D=\sup|F_n(x)-\Phi(x)| D=sup∣Fn(x)−Φ(x)∣,这三个统计量都是原假设成立时不能过大的,依赖于一个概率表值来检验原假设是否应该被接受。不过,这三种检验方式适用于各种假设检验,只要将表达式中的 Φ ( x ) \Phi(x) Φ(x)换成对应的分布函数即可。3.多元数据的正态性检验
对于二元数据,存在一种粗糙的检验方法:等概椭圆检验法。其理论基础是二维随机向量 X X X如果来自于正态总体,则其概率密度函数等高线应该是一个椭圆,即 X ∼ N 2 ( μ , Σ ) X\sim N_2(\mu,\Sigma) X∼N2(μ,Σ)时,应有
f ( x 1 , x 2 ) = a ⇔ ( X − μ ) ′ Σ − 1 ( X − μ ) = b 2 . f(x_1,x_2)=a\Leftrightarrow (X-\mu)'\Sigma^{-1}(X-\mu)=b^2. f(x1,x2)=a⇔(X−μ)′Σ−1(X−μ)=b2.
所以我们计算二元数据 X ( i ) X_{(i)} X(i)到 X ˉ \bar X Xˉ的马氏距离 D i = ( X ( i ) − X ˉ ) ′ S − 1 ( X ( i ) − X ˉ ) D_i=(X_{(i)}-\bar X)'S^{-1}(X_{(i)}-\bar X) Di=(X(i)−Xˉ)′S−1(X(i)−Xˉ),在给定数值 p 0 p_0 p0下, D i ≤ p 0 D_i\le p_0 Di≤p0的频率应该和某一个定值比较接近,这个定值可以通过查表获得。由于这是一种比较粗糙的方法,我们在实际应用中会使用更为正式的方法。现在介绍 p p p维数据 χ 2 \chi^2 χ2统计量的Q-Q图检验法,我们将假设确定为参数已知的,即
H 0 : X ∼ N p ( μ , Σ ) ⇔ H 1 : X ≁ N p ( μ , Σ ) . H_0:X\sim N_p(\mu,\Sigma)\Leftrightarrow H_1:X\nsim N_p(\mu,\Sigma). H0:X∼Np(μ,Σ)⇔H1:X≁Np(μ,Σ).
由于在正态性假设 H 0 H_0 H0成立的前提下,样本 X X X到中心 μ \mu μ的马氏距离存在以下关系:
D 2 = ( X − μ ) ′ Σ − 1 ( X − μ ) ∼ χ 2 ( p ) , D^2=(X-\mu)'\Sigma^{-1}(X-\mu)\sim \chi^2(p), D2=(X−μ)′Σ−1(X−μ)∼χ2(p),
所以我们可以直观地想到验证样本的马氏距离是否具有这样的关系。因此,我们计算样本 X ( α ) X_{(\alpha)} X(α)到 μ \mu μ的马氏距离 D α 2 = ( X ( α ) − μ ) ′ Σ − 1 ( X ( α ) − μ ) D_{\alpha}^2=(X_{(\alpha)}-\mu)'\Sigma^{-1}(X_{(\alpha)}-\mu) Dα2=(X(α)−μ)′Σ−1(X(α)−μ),并对 D α 2 D_\alpha^2 Dα2进行排序得到次序统计量 D ( α ) D_{(\alpha)} D(α),计算其经验分布函数,这样有了经验分布函数与 χ 2 ( p ) \chi^2(p) χ2(p)分布的分布函数后,就可以绘制Q-Q图或者P-P图。在实际应用中,我们往往不知道 μ , Σ \mu,\Sigma μ,Σ的值,所以会用样本均值 X ˉ \bar X Xˉ和样本协方差阵 A / ( n − 1 ) A/(n-1) A/(n−1)代替,得到的Q-Q图或P-P图应该是一条通过原点、斜率为1的直线,如果是这样,就可以接受正态性假设,否则应当拒绝。
回顾总结
-
正态总体的独立性检验,我们一般会取检验统计量为
V = ∣ A ∣ ∏ t = 1 k ∣ A t t ∣ . V=\frac{|A|}{\prod_{t=1}^k |A_{tt}|}. V=∏t=1k∣Att∣∣A∣.
当 n → ∞ n\to \infty n→∞时,有 − b ln V → χ 2 ( f ) -b\ln V\to \chi^2(f) −blnV→χ2(f),这里
b = n − 3 2 − p 3 − ∑ t = 1 k p t 3 3 ( p 2 − ∑ t = 1 k p t 2 ) , f = p ( p + 1 ) 2 − ∑ t = 1 k p k ( p k + 1 ) 2 . b=n-\frac32-\frac{p^3-\sum_{t=1}^k p_t^3}{3(p^2-\sum_{t=1}^k p_t^2)},\\ f=\frac{p(p+1)}{2}-\sum_{t=1}^k\frac{p_k(p_k+1)}{2}. b=n−23−3(p2−∑t=1kpt2)p3−∑t=1kpt3,f=2p(p+1)−t=1∑k2pk(pk+1). -
一元总体的正态性检验有很多方法,如K-S检验、A-D检验、Cramer-von Mises检验,但K-S检验的效果一般,A-D检验的效果比较好,其检验统计量是
A 2 = n ∫ − ∞ ∞ ( F n ( x ) − Φ ( x ) ) 2 Φ ( x ) ( 1 − Φ ( x ) ) d Φ ( x ) . A^2=n\int_{-\infty}^\infty \frac{(F_n(x)-\Phi(x))^2}{\Phi(x)(1-\Phi(x))}{\rm d}\Phi(x). A2=n∫−∞∞Φ(x)(1−Φ(x))(Fn(x)−Φ(x))2dΦ(x). -
Q-Q图是分位数图,首先选定一组分位数间隙 x ( i ) ∗ x_{(i)}^* x(i)∗,然后在样本中寻找相应分位数,在总体中也寻找相应分位数,将分位数绘制成散点图,观察其是否位于一条直线上。
-
P-P图是累计分布图,首先选定一组分位数间隙 x ( i ) ∗ x_{(i)}^* x(i)∗,然后绘制经验分布函数与总体分布函数在 x ( i ) ∗ x_{(i)}^* x(i)∗处的取值,将两个取值绘制成散点图,观察其是否位于一条直线上。
-
多元总体的正态性检验采用 χ 2 \chi^2 χ2统计量的Q-Q图检验法,计算样本到中心 X ˉ \bar X Xˉ的马氏距离并排序,用Q-Q图判断是否属于 χ 2 ( p ) \chi^2(p) χ2(p)分布,或用K-M检验法。马氏距离的定义如下:
D α = ( X ( α ) − X ˉ ) ′ S − 1 ( X ( α ) − X ˉ ) . D_\alpha=(X_{(\alpha)}-\bar X)'S^{-1}(X_{(\alpha)}-\bar X). Dα=(X(α)−Xˉ)′S−1(X(α)−Xˉ).
-
-
在python中做正态性检验示例
2020-12-28 22:47:30在python中做正态性检验示例利用观测数据判断总体是否服从正态分布的检验称为正态性检验,它是统计判决中重要的一种特殊的拟合优度假设检验。直方图初判 :直方图 + 密度线QQ图判断:(s_r.index - 0.5)/len(s_r) p(i... -
R语言学习笔记一:正态性检验与判断
2021-02-24 19:42:50一、正态性检验与判断 正态性检验(Normality test),是利用观测数据判断总体是否服从正态分布的检验称为正态性检验。 常用的正态性检验的方法有Kolmogorov-Smirnov(K-S)法和Shapiro-Wilk(S-W)法。 本文将使用... -
DorHanomunortest:Doornik-Hansen 综合多元(单变量)正态性检验。-matlab开发
2021-05-31 02:07:56Doornik-Hansen (1994) 基于转换后的偏度和峰度,引入了 Shanton 和 Bowman (1977) 正态性的单变量综合检验的多变量版本。 由于偏度和峰度不是独立分布的,峰度接近正态的速度非常缓慢,他们提出了一个假设偏度和... -
R多变量正态性检验(Multivariate Normality Tests)
2021-07-20 18:51:46R多变量正态性检验(Multivariate Normality Tests) 目录 R多变量正态性检验(Multivariate Normality Tests) ...然而,当我们想要检验几个变量是否符合多元正太分布的时候,我们必须执行多元正态性检.. -
可用于多元正态的参数估计 及 均值向量和协差阵检验 的R语言函数总结
2021-12-24 23:28:19R语言中对多元正态的样本进行参数估计和正态性、均值检验、协差阵检验可以用的简单函数 -
正态性检验
2019-11-09 16:49:29主要分为两种方法:描述统计方法和统计检验方法。01.描述统计方法描述统计就是用描述的数字或图表来判断数据是否符合正态分布。常用的方法有Q-Q图、P-P图、直方图、茎叶图。1.1 Q-Q图此Q-Q非用于聊天的QQ,Q是... -
正态性检验,多元线性和多项式回归,输出具体的回归函数
2017-07-12 15:04:20答:这个问题可以抽象为统计学的统计推断中的假设检验部分的正态性检验。 2. 如何模拟这些数据的函数特征,怎么看拟合的好不好? 答:这是个拟合问题,视情况用线性拟合和多项式拟合来拟合。通过拟合打分看拟合效果... -
R 正态分布与正态性检验
2020-12-07 10:44:24多元正态分布的密度函数 每一个分量都服从正态分布 分量的线性组合仍然是正态分布 如果协方差矩阵是对角阵,则分量是相互独立的、服从正态分布的随机变量(对于正态分布而言,不线性相关等价于独立)。 正态性的... -
Normaltest: 用于单变量与多变量正态性检验的SPSS(≥26)宏
2020-09-19 23:14:12Normaltest,用于单变量与多变量正态性检验的SPSS(≥26)宏。它包含了9种单变量正态性检验:偏度与峰度的Z检验,Anderson-Darling检验,Cramer-von Mises检验,D’Agostino-Pearson检验,Jarque-Bera检验,... -
ACR:单多元正态检验的上百分位数平方马氏距离临界值-matlab开发
2021-05-31 03:09:40从Wilks(1963)给出的方法并通过Yang and Lee(1987)公式逼近F分布函数,我们提供了一个m文件来获取最大平方马氏距离的临界值,从而从正态多元变量中检测离群值样本。 -- 该函数的名称是为了感谢 Alvin C. ... -
【python数据分析】正态分布、正态性检验与相关性分析
2021-02-22 22:08:25正态分布、正态性检验与相关性分析1 正态分布2 正态性检验2.1 直方图初判2.2 QQ图2.3 K-S检验2.3.1推导过程2.3.2 直接一行代码调用3 相关性分析3.1 图示初判3.2 Pearson相关系数3.2.1 计算推导3.2.2 代码一步到位3.3... -
多元正态分布的协方差检验、独立性检验及R实现
2018-05-06 11:09:231.单个ppp元正态总体协方差阵的检验 具体步骤: 作统计假设(1):H0:∑=Ip,H1:∑≠IpH0:∑=Ip,H1:∑≠IpH_0:\sum =I_p,H_1:\sum \neq I_p 统计量:λ=supθ∈Θ0L(μ,Ip)supθ∈ΘL(μ,∑)=(en)np/2|S|n/2exp[−12... -
多元正态分布的均值向量的检验及R实现
2018-05-05 21:59:35ppp维正态总体NP(μ,∑)NP(μ,∑)N_P(\mu,\sum)的均值向量检验,X1,X2,⋯,XnX1,X2,⋯,XnX_1,X_2,\cdots,X_n是来自正态总体的样本: 1.∑∑\sum已知时单个总体均值向量的检验: 具体步骤: 作统计假设:H0:μ=... -
Matlab正态分布检验
2018-08-14 01:00:08通常总是假定总体服从正态分布,虽然在许多情况下这个假定是合理的,但是当要以此为前提进行重要的参数估计或假设检验,或者人们对它有较大怀疑的时候,就确有必要对这个假设进行检验,进行总体正态性检验的方法有很... -
数据分析之正态分布检验及python实现
2019-02-22 10:30:54正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯... -
03 ,seaborn 颜色 : 正态分布图,多元正态分布,核密度估计图
2020-07-08 17:16:451 ,多元正态分布 : 数据 代码 : x, y = np.random.multivariate_normal([0, 0], [[1, -.5], [-.5, 1]], size=300).T 2 ,核密度估计图 :sns.kdeplot 含义 : 根据已有数据,画图连线,推测数据走向 3 ,... -
多元统计分析上机题之R语言实现(多元正态分布)
2015-10-18 16:33:07还参考了王斌会老师的《多元统计分析及R语言建模》本文内容主要为第4章多元正态分布的上机题,图略。 [rmd文档见](http://pan.baidu.com/s/1ntkuXQT) 可以直接用Rstudio打开(之前先安装knitr包)4.2 -
《R语言数据挖掘:实用项目解析》——2.7 列联表、二元统计及数据正态性检验...
2017-07-03 10:25:00本节书摘来自华章计算机《R语言数据挖掘:实用项目解析》一书中的...2.7 列联表、二元统计及数据正态性检验 列联表是由两个或多个分类变量及每个分类所占比例构成的频率表。频率表展示的是一个分类变量,而列联表用... -
机器学习系列(二)多元正态分布
2021-03-07 11:11:14(Univariate normal distribution), ,则其概率密度函数为:整个分布可以仅用均值及方差来刻画如果变量之间不相关,则它们相互独立经典统计检验通常基于正态分布假设正态分布可以模拟大量自然现象多元正态分布多元... -
残差复合正态分布的重要性
2020-02-16 21:34:17论线性回归中残差图的重要性 </h1> <div class="clear"></div> <div class="postBody"> Y1 X1 ...