精华内容
下载资源
问答
  • spss多元统计练习

    2014-07-05 08:24:21
    一份关于数学软件spss,相应多元统计模块的练习以及相应的答案。
  • 多元统计分析上机之R语言实现(多元正态分布)-附件资源
  • 多元统计分析上机之R语言实现(多元正态分布)

    万次阅读 多人点赞 2015-10-18 16:33:07
    引言本学期也开了一门多元统计分析课程,也趁机想把课后上机实现一遍,以增强理解。教材使用的是约翰逊的《多元统计分析》第六版,中英文版教材、数据集、讲义见 还参考了王斌会老师的《多元统计分析及R语言建模...

    引言

    本学期也开了一门多元统计分析课程,也趁机想把课后上机题实现一遍,以增强理解。

    教材使用的是约翰逊的《多元统计分析》第六版,中英文版教材、数据集、讲义见
    还参考了王斌会老师的《多元统计分析及R语言建模》

    本文内容主要为第4章多元正态分布的上机题,图略。
    [rmd文档见](http://pan.baidu.com/s/1ntkuXQT
    可以直接用Rstudio打开(之前先安装knitr包)

    4.28

    data_4.28<-read.table("E:\\研究生\\应用多元统计\\JohnsonWichern Data sets\\T1-5.DAT")
    #正态Q-Q图
    qqnorm(data_4.28$V2)
    #正态性检验
    #原始数据排序
    new_data<-sort(data_4.28$V2)
    length(new_data)
    #对应概率值
    
    prob<-function(i,n=42){#构建一个概率值的函数
      return((i-0.5)/n)
    }
    all_pro<-sapply(1:42,prob)#所有概率值
    #对应的标准正态分位数
    all_q<-qnorm(all_pro)
    #Q-Q图的相关系数
    rq<-cor(new_data,all_q)
    #由于Q-Q图的相关系数rq为0.9693258,小于表4-2中n=40对应的临界点,所以拒绝正态性假设。

    4.29

    #(a)
    #计算样本协方差矩阵
    s<-cov(data_4.28[,5:6])
    #s的逆
    s_solve<-solve(s)
    x_bar<-apply(data_4.28[,5:6],MARGIN=2,mean)#两列平均数
    x_bar<-matrix(as.vector(x_bar),42,2,by=2)
    two_col<-t(data_4.28[,5:6]-x_bar)#两列x-x_bar
    #计算所用统计距离dis
    dis<-c()
    for(i in 1:length(two_col[1,])){
      dis[i]<-t(two_col[,i])%*%s_solve%*%two_col[,i]
    }
    ####################################
    #(b)
    #自由度为2概率密度为0.5的卡方分布临界值
    chisq_num<-qchisq(0.5,2)
    #所占比例
    pro<-length(which(dis<chisq_num))/length(dis)
    ####################################
    #(c)
    #对广义平方距离dis进行排序
    sort_data<-sort(dis)
    #概率密度为4.28中的all_pro
    #对应的自由度为2的卡方分位数
    
    all_chiisq<-sapply(all_pro,qchisq,df=2)#所有概率值
    #画出卡方图 也就是(all_chiisq,sort_data)对应的散点图
    library(ggplot2)
    qplot(all_chiisq, sort_data, geom='point')

    4.30

    #读入数据
    data_4.30_x1<-c(1:9,11)
    data_4.30_x2<-c(18.95,19.00,17.95,15.54,14.00,12.95,8.94,7.49,6.00,3.99)
    
    #构建幂变化函数
    ##幂类变化函数(Box-Cox)
    box_cox<-function (x,λ){
      if (λ==0) { 
        return(log(x))
      }else{
        return((x^λ-1)/λ)
      }
    }
    l_value<-function(X,lamda){
      x_new<-sapply(X,box_cox,λ=lamda)
      x_bar<-mean(x_new)
      l_val<-log(mean((x_new-x_bar)^2))*(-length(x_new)/2)+(lamda-1)*sum(log(X))
      return(l_val)
    }
    
    #生成多个λ,求使l_value最大的λ_hat值
    λ<-seq(-1,2,0.1)
    all_l<-c()
    for(n in 1:length(λ)){
      all_l[n]<-l_value(data_4.30_x1,lamda=λ[n])
    }
    #取使变化后的l_value最大的λ值
    max_λ<-λ[which(all_l==max(all_l))]
    #进行数据幂变化
    new_data<-sapply(data_4.30_x1,box_cox,λ=max_λ)
    #变化后的Q-Q图
    qqnorm(new_data)
    ###################################
    #(b)
    #基本同(a)题
    λ<-seq(-1,2,0.1)
    all_l<-c()
    for(n in 1:length(λ)){
      all_l[n]<-l_value(data_4.30_x2,lamda=λ[n])
    }
    #取使变化后的l_value最大的λ值
    max_λ<-λ[which(all_l==max(all_l))]
    #进行数据幂变化
    new_data<-sapply(data_4.30_x2,box_cox,λ=max_λ)
    #变化后的Q-Q图
    qqnorm(new_data)
    #################################
    #(c)略
    #题4.31-4.38均按照4.28-4.30的解题思路进行即
    #考虑边缘正态性:先做Q-Q图做个粗略的了解 然后计算Q-Q图的相关系数 并与书中表4.2进行比较 得出是否拒绝正态性的假设
    #考虑二维正态性 采用4.29的方法 做卡方图
    #变换可以采用平方根变换 对数变换 z变换 ,见书本p147页,还可以使用4.30中的幂变换,然后将变换后的数据画Q-Q图进行判断。

    4.39

    data_4.39<-read.table("E:\\研究生\\应用多元统计\\JohnsonWichern Data sets\\T4-6.DAT")[,1:5]
    #(a)
    #正态性检验
    #计算Q-Q图的相关系数 将题4.28的代码进行封装
    norm_test<-function(data){
      #原始数据排序
      new_data<-sort(data)
      len_data<-length(new_data)
      prob<-function(i,n){#构建一个概率值的函数
        return((i-0.5)/n)
      }
      #对应概率值
      all_pro<-sapply(1:len_data,prob,n=len_data)#所有概率值
      #对应的标准正态分位数
      all_q<-qnorm(all_pro)
      #Q-Q图的相关系数
      return(cor(new_data,all_q))
    }
    ##对于独立性
    #Q-Q图
    qqnorm(data_4.39$V1)#大部分在一条直线上
    norm_test(data_4.39$V1)
    #在显著性水平为0.05的情况下,当n=150时,0.988小于于表4.2中的0.9913拒绝正态性假定。
    #也可以采用shapiro-wilk检验
    #使用在mvnormtest包里mshapiro.test,具体可以使用?mshapiro.test查看使用方法
    ##对于支撑力
    qqnorm(data_4.39$V2)#大部分在一条直线上
    norm_test(data_4.39$V2)
    #在显著性水平为0.05的情况下,当n=150时,0.989小于表4.2中的0.9913拒绝正态性假定
    ##对于仁爱心
    qqnorm(data_4.39$V3)#大部分在一条直线上
    norm_test(data_4.39$V3)
    #在显著性水平为0.05的情况下,当n=150时,0.993大于表4.2中的0.9913不拒绝正态性假定
    #对于顺从性
    qqnorm(data_4.39$V4)#大部分在一条直线上
    norm_test(data_4.39$V4)
    #在显著性水平为0.05的情况下,当n=150时,0.993大于表4.2中的0.9913 不拒绝正态性假定
    #对于领导能力
    qqnorm(data_4.39$V5)#大部分在一条直线上
    norm_test(data_4.39$V5)
    #在显著性水平为0.05的情况下,当n=150时,0.981小于表4.2中的0.9913 拒绝正态性假定
    ###################################
    #(b)
    ##使用卡方图进行判定
    #构造画卡方图的函数 方法同题4.29
    chis_chart<-function(x){
      #计算样本协方差矩阵
      s<-cov(x)
      #s的逆
      s_solve<-solve(s)
      x_bar<-apply(x,MARGIN=2,mean)#两列平均数
      two_col<-t(x-x_bar)#两列x-x_bar
    #计算所用统计距离dis
      dis<-c()
      for(i in 1:length(two_col[1,])){
        dis[i]<-t(two_col[,i])%*%s_solve%*%two_col[,i]
      }
      #对广义平方距离dis进行排序
      sort_data<-sort(dis)
      #prob在题4.28中构造
      all_pro<-sapply(1:length(x[,1]),prob,n=130)#所有概率值
      #对应的自由度为5的卡方分位数
      all_chiisq<-sapply(all_pro,qchisq,df=5)#所有概率值
      #画出卡方图 也就是(all_chiisq,sort_data)对应的散点图
      library(ggplot2)
      qplot(all_chiisq, sort_data, geom='point')
    }
      chis_chart(data_4.39)
      #很明显,卡方图上点不是接近于一条直线,偏一条曲线,所以多元正态性不满足,可知,边缘正态性不满足的情况下,多元正态性也很少满足
    #
    ###################################
    #(c)
    #在(a)中,独立性、支撑力、领导力的分布不符合正态性
    ##幂变化函数构造见题4.30
    ##对于独立性
    #生成多个λ,求使l_value最大的λ_hat值
    λ<-seq(-1,2,0.1)
    all_l<-c()
    for(n in 1:length(λ)){
      all_l[n]<-l_value(data_4.39$V1,lamda=λ[n])
    }
    #取使变化后的l_value最大的λ值
    max_λ<-λ[which(all_l==max(all_l))]
    #进行数据幂变化
    new_data<-sapply(data_4.39$V1,box_cox,λ=max_λ)
    #变化后的Q-Q图
    qqnorm(new_data)
    ##对于支撑力
    all_l<-c()
    for(n in 1:length(λ)){
      all_l[n]<-l_value(data_4.39$V2,lamda=λ[n])
    }
    #取使变化后的l_value最大的λ值
    max_λ<-λ[which(all_l==max(all_l))]
    #进行数据幂变化
    new_data<-sapply(data_4.39$V2,box_cox,λ=max_λ)
    #变化后的Q-Q图
    qqnorm(new_data)
    ##对于领导力
    all_l<-c()
    for(n in 1:length(λ)){
      all_l[n]<-l_value(data_4.39$V5,lamda=λ[n])
    }
    #取使变化后的l_value最大的λ值
    max_λ<-λ[which(all_l==max(all_l))]
    #进行数据幂变化
    new_data<-sapply(data_4.39$V5,box_cox,λ=max_λ)
    #变化后的Q-Q图
    qqnorm(new_data)
    

    4.40

    data_4.40<-read.table("E:\\研究生\\应用多元统计\\JohnsonWichern Data sets\\T1-11.DAT")
    library(ggplot2)
    #散点图检查
    qplot(data_4.40$V1, data_4.40$V2, geom='point')
    #从散点图可以看出在x轴和y轴分别有一个离群值
    #标准化值来检查
    cen_data<-scale(data_4.40)
    #每一列的最大离群值为
    apply(abs(cen_data),2,max)
    #与取标准化数据比较,第一列第13行,第二列第7行与其他数据存在较大偏离
    #(b)(c)略4.40略
    展开全文
  • 多元统计分析

    2015-09-30 16:56:37
    多元统计分析,用于商业数据,生物数据等各类数据
  • 1.矩估计和极大似然的求解步骤+无偏性和有效性+置信区间的求解步骤(做套路) https://www.bilibili.com/read/cv3927852 2.正态总体的七种置信区间估计(对应正态总体单双样本的7个抽样定理) ...

    太长了,写成了3篇,点下一篇就能看到了
    1.矩估计和极大似然的求解步骤+无偏性和有效性+置信区间的求解步骤(做题套路)
    https://www.bilibili.com/read/cv3927852
    2.正态总体的七种置信区间估计(对应正态总体单双样本的7个抽样定理)
    https://www.bilibili.com/read/cv3927891
    3.习题二 答案(部分个人解答,有错的话一定要找我)
    https://www.bilibili.com/read/cv3927936

    展开全文
  • 引言主成分分析是一门降维的技术,即将多个...本节数据可从多元统计分析上机之R语言实现(多元正态分布)下载。8.10data_8.10("/home/wangjianlong/files/college/duoyuantongji/JohnsonWichern Data sets/T8-4.DAT")

    引言

    主成分分析是一门降维的技术,即将多个指标用少数几个综合指标表示出来。主成分分析可以用于变量的降维和数据的解释。
    本节数据可从多元统计分析上机题之R语言实现(多元正态分布)下载。

    主成分分析基本步骤

    1.将原始数据标准化,用scale()函数
    2.求标准化数据的协方差阵,用cov()函数:或者求数据的相关阵用cor()函数
    3.求协方差阵或者相关矩阵的特征值和单位特征向量,用eigen()函数,其中$values是按从达到小对应的特征值,$vectors是对应的单位特征向量
    4.主成分分析,用princomp(x,cor...)函数,x为矩阵,cor为确定x是否为相关系数矩阵
    5.确定主成分个数,可以用screeplot()函数,用可视化的方法来确定主成分个数,选取一个拐弯点对应的序号
    6.解释主成分,用PCA$loadings显示主成分载荷矩阵,PCA为主成分分析赋值的变量。
    7.确定各样本的主成分得分,用PCA$scores 来确定,并根据样本各主成分的分值来对样本进行解释。
    

    8.10

    data_8.10<-read.table("/home/wangjianlong/files/college/duoyuantongji/JohnsonWichern Data sets/T8-4.DAT")
    #(a)
    ##样本协方差矩阵
    cov_x<-cov(data_8.10)
    ##样本主成分
    prin_fac<-princomp(cov_x)
    #(b)
    lamda<-eigen(cov_x)
    ##第一主成分占比重
    sum(lamda$values[1:3])/sum(lamda$values)
    ##解释
    prin_fac$loadings
    ##第一主成分中可解释为市场因子,第二主成分可解释为工业因子,第三主成分较难解释
    #(c)略
    #(d)screeplot(print_fac,type="lines")
    由碎石图可知,主成分个数选两个比较合适的值
    sum(lamda$values[1:2])/sum(lamda$values)
    #两个主成分的方差贡献率大于80%,因此认为在小于五维空间可行

    8.10_1

    8.11

    ##a
    data_8.11<-read.table("/home/wangjianlong/files/college/duoyuantongji/JohnsonWichern Data sets/T8-5.DAT")
    data_8.11$v5<-data_8.11$v5*10
    cov_x<-cov(data_8.11)#协方差矩阵
    ##(b)
    lamda<-eigen(cov_x)#特征值和特征向量
    prin_fac<-princomp(cov_x,scores=TRUE)
    spc_mat<-lamda$vectors[,1:2]#前两个特征值对应的单位特征向量
    #t(spc_mat)*x#x为变量x1:x5
    ##(c)
    sum(lamda$values[1:2])/sum(lamda$values)#前两个主成分解释的比例为79.8%
    spc_mat<-lamda$vectors[,1:2]#前两个特征值对应的单位特征向量
    prin_y<-t(t(spc_mat)%*%t(data_8.11))
    cor_mat<-matrix(0,2,6)
    #循环比较
    for( i in 1:2) {
      for (j in 1:6) {
    cor_mat[i,j]<-cor(prin_y[,i],data_8.11[,j])
      }
        }
    cor_ma#相关系数矩阵
    prin_fac$loadings
    #由载荷矩阵可知,第一主成分由在16岁以上雇佣率和政府雇佣率上的载荷值较大,反映就业情况的主成分
    #由载荷矩阵可知,第二主成分由在16岁以上雇佣率和政府雇佣率、家庭收入中位数上的载荷值较大,主要反映社会生活质量的主成分
    #我们对未改变单位的数据求解主成分的载荷矩阵,并与这一题的载荷矩阵相比较,发现改变单位对第一样本主成分影响较小,但对主成分影响较大。

    8.12

    data_8.12<-read.table("/home/wangjianlong/files/college/duoyuantongji/JohnsonWichern Data sets/T1-5.DAT")
    #协方差矩阵
    cov_x<-cov(data_8.12)
    prin_fac<-princomp(cov_x)
    screeplot(prin_fac,type='lines')#从碎石图可知选择一个主成分较为合理
    lamda<-eigen(cov_x)#特征值和特征向量
    sum(lamda$values[1])/sum(lamda$values)#前两个主成分解释的比例为87.3%
    #相关系数矩阵
    cor_x<-cor(data_8.12)
    prin_fac1<-princomp(cor_x,cor="TRUE")
    screeplot(prin_fac1,type='lines')#从碎石图可知选择三个主成分较为合理
    lamda<-eigen(cor_x)#特征值和特征向量
    sum(lamda$values[1:3])/sum(lamda$values)#前两个主成分解释的比例为70.4%
    prin_fac1$loadings#由于是文科生不能对这些数据做出更多的解释
    #比较可得,选择不同矩阵其主成分不太一样。
    #这些数据可以由比三维更少的维度来分析,比如由协方差矩阵带来的分析

    8.12_1
    8.12_2

    8.13略(跟前面的做法区别不大)

    8.14

    data_8.14<-read.table("/home/wangjianlong/files/college/duoyuantongji/JohnsonWichern Data sets/T5-1.DAT")
    cov_x<-cov(data_8.14)
    prin_fac<-princomp(cov_x)
    screeplot(prin_fac,type='lines')#从碎石图可知选择一个主成分较为合理
    lamda<-eigen(cov_x)#特征值和特征向量
    spc_mat<-lamda$vectors[,1]#前两个特征值对应的单位特征向量
    prin_y<-t(t(spc_mat)%*%t(data_8.14))
    qqnorm(prin_y)
    qqline(prin_y)
    由Q-Q图可知,在图的右上角,存在可疑点。

    8.14_1

    注:由于最近时间较为繁忙,先做出小部分题。

    展开全文
  • 放在b站上了: https://www.bilibili.com/read/cv3911979
    展开全文
  • 放b站上了,超级详细的,把能出的都写出来了,个人认为。 https://www.bilibili.com/read/cv3965524
  • 2020春多元统计分析及R语言建模习题

    千次阅读 多人点赞 2020-03-21 14:33:27
    文章目录第一章测试第二章测试第三章测试第四章测试第五章测试第六章测试第七章测试第八章测试第九章测试第十章测试第十一章测试第十二章测试第十三章测试 第一章测试 第二章测试 ...
  • 最重要的还是了解多元统计的思想和解决问题分析步骤。 因子分析也是一种降维技术,但是它跟主成分分析又有很大不同。主成分分析主要是将多个变量线性组合为少数几个变量来表示原来绝大部分信息。而因子分析主要是...
  • 应用多元统计分析-1-5章 应用多元统计分析-1-5章 应用多元统计分析-1-5章
  • 本文用到的数据可以去这个网址下下载多元统计分析及R语言建模(第5版)数据 练习 2)表3-2是2004年广东省各市高新技术产品情况。试对资料按照本章介绍的多元图示方法做直观分析 library(openxlsx) d3.2 = read....
  • https://www.bilibili.com/read/cv4042907
  • 文章会用到的数据请在这个网址下下载多元统计分析及R语言建模(第五版)数据 练习 1)对下面的相关系数矩阵,试用R语言求其逆矩阵,特征根和特征向量…,要求写出R语言计算函数 R= 要求写出R语言计算函数。 A = ...
  • 本文用到的数据可以去这个网址下下载多元统计分析及R语言建模(第5版)数据 练习 1)一家保险公司想了解其总公司营业部加班时间与签发的新保单数目之间的关系,经过10周时间,收集了每周加班工作时间x(小时)和...
  • 第6章 判别分析 文章会用到的数据请在这个网址下下载多元统计分析及R语言建模(第五版)数据
  • 本课程讲授多元统计分析的基本原理及其应用,注重统计思想、知识的实用性及在社会经济领域中的应用。 借助于统计软件SAS,并适当结合JMP,通过大量的国内外经典案例介绍各种数据分析方法,使学生在掌握基础理 论和...
  • 高惠璇版的课后答案。想要的来。(应用多元统计分析课后习题答案详解第二章到第八章)
  • 多元统计:判别分析

    2020-06-09 13:11:26
    多元统计:判别分析一. 判别分析介绍二. 距离判别法1. 欧几里得距离与马氏距离的区别和联系1.1欧几里得距离1.2马氏距离2. 距离判别法的基本思想和方法3. 距离判别法例三. 贝叶斯判别法1. 贝叶斯判别法原理2. ...
  • * 第二章 多元正态分布及参数的估计 由定理2.3.1可知X(1) +X(2)和X(1) -X(2) 相互独立. 最新课件 * 第二章 多元正态分布及参数的估计 (2) 因 所以 注意:由D(X)0,可知 (1-2) 0. 最新课件 * 第二章 多元正态分布及参数...
  • 《应用多元统计分析》为北京大学数学科学学院概率统计系“应用多元统计分析”课程使用多年的教材,它主要介绍一些实用的多元统计分析方法的理论及其应用,并列举了各方面的应用实例,同时还以国际上著名的统计分析...
  • 实用多元统计分析 Applied Multivariate Statistical Analysis(中英文版),希望能帮助大家。学习多元统计的资源。
  • 多元统计分析基于R [费宇 主编] 2014年版
  • 写在b站专栏上了: https://www.bilibili.com/read/cv3942138

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 4,523
精华内容 1,809
关键字:

多元统计题