精华内容
下载资源
问答
  • MATLAB 多元数据统计分析

    千次阅读 2016-10-21 12:43:56
    分析:P-P图或者Q-Q图,如果数据均匀分布在y=x直线两侧,则认为服从正态分布 代码如下: %导入数据,命名为y矩阵,n行4列,n是病人数,4代码四元数据 p=4;%四元数据 s=cov(y); bar=mean(y); D=[]; pt=[]; ...

    身体指标化验数据为四元数据,即指标x=(脂蛋白x1,甘油三脂x2,a蛋白x3,b蛋白x4),一系列病人的身体化验数据构成了四元总体。

    问题1:检验数据是否服从正态分布。

    分析:P-P图或者Q-Q图,如果数据均匀分布在y=x直线两侧,则认为服从正态分布

    代码如下:

    %导入数据,命名为y矩阵,n行4列,n是病人数,4代码四元数据
    p=4;%四元数据
    s=cov(y);
    bar=mean(y);
    D=[];
    pt=[];
    for i=1:20
      %tmp=[x(i,1),x(i,2),x(i,3),x(i,4)]';
      D(i)=(y(i,:)-bar)*inv(s)*(y(i,:)-bar)';
      %pt=(i-0.5)/20;
      %chi(i)=chi2inv(pt,p);
    end
    D=sort(D);
    %%%%%%%%pp图%%%%%%%%%%%
    pt=((1:20)-0.5)/20;
    H=chi2cdf(D,p)
    plot(pt,H,'o');
    hold on
    i=0:0.05:1;
    plot(i,i)
    title('P-P图')
    %%%%%%%%%%%%%%qq图%%%%%%
    figure
    chi=[];
    chi=chi2inv(pt,p);%卡方分布函数的逆函数
    plot(D,chi,'o');
    hold on
    i=0:12;
    plot(i,i),title('Q-Q图')
    问题2:假设病人分为三组,分别为20-35岁女性、20-25岁男性,35-50岁男性,检验这三组指标有无显著性差异

    (key:三个总体均值的比较,原假设是没有显著差异)

    代码如下:

    %三组指标均值的比较,有无显著差异,60*4的矩阵x,1-20行是总体1,21-40行是总体2,41-60行是总体3
    n=60;%共60个病人数据
    bar=mean(x)';
    T=(n-1)*cov(x);
    y1=x(1:20,:);y2=x(21:40,:);y3=x(41:60,:);%三个分总体
    a1=(20-1)*cov(y1);
    a2=(20-1)*cov(y2);
    a3=(20-1)*cov(y3);
    A=a1+a2+a3;
    gama=det(A)/det(T);
    f=(54/4)*(1-sqrt(gama))/sqrt(gama)
    k=3;
    pval=1-fcdf(f,2*p,2*(n-p+1-k))
    if pval<0.05
         disp('拒绝原假设,有显著差异')
    else
        disp('接受原假设')
    end
    
    问题3:比较三个组的协方差矩阵有无显著差异

    分析:原假设是没有显著差异

    代码如下:

    y1=x(1:20,:);y2=x(21:40,:);y3=x(41:60,:);%三个分总体
    p=4;k=3;n=60;%p代表四元总体,k表示三个总体
    s1=cov(y1);s2=cov(y2);s3=cov(y3);
    d=(2*p^2+3*p-1)*(k-1)/(6*(p+1)*(n-k));
    f=(1/2)*(p+1)*(k-1)*p;
    part1=(n-k)*log(det(A./(n-k)));
    S=[log(det(s1)),log(det(s2)),log(det(s3))];
    part2=sum(19*S);
    M=part1-part2
    kesai=(1-d)*M;
    p_val=1-chi2cdf(kesai,f)
    if p_val<0.05
       disp('拒绝原假设')
    else
        disp('接受原假设')
    end   
    

    问题4:比较总体1和2之间的指标有无差异

    根据问题2得,总体1和2之间的协方差没有差异,所以选择F统计量

    代码如下:

    y1=x(1:20,:);y2=x(21:40,:);y3=x(41:60,:);%三个分总体
    %检验y1,y2
    n=20;m=20;p=4;
    bar1=mean(y1)';bar2=mean(y2)';
    A1=cov(y1)*19;A2=cov(y2)*19;
    D2=(n+m-2)*(bar1-bar2)'*inv(A1+A2)*(bar1-bar2);
    T2=n*m*D2/(n+m);
    F=(n+m-p-1)*T2/((n+m-2)*p);%F统计量
    p=1-fcdf(F,p,n+m-p-1);%p值
    if p_val<0.05
       disp('拒绝原假设,有显著差异')
    else
        disp('接受原假设,无差异')
    end 
    





    展开全文
  • 【R描述统计分析多元数据


    在R中,计算多元数据的均值与方差采用数据框的结构输入数据,计算比较方便。

    二元数据的数据特征及相关系数

    例如对矿石中的两种成分进行统计分析:
    在这里插入图片描述

    ore<-data.frame(
         x=c(67, 54, 72, 64, 39, 22, 58, 43, 46, 34),
         y=c(24, 15, 23, 19, 16, 11, 20, 16.1, 17, 13)
    )
    ore.m<-mean(ore); ore.m
    ore.s<-cov(ore); ore.s
    ore.r<-cor(ore); ore.r
    
    attach(ore)
    cor.test(x,y)
    
    cor.test(x,y, method="spearman")
    
    cor.test(x,y, method="kendall")
    

    mean( ) 函数 计算均值
    cov( ) 函数 计算协方差
    cor( ) 函数 计算相关矩阵(相关系数)
    cov.wt 计算加权协方差
    cor.test 计算相关性检验
    cov(ore) = var(ore)

    二元数据的相关性检验

    对于二元数据:
    在这里插入图片描述
    可以计算出样本的相关系数r
    且总体的相关系数为:
    在这里插入图片描述
    当样本的个数n充分大时,样本的相关系数r可以作为总体相关系数的估计,即样本个数较大时,样本相关,总体也相关。
    问题是:当样本个数n取到多少时,样本相关才能得到总体相关?

    Ruben置信区间的近似逼近公式

    Ruben(鲁宾)给出了总体相关系数的区间估计的近似逼近公式
    设n是样本个数,r是样本相关系数,u是标准正态分布的上α/2分位点,则计算
    在这里插入图片描述
    按照上述计算公式,编写R程序:

    ruben.test<-function(n, r, alpha=0.05){
       u<-qnorm(1-alpha/2)
       r_star<-r/sqrt(1-r^2)
       a<-2*n-3-u^2; b<-r_star*sqrt((2*n-3)*(2*n-5))
       c<-(2*n-5-u^2)*r_star^2-2*u^2
       y1<-(b-sqrt(b^2-a*c))/a
       y2<-(b+sqrt(b^2-a*c))/a
       data.frame(n=n, r=r, conf=1-alpha, 
          L=y1/sqrt(1+y1^2), U=y2/sqrt(1+y2^2))
    }
    

    将n,r调入已编好的ruben.test() 函数中
    在这里插入图片描述
    ①n=6,r=0.8
    置信区间为(﹣0.095,0.97),其置信下界是负数,即使r=0.8,也不能说明总体是相关的
    ②n=25,r=0.7
    置信区间为(0.41,0.85),此时基本能说总体是相关的

    关于置信区间的近似逼近方法还有David提出的图表方法,Kendall和Stuart提出的Fisher逼近方法等。

    Pearson相关性检验

    确认总体是否相关最有效的方法是作总体(X,Y)^T 的相关性检验,可以证明
    在这里插入图片描述
    服从自由度为n-2的t分布
    利用此分布的性质,可以对数据X和Y的相关性进行检验,该方法称为Pearson相关性检验。
    此外,还有Spearman秩检验和Kendall秩检验,R软件中的cor.test()提供了这三种检验方法。

    cor.test()使用方法

    cor.test(x,y,
    alternative = c("two.sided","less","spearman"),
    method = c("pearson","kendall","spearman"),
    exact = NULL, conf.level = 0.95,...)
    

    在这里插入图片描述
    另一种使用格式:

    cor.test(formula, data, subset, na.action, ...)
    

    多元数据的数字特征及相关矩阵

    关于相关性检验,R软件没有为多元数据提供更多的函数,仍是cor.test()作两两分量的相关性检验
    例:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    从计算结果可以看出,X1,X2,X3两两均是不相关的

    多元数据的图表示方法

    轮廓图

    outline<-function(x, txt=TRUE){
       # x is a matrix or data frame of data
       if (is.data.frame(x)==TRUE)
          x<-as.matrix(x)
       m<-nrow(x); n<-ncol(x)
       plot(c(1,n), c(min(x),max(x)), type="n", 
            main="The outline graph of Data",
            xlab="Number", ylab="Value")
       for(i in 1:m){
          lines(x[i,], col=i)
          if (txt==TRUE){
             k<-dimnames(x)[[1]][i]
             text(1+(i-1)%%n, x[i,1+(i-1)%%n], k)
          }
       }
    }
    

    在这里插入图片描述

    星图

    在这里插入图片描述
    R软件中给出了作星图的函数stars()

    stars(x)
    

    在这里插入图片描述
    调整stars中的参数:

    stars(x, full=FALSE, draw.segments = TRUE, 
    key.loc = c(5,0.5), mar = c(2,0,0,0) )
    

    在这里插入图片描述

    调和曲线图

    调和曲线图是Andrews提出来的三角表示法,其思想是将多维空间中的一个点对应于二维平面的一条直线,对于p维数据,假设X_r是第r观测值,即
    在这里插入图片描述
    则对应的调和曲线是
    在这里插入图片描述
    n次观测数据对应n条曲线,在同一张纸上就是一张调和曲线图,当各变量数据的数值相差太大时,先标准化再画图。
    按照上述计算式,编写调和曲线函数:

    unison<-function(x){
       # x is a matrix or data frame of data
       if (is.data.frame(x)==TRUE)
          x<-as.matrix(x)
       t<-seq(-pi, pi, pi/30)
       m<-nrow(x); n<-ncol(x)
       f<-array(0, c(m,length(t)))
       for(i in 1:m){
          f[i,]<-x[i,1]/sqrt(2)
          for( j in 2:n){
              if (j%%2==0) 
                 f[i,]<-f[i,]+x[i,j]*sin(j/2*t)
              else
                 f[i,]<-f[i,]+x[i,j]*cos(j%/%2*t)
          } 
       }
       plot(c(-pi,pi), c(min(f),max(f)), type="n", 
            main="The Unison graph of Data",
            xlab="t", ylab="f(t)")
      for(i in 1:m) lines(t, f[i,] , col=i)
    }
    

    unison(x)得到图像如下
    在这里插入图片描述

    展开全文
  • 让人如果对一些数据进行分析,通过公式对有效数据进行分析。达到人们想要的东西。
  • 何晓群 多元统计分析 第四版数据 有典型相关分析 因子分析 主成分分析等
  • Fisher数据(模式识别经典数据)的主元分析与多元统计Matlab程序
  • 多元统计分析

    2015-09-30 16:56:37
    多元统计分析,用于商业数据,生物数据等各类数据
  • 多元统计分析数据(1).zip
  • 多元统计分析概述 变量之间相依性分析 构造预测模型,进行预报控制 进行数值分类,构造分类模式 简化系统结构,探讨系统内核 多元数据的数学表示 多元数据的直观分析 多元线性相关分析 多元线性回归分析 广义和...

    笔记内容整理自Mooc,欢迎一起学习

    多元统计分析概述

    变量之间相依性分析
    构造预测模型,进行预报控制
    进行数值分类,构造分类模式
    简化系统结构,探讨系统内核

    多元数据的数学表示

    多元数据的直观分析

    多元线性相关分析

    多元线性回归分析

    广义和一般线性模型

    判别分析

    聚类分析

    主成分分析

    因子分析

    对应分析

    典型相关分析

    看着有点激动哈哈哈,之前建模一知半解,都是用spss搞的,一点激情都没有!这次嘿嘿嘿。

    多维标度 综合评价(看时间充裕情况)

    统计分析软件介绍:

    SAS 很强大也很大
    SPSS 傻瓜操作(不够)
    S-PLUS大量统计模型和分析手段
    数值计算:
    matlab(main in 计算和仿真 图像处理,数据处理,财务金融)
    r语言【本课程要用的】功能强大,免费开源,前景广阔(界面太过简单)

    R语言及其包

    stats:统计函数
    graphics:基于base图形的r函数
    grDevices 基于base和grid图形的图形设备
    utils 常用工具函数
    datasets基本r语言数据集
    methods 一般定义方法和类
    base 基本r语言函数

    期待课程更新

    展开全文
  • applied multivariate statistical analysis 里用到的数据
  • 商务数据分析与统计建模:chap2.2 多元回归分析R实现.ppt
  • 商务数据分析与统计建模:chap2.1 多元回归分析及其相关问题.ppt
  • R语言案例分析:多元数据的基本统计分析数据集下载 我们利用该数据集中的Case1来完成下面的R语言操作: > options(digits = 4) #输出结果位数> par(mar=c(4, 4, 2, 1) + 0.1, cex=0.8) # 图形修饰> case1 > head...

    R语言案例分析:多元数据的基本统计分析

    来自《多元统计分析与R语言建模》 第四版 

    数据集下载

    我们利用该数据集中的Case1来完成下面的R语言操作:

    options(digits = 4) #输出结果位数
    par(mar=c(4, 4, 2, 1) + 0.1, cex=0.8) # 图形修饰
    case1 <- read.csv("clipboard", header=T, sep = "\t") #复制表中的数据,直接创建case1
    head(case1)
         地区 性别 教育程度    观点     年龄 月收入 月支出
    1    A      女       中            不支持   55   2299   1423
    2    A      女       低   不支持   39   3378   2022
    3    A      女       中   支持       33   3460   1868
    4    B      男       高   支持       41   4564   1918
    5    B      女       高  不支持    55   3206   1906
    6    A      女       中  不支持    48   4043   2233

    summary(case1)
    地区    性别     教育程度     观点                           年龄              月收入               月支出     

    A:204   男:603   低:319   不支持:628       Min.   : 6.0          Min.   : 637         Min.   : 797   

    B:401   女:597   高:303   支持  :568   1st Qu.:34.0      1st Qu.:2388      1st Qu.:1722   

    C:384                 中:578    NA's  : 4        Median :40.0    Median :2978   Median :1993   

    D:211                         Mean   :40.1      Mean   :3006     Mean   :1997                                

    3rd Qu.:47.0      3rd Qu.:3624     3rd Qu.:2262                               

     Max.   :72.0        Max.   :6239      Max.   :3385

    # 定性分析
    
    attach(case1) #绑定数据
    T1 <- table(地区)

    
    
    T1

       A    B    C    D 
    204 401 384 211
    barplot(T1) #绘制条形图

    # 定量分析
    f <- hist(月收入) #直方图

    # 定性定量分析
    boxplot(月收入~性别) #箱线图

    t.test(月收入~性别) #t检验
    Welch Two Sample t-test
    data:  月收入 by 性别
    t = 0.51, df = 1200, p-value = 0.6
    alternative hypothesis: true difference in means is not equal to 0
    95 percent confidence interval:
     -75.43 128.49
    sample estimates:
    mean in group 男 mean in group 女 
                            3019                      2993

    # 接受男女的月收入无显著差异的假设(p>0.5)

    # 二维列联表分析
    T2 <- table(性别, 观点)
    T2
            观点
    性别 不支持 支持
      男    319    282
      女    309    286

    barplot(T2, beside = TRUE) # 条形图

    barplot(T2, beside = F) # 条形图

    # beside=T表示绘制分组条形图,beside=F表示绘制堆叠条形图

    # 多维列联表分析
    T3 <- ftable(性别, 教育程度, 观点) # 创建一个紧凑的"平铺"式列联表
    T3
                          观点     不支持 支持
    性别    教育程度                 
    男              低                81     88
          高                78     66
          中                160  128
    女     低                82     68
          高                86     72
          中                141  146


    barplot(T3, beside = TRUE, col = 3:4) #条形图

    T4 <- ftable(教育程度, 性别, 观点)
    T4
                               观点 不支持  支持
    教育程度      性别                 
    低       男           81     88
             女           82     68
    高       男           78     66
             女           86     72
    中       男           160  128
             女           141  146

    barplot(T4, beside = TRUE, col = 3:4) #条形图

    detach(case1) #解除绑定

    
    
    
    
    
    
    
    
    
    
    
    
    展开全文
  • 二、多元数据的描述展示 三、多元正态分布 四、均值向量的检验 五、判别分析和分类分析 六、主成分分析 七、因子分析 八、聚类分析 一、多元统计分析概述 1.1 多元分析的定义 多元统计分析是什么? 多元统计...
  • 数据分析方法是理论,而多元统计就是实现数据分析方法理论的工具,面对越来越庞大的数据,我们不能依靠计算器进行分析,必须依靠强大的数据分析工具帮我们完成数据分析工作。
  • 多元统计分析及R语言建模》例题数据 王斌会《多元统计分析及R语言建模》《多元统计分析及R语言建模》
  • 介绍多元统计分析中各数据处理方法,以及应用SPSS对数据进行相关性分析、主成分分析和因子分析等
  • 基于 CANOCO 的生态学数据多元统计分析
  • 多元统计分析作业

    2018-10-23 11:18:55
    多元统计作业进行多总体的均值方差检验 形象分析,学习多元统计的知识,这是大数据的预备知识
  • 一本书的例题数据.不知道是谁的书了.有的例题是非常经典的,许多书都有
  • 推荐大家一本R语言入门的非常好的教材——王斌会的《多元统计分析及R语言建模》。这里附上好不容易收集来的随书数据文件—— 王斌会的《多元统计分析及R语言建模》一书数据
  • 《应用多元统计分析》(第二版)数据与有关程序下载。 第2章 例2.3表2-1是五大钢铁公司反映经营状况的十大指标,为了比较国内钢铁公司韩国蒲项钢铁公司的差距,下面做出韩国蒲项钢铁公司、宝钢、鞍钢、武钢、首钢五...
  • 用Matlab对全国RPI指数统计数据多元回归分析.pdf
  • 主要包括对数据的描述性分析方法和解析性分析方法。解析性分析中主要代表是回归分析和判别分析。利用建立合理的解析性模型的方式,辨识系统中变量的内在联系,或判断样本点的总体及特性归属
  • (整理自有道云笔记) 本笔记是笔者自我学习书本《实用多元统计分析》时整理到的要点,文中的叙述多来自书本,加以自己的思考和批注,有助于对这门课程的巩固和学习。 ...
  • 《SPSS数据统计与分析应用教程:基础篇》是一本于2017年1月1日清华大学出版社出版的图书,作者是刘江涛、刘立佳。 定价:55元  印次:1-1  ISBN:9787302450924  出版日期:2017.01.01  印刷日期:2016.11.11 ...
  • 多元统计分析资料

    2018-09-07 15:32:41
    包括多元分析,聚类分析,判别分析,因子分析以及主成分分析
  • 《SPSS数据统计与分析应用教程:基础篇》是一本于2017年1月1日清华大学出版社出版的图书,作者是刘江涛、刘立佳。 定价:55元  印次:1-1  ISBN:9787302450924  出版日期:2017.01.01  印刷日期:2016.11.11 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 24,172
精华内容 9,668
关键字:

多元数据统计与分析