精华内容
下载资源
问答
  • 多元回归相关性分析
    2013-07-02 16:54:00

    be a bigdata man!!!

    转载于:https://my.oschina.net/kiloct/blog/141894

    更多相关内容
  • 一、相关分析回归分析变量间不存在完全的确定性,不能用精确的数学公式来表示——相关关系相关变量间的关系——平行关系和依存关系相关分析——研究平行关系,不区分自变量和因变量回归分析——研究依存关系,区分...

    侵权声明:

    本篇文章是查阅各种网络技术博客撰写的,仅供学习使用,如有侵权立即删除。

    下载使用数据,在公众号回复data。

    一、相关分析和回归分析

    变量间不存在完全的确定性,不能用精确的数学公式来表示——相关关系

    相关变量间的关系——平行关系和依存关系

    相关分析——研究平行关系,不区分自变量和因变量

    回归分析——研究依存关系,区分自变量和因变量

    二、简单线性相关系数

    1 公式

    总体:

    27581a46ea66e3a5081b1708bcbd01ef.png

    样本:

    aec3a2f17870759a176ca61f71bacd7c.png

    在R中计算简单线性相关系数会用到cor()

    它的标准格式:

    ea1d8eb10b6aa263a0f25c41131bcb75.png

    代码:

    setwd('F:/R project/multi_analysis') data1 x1 x2 cor(x1,x2)

    结果:

    [1] 0.9593031

    2 检验

    先说相关系数假设检验的理论知识:

    H0:ρ=0

    H1:ρ≠0

    检验统计量为:

    aef1f8a265f3276b46cae25113c7393b.png

    检验准则:

    P值 < α,拒绝原假设,可认为两个变量之间是显著相关的。

    在R中用到cor.test()进行检验,它的标准格式:

    8fadea381aff8f2a2b75c02f99c195fb.png

    代码:

    cor.test(x1,x2)

    结果:

    Pearson's product-moment correlation data:  x1 and x2 t = 10.743, df = 10, p-value = 8.21e-07 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval:  0.8574875 0.9888163 sample estimates:       cor  0.9593031 

    结果中“p-value = 8.21e-07”,当α取0.05时,可以拒绝原假设了,因此可以认为x1和x2之间显著相关。而且r = 0.9593031 ,说明x1和x2之间相关性还挺强的。

    以上是两个变量之间的线性相关性,而在多元中,我们常常用协方差矩阵或者相关矩阵

    来表示多个变量之间的相关性,用到的函数依旧是cov()和cor(),其实在这两个函数的标准格式

    里就表明了这一点。

    代码:

    data1 cor(data1[,-1]) pairs(data1[,-1],col = 'red')

    结果:

               y        x1        x2        x3        x4

    y  1.0000000 0.9871498 0.9994718 0.9912053 0.6956619

    x1 0.9871498 1.0000000 0.9907018 0.9867664 0.7818066

    x2 0.9994718 0.9907018 1.0000000 0.9917094 0.7154297

    x3 0.9912053 0.9867664 0.9917094 1.0000000 0.7073820

    x4 0.6956619 0.7818066 0.7154297 0.7073820 1.0000000

    9a6d5c9ad4ca4c69581c4b9e3dfaad56.png

    这个图是散点图矩阵,可以直观地查看变量间的关系。

    三、一般线性模型——lm()和nls()

    1 一元线性回归

    这个系列主要针对R语言的实际操作,原理部分可以参见统计学相关教材。

    代码:

    data1 attach(data1) fm #查看结果 fm

    结果:

    Call: lm(formula = y ~ x) Coefficients: (Intercept)            x        -1.197        1.116  

    这个拟合的模型为:y = -1.197+1.116x

    代码:

    #绘图 plot(x,y) lines(x,fitted(fm),col = 'red')

    结果:

    07a771e0427061345f4bdb5d4d6db0c0.png

    代码:

    #假设检验 #模型的检验 anova(fm)

    结果:

    Analysis of Variance Table Response: y           Df Sum Sq Mean Sq F value x          1 712077  712077   27427 Residuals 29    753      26                      Pr(>F)     x         < 2.2e-16 *** Residuals               --- Signif. codes:     0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05   ‘.’ 0.1 ‘ ’ 1

    可以看出,整个模型是显著的。

    代码:

    #回归系数的检验 summary(fm) detach(data1)

    结果:

    Call: lm(formula = y ~ x) Residuals:    Min     1Q Median     3Q    Max  -6.631 -3.692 -1.535  5.338 11.432  Coefficients:             Estimate Std. Error (Intercept) -1.19660    1.16126 x            1.11623    0.00674             t value Pr(>|t|)     (Intercept)   -1.03    0.311     x            165.61   <2e-16 *** --- Signif. codes:     0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05   ‘.’ 0.1 ‘ ’ 1 Residual standard error: 5.095 on 29 degrees of freedom Multiple R-squared:  0.9989,Adjusted R-squared:  0.9989  F-statistic: 2.743e+04 on 1 and 29 DF,  p-value: < 2.2e-16

    可以看出,回归系数是显著的。在一元回归模型中,F检验和 t检验的结果是一致等价的。

    2 多元线性回归

    和一元线性回归差不多,同样,理论部分请参见统计专业教材。

    代码:

    data1 attach(data1) fm fm

    结果:

    Call: lm(formula = y ~ x1 + x2 + x3 + x4) Coefficients: (Intercept)           x1           x2           x3    23.5321088   -0.0033866    1.1641150    0.0002919            x4    -0.0437416  

    拟合的模型为:

    y = 23.5321088-0.0033866 x1+1.1641150x2 +0.0002919x3

    -0.0437416x4

    代码:

    #检验 summary(fm) detach(data1)

    结果:

    Call: lm(formula = y ~ x1 + x2 + x3 + x4) Residuals:     Min      1Q  Median      3Q     Max  -5.0229 -2.1354  0.3297  1.2639  6.9690  Coefficients:               Estimate Std. Error t value Pr(>|t|)     (Intercept) 23.5321088  4.5990714   5.117 2.47e-05 *** x1          -0.0033866  0.0080749  -0.419    0.678     x2           1.1641150  0.0404889  28.751  < 2e-16 *** x3           0.0002919  0.0085527   0.034    0.973     x4          -0.0437416  0.0092638  -4.722 7.00e-05 *** --- Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 2.79 on 26 degrees of freedom Multiple R-squared:  0.9997,Adjusted R-squared:  0.9997  F-statistic: 2.289e+04 on 4 and 26 DF,  p-value: < 2.2e-16

    F检验的p-value: < 2.2e-16,说明模型是显著的。另外回归系数的检验中,x2和x4是显著的。

    3 非线性回归

    做非线性回归需要提前知道拟合模型的形式,并且要给定各个参数的初始值。

    代码:

    data1 plot(data1$x,data1$y)

    结果:

    8d670afb4d509a26c0d53ee9781d90ea.png

    观察散点图,发现和 y = a*x^2+b*x+c类似,于是用这个模型拟合非线性模型。

    代码:

    attach(data1) fit fit data1$fit library(ggplot2) ggplot(data1)+   geom_point(aes(x,y))+   geom_line(aes(x,fit),color = 'red')+   theme_classic()

    结果:

    ada28896dae6851bc5839cca4ad29b88.png

    拟合的图形是用ggplot2绘制的,这个在R数据科学之ggplot2入门中已经介绍过了。

    四、广义线性模型

    第三部分介绍的一般线性模型解决的是因变量y是连续型变量的情况,那如果y是其他类型的变量呢?

    (1)0-1变量——Logistic回归模型

    (2)有序变量——累计比数模型和对数线性模型

    (3)多分类变量——对数线性模型和多分类Logistic回归模型

    (4)连续伴有删失——Cox比例风险模型

    标准格式:

    33225df17ce77060a4d3e7e5f56d440a.png

    这里主要介绍Logistic模型,它用到Logit变换。

    e22819a91a051615a21c5d50b6e9bfd8.png

    因为这里的y只能取0-1,不太符合我们的研究思路,所以通常将问题转化为:分析y = 1的概率和解释变量之间的关系。即为:

    64062f656171e01721c36bff1aa6314c.png

    可是这样还是很麻烦,我们将其进行变换,就有了Logistic回归模型。

    ee34338c9e2c3e5009b23baa7b66364a.png

    这个模型确定之后,也能确定P与解释变量X的关系。我们以一个具体的例子进行分析。这个案例是在研究视力(x1)、年龄(x2)和驾车教育(x3)对是否出现事故(y)的影响。

    代码:

    data1 fit fit

    结果:

    Call:  glm(formula = y ~ x1 + x2 + x3, family = "binomial", data = data1) Coefficients: (Intercept)           x1           x2           x3      0.597610    -1.496084    -0.001595     0.315865   Degrees of Freedom: 44 Total (i.e. Null);  41 Residual Null Deviance:    62.18  Residual Deviance: 57.03 AIC: 65.03

    所以得到:

    4ee16d3c58451d3f705216dab8bb9d18.png

    我们可以进行简单的预测,视力正常、年龄在17岁、受过驾车教育的情况下,出现事故的概率怎么样?

    代码:

    temp p p

    结果:

            1 

    0.3521214 

    那么今天就说到这儿,这个系列下一篇更新主成分分析和因子分析方法~

    展开全文
  • 多元相关分析多元回归分析

    万次阅读 多人点赞 2018-10-27 17:13:02
    多元回归分析模型建立 线性回归模型基本假设 多元回归分析用途 多元线性相关分析 矩阵相关分析 复相关分析 曲线回归模型 多项式曲线 二次函数 对数函数 指数函数 幂函数 双曲线函数 变量间的...

    目录

    变量间的关系分析

    什么是相关分析

    什么是回归分析

    分析步骤

    回归分析与相关分析的主要区别

    一元线性相关分析

    一元线性回归分析

    建模

    方差分析检验

     t检验

    多元回归分析模型建立

    线性回归模型基本假设

    多元回归分析用途

    多元线性相关分析

    矩阵相关分析

    复相关分析

    曲线回归模型

    多项式曲线

    二次函数

    对数函数

    指数函数

    幂函数

    双曲线函数


    变量间的关系分析

    变量间的关系有两类,一类是变量间存在着完全确定的关系,称为函数关系,另一类是变量间的关系不存在完全的确定性,不能用精缺的数学公式表示,但变量间存在十分密切的关系,这种称为相关关系,存在相关关系的变量称为相关变量

    相关变量间的关系有两种:一种是平行关系,即两个或两个以上变量相互影响。另一种是依存关系,即是一个变量的变化受到另一个或多个变量的影响。相关分析是研究呈平行关系的相关变量之间的关系。而回归分析是研究呈依存关系的相关变量间的关系。表示原因的变量称为自变量-independent variable,表示结果的变量称为因变量-dependent variable

    什么是相关分析

    通过计算变量间的相关系数来判断两个变量的相关程度及正负相关。

    什么是回归分析

    通过研究变量的依存关系,将变量分为因变量和自变量,并确定自变量和因变量的具体关系方程式

    分析步骤

    建立模型、求解参数、对模型进行检验

    回归分析与相关分析的主要区别

    1.在回归分析中,解释变量称为自变量,被解释变量称为因变量,相关分析中,并不区分自变量和因变量,各变量处于平的地位。--(自变量就是自己会变得变量,因变量是因为别人改变的)

    2.在相关分析中所涉及的变量全部是随机变量,在回归分析中只有只有因变量是随机变量。

    3.相关分析研究主要是为刻画两类变量间的线性相关的密切程度,而回归分析不仅可以揭示自变量对因变量的影响大小,还可以由回归方程进行预测和控制。

    一元线性相关分析

    线性相关分析是用相关系数来表示两个变量间相互的线性关系,总体相关系数的计算公式为:

     δ^2x代表x的总体方差, δ^2y代表y的总体方差,δxy代表x变量与y变量的协方差,相关系数ρ没有单位,在-1到1之间波动,绝对值越接近1越相关,符号代表正相关或复相关。

    一元线性回归分析

    使用自变量与因变量绘制散点图,如果大致呈直线型,则可以拟合一条直线方程

    建模

    直线模型为:

     y是因变量y的估计值,x为自变量的实际值,a、b为待估值

    几何意义:a是直线方程的截距,b是回归系数

    经济意义:a是x=0时y的估计值,b是回归系数

    对于上图来说,x与y有直线的趋势,但并不是一一对应的,y与回归方程上的点的差距成为估计误差或残差,残差越小,方程愈加理想。

    当误差的平方和最小时,即Q,a和b最合适

    对Q求关于a和b的偏导数,并令其分别等于零,可得:

     式中,lxx表示x的离差平方和,lxy表示x与y的离差积和。

    方差分析检验

    将因变量y实测值的离均差平方和分成两部分即使:

    分为:

    实测值yi扣除了x对y的线性影响后剩下的变异

    和x对y的线性影响,简称为回归评方或回归贡献

    然后证明:

     t检验

    当β成立时,样本回归系数b服从正态分布,这是可以使用T检验判断是否有数学意义,检验所用统计量为

    例如t=10,那么可以判断α=0.05水平处拒绝H0,接受H1,那么x与y存在回归关系

    多元回归分析模型建立

    一个因变量与多个自变量间的线性数量关系可以用多元线性回归方程来表示

    b0是方程中的常数项,bi,i=1,2,3称为偏回归系数。

    当我们得到N组观测数据时,模型可表示为:

    其矩阵为:

    X为设计阵,β为回归系数向量。

    线性回归模型基本假设

    在建立线性回归模型前,需要对模型做一些假定,经典线性回归模型的基本假设前提为:

    1.解释变量一般来说是非随机变量

    2.误差等方差及不相关假定(G-M条件)

    3.误差正太分布的假定条件为:

    4. n>p,即是要求样本容量个数多于解释变量的个数

    多元回归分析用途

    1.描述解释现象,希望回归方程中的自变量尽可能少一些

    2.用于预测,希望预测的均方误差较小

    3.用于控制,希望各个回归系数具有较小的方差和均方误差

    变量太多,容易引起以下四个问题:
    1.增加了模型的复杂度

    2.计算量增大

    3.估计和预测的精度下降

    4.模型应用费用增加

    多元线性相关分析

    两个变量间的关系称为简单相关,多个变量称为偏相关或复相关

    矩阵相关分析

    设n个样本的资料矩阵为:

    此时任意两个变量间的相关系数构成的矩阵为:

    其中rij为任意两个变量之间的简单相关系数,即是:

    复相关分析

    系数计算:

    设y与x1,x2,....,回归模型为

    y与x1,x2,....做相关分析就是对y于y^做相关分析,相关系数计算公式为

    曲线回归模型

    多项式曲线

    二次函数

    y=a+bx+cx^2

    对数函数

    y=a+blogx

    指数函数

    y = ae^bx或y = ae^(b/x)

    幂函数

    y=ax^b (a>0)

    双曲线函数

    y = a+b/x

     实战操作见下一篇文章

    展开全文
  • R 多元相关与回归分析

    千次阅读 2022-01-15 15:46:17
    3.多元相关分析 3.1 多元数据散点图 操作步骤: plot(Case3) #矩阵散点图 结果: 结果解释: 多元数据散点图 3.2 多元数据相关系数矩阵 操作步骤: cor(Case3) #相关分析 结果: 结果解释: 相关系数矩阵 3.3 ...

    1.数据描述

    2.调入数据

    操作步骤:

    Case3=read.table("clipboard",header=T)
    

    结果:
    在这里插入图片描述

    结果解释:
    从剪切板读取数据

    3.多元相关分析

    3.1 多元数据散点图

    操作步骤:

    plot(Case3)  #矩阵散点图
    

    结果:
    在这里插入图片描述

    结果解释:
    多元数据散点图

    3.2 多元数据相关系数矩阵

    操作步骤:

    cor(Case3)   #相关分析
    

    结果:
    在这里插入图片描述

    结果解释:
    相关系数矩阵

    3.3 多元数据相关系数检验

    操作步骤:

    corr.test(Case3)
    

    结果:
    在这里插入图片描述

    结果解释:

    4.多元回归分析

    4.1 求多元线性回归方程

    操作步骤:

    fm=lm(y~.,data=Case3)  #线性回归
    

    结果:
    在这里插入图片描述

    结果解释:
    求多元线性回归方程

    4.2 回归方程的显著性检验(F检验)

    操作步骤:

    anova(fm)
    

    结果:
    在这里插入图片描述

    结果解释:
    F检验

    4.3 回归系数的显著性检验(t检验)

    操作步骤:

    summary(fm)
    

    结果:
    在这里插入图片描述

    结果解释:
    t检验

    5. 多元回归变量选择。分别利用向前引入法,向后剔除法和逐步筛选法进行变量选择,建立最优回归模型

    操作步骤:

    fm.step=step(fm,direction="forward")#向前引入法变量选择结果
    fm.step=step(fm,direction="backward")#向后剔除法变量选择结果
    fm.step=step(fm,direction="both")#逐步筛选法变量选择结果
    

    结果:

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    结果解释:

    分别利用向前引入法,向后剔除法和逐步筛选法进行变量选择,建立最优回归模型

    展开全文
  • 本文通过建立人口城市化率、非农业人口数量、产业非农化率、建成区面积关于产业结构的回归方程,分析了进入模型中的影响因素数量、主要影响因子及其影响系数,指出邯郸市在城市化进程中存在的问题,并提出具体的对策...
  • 为了研究安全生产与经济社会发展的关系,选择了其中27个样本国家的10万人死亡率和14个经济社会发展指标,运用多元回归分析方法,建立了10万人死亡率指标与经济社会指标之间的多元回归模型,分析影响安全生产状况的经济...
  • 1.尊敬的各位老师,我的问题如下:多元回归分析中相关性分析和回归分析变量的符号不一致。回归分析的结果与论文预期一致,但相关分析结果相反。这样的结果正常吗?这是为什么?相关分析的符号与预期不一致,是不是说...
  • 应用SPSS软件进行多组分爆炸性混合气体对CH4爆炸极限影响的相关性研究,并且建立回归模型,为矿井可燃性气体的进一步研究提供一种简便、实用的数据分析和探究方法。
  • 主要介绍了scikit-learn线性回归,多元回归,多项式回归的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
  • 毕业大半年了,现在还清晰的记得当时毕业论文不会用SPSS的痛苦,每天挣扎把度娘、知乎、知网、优酷、某宝等各大网站都逛了个遍,依然没有找到用SPSS完整的分析一份问卷的流程,几乎都是零零散散的一些知识,又或是几...
  • matlab多元回归工具箱 Excel数据分析工具进行多元回归分析.docmatlab多元回归工具箱 Excel数据分析工具进行多元回归分析导读:就爱阅读网友为您分享以下“Excel数据分析工具进行多元回归分析”资讯,希望对您有所...
  • 变量间的关系分析 变量间的关系有两类,一类是变量间存在完全...对应的分析方法:回归分析。 线性相关分析 如何去衡量两个变量或者多个变量间的相关程度呢? 需要引入线性相关系数ρ来衡量两变量的相关关系和密切程度
  • 并通过皮尔森相关性检验、拟合优度检验、F检验、t检验和残差分析的方法对模型进行优化,得到了准确可靠的多元线性回归模型,此楔型具有拟合程度高、简易、直观等优势,为多元线性回归模型在需水量分析中的应用提供了...
  • %本程序演示多元线性回归求解问题,2020.07clc, clearX1=[161819172016161519181817 18202116181919211917171821]';X2=[393839393848454848484648 45484855555658584949464449]';Y=[2424.524.5242524.5242424.524....
  • 只是python代码方便以后调用,理论部分需要看其他人的回归模型的预测import matplotlibimport matplotlib.pyplot as pltimport pandas as pdimport numpy as npimport seaborn as snsimport statsmodels.api as sm...
  • 根据PAST内各项分析的标签分类,将该教程具体设置如下:PAST软件介绍PAST的基本信息数据的输入和修改数据的转换和标准化图像绘制 (Plot标签)点线图和直方图散点图条形图和箱须图饼图堆叠条形图三元相图气泡图单变量...
  • 以大佛寺井田4#煤层为例,依据井田勘探阶段测试资料和煤层气井钻孔测试资料,通过相关性分析从诸多影响含气量因素中筛选出主控因素,优选运用多元逐步回归法结合主控因素建立了4#煤层含气量的预测模型,其预测值与实测值...
  • spss-多元线性回归分析

    千次阅读 2022-05-11 14:47:53
    多元线性回归方程是一个主要用来探讨一个因变量(Y)与多个自变量(X1,X2…Xn)之间函数线性关系的方法。 其表达式为: 应用条件: 原则上要求因变量是连续型变量,其预测值与实际观测值的差值(模型中的e)服从...
  • 数学建模—多元回归分析

    千次阅读 2020-07-08 13:42:45
    title: 数学建模—多元回归分析 tags: 建模 EverydayOneCat 木星全貌???? 知识点 1.笔记 在了接受域中,接受X为0的假设,X对外没有比较显著的线性关系。 2.知识点补充 多元回归模型:含两个以上解释变量的回归...
  • 相关性分析

    万次阅读 多人点赞 2020-12-20 14:13:02
    相关性分析1、方差分析1.1、相关术语:1.2、方差分析基本假定:1.3、原理:1.4、实例:1.4.1、解题第一步:提出假设1.4.2、解题第二步:构造检验统计量1.4.3、解题第三步:统计决策1.4.4、解题第四步:关系强度测量2...
  • 多元线性回归分析(Stata)

    万次阅读 多人点赞 2022-01-14 10:12:47
    回归分析的介绍与分类 回归分析的任务是:通过研究自变量X和因变量Y的关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的 三个关键字:相关性、因变量Y、自变量X 常见的回归分析有五类(划分的依据是因...
  • 采用正交试验法设计了9个数值计算模型,运用UDEC模拟软件计算了各可控因素变化时端面顶板的冒落高度,应用SPSS统计软件对各参数进行多元线性回归分析,得出端面顶板冒落高度的多元线性回归方程。回归系数的检验结果表明...
  • 多元相关分析回归分析(转)

    千次阅读 2018-11-29 09:44:14
    目录 变量间的关系分析 什么是相关分析 什么是回归分析 ...分析步骤 ...回归分析与相关分析的主要区别 ...一元线性相关分析 ...多元回归分析模型建立 线性回归模型基本假设 多元回归分析用途 多元线性相关分析...
  • 基于spss的一元线性回归多元线性回归案例,个人整理出的,包含了部分案例、实验报告、题目,及部分题目答案,适合作为spss、MATLAB等软件数据分析题目联系
  • 【临床研究】---多元回归分析中的变量筛选问题方法选择的思考路径:1、变量筛选方法的归纳1)变量筛选的一般流程:①逐个变量:单因素回归分析分析P值:依据样本量大小情况调整P值选择范围③纳入规则:将单因素...
  • 目录:前言偏相关或复相关意义与用途分析方法:1、 样本相关系数矩阵、相关系数检验2、 复相关分析3、 决定系数 (RMSE的介绍)小结一、前言:继上一篇文章,继续探讨相关性分析,这次不再是两个变量,而是3个或者...
  • “ Take a Bath” 是2008年美国大学生数学建模竞赛的A 题。上次我们已经通过题目对冰盖...多元线性回归模型基于前面收集的数据和已有结果, 这里将建立多元线性回归模型来预测由于北极冰雪融化 (主要是格陵兰冰盖和...
  • 然而,要推断此类网络的微生物相关性并获得有意义的生物学见解,就需要冗长的数据管理工作流程,选择适当的方法,进行统计计算,然后通过不同的流程进行适当的可视化、报告和比较。随着通常与微生物组研究相关的多组...
  • (UCI)的北京多站点空气质量数据集包含每小时空气污染物 来自12个国家控制的空气质量监测点的数据。 空气质量数据是 来自北京市环境监测中心。 气象资料 每个空气质量站点中的空气都与中国最近的气象站相匹配 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 6,845
精华内容 2,738
关键字:

多元回归相关性分析