精华内容
下载资源
问答
  • - 聚类分析概念 -聚类分析法是研究“物类聚”的一种现代统计分析方法,在众多的领域中,都需要采用聚类分析分析研究。聚类分析方法包括:系统聚类法和快速聚类法。聚类分析类型包括:Q型聚类--对样本的聚类;R型...
    1b5883fc30b012ae8de0e0f284becfdf.png

    - 聚类分析概念 -

    聚类分析法是研究“物类聚”的一种现代统计分析方法,在众多的领域中,都需要采用聚类分析做分析研究。

    聚类分析方法包括:系统聚类法和快速聚类法。

    聚类分析类型包括:Q型聚类--对样本的聚类;R型聚类--对变量的聚类

    聚类统计量:

    距离:欧氏距离、马氏距离、兰氏距离

    相关系数

    距离矩阵计算函数dist的用法:

    dist(X,method="euclidean",diag=FALSE,upper=FALSE,p=2)

    X数据矩阵,数据框架

    method包括 "euclidean", "maximum", "manhattan","canberra","binary"or"minkowski",默认为euclidean距离

    diag是否包含对角线元素,默认为无对角线元素

    upper是否需要上三角,默认为下三角矩阵

    P默认为欧氏距离

    55399407172c66f1f755f050c393285c.png

    -系统聚类法 -

    7a74fea798047a805570def183c05058.gif

    先将个样品分成类,每个样品自成一类,然后每次将具有最小距离的两类合并,合并后重新计算类与类之间的距离,这个过程一直继续到所有的样品归为一类为止,并把这个过程做成一张系统聚类图。

    主要包括:

    最短距离法(single)

    最长距离法(complete)

    中间距离法(median)

    类平均法(average)

    重心法(centroid)

    离差平均和法(ward)

    特点:

    综合性

    形象性

    客观性

    4f6a0bd248e807ad3b2c679d0e57c132.png

    系统聚类R语言步骤:

    1、计算距离阵:dist

    2、进行系统聚类:hclust

    3、绘制聚类图:plot

    4、画分类框:rect.hclust

    5、确认分类结果:cutree

    系统聚类函数hclust用法:

    hclust(D,method="complete",···)

    D相似矩阵,通常为距离矩阵

    method包括“single","complete","average","mcquitty","median",or"centroid","ward",默认为”complete"。

    55399407172c66f1f755f050c393285c.png

    -快速聚类法 -

    快速聚类法的基本思想是将每一个样品分配给最近中心(均值)的类中。

    只有在类的均值被定义的情况下才能使用,对于“噪声”和孤立点是敏感的,这种数据对均值影响极大。

    关于变量变换:

    平移变换

    稽查变换

    标准差变换

    主成分变换

    对数变换

    快速聚类函数kmeans的用法:

    kmeans(X,centers,···)

    X数据框或数据矩阵,centers聚数类或初始聚类中心

    55399407172c66f1f755f050c393285c.png

    01

    -代码分析 -

    fd310fd6624ad942da2a795f546a8773.png cd46257ae69440e203237f50e0f270b4.png 6b7ceb0e17ad4038c71e0578274c4b8d.png c5861c8630e7c98a59cea35b0a82d7c3.gif f7c2d1b6920d8ae93c1d2acbc9f326e7.gif c5861c8630e7c98a59cea35b0a82d7c3.gif
    展开全文
  • 适当的数据分析方法是多重对应分析。 产生了三个图:类别和球员在坐标轴上的投影,以及变量的图形。 这里显然有两个球员集群。 解释 显然,我们必须先将分析减少到一定数量的维度。选择变量数量的方法是肘法。...

    原文链接:http://tecdat.cn/?p=4167

    原文出处:拓端数据部落公众号

    数据集

    fooball球员在场上的位置

    数据来自国际足联的视频游戏FIFA 。游戏的特点是在游戏的各个方面评价每个球员的能力。等级是量化变量(介于0和100之间),但我们将它们转换为分类变量。所有能力都被编码在4个等级:1.低/ 2.平均/ 3.高/ 4.非常高。

    加载和准备数据

    首先将数据集加载到data.frame中。 

    第二行也将整数列转换为因子。 

    数据分析

    我们的数据集包含分类变量。适当的数据分析方法是多重对应分析。 

    产生了三个图:类别和球员在坐标轴上的投影,以及变量的图形。 

    这里显然有两个球员集群。 

    解释

    显然,我们必须先将分析减少到一定数量的维度。选择变量数量的方法是肘法。我们绘制特征值的图形:

    > barplot(mca_no_gk $ eig $ eigenvalue)

    特征值图

    围绕第三或第四个特征值,我们观察到一个值的下降(这是MCA解释的方差的百分比)。因此,我们选择将我们的分析减少到前三个因子。

    > plot.MCA(mca_no_gk  )

    在前两个因子坐标轴上投影 

    我们可以通过在图表上读取最有代表性的变量名称来开始分析。 

    第一因子的最有代表性的能力是:在轴的右侧攻击能力 的能力较弱,左边的能力非常强。因此,我们的解释是,因子1根据他们的进攻能力(左侧更好的攻击能力,右侧更弱)来区分球员。我们对第2因子进行同样的分析,并得出结论:根据他们的防守能力来区分球员:在顶部会发现更好的防守者,而在底部会发现弱防守者。

    补充变量也可以帮助确认我们的解释,特别是位置变量:

    > plot.MCA(mca_no_gk,invisible = c(“ind”,“var”))

    在前两个维度上投影补充变量

    实际上,我们在图的左边部分发现了攻击位置(LW,ST,RW),并在图顶部看到了防守位置(CB,LB,RB)。

    如果我们的解释是正确的,那么图表中第二个维度上的投影就可以代表球员的整体水平。最强的球员将会在左上角找到,而较弱的将会在右下角找到。“overall_4”位于左上角,“overall_1”位于右下角。此外,在补充变量的图表中,我们观察到“法甲联赛第一”(Ligue 1)位于左上方,而“Ligue 2”位于右下方。

    > plot.MCA(mca_no_gk,invisible = c(“ind”,“var”),axes = c(2,3))
    
    

    在第二和第三维度上投影变量

    最具代表性的第三维度是技术上的弱点:技术能力较低的球员(运球,控球等)位于坐标轴的末端,而这些能力中成绩最高的球员往往被发现在坐标轴的中心:

    在第二和第三因子坐标轴上投影补充变量

    在补充变量的帮助下,中场平均拥有最高的技术能力,而前锋(ST)和后卫(CB,LB,RB)似乎一般都不以球控技术着称。

    参考Mathieu Valbuena在坐标轴1和坐标轴2上生成的图形:

    1和2因子坐标轴补充变量 

    第2和3因子坐标轴

    所以,马蒂厄·瓦尔布纳似乎有很好的进攻技巧,但他也有很好的整体水平(他在第二因子上的投射比较高)。他也位于第三坐标轴的中心,这表示他具有良好的技术能力。因此,最适合他的位置(统计上)是中场位置(CAM,LM,RM)。再加上几行代码,我们可以找到法国联赛中最相似的球员:

    我们得到:Ladislas Douniama,FrédéricSammaritano,Florian Thauvin,N'GoloKanté和Wissam Ben Yedder。


    最受欢迎的见解

    1.matlab偏最小二乘回归(PLSR)和主成分回归(PCR)

    2.R语言高维数据的主成分pca、 t-SNE算法降维与可视化分析

    3.主成分分析(PCA)基本原理及分析实例

    4.基于R语言实现LASSO回归分析

    5.使用LASSO回归预测股票收益数据分析

    6.r语言中对lasso回归,ridge岭回归和elastic-net模型

    7.r语言中的偏最小二乘回归pls-da数据分析

    8.r语言中的偏最小二乘pls回归算法

    9.R语言线性判别分析(LDA),二次判别分析(QDA)和正则判别分析(RDA)

    展开全文
  • R语言执行单因素方差分析(单因素ANOVA)及多重比较对于两组数据间的差异分析,最常见的方法就是使用T检验比较两组均值是否存在显著不同。当拓展到多组(三组及以上)时,使用T检验逐一两两比较的方法无疑是低效的,不...
    7c5898f69c7aec3bd7cf758ba91de074.gif R语言执行单因素方差分析(单因素ANOVA)及多重比较 136f57912f6e20b5487bfa0e84c2c611.gif

    对于两组数据间的差异分析,最常见的方法就是使用T检验比较两组均值是否存在显著不同。当拓展到多组(三组及以上)时,使用T检验逐一两两比较的方法无疑是低效的,不仅仅由于需要的检验次数增多,而且发生I型错误(拒绝真)的概率也会增大。Fisher提出一种广义T检验的方法来比较三组及以上总体的均值,称为方差分析(ANOVA)。

    说到ANOVA,相信大家也并不陌生,这也是在统计学中最常见的统计推断方法之一。几种常见的ANOVA包含单因素方差分析(单因素ANOVA)、单因素协方差分析(ANCOVA)、双因素方差分析(双因素ANOVA)、重复测量方差分析(重复测量ANOVA)、多元方差分析(MANOVA)等。本篇首先介绍其中最常涉及的单因素ANOVA在R语言中的实现过程,一组因子变量对应一组因变量;其它几种类型,会在后续的几篇文章中再一一阐述。

    本文使用的作图数据的网盘链接(提取码z4w4):

    https://pan.baidu.com/s/1J-9GsmoHuQ_CEpxeWyEQsA

    数据预处理

    示例数据说明

    我们首先将示例数据读到R中,并从中挑选部分数据作为演示。

    #读入文件
    soil group soil
    #以 chao1 指数为例,同时将分组列转换为因子变量
    chao1 chao1$site str(chao1)
    head(chao1)

    03598b3ff5fbe296ff6027f4daccd4b0.png

    假设存在这么一个研究:

    我们在3个地域(A、B、C)分别采集了土壤样本,即获得了3种类型的土壤,并通过16S测序,获得了每种类型土壤中细菌群落的Alpha多样性指数。我们想要得知,三种土壤环境下的细菌群落的Alpha多样性指数是否存在显著不同。

    对应于上述挑选出的测试数据“chao1”:sample,采集的土壤样本名称;site,土壤样本来源的环境(A、B、C),这列作为分组列,需要转换为因子变量类型,各组之间相互独立;chao1,Alpha多样性指数中的Chao1指数,数值变量。

    由于此处只存在“土壤采集环境”这么一组分组变量,对应于单因素,接下来我们考虑使用单因素ANOVA来对3种土壤环境下的细菌群落的Chao1指数进行比较。

    评估检验的假设条件

    与T检验相似,ANOVA同样要求数据服从正态分布;此外,ANOVA还建立在各组方差相等的基础上。因此,在执行单因素ANOVA之前,我们首先应当对数据进行正态性分布验证,以及方差齐性检验。

    正态性检验

    首先是正态性检验,这里使用Q-Q图来检验正态性假设。 除了Q-Q图,其它的常用方法 还有如Shapiro-Wilk检验等。
    #QQ-plot 检查数据是否符合正态分布(所有的点都离直线很近,落在置信区间内说明正态性良好)
    library(car)
    qqPlot(lm(chao1~site, data = chao1), simulate = TRUE, main = 'QQ Plot', labels = FALSE)
    qqPlot()提供了精确的正态假设检验方法,它画出了在n-p-1个自由度的t分布下的学生化残差(studentized residual,也称学生化删除残差或折叠化残差)图形,其中n是样本大小,p是回归参数的数目(包括截距项)。 图中横坐标是标准的正态分布值,纵坐标是我们数据的值。 如果两者基本相等,或者说所有的点都离直线很近,落在置信区间内(图中虚线部分,默认展示95%置信区间),即表明正态性假设符合得很好。 由图可知,我们的数据符合正态分布模型。

    8e66d4d5049c5776c3b4caab80bb8259.png

    方差齐性检验 R语言中提供了一些可用来做方差齐性检验的函数,例如Bartlett检验(bartlett.test)、Fligner-Killeen检验(fligner.test())、Brown-Forsythe检验(HH包hov())等。 对于已经通过正态性检验的数据,推荐使用Bartlett检验来进行方差齐性检验(它建立在数据分布正态性的前提下,如果数据服从正态分布,这是最好的检验方法); Fligner-Killeen检验是一个非参数检验,通常在数据偏离正态性时使用(当然,如果数据已经偏离正态分布了,也没必要再继续了,所以Fligner-Killeen检验似乎并不能很好地适用在方差分析过程中)。
    #使用 Bartlett 检验进行方差齐性检验(p 值大于 0.05 说明方差齐整)
    bartlett.test(chao1~site, data = chao1)

    结果显示,我们的数据各组方差相等。(尽管示例数据经有偏离的趋势了,凑合用吧)

    544c9dfb01df96664a7886a9b51aadde.png

    单因素方差分析(单因素ANOVA)

    单因素ANOVA

    我们的数据通过了正态性检验和方差齐性检验,接下来进行单因素ANOVA。R语言执行方差分析的命令是aov(),对于单因素方差分析,aov()函数书写为aov(y~A)的样式,A即为因子变量。

    如果不满足上述前提假设,一是可以考虑转化数据(当然,我们需要确保转换后的数据能够被合理解释,否则将无意义),二是可以考虑使用非参数的检验方法,对于单因素的分析,可选的非参数替代方法例如Kruskal-Wallis检验(kruskal.test())、Friedman检验(friedman.test())等。

    #满足假设,单因素方差分析,详情使用?aov查看帮助,
    fit summary(fit)
    #若想查看各组均值及标准差,可使用 aggregate()
    chao1_mean chao1_sd

    单因素ANOVA结果表明,3种土壤环境下的细菌群落的Chao1指数具有显著差异,p值远低于0.05水平。

    9b9d41890038c2dcc81d76cb0f500a0d.png

    多重比较

    上述单因素ANOVA告诉我们3种土壤环境下的细菌群落的Chao1指数具有显著差异,这种差异是在整体水平而言的,并没有告诉我们究竟谁和谁存在差异。如果我们想继续获知两两分组之间的差异,进行多重比较即可。常用Tukey HSD检验,在ANOVA结果的基础上继续执行事后两两比较。不推荐使用T检验(注意T检验和Tukey检验是两回事),原因正如本文开始时所提,多次T检验容易提高I型错误的概率。
    ##方差分析后,多重比较,继续探寻两两分组间的差异
    #Tukey HSD 检验
    tuk plot(tuk)

    显著水平默认为0.05。Tukey检验显示,A组和B组、A组和C组存在显著差异,但B组和C组无差异。(根据文字部分p值判断;或者根据图片判断,未越过虚线则表示无差异)

    6940e1d4c1f0bb8e2eda9a858d3f4c67.png

    multcomp包中提供了更直观的方法,展示Tukey检验的结果。

    library(multcomp)
    tuk plot(cld(tuk, level = 0.05, decreasing = TRUE))

    同样地,显著水平默认为0.05。结果以箱线图的方式,直观地为我们展示出组间差异。从图中我们可以轻易得知,A组(A环境下的土壤细菌群落)的Chao1指数显著高于其它两组(B、C环境下的土壤细菌群落),同时B、C二者无差异。

    16c22ee543f031c7af378a34e4e794a6.png

    这里顺便再提一个可能存在的误区。上述标注显著性abc时,由最大值从a开始,逐渐往小值标注b、c等;而有些图中,由最小值从a开始,逐渐往大值标注b、c等(上述cld()参数中,你使用decreasing = FALSE就反过来了)。事实上这两种方法都是可以的,只是更普遍的习惯可能是由大值逐渐往小值标注,所以可能好多同学误以为反过来是错误的。

    ggplot2柱状图示例

    通过上述各步,我们初步获得了各组间差异分析结果。在文献中,常能见到以均值±误差棒(常用标准差或标准误差)的柱状图,对ANOVA的结果可视化呈现,组间差异水平高低一目了然。

    这里根据上述统计结果,简单地使用ggplot2绘制柱状图,以展示3种土壤环境下的细菌群落的Chao1指数的差异水平。

    #ggplot2 柱状图示例
    dat names(dat) dat
    library(ggplot2)
    ggplot(dat, aes(group, mean)) +
    geom_col(aes(fill = group), width = 0.4, show.legend = FALSE) +
    geom_errorbar(aes(ymax = mean + sd, ymin = mean - sd), width = 0.15, size = 0.5) +
    geom_text(aes(label = sign, y = mean +sd + 200)) +
    theme(panel.grid = element_blank(), panel.background = element_rect(color = 'black', fill = 'transparent'), plot.title = element_text(hjust = 0.5)) +
    labs(x = 'Group', y = 'Chao1', title = 'Tukey HSD test')

    a0b1f112c077595d1072ae62685262c3.png

    294ec20355caa905b008efa191efb59f.png

    友情链接

    R语言执行两组间差异分析Wilcox秩和检验

    R语言执行两组间差异分析T检验

    叶绿体基因注释工具PGA

    叶绿体/线粒体在线注释网站GeSeq

    线粒体在线注释网站MITOS

    R语言绘制蝴蝶(柱状)图

    R语言绘制双向柱状图

    R语言绘制分组柱状图

    R语言绘制堆叠面积图

    R语言绘制堆叠柱状图

    R语言绘制饼图(扇形图)

    R语言绘制花瓣图

    150a0eea298810799d74276c5714603b.gif

    ca22f4a507d062227c8d8ba9444f5c14.png

    展开全文
  • R语言语言学与R语言的碰撞Xu & YangPhoneticSan学习参考Discovering Statistics Using RStatistics for Linguistics with RHow to Do Linguistics with RR in ActionAnalyzing Linguistic DataR Graphics ...

    R语言

    语言学与R语言的碰撞

    Xu & Yang

    PhoneticSan

    562e08c3c2346aa6396858063e7e9184.png

    学习参考

    Discovering Statistics Using R

    Statistics for Linguistics with R

    How to Do Linguistics with R

    R in Action

    Analyzing Linguistic Data

    R Graphics Cookbook

    ··· ···

    Recap

    1. 相关是用来描述和测量两个变量之间关系的统计分析方法,很多情况下是对没有控制或操纵情况下变量的观察。

    2. 根据关系的方向,相关可以分为正相关和负相关两种类型。以此,我们可以绘制出一条直线来预测。

    3. 一个简单的线性回归由斜率和截距组成,记为Yi = b0 + b1Xi εi,其中b0b1被称为回归系数,εi被称为残差,是观测到的数据到回归线的距离。

    4. 使用R2可以判断线性回归模型的拟合优度,范围在[0,1]浮动,越接近1说明拟合程度越好。

    5. 在R中使用lm( )函数可以实现回归分析的建模,完成建模后使用summary( )函数查看建模结果,并使用anova( )函数与base model (null model)比较,如果有显著性差异,说明我们添加的因素对因变量有影响。

    ccd79e98512de7123f09d45fbf692381.png

    R: The R Project for Statistical Computing

    https://www.r-project.org/

    RStudio:

    https://rstudio.com/

    R Project

    Linguistics

    1

     线性回归的假设

    上一期我们介绍了最基础的线性回归方式,并了解到了lm( )函数的使用方法。通过写相关代码我们了解到,线性回归分析本质上是不断添加参数以和无参数的null model (base model)进行比较,从而检验自变量是否对因变量有影响。与其他假设检验一样,当你在进行线性回归分析前,要注意它们能顺利进行的三个前提假设,包括线性(linearity)、残差正态性(normality of residuals)、残差的方差齐性(homoscedasticity of residuals),下面我们对这三个方面进行解释。

    60f2b8fbebae74b127393aa8eff87648.png

    线性回归分析的三个假设

    首先是线性,实际上这个问题我们在前面也提到过,也很显而易见:「线性」回归分析,如果变量之间的相关性不是线性的,你就不能使用线性回归分析了。这个假设不需要额外地检验,在我们进行线性回归模型拟合的时候,采用了R2来判断拟合优度。如果R2接近0,说明我们的拟合并不好,也侧面说明我们的数据并不是线性相关。

    3c876d29ee1fe614586f7323d2a40411.png

    线性回归要求必须线性相关

    第二个要求是残差正态性,即残差的分布必须服从正态分布。需要注意的是,这里的正态分布要求不是数据本身,而是残差。如何得到残差?我们不需要进行计算,在使用lm( )函数的过程中,R就已经为我们计算好了残差,只要直接调用即可。检验正态分布的方法与之前提到的一样,使用Q-Q图或者shapiro.test( )函数都可以。我们以上一期的english数据为例,回顾一下建模过程。

    # 加载languageR包library(languageR)# 建立线性回归模型eng.m data=english)# QQ图检验正态分布qqnorm(eng.m$residuals)# Shapiro-Wilk检验shapiro.test(eng.m$residuals)
    50678278770894c44e30391fc5a92500.png 49008a993d7e755fab22638dc8fdba6c.png

    正态分布检验示意

    最后是残差的方差齐性。可能很多人会疑问,我们的回归分析大部分一个自变量只对应一个因变量,怎么计算方差?要注意,我们这里提到的方差齐性,指的是「残差」而不是原始数据。如果以残差为纵坐标,自变量为横坐标绘制散点图,它的分散比较均匀,残差没有出现随着自变量的变化而变化,那么说明方差是齐性的。反之,则说明反差的方差不是齐性的。

    49bcf41448adb4da85d9798d6504e2bc.png

    残差的方差齐性

    如何检验回归分析中残差的方差齐性?我们可以借用car包中的ncvTest( )函数或spreadLevelPlot( )函数进行检验,前者与shapiro.test( )函数一样,直接输出结果,如果出现显著性差异,则说明方差不是齐性的。后者则与Q-Q图一样会输出最佳拟合曲线的拟合值与残差绝对值的散点图,如果点没有均匀分布在水平线上下,则说明方差不是齐性的。我们以eng.m为例,那么如下:

    # 加载car包library(car)# 使用ncvTest函数检验方差齐性ncvTest(eng.m)# 使用spreadLevelPlot检验方差齐性spreadLevelPlot(eng.m)

    通过检验结果可以看到,我们上次的数据并不具有方差齐性,因此我们需要考虑不能使用线性回归分析进行检验。

    739730af0785dab45f210652974ed16e.png c0edfd88d71d534648695c5295f3627a.png

    方差齐性检验

    综上所述,在进行线性回归分析的时候,我们主要的步骤是:建立线性回归模型,查验模型是否符合三个前提假设;创建null model;对两个模型进行假设检验。

    1b7b27940c5d0e82efd64da0a8342f87.png

    线性回归分析基本步骤

    现在,我们了解了最基础的线性回归分析方法。但是显而易见的是,我们的语言研究中并不可能只有一个因素对因变量有影响,我们可以在有多个预测变量对情况下,对实验数据进行回归分析吗?答案是肯定的,这时候我们需要采用的方法叫做多元回归分析(multiple regression analysis)。

    R Project

    Linguistics

    2

     多元回归分析

    在面对多于一个预测变量的情况下,我们使用的方法被称作多元回归分析。它与简单的线性回归分析原理是一样的,不同之处在于,对于每一个额外的(多出来的)预测变量,我们都要赋予它们一个相关系数。那么,我们可以一直加需要的相关系数,那么我们的多元回归分析的基本公式则是Y = b0+ b1X1+ b2X2+ ... + bnXn+ ε,每一个系数表示其对应的预测变量对因变量的影响,表现在图上就是斜率的大小。

    086541c03067a2e2342d94730505d07d.png

    多元回归分析示意(两个预测变量)

    多元回归分析所使用的函数依旧是lm( )函数,我们继续以languageR包中的english数据为例。上期我们考察了阅读时间RTlexdec和书写频率WrittenFrequency之间的关系,假设我们认为LengthInLetters这一列的数据对RTlexdec可能也有影响,那么我们就直接使用➕把这个因素加在后面即可,表示我要考虑该因素。为了进行比较,我们把null model、一个预测变量的模型、两个预测变量的模型如下展示。

    eng.base 1, eng.m.1 data=english)eng.m.2 data=english)

    进行拟合后,要记得查看拟合优度。这里我们假设拟合很不错,我们的下一步就是进行检验分析,查看预测变量对因变量是否有影响。我们分为自下而上(bottom-up)和自上而下(top-bottom)两种方式,前者是先将简单的拟合模型进行比较,慢慢加预测变量,而后者与之相反,率先从最复杂的模型开始。我们以自下而上的方式为例,首先比较eng.base和eng.m.1,出现了显著性差异,说明第一个预测变量WrittenFrequency对RTlexdec有显著影响。接着我们继续加一个预测变量,比较eng.m.1和eng.m.2,发现并没有出现显著性差异,这说明第二个预测变量对因变量没有出现影响。我们也可以直接把它们放在一起,即anova(eng.base, eng.m.1, eng.m.1)也是可以的。

    c1d1d7d0f1a543eb51fffc4dc0a785e0.png

    多元回归的分析检验

    最后,我们需要指出,既然出现了多个变量,那么我们就要考虑主效应和交互效应的问题。如何把两个预测变量的交互效应考虑进多元回归分析中?以english为例,我们可以这样进行建模。

    eng.m.3 <- lm(RTlexdec ~ WrittenFrequency +               LengthInLetters +               WrittenFrequency : LengthInLetters,               data = english)

    其中的WrittenFrequency : LengthInLetters意味着我们考察的是它们的交互效应。建立好模型后,继续使用anova( )分析结果,有没有显著性差异呢?这里就留待你自己运行代码查看了。

    之前我们谈到的所有预测变量,全部是连续型预测变量,而有一些研究涉及到的是分类型变量。比如,动词词组或名词词组这样的短语类型对阅读时长的影响,这时候我们的预测变量则变成了分类型,还可以继续使用回归分析吗?如果输出结果是分类型变量,也可以回归分析吗?答案是可以。这一期讲了很多,所以这些问题留待下一期进行详细解释。

    —END—

    排版:Xu & Yang

    197650c3a072f6ffc7395a835a31a35d.png
    展开全文
  • 编程:面向对象的编程语言2.使用者:有着统计分析功能及强大作图功能的软件3.开发者:一组开源的数据操作二、R的优点免费、跨平台、简单易学、程序小巧、易扩展。三、R的安装R的官网:https://www.r-project.org/...
  • 传统回归分析以点数据为研究对象,预测结果也是点数据,而真实数据往往在一定范围内变动的.基于置信度可以形成置信区间,一定程度弥补了预测值为单点的不足,但将点数据作为研究对象,以点带表某范围内的所有数据,往往...
  • UA MATH571A QE练习 R语言 多重共线性与岭回归 这是2017年1月的第4题。
  • 基于R语言的主成分分析 加入的SPSS群里有人问,怎么用SPSS进行主成分分析。确实没有注意到这种操作。很好奇,于是翻了翻孙振球的《医学统计学》,发现主成分分析这一块,竟使用了SAS!后来再找找网上的说明,SPSS...
  • R语言 PCA主成分分析前言统计学背景知识协方差相关系数函数总结实例讲解1.载入原始数据2.作主成分分析3.结果解读4.画主成分的碎石图并预测5.PCA结果绘制后记前言PCA分析大家肯定经常看到,但是你真的懂PCA分析的结果...
  • 1970年法国统计学家J.P.Benzenci提出对应分析,也称关联分析、R-Q型因子分析,其是一种多元相依变量统计分析技术。它通过分析由定性变量构成的交互汇总表,来揭示同一变量各类别之间的差异,以及不同变量各类别之间...
  • 今天我们将要学习R语言进阶中最重要的统计内容---主成分分析,它在我们的研究中几乎是无处不在,应用最广的就是将主成分放入回归模型进行拟合,用于矫正相关的混杂因素。主成分分析的基本思想是将多个变量进行线性...
  • 编程:面向对象的编程语言2.使用者:有着统计分析功能及强大作图功能的软件3.开发者:一组开源的数据操作二、R的优点免费、跨平台、简单易学、程序小巧、易扩展。三、R的安装R的官网:https://www.r-project.org/...
  • R语言主成分分析

    万次阅读 多人点赞 2017-02-27 17:00:13
    部分参考薛毅的《统计建模与R软件》和《R语言实战》解决自变量之间的多重共线性和减少变量个数根据主成分分析的原理,它一方面可以将k个不独立的指标变量通过线性变换变成k个相互独立的新变量,这是解决多重共线性...
  • 对应分析R使用

    万次阅读 2018-11-04 19:51:46
    R语言实现 对应分析应注意的几个问题 什么是对应分析 对应分析是在因子分析基础上发展起来的,因子分析分为R型和Q型因子分析,R型是对变量(指标)做因子分析,Q型是对样品做因子分析,研究样品之间的相互关系,...
  • 文章目录变量的多重共线性诊断特征根分析法条件数法方差扩大因子法直观判定法举个例子(R语言) 变量的多重共线性诊断 多元线性回归模型的一个基本假设,就是要求自变量矩阵X列满秩,即秩rank(X)=p,也就是要求X的列...
  • R语言——多重共线性处理

    万次阅读 2017-06-05 18:57:00
    在多元回归分析中已经介绍过,当自变量之间具有显著的相关关系时,可能会存在多重共线性。严重的多重共线性会大大影响模型的预测结果。除了可以用容忍度与方差扩大因子来度量模型的多重共线性以外,还可以用条件数来...
  • 平衡不完全区组设计 平衡不完全区组(Balanced Incomplete Block)设计简称BIB设计。...设处理数为a,重复次数为r,区组数为b,区组容量为k,任意一对处理相遇在同一区组内的次数为λ,则BIB设计的必要条...
  • R语言简单回归分析总结

    千次阅读 2016-09-28 22:40:13
    R语言简单回归分析总结
  • 目前经典的统计学分析方法主要有回归分析,Logistic回归,决策树,支持向量机,聚类分析,关联分析,主成分分析,对应分析,因子分析等,那么对于这些经典的分析方法在R中的使用主要有那些程序包及函数呢?...
  • 多元统计分析之多元线性回归的R语言实现多元统计分析--multivariate statistical analysis研究客观事物中多个变量之间相互...重要的多元统计分析方法有:多重回归分析、判别分析、聚类分析、主成分分析、对应分析、因...
  • 微信公众号:医学统计与R语言请转发文章,留言获取数据文件输入1: library(rio)covdata"covariancedata.sav")covdata$groupgroup)library(dplyr)covdata%>%group_by(group)%>%sample_n(5)结果1: groupPSQI1...
  • R语言Box-Cox变换与多重共性线

    万次阅读 2017-06-02 19:02:53
    Box-Cox在做回归分析时,通常假设回归方程的残差具有有齐性,即等方差。如果残差不满足齐性,其结果会出现问题,前面介绍了一种加权的最小二乘法了,这里介绍数据变化方法。
  • SPSS只能完成主成分分析的一部分环节,主成分得分等...小兵建议大家直接采用R语言实现主成分分析,今天先送上一枚案例。使用R语言自带USJudgeRatings法官综合素质评分数据,每位法官均有12项维度打分,我们觉得用...
  • 多重因子分析 MFA

    2013-03-17 14:13:08
    多重因子分析 MFA 经典 推荐下载~~~~~~~~~~~~~~~~~~
  • 之前介绍过怎么用SPSS进行主成分分析(PCA),已经忘了的朋友们可以再回头看看,指路SPSS操作详解 | 主成分分析PCA(上)今天主要介绍下R语言主成分分析的几种方法。都是入门级别,跟着我一步步走,一点都不难哈~首先...
  • R语言报告 单因素方差分析

    千次阅读 多人点赞 2017-07-17 23:12:28
    R语言课程论文目录R语言课程论文 目录 绪论 1 课程实习简介 11 课程实习要求 12 课程题目 13 课程实习任务 14 课程实习目标 程序设计层次及说明展示 1 数据录入 2 转化为数据框 3 数据融化和冗杂数据处理 4 数据分析...
  • 摘要:目前经典的统计学分析方法主要有回归分析,Logistic回归,决策树,支持向量机,聚类分析,关联分析,主成分分析,对应分析,因子分析等,那么对于这些经典的分析方法在R中的使用主要有那些程序包及函数呢?...
  • R语言与统计分析

    万次阅读 2015-12-16 11:20:29
    R语言与统计分析 汤银才 主编 高等教育出版社 二○○八年五月 内容介绍 本书以数据的常用统计分析方法为基础,在简明扼要地阐述统计学基本概 念、基本思想与基本方法的基础上,讲述与之相对应的R函数的实现,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 20,027
精华内容 8,010
关键字:

r语言多重对应分析