精华内容
下载资源
问答
  • 相关性的显著性检验

    千次阅读 2018-01-17 10:17:00
    对计算好相关系数进行显著性检验。 原假设:变量间不相关,即总体相关系数为0。 cor.test()对单个 Pearson、Spearman 和 Kendall 相关系数进行检验。、 格式:cor.test(x, y, alternative=, method=) x,y: ...

    对计算好的相关系数进行显著性检验

    原假设:变量间不相关,即总体的相关系数为0。

    cor.test()对单个的 Pearson、Spearman 和 Kendall 相关系数进行检验。、

    格式:cor.test(x, y, alternative=, method=)

    x,y: 为要检验相关性的变量。

    alternative: 指定双侧检验或单侧检验。two.side, less 或 greater。

    method:method:指定相关系数的类型。pearson、spearman、kendall。

     

    (1)一次检验一种相关关系

    > cor.test(houseXQ[, c("house_total")],houseXQ[, c("house_area")] )

     

        Pearson's product-moment correlation

     

    data:  houseXQ[, c("house_total")] and houseXQ[, c("house_area")]

    t = 39.537, df = 187, p-value < 2.2e-16

    alternative hypothesis: true correlation is not equal to 0

    95 percent confidence interval:

     0.9274393 0.9585053

    sample estimates:

          cor

    0.9450675

    解释:总价与面积成正相关。

    (2)一次检验多种相关关系

    corr.test()

    检验结果的p值越小表明两个变量相关性越大,为0表示显著相关,<0.05表示相关性大,为1表示基本不相关。

    > selectedColumns<- c("house_total","house_avg","house_floor_curr","house_floor_total","house_area")

    > houseNum<-houseXQ[, selectedColumns]

    > corr.test(houseNum, use="complete")

     

    展开全文
  • R之相关性的显著性检验

    万次阅读 多人点赞 2017-12-26 19:26:01
    p 值可以解释如下:一个很小p 值表示,在预测变量和响应变量之间真实关系 未知情况下,不太可能完全由于偶然而观察到预测变量和响应变量之间强相关。因此,如果看到一个很小p 值,就可以推断预测变量和...

     


            p 值可以解释如下:一个很小的p 值表示,在预测变量和响应变量之间的真实关系

    未知的情况下,不太可能完全由于偶然而观察到预测变量和响应变量之间的强相关。因此,如果看到一个很小的p 值,就可以推断预测变量和响应变量问存在关联。如果p 值足够小,我们便拒绝零假设( reject the null hypothesis) 也就是声明X 和Y 之间存在关系。

    # 相关
    # 相关系数可以用来描述定量变量之间的关系。相关系数的符号()表明关系的方向(正相
    # 关或负相关),其值的大小表示关系的强弱程度(完全不相关时为0,完全相关时为1)我们将使用R基础安装中的
    # state.x77数据集,它提供了美国50个州在1977年的人口、收入、文盲率、预期寿命、谋杀率和
    # 高中毕业率数据。数据集中还收录了气温和土地面积数据,但为了节约空间,这里将其丢弃。你
    # 可以使用help(state.x77)了解数据集的更多信息。除了基础安装以外,我们还将使用psych
    # 和ggm包。
    
    install.packages("psych")
    library(psych)
    
    install.packages("igraph")
    library(igraph)
    install.packages("ggm")
    library(ggm)
    # 
    # 相关的类型
    # R可以计算多种相关系数,包括Pearson相关系数、Spearman相关系数、Kendall相关系数、偏
    # 相关系数、多分格(polychoric)相关系数和多系列(polyserial)相关系数。
    # 
    # 1. Pearson、Spearman和Kendall相关
    # Pearson积差相关系数衡量了两个定量变量之间的线性相关程度。Spearman等级相关系数则衡
    # 量分级定序变量之间的相关程度。Kendall’s Tau相关系数也是一种非参数的等级相关度量。
    # cor()函数可以计算这三种相关系数,而cov()函数可用来计算协方差。
    cor(x,use = ,method = )
    # 
    # x     矩阵或数据框
    # use   指定缺失数据的处理方式。可选的方式为all.obs(假设不存在缺失数据——遇到缺失数据时将报
    #       错)、everything(遇到缺失数据时,相关系数的计算结果将被设为missing)、complete.obs
    #       (行删除)以及 pairwise.complete.obs(成对删除,pairwise deletion)
    # method 指定相关系数的类型。可选类型为pearson、spearman或kendall
    
    # 
    # 协方差和相关系数
    
    
    states<-state.x77[,1:6]
    cov(states)
    # 
    # > cov(states)
    # Population      Income   Illiteracy     Life Exp      Murder
    # Population 19931683.7588 571229.7796  292.8679592 -407.8424612 5663.523714
    # Income       571229.7796 377573.3061 -163.7020408  280.6631837 -521.894286
    # Illiteracy      292.8680   -163.7020    0.3715306   -0.4815122    1.581776
    # Life Exp       -407.8425    280.6632   -0.4815122    1.8020204   -3.869480
    # Murder         5663.5237   -521.8943    1.5817755   -3.8694804   13.627465
    # HS Grad       -3551.5096   3076.7690   -3.2354694    6.3126849  -14.549616
    # HS Grad
    # Population -3551.509551
    # Income      3076.768980
    # Illiteracy    -3.235469
    # Life Exp       6.312685
    # Murder       -14.549616
    # HS Grad       65.237894
    
    
    cor(states)
    cor(states,method = "spearman")
    # 
    # > cor(states,method = "spearman")
    # Population     Income Illiteracy   Life Exp     Murder    HS Grad
    # Population  1.0000000  0.1246098  0.3130496 -0.1040171  0.3457401 -0.3833649
    # Income      0.1246098  1.0000000 -0.3145948  0.3241050 -0.2174623  0.5104809
    # Illiteracy  0.3130496 -0.3145948  1.0000000 -0.5553735  0.6723592 -0.6545396
    # Life Exp   -0.1040171  0.3241050 -0.5553735  1.0000000 -0.7802406  0.5239410
    # Murder      0.3457401 -0.2174623  0.6723592 -0.7802406  1.0000000 -0.4367330
    # HS Grad    -0.3833649  0.5104809 -0.6545396  0.5239410 -0.4367330  1.0000000
    # # 
    # 首个语句计算了方差和协方差,第二个语句则计算了Pearson积差相关系数,而第三个语句计算
    # 了Spearman等级相关系数。举例来说,我们可以看到收入和高中毕业率之间存在很强的正相关,
    # 而文盲率和预期寿命之间存在很强的负相关
    
    # 
    # 请注意,在默认情况下得到的结果是一个方阵(所有变量之间两两计算相关)。你同样可以
    # 计算非方形的相关矩阵
    # 当你对某一组变量与另外一组变量之间的关系感兴趣时,cor()函数的这种用法是非常实用
    # 的。注意,上述结果并未指明相关系数是否显著不为0(即,根据样本数据是否有足够的证据得
    # 出总体相关系数不为0的结论)。由于这个原因,你需要对相关系数进行显著性检验(
    # 
    # 2. 偏相关
    # 偏相关是指在控制一个或多个定量变量时,另外两个定量变量之间的相互关系。你可以使用
    # ggm包中的pcor()函数计算偏相关系数。ggm包没有被默认安装,在第一次使用之前需要先进行
    # 安装。函数调用格式为:pcor(u,s)其中的u是一个数值向量,前两个数值表示要计算相关系数的变量下标,其余的数值为条件变量
    # (即要排除影响的变量)的下标。S为变量的协方差阵。
    
    library(ggm)
    pcor(c(1,5,2,3,6),cov(states))
    # > pcor(c(1,5,2,3,6),cov(states))
    # [1] 0.3462724
    # 本例中,在控制了收入、文盲率和高中毕业率的影响时,人口和谋杀率之间的相关系数为
    # 0.346。偏相关系数常用于社会科学的研究中。
    
    # 
    # 3. 其他类型的相关
    # polycor包中的hetcor()函数可以计算一种混合的相关矩阵,其中包括数值型变量的
    # Pearson积差相关系数、数值型变量和有序变量之间的多系列相关系数、有序变量之间的多分格相
    # 关系数以及二分变量之间的四分相关系数。多系列、多分格和四分相关系数都假设有序变量或二
    # 分变量由潜在的正态分布导出。请
    
    
    
    # 
    # 相关性的显著性检验
    # 在计算好相关系数以后,如何对它们进行统计显著性检验呢?常用的原假设为变量间不相关(即总体的相关系数为0)。
    
    # 
    # cor.test()函数对单个的Pearson、Spearman和Kendall相
    # 关系数进行检验:cor.test(x,y,alternative=,method=)
    
    
    # 其中的x和y为要检验相关性的变量,alternative则用来指定进行双侧检验或单侧检验(取值
    # 为"two.side"、"less"或"greater"),而method用以指定要计算的相关类型("pearson"、
    # "kendall"或"spearman")。
    #当研究的假设为总体的相关系数小于0时,请使用alternative="less"
    # 在研究的假设为总体的相关系数大于0时,应使用alternative="greater"。
    #默认情况下:为alternative="two.side"(总体相关系数不等于0)
    
    
    cor.test(states[,3],states[,5])
    
    
    # 
    # > cor.test(states[,3],states[,5])
    # 
    # Pearson's product-moment correlation
    # 
    # data:  states[, 3] and states[, 5]
    # t = 6.8479, df = 48, p-value = 1.258e-08
    # alternative hypothesis: true correlation is not equal to 0
    # 95 percent confidence interval:
    #  0.5279280 0.8207295
    # sample estimates:
    #       cor 
    # 0.7029752 
    # 
    # 这段代码检验了预期寿命和谋杀率的Pearson相关系数为0的原假设。假设总体的相关度为0,
    # 则预计在一千万次中只会有少于一次的机会见到0.703这样大的样本相关度(即p = 1.258e08)。
    # 由于这种情况几乎不可能发生,所以你可以拒绝原假设,从而支持了要研究的猜想,即预期寿命
    # 和谋杀率之间的总体相关度不为0。
    
    
    # 
    # 遗憾的是,cor.test每次只能检验一种相关关系。但幸运的是,psych包中提供的
    # corr.test()函数可以一次做更多事情。。corr.test()函数可以为Pearson、Spearman或Kendall
    #相关计算相关矩阵和显著性水平
    # 
    # corr.test计算相关矩阵并进行显著性检验
    
    corr.test(states,use = "complete")
    
    # 
    # > corr.test(states,use = "complete")
    # Call:corr.test(x = states, use = "complete")
    # Correlation matrix 
    #             Population Income Illiteracy Life Exp Murder HS Grad
    # Population       1.00   0.21       0.11    -0.07   0.34   -0.10
    # Income           0.21   1.00      -0.44     0.34  -0.23    0.62
    # Illiteracy       0.11  -0.44       1.00    -0.59   0.70   -0.66
    # Life Exp        -0.07   0.34      -0.59     1.00  -0.78    0.58
    # Murder           0.34  -0.23       0.70    -0.78   1.00   -0.49
    # HS Grad         -0.10   0.62      -0.66     0.58  -0.49    1.00
    # Sample Size 
    # [1] 50
    # Probability values (Entries above the diagonal are adjusted for multiple tests.) 
    #             Population Income Illiteracy Life Exp Murder HS Grad
    # Population       0.00   0.59       1.00      1.0   0.10       1
    # Income           0.15   0.00       0.01      0.1   0.54       0
    # Illiteracy       0.46   0.00       0.00      0.0   0.00       0
    # Life Exp         0.64   0.02       0.00      0.0   0.00       0
    # Murder           0.01   0.11       0.00      0.0   0.00       0
    # HS Grad          0.50   0.00       0.00      0.0   0.00       0
    # 
    # To see confidence intervals of the correlations, print with the short=FALSE option
    
    # 参数use=的取值可为"pairwise"或"complete"(分别表示对缺失值执行成对删除或行删
    # 除)。参数method=的取值可为"pearson"(默认值)、"spearman"或"kendall"。人口数
    # 量和高中毕业率的相关系数(-0.10)并不显著地不为0(p = 0.5)
    
    # 
    # 其他显著性检验
    # 在7.4.1节中,我们关注了偏相关系数。在多元正态性的假设下,psych包中的pcor.test()
    # 函数①可以用来检验在控制一个或多个额外变量时两个变量之间的条件独立性。使用格式为:
    # 其中的r是由pcor()函数计算得到的偏相关系数,q为要控制的变量数(以数值表示位置),n为
    # 样本大小。
    # 在结束这个话题之前应当指出的是,psych包中的r.test()函数提供了多种实用的显著性
    # 检验方法。此函数可用来检验:
    #  某种相关系数的显著性;
    #  两个独立相关系数的差异是否显著;
    #  两个基于一个共享变量得到的非独立相关系数的差异是否显著;
    #  两个基于完全不同的变量得到的非独立相关系数的差异是否显著。

    补充知识:

    一 、相关性和显著性的关系:

     

    1 关系的显著性(the significance of the relationship):指两(或多)变量之间关系的统计显著水平,一般要求p < 0.05。这是解释的第一步,如果不显著(p > 0.05)、不管其相关系数(回归系数或其它描述关系强度的统计量)多强(这在小样本的情况下会发生),都没有继续讨论的意义,因为在总体中这种关系存在的可能性很低,如接受这种关系的风险太大(即Type I错误)。


    2.     关系的强度(the strength of the relationship):指相关系数(或其它类似统计量)的大小。以相关系数为例,一般认为0.3以下为弱相关、0.3-0.7之间为中相关、0.7-1.0为强相关。这种分类也适用于其它标准化统计量(如标准回归系数, standardized regression coefficient,在SPSS中叫BETA)。大家知道,这些标准化的统计量的平方描述了两(或多)个变量之间的重合部分(如我最近详细解释的回归模型R2描述了自变量对因变量的解释部分),从那个角度来看,弱相关的变量之间的重合不到10%、中相关变量之间的重合在10-50%,强相关变量之间的重合在50%以上。



    3.     关系的方向(the direction of the relationship):指相关系数(或其它类似统计量)的正负符号。如果原先的假设是单尾(one-tailed),如“上网会减少社交时间”、“上网会增加孤独感”等,那么其相关系数的方向就十分重要。(从可证伪性原则来看,单尾假设比双尾假设更好。)当一对变量的关系是显著并强烈、但是其方向与假设相反,该研究假设也必须被拒绝。当然研究者应该深入分析这种情况为何会发生。


    4.     关系的形式(the form of the relationship):指变量之间的关系是线性(linear)还是非线性(nonlinear)。上述统计量描述的都是线性关系,如果不显著、显著而弱、显著并强烈但反方向,也许其真正的关系不是线性而是非线性,所以我们不能简单地收工回家,而要探索其非线性关系。当然,后者更复杂、对于没有良好的理论和方法训练的研究者更是容易掉进种种陷阱。


    二 、只有显著性水平显著时,相关系数才是可信的

        也就说只看相关系数是说明不了问题的,还得看显著性,而且还是显著性水平显著的时候,就可以说明相关系数论证的点可信的,我们知道相关系数有以下含义:

     

    这里,

      

      

    是一个可以表征

      

      

    之间线性关系紧密程度的量。它具有两个性质:

    (1)

     

    (2)

      

    的充要条件是,存在常数a,b,使得

     

    由性质衍生:

    a. 相关系数定量地刻画了 X 和 Y的相关程度,即

      

    越大,相关程度越大;

      

    对应相关程度最低;

    b. X 和Y 完全相关的含义是在概率为1的意义下存在线性关系,于是

      

    是一个可以表征X 和Y 之间线性关系紧密程度的量。当

      

    较大时,通常说X 和Y相关程度较好;当

      

    较小时,通常说X 和Y相关程度较差;当X和Y不相关,通常认为X和Y之间不存在线性关系,但并不能排除X和Y之间可能存在其他关系。

    若X和Y不相关,

      

    ,通常认为X和Y之间不存在线性关系,但并不能排除X和Y之间可能存在其他关系;若

     

    ,则X和Y不相关。若X和Y独立,则必有

      

    ,因而X和Y不相关;若X和Y不相关,则仅仅是不存在线性关系,可能存在其他关系,如

      

    ,X和Y不独立。

    看例图:

     


        显著系数P:

           P值即概率,反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P 值,一般以P < 0.05 为有统计学差异, P<0.01 为有显著统计学差异,P<0.001为有极其显著的统计学差异。

     

    P值

    碰巧的概率

    对无效假设

    统计意义

    P>0.05

    碰巧出现的可能性大于5%

    不能否定无效假设

    两组差别无显著意义

    P<0.05

    碰巧出现的可能性小于5%

    可以否定无效假设

    两组差别有显著意义

    P <0.01

    碰巧出现的可能性小于1%

    可以否定无效假设

    两者差别有非常显著意义

    .


    看看知乎上的解释:https://www.zhihu.com/question/23149768/answer/23758600

    展开全文
  • R 相关与相关性的显著性检验

    万次阅读 2018-04-11 15:04:52
    1.数据说明R语言自带数据包中states.x77(关于美国50个州某些数据)第1至6列50份数据从统计角度以及R语言角度进行分析,看看R语言是怎么做相关分析,同时怎么看分析出结果 首先我们观察一下states....

    1.数据说明

    R语言的自带的数据包中states.x77(关于美国50个州的某些数据)第1至6列的50份数据从统计的角度以及R语言的角度进行分析,看看R语言是怎么做相关分析的,同时怎么看分析出的结果 
    首先我们观察一下states.x77中第1至6列的数据及其意义

    列名解释单位
    Population人口
    Income人均收入美元/人
    Illiteracy文盲率%
    Life Exp预期寿命
    Murder谋杀率%(每100,000人)
    HS Grad高中毕业率%

    2.统计学的计算过程

    (1)我们拿出文盲率(设为x)和预期寿命(设为y)来从统计的角度计算相关系数r以及显著性水平α:

    首先,我们假设文盲率和预期寿命符合计算Pearson相关系数的变量要求: 
    ①两变量相互独立 
    ②两变量为连续变量 
    ③两变量的分布遵循正态分布 
    ④两变量呈线性关系

    换句话来说,当你选择的变量符合上要求的时候,可以选择使用Pearson相关系数来求两个变量间的相关关系

    (2)按照上一篇文章对相关分析的解说,计算Pearson相关系数的时候,有两个步骤:

    ①计算相关系数r 
    ②计算显著性水平α

    因此这里作出简单的讲解: 
    ①计算相关系数r 
    Pearson的相关系数r的公式为: 
    Pearson相关系数 
    那么把数据代入到公式中计算

    #state.x77第3列为文盲率
    x <- state.x77[,3]
    #state.x77第4列为预期寿命
    y <- state.x77[,4]
    #样本总数为50
    n <- nrow(state.x77)
    #按照公式设置分子
    Numerator <- (n*sum(x*y)-sum(x)*sum(y))
    #按照公式设置分母
    Denominator <- (sqrt(n*sum(x^2)-sum(x)^2)*sqrt(n*sum(y^2)-sum(y)^2))
    #计算出相关系数r
    r <- Numerator / Denominator
    r
    [1] -0.5884779
    • 这个时候我们根据1977年发布的美国50个州的states.x77样本中的数据算出了相关系数r=-0.5884779,因为样本states.x77只是从总体(设为总体A)抽出来的数据(总体应该是这么多年来美国各个州的文盲率和预期寿命的数据),那么这个states.77样本中算出的相关系数r并不一定能代表总体A的相关系数ρ

    相关系数

    ②计算显著性水平α 
    设想一下,如果我们的总体A的相关系数ρ实际上为0的(也就是说总体上文盲率和预期寿命没有相关关系),因为误差或者抽样偏差的关系,抽样所得的states.x77的文盲率和预期寿命数据计算出来的相关系数r并不为0(也就是说样本上显示文盲率和预期寿命有相关关系),因此要进行显著性检验:

    提出假设: 
    H0:总体A的相关系数ρ=0(也就是说假设总体上文盲率和预期寿命没有相关关系) 
    H1:总体A的相关系数ρ≠0(也就是说总体上文盲率和预期寿命有相关关系)

    计算检验的统计量: 
    T检验 
    查表确定显著性水平α

    把数据代入公式中计算:

    T <- r*(sqrt(n-2))/sqrt(1-r^2)
    T
    [1] -5.042706

    得出T=-5.042706

    3.R语言应用以及观察结果

    在R语言中,有直接的函数cor( )计算出Pearson相关系数 
    同样是两个步骤: 
    计算文盲率和预期寿命之间的相关系数r:

    r <- cor(state.x77[,3],state.x77[,4])
    r
    [1] -0.5884779

    和我们使用计算Pearson系数计算出的结果一致 
    进行显著性检验

    #使用cor.test()函数计算文盲率和预期寿命的相关关系,默认方法为Pearson相关分析
    T <- cor.test(state.x77[,3],state.x77[,4])
    T
    Pearson's product-moment correlation
    #这里列名数据来源
    data:  state.x77[, 3] and state.x77[, 4]
    #t值和使用显著性检验的公式计算出的t值一致
    #自由度df为n-2=48
    #p值查表可以得出6.969e-06 < 0.05
    t = -5.0427, df = 48, p-value = 6.969e-06
    #因此有95%以上的几率可以拒绝原假设总体A的相关系数ρ=0
    #即文盲率和预期寿命的相关系数显著地不为0
    alternative hypothesis: true correlation is not equal to 0
    95 percent confidence interval:
     -0.7448226 -0.3708811
    #这里列示Pearson相关系数
    sample estimates:
           cor 
    -0.5884779

    4.R语言扩展应用

    当我们不仅仅需要计算文盲率和预期寿命的相关关系,而是计算state.x77中各个数据之间的相关关系,使用cor()也是可以做到的: 
    再次按照相关分析的步骤: 
    ①计算相关系数r(两两变量间的相关系数)

    > cor(state.x77[1:6)
                Population     Income  Illiteracy    Life Exp     
    Population  1.00000000  0.2082276  0.10762237 -0.06805195  
    Income      0.20822756  1.0000000 -0.43707519  0.34025534 
    Illiteracy  0.10762237 -0.4370752  1.00000000 -0.58847793  
    Life Exp   -0.06805195  0.3402553 -0.58847793  1.00000000 
    Murder      0.34364275 -0.2300776  0.70297520 -0.78084575  
    HS Grad    -0.09848975  0.6199323 -0.65718861  0.58221620 
    Frost      -0.33215245  0.2262822 -0.67194697  0.26206801 
    Area        0.02254384  0.3633154  0.07726113 -0.10733194  
        Murder     HS Grad
    0.3436428 -0.09848975
    -0.2300776  0.61993232
    0.7029752 -0.65718861
    -0.7808458  0.58221620
    1.0000000 -0.48797102
    -0.4879710  1.00000000
     -0.5388834  0.36677970
     0.2283902  0.33354187

    ②计算显著性水平α

    > #赋值state.x77中第1至6列的数据给states
    > states <- state.x77[,1:6]
    > #执行对states中的缺失值进行行删除的显著性检验
    > corr.test(states, adjust = "none", use = "complete")
    Call:corr.test(x = states, use = "complete", adjust = "none")
    Correlation matrix 
    #进行Pearson相关系数计算
               Population Income Illiteracy Life Exp Murder HS Grad
    Population       1.00   0.21       0.11    -0.07   0.34   -0.10
    Income           0.21   1.00      -0.44     0.34  -0.23    0.62
    Illiteracy       0.11  -0.44       1.00    -0.59   0.70   -0.66
    Life Exp        -0.07   0.34      -0.59     1.00  -0.78    0.58
    Murder           0.34  -0.23       0.70    -0.78   1.00   -0.49
    HS Grad         -0.10   0.62      -0.66     0.58  -0.49    1.00
    #样本数
    Sample Size 
    [1] 50
    #进行显著性检验
    Probability values (Entries above the diagonal are adjusted for multiple tests.) 
               Population Income Illiteracy Life Exp Murder HS Grad
    Population       0.00   0.15       0.46     0.64   0.01     0.5
    Income           0.15   0.00       0.00     0.02   0.11     0.0
    Illiteracy       0.46   0.00       0.00     0.00   0.00     0.0
    Life Exp         0.64   0.02       0.00     0.00   0.00     0.0
    Murder           0.01   0.11       0.00     0.00   0.00     0.0
    HS Grad          0.50   0.00       0.00     0.00   0.00     0.0
    
     To see confidence intervals of the correlations, print with the short=FALSE option
    
    

    从以上结果可以看出,具有显著性相关关系(设显著性水平为0.05,即超过95%的概率有相关关系)的两两变量有:

    变量P值r值
    Population,Murder0.010.34
    Income, Illiteracy0.00-0.44
    Income,Life Exp0.020.34
    Income, HS Grad0.000.62
    Illiteracy, Life Exp0.00-0.59
    Illiteracy, Murder0.000.70
    Illiteracy, HS Grad0.00-0.66
    Life Exp, HS Grad0.000.58
    Life Exp, Murder0.00-0.78
    Murder, HS Grad0.00-0.49
    展开全文
  • 相关性显著性检验学习笔记

    万次阅读 2018-09-07 14:49:51
    相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析,...为什么要对相关系数进行显著性检验?  因...

           相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析,反应的线性相关程度的量,比如:流量和收入,收入和顾客、订单等的关系,就具有相关性。

    相关性分为正向相关、负相关、不相关(不存在线性关系、可能存在其他关系)、强相关、弱相关

    为什么要对相关系数进行显著性检验?
           因为相关系数通常是根据样本数据计算出来的。由于样本是随机性的,相关系数是一个随机变量,其取值具有一定的偶然性。两个不相关的变量,其相关系数也可能较高,这在统计上称为虚假相关。要从样本相关系数判断总体中是否也有这样的关系,则需要对相关系数进行统计检验后才能得出结论。

    相关性高对模型结果影响多重共线性、无显著变量,如果是多元线性模型或者逻辑回归的话,会造成变量系数与实际意义矛盾的结果

    只有显著性水平显著时,相关系数才是可信的,相关性检验correlation test是对变量之间是否相关以及相关的程度如何所进行的统计检验。变量之间的相关的程度用相关系数r表征。当r大于给定显著性水平a和一定自由度f下的相关系数临界值T"a、时,表示变量之间在统计上存在相关关系。否则,则不存在相关关系。也就说只看相关系数是说明不了问题的,还得看显著性,而且还是显著性水平显著的时候,就可以说明相关系数论证的点可信的。

    显著性检验(significance test)就是事先对总体(随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设(备择假设)是否合理,即判断总体的真实情况与原假设是否有显著性差异。或者说,显著性检验要判断样本与我们对总体所做的假设之间的差异是纯属机会变异,还是由我们所做的假设与总体真实情况之间不一致所引起的。 显著性检验是针对我们对总体所做的假设做检验,其原理就是小概率事件实际不可能性原理来接受或否定假设。

    显著性检验即用于实验处理组与对照组或两种不同处理的效应之间是否有差异,以及这种差异是否显著的方法。
    常把一个要检验的假设记作H0,称为原假设(或零假设) (null hypothesis) ,与H0对立的假设记作H1,称为备择假设(alternative hypothesis) 。
    ⑴ 在原假设为真时,决定放弃原假设,称为第一类错误,其出现的概率通常记作α;
    ⑵ 在原假设不真时,决定不放弃原假设,称为第二类错误,其出现的概率通常记作β
    (3)α+β 不一定等于1 [1]  。
    通常只限定犯第一类错误的最大概率α, 不考虑犯第二类错误的概率β。这样的假设 检验又称为显著性检验,概率α称为显著性水平。
    最常用的α值为0.01、0.05、0.10等。一般情况下,根据研究的问题,如果放弃真假设损失大,为减少这类错误,α取值小些 ,反之,α取值大些。

    展开全文
  • 相关性显著性检验2.MATLAB函数corrcoef 背景 得到了两个变量一组数据,绘制散点图,似乎很有关系,如下: 在直接用matlab拟合出方程之前,可以先检测其相关性与显著性。 1.相关性显著性检验 相关性:两个...
  • R语言进行变量相关性显著性检验 在计算好相关系数以后,如何对它们进行统计显著性检验呢? 常用原假设为变量间不相关(即总体相关系数为0)。可以使用cor.test()函数对单个Pearson、Spearman和Kendall相关...
  • Excel/SPSS相关性显著性水平分析

    万次阅读 2018-03-15 19:48:50
    转载自 http://blog.csdn.net/liyanzhong/article/details/51145381 对两列...本文简单分析excel和SPSS对相关分析和显著性水平的检验应用。(1)方法介绍 Excel中相关性系数可以直接调用CORREL或者Pearson(查看...
  • 可以查询相关性是否显著,比如掌握样本数,得到相关系数可以通过检查该表推断显著性
  • 相关分析在科研过程中常常会碰到,表征了一种两个因素间的相关程度,其值的大小只能说明相关性的强弱。 比如当我们有2000-2015年的NPP数据和2000-2015年的降水数据时,我们想查看两者在空间上随时间变化的 相关性。...
  • 例如在商品推荐中,我们已知一个用户A购买喜好,同时发现另一个用户B购买数据和A相关性很高,那么我们可以根据A喜好去给B推荐相关产品,等等。皮尔逊相关系数(Pearson correlation coefficient)就是最为...
  • 同样用于衡量两个变量之间的相关性,在之前对皮尔逊相关系数介绍中,我们提到了在进行皮尔逊相关系数运算时候需要确定数据是否符合正态分布等等,较为麻烦,同时不满足正态性的数据难道就没有办法判断相关性了吗...
  • logistics模型不允许自变量之间有很强的相关性 过滤预测力较低变量 减少变量数量 二.指标 2.1两个连续变量 皮尔森相关系数(容易受极端值影响) proc corr data=data-set-name; ...
  • 显著性检验 (significant test) 连续变量 vs 类别变量 (continuous variable VS nominal variable): ANOVA检验(R中可使用aov函数) 类别变量 vs 类别变量 (nominal variable VS nominal variab...
  • 基本统计分析

    千次阅读 2016-05-24 21:18:22
    相关性的显著性检验 两组间差异 ttest 非参数检验 曼-惠特尼-威尔科克森检验 威尔科克森符号秩检验 多组间差异 ANOVA 单因素方差分析 待续 非参数方法 克鲁斯卡尔-沃利斯检验 Friedman检验 多组比较描述性统计分析
  • 讨论随机误差是AR(P)序列非线性...当模型存在自相关性时,给出了检验异方差性的SCORE统计量和调整SCORE统计量。最后利用得到的检验方法分析了氯化物数据,分析结果表明,该数据具有显著的异方差和AR(2)相关性
  • R语言相关性分析

    万次阅读 2019-11-12 22:52:00
    文章目录@[toc]Pearson相关系数(积差相关系数)适用条件Spearman等级相关系数适用条件Kendall's Tau相关系数适用条件偏相关适用条件R语言实现Pearson、Spearman、Kendall示例偏相关相关性显著性检验相关性可视化在...
  • 一、 常见检验 1. 独立性检验针对于类别型变量,基于频数表或者列联表来判断两个因素...2. 相关性的显著性检验是针对定量变量,对定量变量计算出相关系数之后,来计算对于原来的假设,变量间不相关(即总体的相关系...
  • SPSS 相关性的选择

    2018-10-21 11:45:00
    显著性检验结果P值,越接近0越显著。 同样数据,我们接着做计算相关系数矩阵特征值及其对应单位特征向量,并计算贡献率和累计贡献率。将相关系数矩阵特征值按从大到小顺序排列,可得总方差解析结果。 ...
  • R语言相关分析

    万次阅读 2017-01-03 11:04:34
    相关分析相关系数可以...我们将关注多种相关系数和相关性的显著性检验。我们将使用R基础安装中的state.x77数据集,它提供了美国50个州在1977年的Population(人口)、Income(收入)、Illiteracy(文盲率)、LifeExp(预期寿
  • 但是,往往你还需要做显著性差异检验,即t-test,来检验两组数据是否显著相关,这在SPSS里面会自动为你计算。 样本数越是大,需要达到显著性相关相关系数就会越小。所以这关系到你样本大小,如果你样本很大...
  • 独立性检验

    2015-01-04 15:08:24
    ...本文给出基于两种统计量假设检验,来检验变量间是否独立--χ2与秩和。...你可能会参考另一篇博客相关性检验。...假设检验(Test of Hypothesis)又称为显著性检验(Test of Ststistical Sign
  • 相关性

    2021-02-18 19:40:37
    显著性水平 α\alphaα :有多大可能拒绝原假设(认为原假设是错误概率) 置信水平 β=1−α\beta=1-\alphaβ=1−α :原假设正确概率 进行假设检验的步骤 确定原假设和备选假设 假设小明以前体重一直都是90...

空空如也

空空如也

1 2 3 4 5 ... 7
收藏数 132
精华内容 52
关键字:

相关性的显著性检验