精华内容
下载资源
问答
  • spearman相关系数

    2020-09-27 19:25:25
    https://baike.baidu.com/item/spearman相关系数/7977847?fr=aladdin
    展开全文
  • 上一篇里,我们简单的介绍了基于 Pearson 相关系数的特征选择方法,本篇介绍另一种使用更加广泛的相关系数Spearman相关系数,简称 Spearman 相关系数Spearman 相关系数与 Pearson 相关系数、Kendall 相关系数...

    上一篇里,我们简单的介绍了基于 Pearson 相关系数的特征选择方法,本篇介绍另一种使用更加广泛的相关系数:Spearman 秩相关系数,简称 Spearman 相关系数。Spearman 相关系数与 Pearson 相关系数、Kendall 相关系数并称统计学三大相关系数,足见其重要性。

    有了 Pearson 相关系数,为什么还要用 Spearman 相关系数呢,主要是 Pearson 系数只能度量两个服从正态分布的变量之间线性相关性的强弱 (如果不熟悉可以回顾一下上一篇的介绍),而 Spearman 系数只度量单调关系,而不考虑具体数值的影响,因此 Spearman 相关系数的应用范围更广,不仅对数据分布不作任何假设,能够容忍异常值,也不需要数据的取值是等距的(例如比赛中,第 1 名和第 2 名的距离与第 2 名和第 3 名的距离是不等的),因此除非是考虑性能的影响,能用 Pearson 系数的地方都能用 Spearman 系数。

    Spearman 秩相关系数的定义

    Spearman 秩相关系数是一个非参数性质(与分布无关)的秩统计参数,是用来度量两个连续型变量之间单调关系强弱的相关系数,取值范围也是 $[-1,1]$。在没有重复数据的情况下,如果一个变量是另外一个变量的严格单调函数,则 Spearman 秩相关系数就是 $1$ 或 $-1$,称变量完全 Spearman 秩相关。

    这里的秩相关 (Rank Correlation),又称等级相关,是将两变量的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量。排序不论从大到小还是从小到大排都无所谓,只要保证大家排序的标准一致即可。

    用 $\rho_s$ 来表示 Spearman 相关系数 (用 $\rho_p$ 表示 Pearson 相关系数)。如果每个变量都没有相同的取值 (即没有相同的秩次),则 Spearman 相关系数可由下式计算:

    其中,$n$ 表示数据点的个数; 表示数据点 的秩次 之差:。

    如果某个变量有重复数据,则计算变量之间的 Spearman 相关系数就是计算变量数据秩次之间的 Pearson 相关系数:

    其中,$r_x$ 表示变量 $\boldsymbol{x}$ 转换后的秩次。从这个定义可以看出来,Spearman 相关系数实际上就是对数据做了秩次变换后的 Pearson 相关系数。

    举例说明

    我们还是拿上一篇的例子来说明。首先将样本进行秩次变换,样本升序排列后的位次如图 1 所示:

    需要说明的是,这里变量 $y$ 有两个重复数据 $0.1$,在排序的时候它们的位次相同,此时可以用相同位次的数据所占的位次之和除以数据的数量 (即 $\frac{1+2}{2}=1.5$) 来作为这些重复数据的位次。

    根据定义,当存在重复数据的时候,我们计算秩次 (即 $r_x$, $r_y$) 的 Pearson 相关系数 (过程省略),得到结果 $\rho_s=0.994$,几乎是单调相关了,其数值比直接计算原始数据的 Pearson 相关系数 $\rho_p=0.972$ 还要大一些。

    实际上,当 Pearson 相关系数比较大的时候,Spearman 相关系数也比较大;而当 Pearson 相关系数比较小的时候,Spearman 相关系数仍然可能较大,例如变量之间是指数相关 ($y=e^x$,如图 2 所示) 时,它们的 Pearson 相关系数和 Spearman 相关系数分别是 $0.7758$ 和 $1.0$。

    最后,我们看看上一篇图 3 所示的异常数据对 Spearman 相关系数的影响,引入异常点 $(0.9,-1.0)$ 后,变量 $x$, $y$ 的 Pearson 相关系数降为了 $\rho_p=-0.0556$,它们的 Spearman 相关系数也受到了较大的影响,降到了 $\rho_s=0.3234$,也就是较弱的正相关性。但是从这个例子仍然可以看出,与 Pearson 相关系数相比,Spearman 相关系数对异常值容忍度更高一些。

    附示例的 python 代码:

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    15>>>from scipy.stats import spearmanr, pearsonr

    >>>x=[0.1, 0.2, 0.3, 0.4, 0.6, 0.7, 0.8, 0.9]

    >>>y=[0.1, 0.1, 0.2, 0.6, 0.7, 0.8, 0.9, 1.0]

    >>>spearmanr(x,y)

    (0.99402979738800479, 5.2961535156451228e-07)

    >>>rx=[1, 2, 3, 4, 5, 6, 7, 8]

    >>>ry=[1.5, 1.5, 3, 4, 5, 6, 7, 8]

    >>>pearsonr(rx,ry)

    (0.99402979738800501, 5.2961535156445373e-07)

    >>>z=[0.1, 0.1, 0.2, 0.6, 0.7, 0.8, 0.9, -1.0]

    >>>spearmanr(x,z)

    (0.32335909071657992, 0.43463944855085729)

    >>>z=[0.1, 0.12, 0.2, 0.6, 0.7, 0.8, 0.9, -1.0]

    >>>spearmanr(x,z)

    (0.32335909071657992, 0.43463944855085729)

    这里,spearmanr 返回的第二个结果是 p-value,其具体含义可参考官方文档。

    Take-aways

    本文简单介绍了 Spearman 相关系数,主要注意点总结如下:

    Spearman 相关系数是度量两个连续型变量之间单调关系强弱的相关系数,它对数据的分布不作任何假设,能够容忍异常值,也不需要数据的取值是等距的;

    Spearman 相关系数实际上就是对数据做了秩次变换后的 Pearson 相关系数,只要能用 Pearson 相关系数的地方就能使用 Spearman 相关系数;

    Spearman 相关系数还需要对原始数据进行排序,因此计算复杂度高于 Pearson 相关系数,当数据满足 Pearson​ 相关系数的使用条件时,优先考虑使用 Pearson 相关系数。

    展开全文
  • Excel Spearman相关系数

    2021-01-05 18:48:05
    Excel Spearman相关系数 1 声明 本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。 2 Spearman相关系数简介 Pearson当数据不是正态分布或当异常值...

                                            Excel Spearman相关系数

    1 声明

    本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。

    2 Spearman相关系数简介

    Pearson当数据不是正态分布或当异常值的存在使两个随机变量之间的关联不确定时,可以用Spearman来代替皮尔逊相关系数,它是一个无参检验。

    3 Spearman相关系数

     

    借助real Statistics Excel统计分析插件):

    安装参考官网https://www.real-statistics.com/

     

    Step1: 输入源数据:

     

    Step2:找到相关分析,相关分析检验。

     

    Step2 选择输入区、选择检验类型,这里是Spearman’s,设定输出区域后点确定按钮。

     

    Step3 输出Spearman检验结果

     

    4 相关说明

     

    1 Spearman t计算方法 

    注:r即Pearson系数 

     

    2 Spearman’s Rho Table(等级相关系数表)

     

    注:这里是双尾检验的显著度,单尾的显著度α要乘以2.

    5 问题总结

     

    展开全文
  • spearman 相关系数

    千次阅读 2013-07-26 10:42:04
    测量相关程度的相关系数很多,各种参数的计算方法及特点各异。   一般用积差相关系数,又称pearson相关系数来表示其相关性的大小,积差相关系数只适用于两变量呈线性相关时。其数值介于-1~1之间,当两变量...

    测量相关程度的相关系数很多,各种参数的计算方法及特点各异。


          一般用积差相关系数,又称pearson相关系数来表示其相关性的大小,积差相关系数只适用于两变量呈线性相关时。其数值介于-1~1之间,当两变量相关性达到最大,散点呈一条直线时取值为-11,正负号表明了相关的方向,如果两变量完全无关,则取值为零。

          作为参数方法,积差相关分析有一定的适用条件,当数据不能满足这些条件时,分析者可以考虑使用Spearman等级相关系数来解决问题。
    展开全文
  • 因为两者不是线性相关的,所以我选择使用 scipy.stats.spearmanr 中的Spearman等级相关系数 . 但我的问题是结果有时没有意义,我无法弄清楚我做错了什么 .下图是图,其中丰度被绘制为三个不同的时间(颜色) . 但奇怪...
  • 连续数据,正态分布,线性关系,用pearson相关系数是最恰当,当然用spearman相关系数也可以,效率没有62616964757a686964616fe78988e69d8331333365656661pearson相关系数高。2.上述任一条件不满足,就用spearman相关...
  • 斯皮尔曼spearman相关系数 一、定义 二、MATLAB中计算斯皮尔曼相关系数 就到这里啦,谢谢大家!!! ❥(^_-)
  • 查了一下,发现可以通过皮尔逊相关系数和spearman相关系数来计算特征之间的相似度,下面将介绍这两个系数和区别。 皮尔逊相关系数 下面是皮尔逊相关系数的计算公式,只需要将(X和Y的协方差)/(X的标准差*Y的标准...
  • 皮尔逊 person相关系数和斯皮尔曼spearman等级相关系数,它们可用来衡量两个变量之间的相关性的大小,根据 数据满足的不同条件,我们要选择不同的相关系数进行计算和分析(建模论文中最容易用错的方法)。 一、...
  • help spearmanspearman_options description------------------------------------------------------------------------------------------------------------Mainstats(spearman_list) list of statis...
  • Pearson相关系数和Spearman相关系数的区别

    万次阅读 多人点赞 2019-08-29 14:31:55
    目前常用的两种相关性系数为皮尔森相关系数(Pearson)和斯皮尔曼等级相关系数Spearman) 简介 皮尔森相关系数评估两个连续变量之间的线性关系。 其中: -1 ≤ p ≤ 1 p接近0代表无相关性 p接近1或-1...
  • 三个相关性系数(pearson, spearman, kendall)反应的都是两个变量之间变化趋势的方向以及程度,其值范围为-1到+1,0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。 1. person ...
  • 本文主要是讲解下何为Pearson相关系数,Spearman相关系数,以及相应的代码实现。(代码是我根据公式自己封装的,所以:1. 性能肯定没有Tensorflow那些框架的性能好; 2. 有可能会有问题) 目录1 Pearson相关系数1.1...
  • PEARSON CORRELATION COEFFICIENT(PCC) 皮尔森相关系数的值用上述公式来表示,COV为两个变量的协方差,分母为两个变量标准差的乘积。 是X的平均值, 是Y的平均值,E为期望。皮尔森相关系数是一个线性相关的系数,...
  • 计算Spearman相关系数,适合于定序变量或不满足正态分布假设的等间隔数据; 计算Kendall秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据。  计算相关系数:当资料不服从双变量正态分布或总体分布...
  • 给定两个连续变量x和y,皮尔森相关系数被定义为:————————————————————————————————————————————————由于原则上无法准确定义顺序变量各类别之间的距离,导致计算...
  • 一、相关系数相关系数:考察两个变量之间的相关程度。相关系数的取值范围是-1到1,绝对值越接近1,则说明两个变量之间的相关程度越大;绝对值越接近0,则说明两个变量之间的相关程度越小,具体见下图: 二、...
  • 自己编程实现Spearman相关系数的计算。 Spearman相关系数 Spearman相关系数是一种秩相关系数。数据的秩简单来说就是该样本数据的次序统计量。秩统计量是基于样本值的大小在全体样本中所占位次(秩)的统计量 例:有...
  • Pearson相关系数与Spearman相关系数

    千次阅读 2018-09-26 14:25:14
    import numpy as np data = np.array([[10,10,8,9,7],[4,5,4,3,3],[3,3,1,1,1]]) data array([[10, 10, 8, 9, 7], [ 4, 5, 4, 3, 3], [ 3, 3, 1, 1, 1]]) ...#行与行之间的相关系数 np.corrcoef(da...
  • ML之PPMCC:PPMCC皮尔逊相关系数(Pearson correlation coefficient)、Spearman相关系数的简介、案例应用之详细攻略 目录 PPMCC皮尔逊相关系数的简介 1、Pearson线性相关系数对数据分布的敏感性 1.1、PPMCC的...
  • 目录:相关系数相关系数:考察两个事物(在数据里我们称之为变量)之间的相关程度。如果有两个变量:X、Y,最终计算出的相关系数的含义可以有如下理解:(1)、当相关系数为0时,X和Y两变量无关系。(2)、当X的值增大...
  • 斯皮尔曼相关系数是统计学中三大相关系数之一 具有非常好的使用场景,对于解决...一、斯皮尔曼相关系数的使用场景:斯皮尔曼等级相关(Spearman’s correlation coefficient for ranked data)主要用于解决名称数据和...
  • 统计术语中,相关系数一词经常被滥用,同时也困扰着我。相关系数描述一个变量随着另一个变量的增加而增加,也可以理解为单调递增。变量之间的这个单调趋势很值得去探索,但是大多数人习惯使用标准相关系数导致无法...
  • 在单调关系中,变量趋于一起变化,但不一定以恒定速率变化 N是观测值的总数量 斯皮尔曼另一种表达公式: 表示二列成对变量的等级差数 #spearman相关系数,方式一 x=[10.35,6.24,3.18,8.46,3.21,7.65,4.32,8.66,9.12,...
  • 利用matlab计算Pearson和Spearman相关系数

    万次阅读 多人点赞 2015-02-28 14:10:03
    Pearson相关系数 考察两个事物(在数据里我们称之为变量)之间的相关程度,简单来说就是衡量两个数据集合是否在一条线上面。其计算公式为:或或 N表示变量取值的个数。     相关系数r的值介于–1与+1之间,即...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 521
精华内容 208
关键字:

spearman相关系数