精华内容
下载资源
问答
  • Excel的数据分析能力比SPSS还是稍微弱一点的,毕竟SPSS也是主要分析数据的一个软件,那么在相关分析的这里就凸显了它的强大之处,您再次读这篇文章《用Excel做数据间的相关系数》,会发现,Excel中的相关系数的分析...

    027af038ba35db10ef814fa661d2f85c.png

    之前写过一个用excel做的相关系数文章《用Excel做数据间的相关系数》(点击查看),可以再次温习。

    那么今天主要讲一下用SPSS做相关分析。

    Excel的数据分析能力比SPSS还是稍微弱一点的,毕竟SPSS也是主要分析数据的一个软件,那么在相关分析的这里就凸显了它的强大之处,您再次读这篇文章《用Excel做数据间的相关系数》,会发现,Excel中的相关系数的分析只是皮尔逊(Pearson)相关分析。而SPSS中包括了三种相关分析(Pearson/ Kendall’s tau-b / Spearman)。

    bf32dd6bc7936784bfb0a9e2adbbdca6.png

    世间万物除了因果关系、共变关系还有相关关系。相关关系中分为正相关、负相关和不相关,体现在数字上就是[-1,1]。若想形象的表示两种数据之间的关系,可以制作一个相关关系散点图。相关还有偏相关,偏相关是指将其他变量影响予以排除,求两个变量之间的关系。这些用SPSS软件都能做到。

    3c493c9ace7e30fe60a4c268fd62a06a.png

    下面说一下这三种相关系数的特点。

    1、Pearsoncorrelation coefficient皮尔逊相关系数

    它是由卡尔·皮尔逊从弗朗西斯·高尔顿在19世纪80年代提出的一个相似却又稍有不同的想法演变而来的。

    该相关系数的前提条件最严格:

    (1)成对数据;

    (2)变量呈正态双分布;

    (3)两列变量是连续变量;

    (4)两列变量之间的关系是线性关系;

    (5)数据间的差距不能太大。

    所以我们用pearson相关系数之前要进行数据正态验证。

    2、Kendall’stau-b correlation coefficient 肯德尔相关系数

    它是一种秩相关系数,也就说它是做按顺序排列的数据相关分析,而且分析的对象是分类变量,比如说人的帅气程度(很帅、帅、一般帅、不帅),没有皮尔逊相关系数的那么多前提条件。

    3、Spearman correlation coefficient 斯皮尔曼相关系数

    由英国心理学家、统计学家斯皮尔曼根据积差相关的概念推导而来。它也是分析有顺序的数据相关性,有线性关系的数据,没有皮尔逊相关系数的那么多前提条件的约束。

    所以说不是正态分布的数据,可以用后两种相关系数进行分析。

    f901d2a66e3549cb6143a73dd86edff6.png

    演示一下SPSS怎么操作

    打开软件自带的数据集employee data,我们要分析初始工资和目前工资的相关性。

    1、我们首先看一下他们的数据是否呈正态性

    这里用到非参数检验(Nonparametric tests),即在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。其实也可以用其他方式进行正态检验,可参考下面参考文献。

    这里就说一下非参数检验,如下图,依次点击分析→非参数检验→旧对话框→1-样本K-S,

    d2cde070e5c76b62f0af3b7b20975060.png

    这里面有个正态检验,翻译的是“常规”,这就是正态分布(Normal distribution),其他几个叫均匀分布、泊松分布、指数分布。我们把初始工资和当前工资放到检验变量列表。

    3d473cf3c6f842eefa59dcc089fe2c70.png

    点击确定,出结果,发现p<0.05,不是正态分布。那我们就不能用皮尔逊相关系数了(实际上实验数据一般与正态分布相差不大,可以用皮尔逊相关系数,这里就用斯皮尔曼相关系数了)。

    52b50fc17b90a710e8e6b0865502171f.png

    2、我们检验一下线性情况

    这里用到散点图

    如下图,依次点击图形→旧对话框→散点

    e628a4305d10c27c2ac4ea5943074d89.png

    选择第一个简单分布

    7c79ef05955daa4a7eb6997406c4893c.png

    将当前工资放入第一个Y轴,初始工资放入第二个X轴

    7689554e1ecccb5a9fc9c5824e63468c.png

    可以点击标题,加标题

    ec85b07bf1fae056ccfc3120246f4eba.png

    点击确定,出图,发现初始工资和目前工资,它们之间是呈线性关系的。

    8186f43ec46503fd84014e954d3cab6e.png

    3、进行相关分析

    依次点击分析→相关→双变量

    697304f0462599f09ba4be41e984c62f.png

    把初始工资和目前工资放入变量内,选择斯皮尔曼相关系数,双尾检验,标记显著性相关。

    f6d4df8f9776faf0c30a9ef94c133c6f.png

    点击确定得到结果,发现他们的相关性是0.826,还是比较强相关的。

    6f861f1751a47df81486595c27c78f9c.png

    5ddc8c8a892d465eeef141e9d109b916.png

    下面是一个补充内容,

    距离的分析,

    我们还是以初始工资和目前工资做分析。

    如下图依次点击分析→相关→距离

    4e13972e0906b2e3e72c2a91222bc54b.png

    把初始工资和目前的工资放入变量,选择变量间,相似性,点击确定。

    56d6f67603f3600bc08075f0049cf145.png

    出结果,相关性0.880

    dbc49b0e7813dc3acff28a06299147ec.png

    我们求一下皮尔逊相关系数,发现跟距离的一样,可知,距离用的是皮尔逊方法。

    dc207c4b8c4921ec9194c29bb686352c.png

    参考文献:

    [1]     统计学三大相关系数,

    https://blog.csdn.net/zxyscz/article/details/82014694

    [2]     几个相关系数:Pearson、Spearman、pointbiserialr、kendalltau,

    https://blog.csdn.net/mmc2015/article/details/51942066

    [3]     kendall秩相关系数,

    https://baike.baidu.com/item/kendall%E7%A7%A9%E7%9B%B8%E5%85%B3%E7%B3%BB%E6%95%B0/6246854?fr=aladdin

    [4]     皮尔逊相关系数,

    https://baike.baidu.com/item/%E7%9A%AE%E5%B0%94%E9%80%8A%E7%9B%B8%E5%85%B3%E7%B3%BB%E6%95%B0/12712835?fr=aladdin

    [5]     spearman相关系数,

    https://baike.baidu.com/item/spearman%E7%9B%B8%E5%85%B3%E7%B3%BB%E6%95%B0/7977847?fr=aladdin

    [6]     spss如何进行正态性检验

    https://jingyan.baidu.com/article/e6c8503cb5fc7be54e1a1860.html

    [7]     赵小军,祁禄.SPSS数据分析:问题提出与实例导学[M].北京:中国水利水电出版社,2011。

    欢迎讨论!

    微信文章随笔,描述不当的地方,望指正!

    若侵权,请联系本人删除!

    欢迎大家投科学相关的稿件。

    爱生活,爱科学!

    展开全文
  • spearman相关性This article is about correlation and its implication in the machine learning. In my previous article, I have discussed Pearson’s correlation coefficient and later we have written a ...

    spearman相关性

    This article is about correlation and its implication in the machine learning. In my previous article, I have discussed Pearson’s correlation coefficient and later we have written a code to show the usefulness of finding Pearson’s correlation coefficient. Well, you must be thinking that why is there a need to use Spearman's correlation when we already have Pearson’s correlation to find out the correlation between the feature values and the target values? The answer is that "Pearson’s correlation works fine only with the linear relationships whereas Spearman's correlation works well even with the non-linear relationships".

    本文介绍了相关性及其在机器学习中的含义。 在上一篇文章中,我讨论了Pearson的相关系数 ,后来我们编写了代码以显示找到Pearson的相关系数的有用性。 好吧,您必须考虑一下, 当我们已经有了Pearson的相关性以找出特征值与目标值之间的相关性时为什么需要使用Spearman的相关性? 答案是“皮尔逊相关仅适用于线性关系,而斯皮尔曼相关甚至适用于非线性关系”

    Another advantage of using Spearman’s correlation is that since it uses ranks to find the correlation values, therefore, this correlation well suited for continuous as well as discrete datasets.

    使用Spearman相关性的另一个优点是,由于它使用秩来查找相关值,因此,此相关性非常适合于连续数据集和离散数据集。

    Image source: https://digensia.files.wordpress.com/2012/04/s1.png

    图片来源: https : //digensia.files.wordpress.com/2012/04/s1.png

    Here, the the value of dican be calculated as X-Y where X= feature values and Y= target values.

    在这里,dican的值可以计算为XY ,其中X =特征值Y =目标值

    The Dataset used can be downloaded from here: headbrain4.CSV

    可以从此处下载使用的数据集: headbrain4.CSV

    Since we have used the continuous dataset. i.e. the same dataset used for Pearson’s correlation, you will not be able to observe much of a difference between the Pearson and Spearman correlation, you can download any discrete dataset and you’ll see the difference.

    由于我们使用了连续数据集。 也就是说,与用于Pearson相关的数据集相同,您将无法观察到Pearson和Spearman相关之间的很大差异,您可以下载任何离散的数据集,然后看到差异。

    So now, let us see how we can use Spearman's correlation in our machine learning program using python programming:

    现在,让我们看看如何使用python编程在我们的机器学习程序中使用Spearman的相关性:

    # -*- coding: utf-8 -*-
    """
    Created on Sun Jul 29 22:21:12 2018
    
    @author: Raunak Goswami
    """
    
    import numpy as np
    import pandas as pd
    import matplotlib.pyplot as plt
    
    #reading the data
    """
    here the directory of my code and the headbrain4.csv 
    file is same make sure both the files are stored in 
    the same folder or directory
    """ 
    data=pd.read_csv('headbrain4.csv')
    
    #this will show the first five records of the whole data
    data.head()
    
    #this will create a variable w which has the feature values i.e Gender
    w=data.iloc[:,0:1].values
    #this will create a variable x which has the feature values i.e Age Range
    y=data.iloc[:,1:2].values
    #this will create a variable x which has the feature values i.e head size
    x=data.iloc[:,2:3].values
    #this will create a variable y which has the target value i.e brain weight
    z=data.iloc[:,3:4].values 
    
    
    
    print(round(data['Gender'].corr(data['Brain Weight(grams)'],method='spearman')))          
    plt.scatter(w,z,c='red')
    plt.title('scattered graph for Spearman correlation between Gender and brainweight' )
    plt.xlabel('Gender')
    plt.ylabel('brain weight')
    plt.show()
    
    
    print(round(data['Age Range'].corr(data['Brain Weight(grams)'],method='spearman')))          
    plt.scatter(x,z,c='red')
    plt.title('scattered graph for Spearman correlation between age and brainweight' )
    plt.xlabel('age range')
    plt.ylabel('brain weight')
    plt.show()
    
    
    
    print(round((data['Head Size(cm^3)'].corr(data['Brain Weight(grams)'],method='spearman'))))         
    plt.scatter(x,z,c='red')
    plt.title('scattered graph for Spearman correlation between head size and brainweight' )
    plt.xlabel('head size')
    plt.ylabel('brain weight')
    plt.show()
    
    data.info()
    data['Head Size(cm^3)'].corr(data['Brain Weight(grams)'])
    k1=data.corr(method='spearman')
    print("The table for all possible values of spearman's coeffecients is as follows")
    print(k1)
    
    

    After you run your code in Spyder tool provided by anaconda distribution just go to your variable explorer and search for the variable named as k1 and double-click to see the values in that variable and you’ll see something like this:

    anaconda发行版提供的Spyder工具中运行代码后,转到变量资源管理器并搜索名为k1的变量,然后双击以查看该变量中的值,您将看到类似以下内容:

    k1 dataframe

    Here,1 signifies a perfect correlation,0 is for no correlation and -1 signifies a negative correlation.

    此处,1表示完全相关,0表示没有相关,-1表示负相关。

    As you look carefully, you will see that the value of the correlation between brain weight and head size is always 1. If you remember were getting a similar value of correlation in Pearson’s correlation

    仔细观察,您会发现大脑重量和头部大小之间的相关性值始终为1。如果您记得在皮尔森相关性中获得了相似的相关性值

    Now, just go to the ipython console you will see some self-explanatory scattered graphs, in case you are having any trouble understanding those graphs just have a look at my previous article about Pearson’s correlation and its implication in machine learning and you’ll get to know.

    现在,只要转到ipython控制台,您将看到一些不言自明的分散图,以防万一您无法理解这些图,请看一下我以前关于Pearson的相关性及其在机器学习中的含义的文章,您将获得要知道。

    This was all for today guys hope you liked it if you have any queries just drop a comment below and I would be happy to help you.

    今天,这就是全部,如果您有任何疑问,希望您喜欢它,只需在下面发表评论,我们将竭诚为您服务。

    翻译自: https://www.includehelp.com/ml-ai/spearmans-correlation-and-its-implication-in-machine-learning.aspx

    spearman相关性

    展开全文
  • python实现spearman相关性检验 Spearman秩相关系数 对原始变量的分布不做要求,适用范围较Pearson相关系数广,即使是等级资料,也可适用。但其属于非参数方法,检验效能较Pearson系数低。(适合含有等级变量...

    python实现spearman相关性检验

    See the source image

    See the source image

    Spearman秩相关系数 

    对原始变量的分布不做要求,适用范围较Pearson相关系数广,即使是等级资料,也可适用。但其属于非参数方法,检验效能较Pearson系数低。(适合含有等级变量或者全部是等级变量的相关性分析)

    测试两个样本是否具有单调关系。

    假设条件

    • 每个样本中的观察结果都是独立且均等分布的(iid)。
    • 可以对每个样本中的观察结果进行排名。

    解释

    • H0:两个样本是独立的。
    • H1:样本之间存在依赖性。

    #

    # Example of the Spearman's Rank Correlation Test
    from scipy.stats import spearmanr
    data1 = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
    data2 = [0.353, 3.517, 0.125, -7.545, -0.555, -1.536, 3.350, -1.578, -3.537, -1.579]
    stat, p = spearm
    展开全文
  • 相关性分析方法(Pearson、Spearman

    千次阅读 2019-10-06 06:44:49
    有时候我们根据需要要研究数据集中某些属性和指定属性的相关性,显然我们可以使用一般的统计学方法解决这个问题,下面简单介绍两种相关性分析方法,不细说具体的方法的过程和原理,只是简单的做个介绍,由于理解可能...

      有时候我们根据需要要研究数据集中某些属性和指定属性的相关性,显然我们可以使用一般的统计学方法解决这个问题,下面简单介绍两种相关性分析方法,不细说具体的方法的过程和原理,只是简单的做个介绍,由于理解可能不是很深刻,望大家谅解。

    1、Pearson相关系数 

      最常用的相关系数,又称积差相关系数,取值-1到1,绝对值越大,说明相关性越强。该系数的计算和检验为参数方法,适用条件如下: (适合做连续变量的相关性分析)

    (1)两变量呈直线相关关系,如果是曲线相关可能不准确。 

    (2)极端值会对结果造成较大的影响 

    (3)两变量符合双变量联合正态分布。 

    2、Spearman秩相关系数 

      对原始变量的分布不做要求,适用范围较Pearson相关系数广,即使是等级资料,也可适用。但其属于非参数方法,检验效能较Pearson系数低。(适合含有等级

    变量或者全部是等级变量的相关性分析)

    3、无序分类变量相关性

      最常用的为卡方检验,用于评价两个无序分类变量的相关性。根据卡方值衍生出来的指标还有列联系数、Phi、Cramer的V、Lambda系数、不确定系数等。

    OR、RR也是衡量两变量之间的相关程度的指标。

      卡方检验用于检验两组数据是否具有统计学差异,从而分析因素之间的相关性。卡方检验有pearson卡方检验,校正检验等,不同的条件下使用不同的卡方检验方

    法,比如说满足双大于(40,5)条件的情况下要使用pearson卡方检验方法,另外的情况下要使用校正卡方检验方法。

     

      说的不多,只是想在大家使用相关方法的时候清楚他们之间的差别,以及不同方法的适用条件是什么

    转载于:https://www.cnblogs.com/retarded/p/4158527.html

    展开全文
  • Spearman 相关分析 Python

    千次阅读 2019-05-20 17:53:19
    Spearman相关分析(菜鸟版) 和Pearson的区别 皮尔逊积差相关系数要求两个变量均服从正态分布(正确地说是二维正态分布)。 斯皮尔曼等级相关系数对变量的分布无要求,主要用在偏态资料或等级资料上,利用秩次进行计算...
  • 目录 例 数据简单图 ...本文展示了r语言中如何进行Spearman等级相关分析的例子。 例 Spearman等级相关的例子 ### -------------------------------------------------------------- ### Spe...
  • 数据挖掘01-相关性分析及...4.3 使用pandas对数据做Spearman相关性分析五、Kendall相关系数使用pandas对数据做Kendall相关性分析六、下三角相关性矩阵七、重点相关性矩阵八、参考资料: 简介 ​ 有这么一句话在业界广
  • 三个相关性系数(pearson, spearman, kendall)反应的都是两个变量之间变化趋势的方向以及程度,其值范围为-1到+1,0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。   1. person ...
  • SPSS——相关分析——Spearman秩相关系数

    万次阅读 多人点赞 2016-09-14 23:02:17
    简介斯皮尔曼等级相关(Spearman’s correlation coefficient for ranked data)主要用于解决称名数据和顺序数据相关的问题。适用于两列变量,而且具有等级变量性质具有线性关系的资料。由英国心理学家、统计学家...
  • prism 计算 Spearman相关

    千次阅读 2021-10-24 23:04:23
    prism 计算 Spearman相关 假设检验的基本思想: 假设,两变量不相关,在这个假设成立的条件下,可以得到一个分布已知的统计量,将样本值代入统计量,得到抽到这些样本点(已经发生的事件)的概率,这个概率值即为p...
  • 相关性分析 相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度 相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析,即两个变量之间是否有联系 相关性...
  • 常用相关性分析方法在分析特征间相关性时,常使用的方法是 pandas.DataFrame.corr :DataFrame.corr(self, method=’pearson’, min_periods=1)其中包含的方法主要为:pearson:Pearson相关系数kendall:Kendall秩...
  • 当我们要研究某指标与某结果之间是否存在一定的相关性,就需要进行相关性分析,现如今比较常用的相关性分析有斯皮尔曼相关性分析、皮尔逊相关性分析,两者所适用的范围不同。 今天我们就使用IBM SPSS Statistic软件...
  • R语言相关性分析

    万次阅读 多人点赞 2019-11-12 22:52:00
    文章目录@[toc]Pearson相关系数(积差相关系数)适用条件Spearman等级相关系数适用条件Kendall...相关性分析就是通过定量指标描述变量之间的强弱、直接或间接的联系。 常见相关性指标 Pearson相关系数(积差相关系数) ...
  • [R分析] 相关性分析与画图

    万次阅读 2018-01-26 21:29:29
    (2)使用R自带函数mean(),sd(),cor()相关分析,plot()画图。 实现代码 > age< -c( 4 , 6 , 4 , 7 , 5 , 7 , 5 , 8 , 6 , 8 ) > height < -c( 45 , 56 , 47 , 60 , 56 , 61 , 58 , 66 , 64 , 65 ) > ...
  • 图示初判两个变量之间的相关性(散点图)多变量之间的相关性(散点图矩阵)2.Pearson相关系数3.Spearman相关系数 分析连续变量之间的线性相关程度的强弱 介绍如下几种方法: 图示初判 Pearson相关系数(皮尔逊相关...
  • 今天在做数据分析的时候,发现了需要计算特征之间的相似度,从而在相似度比较高的特征之间保留一个就行。查了一下,发现可以通过皮尔逊相关系数和spearman相关系数来计算特征之间的相似度,下面将介绍这两个系数和...
  • Pearson相关系数和Spearman相关系数的区别

    万次阅读 多人点赞 2019-08-29 14:31:55
    目前常用的两种相关性系数为皮尔森相关系数(Pearson)和斯皮尔曼等级相关系数(Spearman) 简介 皮尔森相关系数评估两个连续变量之间的线性关系。 其中: -1 ≤ p ≤ 1 p接近0代表无相关性 p接近1或-1...
  • 关键词:卡方检验和相关性分析、卡方检验 相关性分析 一、相关分析方法的选择及指标体系 (一)两个连续变量的相关分析 1、Pearson相关系数 最常用的相关系数,又称积差相关系数,取值-1到1,绝对值越大,说明相关性...
  • Excel Spearman相关系数

    千次阅读 2021-01-05 18:48:05
    Excel Spearman相关系数 1 声明 本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。 2 Spearman相关系数简介 Pearson当数据不是正态分布或当异常值...
  • 写在前面本文章旨在给出一个简便易用的环境因子与主要物种丰度的相关性分析及结果展示方式,适用于环境因子和主要物种相对较少的情况。如果样本数目过多、微生物群落十分复杂,建议使用网络分析评估特定环境因子与...
  • 在SPSS软件相关分析中,pearson(皮尔逊), kendall(肯德尔)和spearman(斯伯曼/斯皮尔曼)三种相关分析方法有什么异同 两个连续变量间呈线性相关时,使用Pearson积差相关系数,不满足积差相关分析的适用条件时,使用...
  • 斯皮尔曼相关系数的假设检验
  • 相关性检验–Spearman秩相关系数和皮尔森相关系数
  • spearman相关性分析进行并行化运行可大大节省计算时间,为此我们手写了spearman相关性分析函数来实现并行化运行。为方便讲解,本文以OTU table 数据为例,对OTU进行两两spearman相关性分析,获得相关系数r和显著性...
  • 双变量/多变量的关联分析方法: spearman、pearson相关性分析方法的数据特征及回归分析的数据特征类型。
  • 三个相关性系数(pearson, spearman, kendall)反应的都是两个变量之间变化趋势的方向以及程度,其值范围为-1到+1,0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。 1. person ...
  • 小样本3≤n≤50:Shapiro-wilk检验 可以通过SPSS进行操作 斯皮尔曼spearman相关系数 斯皮尔曼spearman相关系数 斯皮尔曼相关系数和皮尔逊相关系数选择 : 1. 连续数据,正态分布,线性关系,用 pearson 相关系数是...
  • SAS实验03 ——相关分析

    千次阅读 2020-04-24 18:47:07
    实验03 相关分析 一、实验目的 在教育业中寻找各类相关关系以做分析。 二、实验内容 ①绘制小学毕业生和初中毕业生的散点图 ②分析小学毕业,初中毕业和高中毕业以及本科入学四个变量之间的相关关系 ③做研究生招生...
  • matlab相关性分析

    万次阅读 多人点赞 2020-11-14 21:52:22
    相关性分析 一、皮尔逊相关系数 (person) 计算公式: 样本协方差:Cov(x,y)=∑i=1n(Xi−Xˉ)(Yi−Yˉ)n−1{Cov(x,y)=\frac{\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})}{n-1}}Cov(x,y)=n−1∑i=1n​(Xi​−Xˉ)(Yi​...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,413
精华内容 965
关键字:

spearman相关性分析