精华内容
下载资源
问答
  • 关键词:卡方检验相关性分析卡方检验 相关性分析 一、相关分析方法的选择及指标体系 (一)两个连续变量的相关分析 1、Pearson相关系数 最常用的相关系数,又称积差相关系数,取值-1到1,绝对值越大,说明相关性...

    关键词:卡方检验和相关性分析、卡方检验 相关性分析

    一、相关分析方法的选择及指标体系

    (一)两个连续变量的相关分析

    1、Pearson相关系数

    最常用的相关系数,又称积差相关系数,取值-1到1,绝对值越大,说明相关性越强。该系数的计算和检验为参数方法,适用条件如下:

    (1)两变量呈直线相关关系,如果是曲线相关可能不准确。

    (2)极端值会对结果造成较大的影响

    (3)两变量符合双变量联合正态分布。

    2、Spearman秩相关系数

    对原始变量的分布不做要求,适用范围较Pearson相关系数广,即使是等级资料,也可适用。但其属于非参数方法,检验效能较Pearson系数低。

    (二)有序分类变量的相关分析

    有序分类变量的相关性又称为一致性,即行变量等级高的列变量等级也高,如果行变量等级高而列变量等级低,则称为不一致。

    常用的统计量有:Gamma、Kendall的tau-b、Kendall的tau-c等。

    (三)无序分类变量的相关分析

    最常用的为卡方检验,用于评价两个无序分类变量的相关性。根据卡方值衍生出来的指标还有列联系数、Phi、Cramer的V、Lambda系数、不确定系数等。

    OR、RR也是衡量两变量之间的相关程度的指标。

    分类变量可分为无序变量和有序变量两类。

    A、无序分类变量是指所分类别或属性之间无程度和顺序的差别。

    无序分类又可分为:

    1、二项分类,如性别(男、女),药物反应(阴性和阳性)等;

    2、多项分类,如血型(O、A、B、AB),职业(工、农、商、学、兵)等。

    对于无序分类变量的分析,应先按类别分组,清点各组的观察单位数,编制分类变量的频数表,所得资料为无序分类资料,亦称计数资料。

    B、有序分类变量是指各类别之间有程度的差别。

    如尿糖化验结果按-、±、+、++、+++分类;疗效按治愈、显效、好转、无效分类。对于有序分类变量,应先按等级顺序分组,清点各组的观察单位个数,编制有序变量的频数表,所得资料称为等级资料。

    二、SPSS相关操作

    SPSS的相关分析散布在交叉表和相关分析两个模块中。

    (1)交叉表过程

    如下图:
    在这里插入图片描述在这里插入图片描述

    SPSS相关分析(Pearson、Spearman、卡方检验)

    SPSS相关分析(Pearson、Spearman、卡方检验)

    以上的指标很全面,解释如下:

    (1)“卡方”复选框:为常用的卡方检验,适用于两个无序分类变量的检验。

    (2)“相关性”复选框:适用于两个连续性变量的相关分析,给出两变量的Pearson相关系数和Spearman相关系数。

    (3)“有序”复选框组:包含了一组反映有序分类变量一致性的指标,只能用于两变量均为有序分类变量的情况。

    (4)“名义”复选框组:包含一组分类变量相关性的指标,有序和无序分类时都可使用,但变量为有序时,检验效能没有“有序”复选框组中的统计量高。

    (5)Kappa:为内部一致性系数。

    (6)风险:给出OR或RR值。

    (7)McNemar:为配对卡方检验。

    (二)“相关”过程

    如下图:
    在这里插入图片描述
    在这里插入图片描述

    SPSS相关分析(Pearson、Spearman、卡方检验)

    SPSS相关分析(Pearson、Spearman、卡方检验)

    可以计算Pearson、Kendall的tau-b、Spearman三种相关系数。

    展开全文
  • 在医学领域,卡方检验是最为常用的统计方法,可用于研究定类数据和定类数据的关系情况。比如研究吸烟与不吸烟的人患支气管炎的概率是否有差别?但如果其中一个变量是等级数据时,很多人依然习惯性地使用卡方检验。...

    21ac568e75fa13ed0e9e5cf8708290e8.png

    在医学领域,卡方检验是最为常用的统计方法,可用于研究定类数据和定类数据的关系情况。比如研究吸烟与不吸烟的人患支气管炎的概率是否有差别?

    但如果其中一个变量是等级数据时,很多人依然习惯性地使用卡方检验。比如研究两种药物对支气管炎的疗效对比。其中疗效分为四个水平(治愈、显效、有效、无效),用卡方检验只能反映变量之间是否有无差异,当出现差异性时,无法进一步比较各层次的水平情况。

    这种情况下,可以选择方差非参数检验的秩和检验进行分析。或者在医学上,还有一种非参数检验方法叫做Ridit分析,也可用于定类数据与定量(等级)数据之间的差异性。本文将重点介绍Ridit分析。

    b943e009d2486922e1ace577d6557601.png
    SPSSAU-非参数检验/Ridit分析

    原理说明

    Ridit分析在医学研究中使用较为广泛,其功能与非参数检验类似,但原理上有着很大的区别。

    Ridit的原理在于将等级数据‘转化’成连续数据即得到Ridit值,然后对比Ridit值的差异性,‘转化’时涉及两种方式:一种是将“求和”作为参照值,另外一种是将“最大值”作为参照值。一般情况下,如果说某组数数据非常明显的多,则使用“最大值”方式,其它情况下建议使用“求和”方式。

    案例应用

    1、背景

    当前研究两种药物(分别是复方江剪刀草(1)与胆麻片(2))对于慢性气管炎疗效的差异性,其中疗效分为四个水平分别是无效(1)、数好转(2)、显著好转(3)、控制(4),共收集3424例数据。

    a3f1345f4f0b3e330db9597845df9736.png
    整理数据

    上文中提到过,Ridit分析的第一步首先要选择一个参照组。从上图来看,收集到的样本中,使用第一种治疗方式治疗的人明显多于第二种。因此选择“最大值”参照组方式更适合。

    2、操作步骤

    24a50db395dab0edc92b40882c6bd521.png
    使用路径:SPSSAU→医学实验→Ridit分析

    放入对应的分析项以及权重项,参照组选择'最大值',点击‘开始Ridit分析’。

    3、结果分析

    2bdbf2ccb42e4b027aee43bfc5d16015.png
    SPSSAU-Ridit分析结果

    首先分析是否呈现出显著性(P值小于0.05或0.01),由上图可知,治疗方式对于疗效呈现出显著性(z=-4.097, p=0.000<0.05),意味着不同治疗方式组别对于疗效呈现出差异性。

    当分析呈现出显著性差异时,可通过平均Ridit值结合箱线图来对比具体的差异情况。

    4ef8e402ec407edb018d27f5c586cbb2.png

    具体分析可知:使用胆麻片治疗的效果平均Ridit值(0.62)会明显高于的复方江剪刀草的平均Ridit值(0.497)。箱线图也可以清晰地看到第一组的Ridit值,明显低于组别2的平均Ridit值。

    更多干货内容可登录SPSSAU官网查看 。

    SPSSAU:如何用非参数检验,分析多个相关样本数据?

    SPSSAU:快速掌握Logistic回归分析及应用

    SPSSAU:卡方检验的多种应用场景总结

    展开全文
  • 没错,看过下面这张图的应该还记得,我们可以用列联表结合卡方检验分析分类变量间的相关性。一、列联表列联表是一种常见的分类汇总表,它将两个变量的不同水平分别放在行和列中,中间对应着每组的频数。如下表:...

    卡方检验

    当衡量两个连续变量间的线性关系时,我们可以使用Pearson相关系数。那么当我们面对的数据是两个分类变量呢?没错,看过下面这张图的应该还记得,我们可以用列联表结合卡方检验来分析分类变量间的相关性。

    575fff8392a6459ea6d4fa07a806f104

    一、列联表

    列联表是一种常见的分类汇总表,它将两个变量的不同水平分别放在行和列中,中间对应着每组的频数。如下表:使用药物A且治愈了的病人有1800名,使用药物B且治愈了的病人有800名……

    c0cf21d25e1b49da864ee56a3b5486a8

    在pandas中,我们可以直接使用pd.crosstab(rows,columns,margins=True)来生成列联表。其中margins用于设置是否限制汇总列和汇总行。

    有些时候我们可能需要百分比数据,这时我们直接用每个单元格除以汇总列或汇总行的数据即可。

    二、卡方检验

    卡方检验的思想在于比较期望频数和实际频数的吻合程度,实际频数就是上边表格里黄色区域的数字,而期望频数则是指行列变量相互独立的时候期望的频数。我们下边用一张图来演示如何计算期望频数。

    52b07d3a03bb498b8ba5223b8f16d043

    在第三张图中,每个单元格的期望频率为对应的行总计与列总计的乘积,比如第一个单元格的期望频率为66.67%*86.67%=57.78%。

    事实上,我们也可以一步到位,用第一张图中行总计2000与列总计2600相乘,然后除以全部样本量3000,就可以得到1733,也就是第一个单元格的期望频数。不过这里为了方便理解,拆解成了三步。

    接下来就是进行卡方检验了,卡方检验的零假设是期望频数等于实际频数(差异不显著),备择假设是期望频数不等于实际频数(差异显著,具有统计学意义),即两个变量相关。其计算公式为:

    bd831bd9d95046229fe60ce4a7d6d344

    Obs代表每个单元格内的观测频数(Observation),Exp代表每个单元格内的期望频数(Expection)。我们用上边这个例子演示一下:

    ef050d27d45844159d3e76d7f9aff64a

    到这里还没结束,我们需要根据求得的值从卡方分布中找到对应的概率。

    卡方分布

    卡方统计量服从自由度为(r-1)(c-1)的卡方分布(r=row,代表行数,c=column,代表列数)。我们用一张图来看一下:

    9ef5e7b87c4140348177f751cfac09cb

    其中k就是卡方分布的自由度。可以看到当自由度为1时,卡方分布是一个长尾型的分布。那么我们现在来看一下刚才的问题,两种药品的治愈效果一样吗?

    from scipy.stats import chi2_contingency

    import pandas as pd

    df = pd.DataFrame({

    'medical': ['A', 'A', 'B', 'B'],

    'cured': [1, 0, 1, 0],

    'count': [1800, 200, 800, 200]

    })

    cross_tab = pd.pivot_table(data=df,

    values='count',

    index='medical',

    columns='cured',

    margins=True,

    aggfunc=np.sum)

    print(cross_tab)

    print('卡方={0}\nP值={1}'.format(

    *chi2_contingency(cross_tab)[:2]))

    81d3f33f2ab942edbf5a6e2c588cf804

    c06dbb4d2128439a86b38c5bb7d2166b

    可以看到,p值小于0.05,可以认为两个变量之间存在相关性。不过需要注意的是,卡方检验并不能得出两个分类变量相关性的强弱,只能展现出它们是否相关。

    展开全文
  • python 卡方检验 Python-卡方检验 (Python - Chi-Square Test) Advertisements 广告 Previous Page 上一页 Next Page 下一页 Chi-Square test is a statistical method to determine if two ...
    python 卡方检验

    python 卡方检验

    Python-卡方检验 (Python - Chi-Square Test)

    Chi-Square test is a statistical method to determine if two categorical variables have a significant correlation between them. Both those variables should be from same population and they should be categorical like − Yes/No, Male/Female, Red/Green etc. For example, we can build a data set with observations on people's ice-cream buying pattern and try to correlate the gender of a person with the flavour of the ice-cream they prefer. If a correlation is found we can plan for appropriate stock of flavours by knowing the number of gender of people visiting.

    卡方检验是一种统计方法,用于确定两个类别变量之间是否具有显着相关性。 这些变量都应来自相同的人群,并且应该是分类的,例如-是/否,男性/女性,红色/绿色等。例如,我们可以使用对人们的冰淇淋购买模式的观察来构建数据集,并尝试进行关联具有他们喜欢的冰淇淋口味的人的性别。 如果发现相关性,我们可以通过了解来访者的性别人数来计划适当的风味储备。

    We use various functions in numpy library to carry out the chi-square test.

    我们使用numpy库中的各种函数来进行卡方检验。

    
    from scipy import stats
    import numpy as np
    import matplotlib.pyplot as plt
    
    x = np.linspace(0, 10, 100)
    fig,ax = plt.subplots(1,1)
    
    linestyles = [':', '--', '-.', '-']
    deg_of_freedom = [1, 4, 7, 6]
    for df, ls in zip(deg_of_freedom, linestyles):
      ax.plot(x, stats.chi2.pdf(x, df), linestyle=ls)
    
    plt.xlim(0, 10)
    plt.ylim(0, 0.4)
    
    plt.xlabel('Value')
    plt.ylabel('Frequency')
    plt.title('Chi-Square Distribution')
    
    plt.legend()
    plt.show()
    
    

    Its output is as follows −

    输出如下-

    chisquare.png

    翻译自: https://www.tutorialspoint.com/python_data_science/python_chi_square_test.htm

    python 卡方检验

    展开全文
  • 没错,看过下面这张图的应该还记得,我们可以用列联表结合卡方检验分析分类变量间的相关性。一、列联表列联表是一种常见的分类汇总表,它将两个变量的不同水平分别放在行和列中,中间对应着每组的频数。如下表:...
  • 前天在看书的时候第一次看到了列联表卡方检验,觉得这个东西不难又相对容易实现,刚好知乎 @算命师 的文章是用R来实现卡方检验,于是借用他的数据,我在spyder上面实现了。(感谢 @算命师 的数据)这是一份手游数据...
  • 卡方检验、t检验和方差分析的区别

    万次阅读 多人点赞 2019-09-01 09:03:59
    卡方检验就是检验两个变量之间有没有关系。 以运营为例: 卡方检验可以检验男性或者女性对线上买生鲜食品有没有区别; 不同城市级别的消费者对买SUV车有没有什么区别; 如果有显著区别的话,我们会考虑把这些变量放...
  • 卡方检验

    千次阅读 2021-04-05 11:03:08
    1.卡方检验概念 1)卡方检验是一种用途很广的计数资料的假设检验方法,由卡尔·皮尔逊提出。 (1)它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。 (2)其根本...
  • 在做数据分析时,为了提炼观点,相关性分析是必不可少,而且尤为重要的一个环节。但是,对于不同类型的数据,相关性分析的方法都各不相同。本文,主要按照不同的数据类型,来对各种相关性分析方法进行梳理总结。 ...
  • R语言详解参数检验和非参数检验二、参数检验R语言实现2.1 单样本t检验...wallis和置换多元方差分析检验3.5 spearman相关性检验四、列联表检验(定性资料)4.1 pearson卡方检验4.2 Fisher精确检验4.3 Cochran-Mantel–H
  • python 卡方检验

    2020-10-16 21:51:01
    卡方检验是一种统计方法,用于确定两个类别变量之间是否具有显着相关性。这些变量都应来自相同的人群,并且应该是分类的,例如-是/否,男性/女性,红色/绿色等。例如,我们可以使用对人们的冰淇淋购买模式的观察来...
  • 卡方检验是用来看分类变量之间有没有相关性。 自变量X类型 自变量X组数 因变量Y类型 分析方法 离散(类别) 仅仅2组 连续(均值) t检验 离散(类别) 2组及以上 连续(均值) ANOVA 离散(类别) 2组及...
  • 关于卡方检验

    2021-08-02 18:09:35
    假设检验的结论:p<0.05,则研究假设成立;反之,p>0.05,则研究假设不成立。 属于非参数检验 是在总体分布未知或知之甚少的情况下,利用样本数据对...卡方检验:检验所有类别是否包含相同频率或者用户指定比
  • 协方差,皮尔逊相关性卡方检验

    千次阅读 2018-06-12 09:46:00
    3、卡方检验 这个还不是太明白数学意义,这是怎么来的,为啥这么算???,而且没实际使用过。 具体介绍参考这篇博客 https://blog.csdn.net/bitcarmanlee/article/details/52279907  参考资料: ...
  • 卡方检验是一种用途广泛的假设检验方法,它属于非参数检验方法。用于比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。思想是比较理论频数和实际频数的吻合程度。设 $X_1, X_2, dots ,X_n$ 是来自...
  • Python 卡方检验

    万次阅读 2018-01-14 08:57:11
    卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合...
  • Sklearn 卡方检验

    2021-03-17 15:42:27
    见知乎 小白记录贴,侵删~感恩! 使用sklearn官方接口代码如下 首先import包和实验数据: from sklearn.feature_selection import SelectKBest ...2. 使用卡方检验来选择特征 model1 = SelectKBest(chi2, k=2
  • 卡方检验 皮尔逊相关系数用于两个连续性变量,当变量为两个无序分类变量时就需要用卡方检验。它是一种基于卡方分布的假设检验方法,根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。主要应用于...
  • 卡方检验学习总结

    千次阅读 多人点赞 2019-07-11 21:34:57
    1.卡方检验概念 1)卡方检验是一种用途很广的计数资料的假设检验方法,由卡尔·皮尔逊提出。 (1)它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。 (2)其根本...
  • SPSS学习笔记(五)卡方检验

    千次阅读 2020-11-19 11:58:53
    和“SPSS学习笔记”的其他方法不同,卡方检验​​​​​​​是针对计数资料的 目录 一、卡方检验、Fisher精确检验(2*2) 分析 操作 结果及分析 二、卡方检验(R×C) 分析 操作 结果及分析 三、配对卡方...
  • SPSS:T检验、方差分析、非参检验、卡方检验的使用要求和各类方法
  • 在看这篇文章之前,如果对卡方检验不熟悉,可以先参考:卡方检验 Python有包可以直接实现特征选择,也就是看自变量对因变量的相关性。今天我们先开看一下如何用卡方检验实现特征选择。 1. 首先import包和实验数据...
  • 在单因素分析中,自变量与因变量之间可能出现一定的假关联或者是间接的关联,例如某因素A对结局事件并无影响,而因素B对于结局事件是一个影响因素,但是由于因素A只是单纯的和因素B有强烈的相关性,两者存在共线性的...
  • 在上篇文章中,介绍了假设检验的基本方法和原理,并在文章的最后用Excel实现了主要的假设检验,见下文:求知鸟:数据分析|统计之参数假设检验​zhuanlan.zhihu.com这篇文章,用Python实现常用的假设检验!...
  • 卡方检验 Chi-Square the chi-square test measures dependence between stochasticvariables, so using this function “weeds out” the features that are ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,506
精华内容 1,402
关键字:

卡方检验相关性分析