精华内容
下载资源
问答
  • 交叉表分析的作用
    千次阅读
    2015-04-15 15:35:34

    前边我们已经讲过很多内容了。回顾一下,主要有相关分析,假设检验,和各种回归。以及因子分析。我们知道,对于两组连续变量,我们可以通过假设检验来判断他们的分布是否相同,差异时候存在。不知道大家想过没有,如果我们想讨论两个分类变量的分布是否相同呢?这里我们首先来讨论这个问题。

    首先举个例子,假设我们有两个不同季节的某种卫生的是否达标的记录。那么我们就是有两组二分类的变量(就是取值不是这个就是那个,只有两种取值的变量)。对于这两组变量,如果你还想用均值检验来看看分布是不是一样的话,那我真是被你蠢哭了。这个明显是不适合用均值检验或者非参数检验的。它适合的是我们正在介绍的卡方检验。

    做分析首先需要做的第一步是输入数据。正常的输入方法是类似均值检验的:我们设一列达标与否,打一堆1或者2上去表示这个个案是达标或者不达标的。然后在设一列季节变量,在打一堆1或者2上去表示对应的这个个案是那个季节的。但是大部分时候,出于效率的考虑,我们都不会这么输数据。我们会设三个变量。达标与否,季节,权重。这样我们用四个个案就能表示了(1,1,第一个季节达标的数量)(1,2,第二个季节达标的数量)(2,1,第一个季节不达标的数量)(2,2,第二个季节不达标的数量)。这两种输入数据的方法都是正确的,但是明显,后一种要简洁一些是不是?

    然后,首先用权重那个变量为我们的所有数据加权。然后打开菜单分析——描述统计——交叉表。行选季节,列选达标与否(或者行选达标与否,列选季节),勾选下边的显示复式条形图。点开统计量,全部勾选。点开单元格,全部勾选。然后确定。(为了后边的对应分析,我得节省点篇幅。)

    第一个表是在概述你的数据情况,不用管它。第二个表是卡方检验表。这个表可要好好看。我相信到了现在大家已经认识到了p值是多么可爱,多么重要的一个指标了,可是这个表的问题在于,它的p值太多了。分别有:pearson卡方,连续矫正,似然比,fisher精确检验,线性和线性组合,mcnemar检验,哇,这么多,我到底要看哪一个呢?

    首先你要看先你的最后一行的有效案例是多少个,其次还要看你最下边的标注,有几个单元格的期望计数小于2,最小期望计数是多少。有了这三个数据就能判断用哪个p值了。注意,下边这段判断方法很重要,你最好找张纸抄下来。

    有效案例大于等于40,所有期望计数大于等于5的时候,用Pearson卡方。有效案例大于等于40,有期望计数小于5但最小的期望计数大于1时,用校正卡方。总频数小于40,或者,注意,是或者,有期望计数小于1的时候,用fisher精确。

    P值小于0.05,则认为有差异。

    现在把我们的例子在变一变,如果我们的卫生达标与否这个指标改为了一个三分类变量,不达标,合格,优秀。这三种类别呢?

    操作过程和上边是一样的,但是结果只会告诉你这三组是否有差异,到底那组和那组有差异还要自己从新在做四格表才能判断。

    另,在加一个变量,比如这个个案是公有性质或私有性质,三个指标放到一起来判断的时候,就把性质这个变量放到交叉表的主面板的层里边(就在行和列的框框下边。)

    粗略的说完卡方以后,我们就来介绍一下对应分析。

    卡方检验通常用来处理比较简单的问题,但是对于复杂一点的问题,它的效果会很糟糕哦。比如我的变量每个都有四五个分类,我想看看分类之间的分布是否有差别等等的,肯定不可能用卡方撒。所以这时候就用到了对应分析。

    对应分析又叫做关联分析,因为它不仅能反映出来那个分类和那个分类的分布有没有差别,也能反映出来变量之间的分类谁和谁更容易接近。举个例子,假设我有一个变量分类为1,2,3,4,5,另一个变量分类为a,b,c,d,e,f。那么我不仅能观察知道1,2,3,4,5之间谁和谁更接近,我还能观察知道a是和1,2,3,4,5中的那个更亲近,b又是和谁更亲近,套用到实际问题里就是我会知道,哪一类人更容易有那种行为,所以也叫关联分析。(这个名是不是比对应分析响亮一些?想想啤酒与尿布的故事吧!注意,你已经开始涉及到一些机器学习的内容了。)

    那么为什么对应分析算是降维分析的一种呢?主要是因为它的原理是主成分分析。粗糙的理解是这样的,它通过把两个多分类变量分别降维降到二维(就是用两个成分来表示这个多分类变量,类似因子分析里的成分图),然后把两张二维的图通过某些转换合到一块(你凑合着这么理解吧,不是简单的往一块和,在最一开始就是一块降得),然后你就可以在一张平面上观察了。因此它归到降维里的范畴。尽管它不像因子分析那样,把多个变量降成较少的变量那样好理解。

    打开菜单分析——降维——对应分析,行和列各选择一个分类变量。比如一个变量是年龄段的分类,另一个变量是对某种商品的喜爱程度。在行和列的框框下边还有一个定义范围,点开那个对话框,选择你的最大值和最小值。定义好以后打开模型对话框,解得维数一般选2,处于一个好观察的角度,也出于准确性,一般选择2。然后在打开统计量,勾选对应表,行点概览,列点概览,列轮廓表。绘制对话框勾选双标图。然后就可以得到结果了。

    对应表和简要表是不怎么重要的,可以忽略掉。注意看摘要表。首先要解释两个名词。  奇异值。(这里忍不住插嘴,世界上优秀的智能推荐的算法都是用的奇异值分解。)我们知道一个大矩阵通过这么这么分解,那么那么分解,最后能分解成几个小矩阵。这些小矩阵就对应于我们的一个个的成分。所以奇异值的大小呢,就能反映这些小矩阵的重要程度。那么奇异值和因子分析里的特征值有什么区别呢?特征值是用在方阵里的,而奇异值是用在长方形的矩阵里的。而惯量它是奇异值的方,就类似于特征值了。这两个名词了解就可以了,不需要详细的知道。

    在摘要表里第一要看总计里边的p值。这个p值不小于0.05的话,那对应分析完全就是没意义的。

    第二要看惯量比例里边的解释。对应的百分比。这个类似于因子分析里解释的总方差。都是反映的某一个维能够解释模变量的百分比。通常来说,前两个维都要起码累积到百分之九十。有的数据很好的话,可能只能提取出两个维,两个维就能够累计到百分之百了。

    在下边是概述点,如果你的摘要表表现很好的话,这个表就不怎么用看啦。

    最后是最重要的散点图。

    双击散点图,在图形编辑里边调整坐标的初始值,在行和列的0.0处加辅助线。然后这张图就会别分成四大块了。中心点就是(0,0)。那么在这张图上边就会有两类不同图形的点点,比如圆形表示年龄段的分类,三角表示喜爱程度。在小图形附近还会标注清楚每个小图形对应那个程度。那么这个图怎么看呢?

    首先四个大块就直观的告诉我们那些点和那些点距离比较近了。比如代表20岁到40岁的点和非常喜爱的点靠的很近,那么就可以认为20岁到40岁的人会非常喜爱这个产品。这是最基本的一个信息。此外我们可以通过辅助线来进一步解释这张图。比如,我们找到代表非常喜爱的这个三角形,然后把这个点和(0,0)的中心点连线,连出一条直线来。然后把所有的小圆点向这条线做垂线。就是代表每个年龄段的小圆点都引一条垂线出来,垂点落到原来的那条直线上。假如我们分四个年龄段的话,那我们现在就有四个垂点啦。然后我们比较这四个垂点离代表非常喜爱的那个三角形的距离。注意,比较的是垂点哦。垂点离三角形越近,也就是说该年龄段的人越容易表达出非常喜爱哦。因为是垂点,所以从图上看离得比较远的两个点未必就关联程度比较低哦。

    同样的道理,我们也可以做出同一年龄段的人更容易喜爱还是不喜爱这个产品的直线图。总之散点图可以很直观的解释信息哦。

    简单对应分析大概就是这样了。注意,做简单分析的时候,我们只能观察两个变量啊。那怎么观察更多的变量呢?敬请期待下一讲:多重对应分析。


    更多相关内容
  • 实验8-SPSS交叉表分析

    千次阅读 2019-01-18 02:59:00
    SPSS---交叉表分析 除了对单个变量的分析,在实际研究中,还需要对多个变量在不同取值情况下的数据分布情况,从而进一步分析变量之间的相互影响和关系,这就要用到交叉表分析。交叉表是一种行列交叉的分类汇总表格,...
    • SPSS---交叉表分析

    •       除了对单个变量的分析,在实际研究中,还需要对多个变量在不同取值情况下的数据分布情况,从而进一步分析变量之间的相互影响和关系,这就要用到交叉表分析。
    • 交叉表是一种行列交叉的分类汇总表格,行和列上至少各有一个分类变量,行和列的交叉处可以对数据
    • 进行多种汇总计算,如求和、平均值、计数等。
    • 交叉表分析是用于分析两个或两个以上分组变量之间的关联关系,以交叉表格的形式进行分组变量间关系的对比分析。它的原理是从数据的不同角度综合进行分组细分,以进一步了解数据的构成、分布特征,它也是描述统计分析中常用的方法之一。
    • 在EXCEL中主要使用数据透视表进行交叉表分析。
    • 【分析】-【描述统计】-【交叉表】
    • 1167156-20190118025848408-211728471.jpg
                              图1-1 交叉表参数设置

    • 研究婚姻状况和性别两个变量的统计数据。
    • 1167156-20190118025848865-753898522.jpg

                                 图1-2 交叉表分析结果
    •      通过以上交叉表分析可以知道,先从婚姻状况角度查看数据的分布,在四种婚姻状况中,“未婚单身”占比45.2%,所占比重最大。其次是“已婚已育”,占比27.5%,在此基础上增加性别角度,进一步查看数据的分布,在四种婚姻状况中男、女的比例较为均衡。





    转载于:https://www.cnblogs.com/xuxaut-558/p/10285705.html

    展开全文
  • 【SPSS笔记01】交叉分析表

    千次阅读 2021-05-05 20:53:36
    使用步骤Step1Step2变量解释Step3交叉表结果观察卡方分析的解释 交叉表用途&使用步骤 主要用途:主要用于分析分类变量的相关关系,如果是连续变量的相关性,主要使用相关分析 Step1 :分析——描述统计——交叉表...

    交叉表用途&使用步骤

    主要用途:主要用于分析分类变量相关关系,如果是连续变量的相关性,主要使用相关分析

    Step1

    分析——描述统计——交叉表
    在这里插入图片描述

    Step2

    将对应的分类型变量分别放在行和列,选择Statistics中的卡方,通过假设检验判断量分类变量之间的关系
    在这里插入图片描述

    变量解释

    ①:卡方:选择卡方会计算Pearson 卡方、似然比卡方、Fisher 的精确检验和Yates 修正卡方(连续性修正)

    ②:对于行和列都包含排序值的表(比如客户的满意度),相关将生成Spearman 相关系数rho(仅数值数据)。Spearman 的rho 是秩次之间的关联的测量。

    【注意:当两个表变量都是定量变量时,卡方将产生线性关联检验。相关产生Pearson 相关系数r,这是变量之间的线性关联的定量。】

    ③:对于名义变量(即数据大小没有实际意义且没有大小区分,如男1,女2)可以选择列联系数Phi(系数)Cramér 的VLambda(对称和非对称lambda 以及Goodman 和Kruskal的tau)和不确定性系数

    1)相依系数:基于卡方的关联性测量,范围在[0,1),
    0表示变量之间毫不相关,接近1表示相关性较大。
    (具体的数值大小与变量的个数相关)

    2)Phi and Cramer’s V. Phi :Phi=平方根(卡方检验统计量/样本大小),Cramer 的V 也是基于卡方统计量的关联性测量。

    3)Lambda: 相关性测量,它反映使用自变量的值来预测因变量的值时,误差成比例缩小。值为1 表示自变量能完全预测因变量;值为0 表示自变量对于预测因变量没有帮助。

    4)不确定系数:表示当一个变量的值用来预测其他变量的值时,误差成比例下降的程度。例如,值0.83 指示如果知道一个变量的值,则在预测其他变量的值时会将误差减少83%。程序同时计算不定性系数的对称版本和不对称版本。

    在这里插入图片描述
    ④:对于有序变量(比如客户满意度,1代表非常不满意,5代表非常满意)
    1)Gamma:两个有序变量之间的相关性的对称度量,它的范围是从-1 到1。绝对值接近1 的值表示两个变量之间存在紧密的关系。接近0 的值表示关系较弱或者没有关系。对于二阶表,显示零阶gamma。对于三阶表到n 阶表,显示条件gamma。
    2)Sommer’s d:与Gamma相似,也反映两个有序变量之间相关性的测量:绝对值接近1的值表示两个变量之间存在紧密的关系,值接近0 则表示两个变量之间关系很弱或没有关系。Somers 的d 是gamma 的不对称扩展,不同之处仅在于它包含了未约束到自变量上的成对的数目。还将计算此统计量的对称版本。
    3)Kendall’s tau-b:将结考虑在内的有序变量或排序变量的非参数相关性测量。系数的符号指示关系的方向,绝对值指示强度,绝对值越大则表示关系强度越高。可能的取值范围是从-1 到1,但-1 或+1 值只能从正方表中取得。
    4)Kendall’s tau-c忽略结的有序变量的非参数关联性测量

    ⑤按区间标定:Eta
    注意:如果是定量变量与定型变量之间分析,一定要选择Eta

    Step3

    点击单元格——选择计数(观察值表示基本的个数)——百分比(按需求选择按行、列划分百分比)
    在这里插入图片描述

    交叉表结果观察

    在这里插入图片描述
    如图,选择了按照行计算的百分比&总记得百分比:
    比如,第一行第二列的数据为42.1%,代表男性中有42.1%的人认为日报周末版更适合在周末阅读

    卡方分析的解释

    卡方检验表格

    主要看Pearson卡方检验,计算出的统计量为7.251,对应p=0.027<0.05,拒绝原假设。
    ①原假设为两变量相互独立,因此认为两分类变量不相互独立。
    ②概率论告诉我们不独立不一定相关,因此我们只能猜测两变量可能相关。
    在这里插入图片描述

    展开全文
  • 交叉表与透视表什么作用 探究股票的涨跌与星期几有关? 以下图当中表示,week代表星期几,1,0代表这一天股票的涨跌幅是好还是坏,里面的数据代表比例 可以理解为所有时间为星期一等等的数据当中涨跌幅好坏的比例 ...

    交叉表与透视表

    交叉表与透视表什么作用

    探究股票的涨跌与星期几有关?

    以下图当中表示,week代表星期几,1,0代表这一天股票的涨跌幅是好还是坏,里面的数据代表比例

    可以理解为所有时间为星期一等等的数据当中涨跌幅好坏的比例
    在这里插入图片描述
    在这里插入图片描述

    使用crosstab(交叉表)实现上图

    • 交叉表:交叉表用于计算一列数据对于另外一列数据的分组个数(寻找两个列之间的关系)
      • pd.crosstab(value1, value2)
      • DataFrame.pivot_table([], index=[])

    案例分析

    • 数据准备
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述
    • 准备两列数据,星期数据以及涨跌幅是好是坏数据
      在这里插入图片描述
      在这里插入图片描述
    • 进行交叉表计算
      在这里插入图片描述
      或者
      在这里插入图片描述
      但是我们看到count只是每个星期日子的好坏天数,并没有得到比例,该怎么去做?
    • 对于每个星期一等的总天数求和,运用除法运算求出比例
      在这里插入图片描述
    • 查看效果
      使用plot画出这个比例,使用stacked的柱状图
      在这里插入图片描述

    使用pivot_table(透视表)实现

    使用透视表,刚才的过程更加简单
    在这里插入图片描述
    也可以
    在这里插入图片描述
    在这里插入图片描述

    版权声明:
    笔者博客文章主要用来作为学习笔记使用,内容大部分整理自互联网,如有侵权,请联系博主删除!

    展开全文
  • 平常分析过程中,经常需要多个步骤去清洗处理到想要的结果,用这个方法可以更方便的在只使用Tableau的情况下完成。 版本:Tableau desktop 2021.1.2 数据源集:Tableau 2021数据示例文件 sample-superstore.xlsx ...
  • 数据分析交叉分析

    千次阅读 2019-12-31 09:45:28
    #1、概念:交叉分析,通常用于分析两个或两个以上,分组变量之间的关系,以交叉表形式进行变量间关系的对比分析; #可以有三种情况下的交叉:定量与定量分组进行交叉;定量与定性分组进行交叉;定性与定性分组进行...
  • Pandas中透视表和交叉表

    千次阅读 2020-07-01 12:07:46
    一、 什么是透视表? 二、为什么要使用pivot_table? 三、pivot_table api认识 四、如何使用pivot_table? 五、pivot_table vs. groupby 六、轴转换(透视功能)unstack 七、交叉表crosstab 八、小结
  • 4.9.1 交叉表与透视表什么作用 探究股票的涨跌与星期几有关? 以下图当中表示,week代表星期几,1,0代表这一天股票的涨跌幅是好还是坏,里面的数据代表比例 可以理解为所有时间为星期一等等的数据当中涨跌幅好坏...
  • 交叉分析筛选器(切片器):用于多项筛选,点击设计-插入切片器-勾选要筛选的类别,可以按del删除,可以按ctrl显示多个类别 将数据恢复为最开始状态:点击设计-第一个图表(无)-点击转换为区域即可 ...
  • pandas - 交叉表与透视表

    千次阅读 2019-03-12 11:45:47
    1 交叉表与透视表什么作用 探究股票的涨跌与星期几有关? 以下图当中表示,week代表星期几,1,0代表这一天股票的涨跌幅是好还是坏,里面的数据代表比例 可以理解为所有时间为星期一等等的数据当中涨跌幅好坏的...
  • 利用环境扫描电镜(EsEM)观察其不同的叶表面结构,对叶表面的不同部位进行化学成分的局部定量分析,结果表明,在施用399植物生长剂后,叶细胞变得大而饱满,细胞总体积和面积变大,增大了细胞光合作用的有效...
  • 前一篇文章讲述了数据分析部分,主要普及网络数据分析的基本概念,讲述数据分析流程和相关技术,同时详细讲解Python提供的若干第三方数据分析库,包括Numpy、Pandas、Matplotlib、Sklearn等。本文介绍回归模型的原理...
  • Stata: 交叉验证简介

    千次阅读 2019-10-30 00:43:52
    作者:贺旭 (中央财经大学) Stata连享会   计量专题 || 精品课程 || 简书推文 || 公众号合集 ...本文介绍交叉验证方法,然后以 kfoldclass 命令和 crossfold 为范例使读者更深入的了解该方法。 ...
  • 分析了大数据 (BD) 迄今为止在旅游和酒店研究中发挥的重要作用,并描述了它在未来可能如何发展。设计/方法/方法:与旅游评论白金禧特刊一致,这项工作包括批判性和概念性分析,包括对 BD 与旅游和酒店研究交叉...
  • 用正交L8(27)安排试验,试验方案及结果如下所示,试用直观分析和方差分析分析结果。 解答 1 数据预处理 读取数据,对各因子列数据进行因子化处理,并将最后一列y对应值赋值给response mydata = read.csv(...
  • 文章目录 一、按照类别单独分类astype() ...利用 pandas 提供的 crosstab 函数 可以制作交叉表,crosstab 函数的常用参数和使用格式如下 pandas . crosstab ( index , columns , values = None , ...
  • SPSS——描述性统计分析——列联

    万次阅读 多人点赞 2016-07-05 22:28:41
    这里是按两个变量交叉分类的,该列联称为两维列联,若按3个变量交叉分类,所得的列联称为3维列联,依次类推。3维及以上的列联通常称为“多维列联”或“高维列联”,而一维列联就是频数分布。列联...
  • 关于多重响应(Multiple Response),意思为多选题,即对通过多选题的方式收集到的数据进行分析的操作方法,SPSS是一个社会科学统计软件,所以其数据大多是通过诸如社会调研或者市场调查的方式得到的,所以我们在...
  • MySQL介绍,SQL入门及结构分析

    千次阅读 2021-01-01 09:33:48
    1、分析查询的数据分别来自哪些表字段 2、确定联查方式(内连接查询、左连接查询、右连接查询) 3、找出交叉点,判断条件(中共有字段) 普通内连接(参照上图两): select * from dept inner(可省略) join emp...
  • 一文轻松看懂线性回归分析的交互作用

    千次阅读 多人点赞 2020-09-21 14:00:48
    前几天的文章,我们聚焦在回归分析,今天来看看在回归分析中常常要研究的一类难点问题——交互作用的探究。 交互(interaction),字面上不太好理解,但是从数学表达上却很简单。 如果想要研究两个自变量如X1和X2...
  • SPSS-多重响应分析

    千次阅读 2021-03-13 11:27:20
    多重响应分析 两个问题,问题一使用了中文SPSS,问题二使用了英文版SPSS。名词解释穿插在操作步骤中。 Q5:经常进行的网络活动(多选,10个可选项) 数据介绍 问题5对应数据集中下述字段: 操作步骤 (1) 定义多重...
  • DML操作(数据插入,数据修改,数据删除) 主键的作用(主键约束,自增长约束auto_increnment,非空约束-not null,唯一约束unique,默认约束default...多联合查询(交叉连接查询,内连接查询,外连接查询,子查询)
  • 浅谈数据分析和数据建模

    千次阅读 2019-11-26 15:43:02
    过去企业都是通过线下渠道接触客户,客户数据不全,只能利用财务数据进行业务运营分析,缺少围绕客户的个人数据,数据分析应用的领域集中在企业内部经营和财务分析。 数字时代到来之后,企业经营的各个阶段都可以被...
  • XML Schema映射关系的求取对于异构系统的整合起着至关重要的作用.基于此,提出了一种利用形式化概念分析的XML Schema映射算法....给出了算法所基于的蕴涵于两个Schema所构建交叉表中的定理以及相应的证明.
  • 我们使用向后:LR来自动筛选一下: 我们使用向前:LR来自动筛选一下: 所以,在实际操作中,最最稳妥的方式: 先进行数据描述 再进行单变量分析——每个自变量都与因变量进行一次交叉表-卡方检验 手动或自动进行单...
  • 十六、 方差分析--使用Python进行双因素方差分析

    千次阅读 多人点赞 2020-08-16 08:23:20
    双因素方差分析 1. 双因素方差分析的理论 2. 双因素方差分析的实现
  • 本文针对性的讲讲数据分析整个流程最关键的阶段: 数据处理与分析阶段。该阶段我分成了三块:数据采集、数据处理、数据分析,都围绕着“数据”进行,对海量或杂乱数据进行处理分析,...直接获取就是指数据库中有现成的
  • 关于特征交叉作用以及原理,我这里不进行详细描述,因为大佬们已经说得很清楚了,这里就附上几个连接: 特征组合&特征交叉 (Feature Crosses) 结合sklearn进行特征工程 对于特征离散化,特征交叉,连续特征...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 53,251
精华内容 21,300
热门标签
关键字:

交叉表分析的作用