精华内容
下载资源
问答
  • 有蛮多学生私信老徐问如何利用spss做相关性分析,其实相关性分析应该是spss分析中较为基础一个功能应用,很多学生可能是因为跨专业或者对统计软件了解较少,在没有经过系统学习前提下,感觉云里雾里。...

    有蛮多的学生私信老徐问如何利用spss做相关性分析,其实相关性分析应该是spss分析中较为基础的一个功能应用,很多学生可能是因为跨专业或者对统计软件了解较少,在没有经过系统学习的前提下,感觉云里雾里。今天老徐给大家讲解下硕士论文中常用spss做相关性分析的步骤过程。

    既然讲相关性,那就必须牵扯到一个名词:“相关系数”。相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母 r 表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数。相关系数是用以反映变量之间相关关系密切程度的统计指标。世界上很多事情都是存在一定的相关联系,因此我们往往需要对两个或多个变量进行相关性分析。如果两个变量都是连续性的变量,就可以用Pearson 分析方法。

    首先:打开SPSS软件,并导入数据。

    4bbb16d6b9fd430ec89052d7fbf88024.png

    其次:在工具栏处,点击:“分析”----”相关”----“双变量”,进行变量的选择

    131519b4e628f69425d4f89951b85902.png

    在变量的选取过程中,我们首先需要先确定要分析的变量

    首先将两个变量放入“变量”框中。 要分析哪几个变量就只能选择那几个变量。

    c72e6711fedbd17ed9e0e4abf0d00e80.png

    在“相关系数”框中选择“Pearson”,如上图所示:

    在变量选择完成后,如果需要对数据进行一定的描述,或者查看,可以打开右上角的按钮,即选择“选项”,如下图所示

    0c90cd0db782b9ece1270bb312583cb7.png

    如需要对数据进行模拟分析,则选择右上角的“bootsTrap”模拟分析,如下图所示。

    样本数就是需要模拟的总共的次数,可以自己定义

    186b17ddb41f2ccfa151cb1b5973d345.png

    最后我们点击确定,再output窗口中可以看到:如下所示:

    8becd6c5575b754aab6a71a5854c3b34.png

    9fa551fb105b0eff6ab0c723e1ebd957.png

    第一个图是pearson相关分析结果,另外一个是描述性分析结果。表中字母的具体含义比较好理解,比如mean为均值,Std. Deviation为标准差。pearson correlation 为相关系数sig为P 值,N是样本数量。

    大致讲解完毕,基本的步骤流程就是这样,希望老徐今天的讲解能够对大家在相关性分析的时候有所帮助。

    展开全文
  • 相关性分析可以量化事物之间联系。例如,篮子分析就是相关性分析的典型应用,即找出不同产品之间销售关联。本章内容涵盖交叉分析和篮子分析9.1 交叉分析商业场景:图9.1.1所示为本节案例(调查问卷交叉分析)分析...

    692e61f60f0ab013c6a6cb62cd30d362.png

    相关性指不同事物之间的联系。相关性分析可以量化事物之间的联系。

    例如,篮子分析就是相关性分析的典型应用,即找出不同产品之间的销售关联。

    本章内容涵盖交叉分析和篮子分析


    9.1 交叉分析

    商业场景:

    图9.1.1所示的为本节案例(调查问卷交叉分析)的分析结果,

    通过交义分析有助于找出问卷问题1(您的工作属于哪一类?)的答案

    与问题2(您愿意购买多少元的SSBI教材?)的答案的相关性,其中用颜色区分相关性的关联程度。

    可视化: 矩阵图。前文提及矩阵图最适合展示二维数据,其中包括两个字段,分别

    为X轴和Y轴,方格中为答案的相关值。

    8d8190e873022295ad2a0005eed0d254.png

    数据源:购买意向调研

    新建表:

    COUNT('客户表'[客户ID])

    新建度量值:

    相关问题客户数 = CALCULATE(COUNT('客户表'[客户ID]),CALCULATETABLE('客户调研事实表',USERELATIONSHIP('客户调研事实表'[答案ID],'答案问题表1'[答案ID])),

    CALCULATETABLE('客户调研事实表',USERELATIONSHIP('客户调研事实表'[答案ID],'答案问题表2'[答案ID])))

    7cc2c1eb4924d8f6e8ab89c37cbe4cb7.png

    1e0e34f2f41d62f00b40e51f94f3a4fe.png

    9.2 篮子分析

    商业场景:

    篮子分析用于分析与某个事物有关联的其他事物。

    例如,在同一个订单中用户购买了装订机(商品A),同时还购买了其他商品,

    通过篮子分析会得出该订单中其他商品的信息,从而指导商业决策。著名的“啤酒和尿布”的故事就是篮子分析的实例。

    可视化: 堆积条形图或表,【Hierarchy Slicer】

    数据源:自己从他给的文件中导出来

    新建表:

    关联产品表 = '产品表'

    订单号 = VALUES('订单'[订单 ID])

    新建度量值:

    人数 = COUNTROWS(VALUES('订单'[订单 ID]))

    A和B = VAR a=CALCULATETABLE(VALUES('订单'[订单 ID]),USERELATIONSHIP('关联产品表'[产品 ID],'订单'[产品 ID]),ALL('产品表'))

    return calculate([人数],a)

    占比 = DIVIDE([A和B],[人数])

    A销售金额 = SUM('订单'[销售额] )

    B销售金额 = CALCULATE([A销售金额],USERELATIONSHIP('产品表'[产品 ID],'订单'[产品 ID]),ALL('产品表'))

    A和B金额 =

    var b = CALCULATETABLE(VALUES('订单'[产品 ID]))

    var c = CALCULATETABLE(VALUES('订单'[产品 ID]),USERELATIONSHIP('关联产品表'[产品 ID],'订单'[产品 ID]),ALL('产品表'))

    Return

    a658d51afb87440c8bde287c4c4f6def.png

    cad94c9ec1fe29115ec5fa6d68c88b26.png

    0daf8f60a1c35d19345adea82390e85f.png


    主要步骤:

    181b11ac0c5d69d01be0edd88d6b5fd3.png

    结尾:

    感谢书的作者 雷元

    同时感谢B站up主 孙兴华

    展开全文
  • 一、列联表分析(独立性检验,非参数检验) 列联表是两个和两个以上变量交叉分类汇总表,根据变量个数分为1维,2维,3维, ... ,1维即频数分布表。... 卡方独立性检验需要满足条件: 交叉表值应该是频数,...

    一、列联表分析(独立性检验,非参数检验)

    列联表是两个和两个以上变量的交叉分类汇总表,根据变量个数分为1维,2维,3维, ... ,1维即频数分布表。下图为2x2列表。

    6a4c1b60568a13fa90d38ad7a08b8a7a.png

    列联表分析分为3步:

    1)建表;

    2)对变量之间的相关性进行检验,通常利用卡方统计量进行检验。

    d1112fa496bc098910b18ca7a7c6dbb8.png

    卡方独立性检验需要满足的条件:

    • 交叉表中的值应该是频数,而不是相对频率(所占百分比)
    • 每个分类变量的各个类别是互斥的
    • 每一个观测值只属于交叉表中的一个单元格
    • 变量中的各个类别是互相独立的
    • 所有期望频数应该大于5,样本总量大于40

    3)计算相关系数

    40d31b7352a4a282a263bd58abd215b7.png

    Example: 检验满意度与学历的相关关系。

    4e80d9daf05c0e16d98070d7445c3cb2.png

    1) H0假设:学历与满意度无关系.

    2) 计算卡方统计量

    4a7188e1077a7281895a44d4506bb46c.png

    给定显著性水平0.05,

    492638674de3814a63db320924edc978.png

    此处自由度2=(学历变量类别数3-1)*(满意度类别2-1)=2。

    3) 因此,拒绝原假设,学历与满意度相关。 相关系数

    68a8e254e879479bce4a5b2c781e52c8.png

    因此,学历与满意度有关系,但是相关系数不大,可见有其它因素起更重要作用。

    Python 3.6

    import pandas as pd
    import scipy.stats as stats
    
    df = pd.read_csv('facebookac.csv',header=0)
    df = df.dropna()  # 删除空值
    df = df.replace(' ','not available')  #  处理空格
    
    table_sp = pd.crosstab(df['relationship'],df['Status'])  # 生成列联表
    table_sp
    
    '''
    Out[7]: 
    Status         fake  real
    relationship             
    alone           417   353
    complicate       14    64
    married           0    15
    not available     3    22
    '''
    stats.chi2_contingency(table_sp)  # 计算卡方统计量
    
    '''
    Out[8]: 
    (66.39399140334686,  # 卡方值
     2.524246827839985e-14,  # P值, relation 和 Status 有相关性
     3,  # 自由度
     array([[376.32882883, 393.67117117],  # 预期频数表
            [ 38.12162162,  39.87837838],
            [  7.33108108,   7.66891892],
            [ 12.21846847,  12.78153153]]))
    '''

    若要具体判断relation哪个类别量与Status相关,可对应构建0-1变量和2x2列联表进行卡方检验。

    二、相关性检验(分类变量是配对的,配对卡方检验, McNemar检验)

    对同一组样本采用不同的实验方法进行对比,得到的结果,即配对实验,配对卡方检验则检验这两种方法是否有差异。

    针对2*2列表,如果b+c>=40,

    c6ab8d7ce92511979501da358c9d6759.png

    如果b+c<40,

    8cbf49f890ede988ed806adf913bef9d.png

    c020db8b7db3c529ee6df2773305a86b.png
    from statsmodels.sandbox.stats.runs import mcnemar
    # mcnemar(x, y)  # x, y应该是配对的值,或者直接x为array 2x2格式的,y是None, then x can be a 2 by 2
    x = np.array([[80, 110], [75, 90]])
    mcnemar(x)
    '''
    Out[4]: (75, 0.012220636571467918)
    '''
    

    三、一致性检验(kappa检验)

    Statistics - Cohen's kappa coefficientwww.tutorialspoint.com
    e4c403de6bc9e2c966be43a13bede66b.png

    比较两组方法得到的结果是否具有一致性。要求数据矩阵为方阵,即变量类别数C相等。以下是简单kappa系数计算.

    import numpy as np
    
    def kappa(matrix):
        n = np.sum(matrix)
        sum_po = 0
        sum_pe = 0
        for i in range(len(matrix[0])):
            sum_po += matrix[i][i]
            row = np.sum(matrix[i, :])
            col = np.sum(matrix[:, i])
            sum_pe += row * col
        po = sum_po / n
        pe = sum_pe / (n * n)
        
        return (po - pe) / (1 - pe)
    
    # 测试代码:
    # matrix是一个方阵,若共有i个类别,则matrix.shape = (C,C).
    matrix = [
        [239,21,16],
        [16,73,4],
        [6,9,280]]
     
    matrix = np.array(matrix)
    print(kappa(matrix))

    四、逻辑回归

    1. 二分类因变量 logit 回归,误差分布为二项分布

    利用极大似然法估计参数

    2. 多分类无序因变量(类别变量值互斥,such as 男女,城市 农村,五大洲)基线-类别logit

    假设自变量1类别为3个,可增加两个哑变量x1, x2, 设为(0, 1),(1, 0), (0, 0),自变量2类别为2,可设为1,0,因变量类别为3,将因变量中的一类记为基准类别,则可建模为

    3. 多分类定序因变量(类别变量值等级,A,B,C,第一,第二,第三)累积类别logit

    对定序变量赋值,为0,1,2,3,4,...,k. 累积比数概率

    # sklearn 库要求变量都是数值型变量
    from sklearn.feature_extraction import DictVectorizer, preprocessing,
    from sklearn.linear_model import LogisticRegression
    from sklearn.metrics import classification_report
    
    vec = DictVectorizer()
    dummy_x = vec.fit_transform(x).toarray()  # 将分类自变量x 向量化,形成数值性变量,x 是array格式
    
    lb = preprocessing.LabelBinarizer()
    dummy_y = lb.fit_transform(y)  # 分类因变量向量化,y是array 格式
    
    model = LogisticRegression()  # 建模
    model.fit(dummy_x, dummy_y)   # 训练
    result = model.predict(dummy_x)   # 预测
    
    score = model.score(dummy_x, dummy_y)   # 评估准确度
    classification_report(dummy_y, result, target=['0', '1'])
    展开全文
  • 就是你看不起Excel,它其实能做事情包含但不限于:数据清洗(完整、合法、唯一)描述性统计分析(数据表现一秒生成)变化和趋势分析(多维度分析交叉分析)回归和预测(数据之间内在关系有多可信)原始数据:...

    dc575a30c667c1efe502e3f6329ab62a.png

    Excel处理数据的直观化优势是其他分析工具很难超越的,所以它很适合用来做数据分析前期的数据探索步骤,通过使用数据透视表、可视化、分析工具等我们能初步了解数据,并且得到很多信息。

    是的,就是你看不起的Excel,它其实能做的事情包含但不限于:

    1. 数据清洗(完整、合法、唯一)
    2. 描述性统计分析(数据表现一秒生成)
    3. 变化和趋势分析(多维度分析、交叉分析)
    4. 回归和预测(数据之间内在关系有多可信)

    原始数据表:

    user_info:

    2e7698f56597aaa0c81ffd4216a738ba.png
    user_info

    user_log:

    9c849351cc3f30ec5eefa237fa74658c.png
    user_log
    • 数据全部是数字类型,暂时保留,考虑数字类型处理速度更快。
    • 清洗过程:
    1. 删除存在空值的行
    2. 删除信息不明确的行(性别、年龄等不明)
    3. 确认用户user_id是唯一的
    4. 处理时间列
    5. 将user_info表合并到user_log中
    6. 调整数据类型

    清洗后的数据表:

    f9f308202b5993ea9a74536af4a32bf5.png
    • 字段按分析维度划分:
    1. 时间维度(month,day,date)
    2. 商品维度(item_id,catid,brandid)
    3. 用户维度(use_rid,user_age,user_sex)
    4. 行为维度(action_type)
    • 统计量和指标:
    1. 总数和占比
    2. 平均数、中位数、四分位数
    3. ‘月活’
    4. 相关性系数
    5. 回归分析
    6. 时间序列预测

    5ffc7ac21e5fd32ced616abee46fb2a1.png
    1.年龄和性别(保留原数据里的异常性别因为我很尊重少数派诶)

    这里面,我把原始数据中的’未知’年龄保留了是因为未知数据占比比较大,而且后续分析未必采用这个特征,所以暂时留着它。让我惊讶的是大于50岁的用户也有并不那么少诶。

    6ca51199ee79d8e480bcea8a624db09d.png
    2

    5月-11月的7个月时间里,每位用户平均购买商品数量10件,中位数7件,75%的人购买商品的数量在13件以内。Excel的箱线图直接帮我在近10万个数据中识别出14个异常值,他们是购买商品数量远超过其他人的用户。这里可以做时间维度的下钻,分析每个月的购买件数和变化。可以做商品维度的下钻,分析不同商品大类在不同月份的比例。

    f05f628fbddbc5213e8876453bddb242.png
    3.这个“月活”不准确

    由于加购人数太少而且收藏和下单数据重合,我选择了不同的图标格式,而且我想看点击和最后下单量的关系所以这两个字段用了折线。这里可以进一步分析变化率等指标。

    (加购的人数为什么这么少我也不能理解,明明我都是把购物车当收藏夹用的,大家都不这么干嘛?)

    43c67caf68484bdfbdc5c8cb937ef9f2.png
    4

    上图,做了一个相关性系数的分析:每个月点击过商品的用户数量和每个月下单的用户数量之间的关系,Excel中的R Square也是皮尔逊相关系数,也就是回归分析中的’SS回归’/‘SS总计’。R平方=0.97说明正相关性很强。(本例在统计学上不是很严谨,你知道为什么吗?)

    e263ea42517b552e5eb1cbe21e2800d2.png
    5

    上图,做一个月点击量(X)和下单量(Y)之间的回归分析,得到线性模型: Y = 0.08X - 28 ,并且P值<<0.01 ,说明回归模型拟合得很好。并且,还能得到一个信息是:点击到最终购买的转化率约为8%

    158bd069d8f9216ae6b386741a3b8437.png
    5

    上图,来看一下线性拟合情况。

    9720d4950a4414e01a063d5e69eab3bb.png
    5

    因为长期来看,每月商品销量符合正态分布,我们通过正态概率图,可知:一方面可知,在80%的情况下,每月的商品销售数量不会超过1000,如果超过就说明是有比较大型的促销活动,而且92%概率以上不会超过2599,提醒老板即使是大促也不要有过高的期待,就不要定太高的KPI了好嘛~另一方面,90%以上概率下,每月的商品销售数量不会低于541,如果低于就要引起注意。(本例样本量较小,估计偏差会比较大)

    d666a40a75e7352e878de5cd5c0d2d5f.png
    6

    再做一个时间序列预测,预测一下12月的点击量(不规范的’月活’),Excel中做时间序列分析的方法是指数平滑,阻尼系数越小,受最近一次时间的数据影响越大,也就是预测值随着实际值波动越明显。

    以上功能只要是Excel2013以上版本应该均能实现。

    作者用的是Excel2019,哦嘿嘿~

    展开全文
  • 两个分类变量间关系,无法直接使用常见皮尔逊相关系数来表述,多采用频数统计、交叉表卡方检验等过程进行处理,当分类变量取值较多时,列联表频数形式就变得更为复杂,很难从中归纳出变量间关系。对应分析...
  • 卡方检验检出组间差异后,得到的结果只能显示行变量与列变量间是否...注意:卡方检验的事后两两比较只适用于检验交叉表的列方向对应的变量水平数大于等于3的卡方检验;即用于3个或3个以上率的两两比较。1、案例数...
  • [小结] 二元变量相关性分析

    千次阅读 2017-10-30 10:41:59
    1、服从正态分布两连续变量,若有一份随机样本...3、对两个反映属性分类变量,若有一份随机样本,可做交叉分类频数,利用独立性卡方检验和列联系数来描述关联性。 4、相关系数和列联系数计算都是基于一份
  • 数据特征化输出可以由多种形式提供,例如饼图、条图、曲线、多维数据立方体、交叉表在内多维数表。 数据区分:是将目标数据与其他对比类数据进行比较。 挖掘频繁模式、关联和相关性频繁模式包括:频繁项集、频繁...
  • 这节介绍如何使用pandas做简单数据分析,内容包括基本统计分析、分组分析、分布分析、交叉分析(透视)、结构分析和相关性分析以下实例数据文件,可以从该站内链接获取1.基本统计分析一般统计某变量最大最小值,...
  • 版权声明:本套技术专栏是作者(秦凯新)平时工作总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:1120746959@qq....
  • 列联是观测数据按两个或更多属性(定性变量)进行交叉分类时所列出的频数。列联表分析常用来判断同一个...χ2独立性检验可以检验列联中行变量与列变量之间的相关性。根据显著性水平α和自由度(r-1)(c-1)查...
  • MER Narratives Triangulation R Shiny App 该工具将监视,评估和报告(MER)叙述与指标结果进行三角划分。... 该工具还具有用于叙事文本分析的高级功能,包括情感分析,tf-idf,n-gram和相关性
  • 交叉表与透视变

    2019-10-05 12:22:27
    交叉表与透视表什么作用 分析两个离散值值间得相关性 探究股票涨跌与星期几有关? 以下图当中表示,week代表星期几...交叉表:用于计算一列数据对于另外一列数据分组个数(寻找两个列之间关系) pd.crosstab(v...
  • 回顾8月,SPSS系列一共写了5篇,虽说是自己会东西,但写出来,觉得理解又精进了一...提前预习统计学定类、定序、定距卡方检验U检验、H检验SPSS操作分析-描述统计-交叉表分析-表-定制表分析-非参数检验1 非参数检验...
  • 交叉表卡方检验与因果性检验

    千次阅读 2019-05-21 08:42:22
    由于这是定类与定类变量之间的分析,关于因果性关系强度Lambda(L)就派上用场了 lambda是基于PRE上相关测度,即反映了当用一个变量值来预测其他变量值时误差减少量, 1.对称:两变量对称考量时值为0.124 2....
  • 列联表分析(Crosstabs)列联表是指两个或多个分类变量各水平频数分布表,又称频数交叉表。SPSSCrosstabs过程,为二维或高维列联表分析提供了22种检验和相关性度量方法。其中卡方检验是分析列联表资料常用假设...
  • 一、列联表分析(独立性检验,非参数检验) 列联表是两个和两个以上变量交叉分类汇总表,根据变量个数分为1维,2维,3维, ... ,1维即频数分布表。... 卡方独立性检验需要满足条件: 交叉表值应该是频数,...
  • 主要通过spss中频率、描述、探索、交叉表等模块完成分析。 频率:描述性统计,适用于连续性,可输出图表 描述:服从正态分布连续变量相关描述统计指标 探索:适用于分布特征未知探索过程。介绍引自https://z
  • SPSS:基本统计分析(二)交叉分组下的频数分析基本任务列联表行列变量间...在交叉列联表的基础上,对两组变量间是否存在一定的相关性进行分析 列联表 列联表又称交叉表,是一种用于交叉表格展示两个或多个分类变...
  • SPSS学习笔记——对应分析

    千次阅读 2019-06-09 19:15:59
    分析】-【描述统计】-【交叉表格】将【统计】-卡方和相关性,【单元格】中期望值选中 从卡方检验结果表格可知,卡方检验相伴概率p值为0.000,小于0.05,说明行变量和列变量不是相互独立,即肺活量和性...
  • spss统计软件分析学习笔记<三>

    千次阅读 2014-06-03 16:57:14
    在列联表的基础上作进一步分析,可得到行变量和列变量之间是否有关系、关系的紧密程度等更深层次的信息 " TITLE="spss统计软件分析学习笔记" /> 这时 涉及到卡方检验及相关性检验   卡方检验> 显著性水平定义为...
  • 卡方检验-考察分类变量相关性-“交叉表”或“设定表”中进行; t检验-考察连续变量与分类变量相关性-“设定表”中进行; 线性logsitic回归-研究分类因变量与一组自变量(可连续可分类)关系; 树结构模型-研究...
  • 统计学知识

    2020-09-25 17:08:53
    当需要分析多个变量之间,一个变量是否对其他变量取值存在影响,分析变量之间是否存在相关关系叫交叉表分析。 检验方法: 卡方检验,检验行列之间是否相关 列联系数,用于名义变量之间相关系数。表征变量...
  • Stata 9 很好统计软件

    热门讨论 2008-11-24 11:45:14
     分类资料一般分析:参数估计,列联表分析 ( 列联系数,确切概率 ) ,流行病学表格分析等。  等级资料一般分析:秩变换,秩和检验,秩相关等  相关与回归分析:简单相关,偏相关,典型相关,以及多达数十种...
  • 实操二总结

    千次阅读 2020-05-02 20:28:39
    4.特征相关性:crosstab()共生矩阵/交叉表,用于统计分组频率特殊透视表 5.图形化:Scatter散点图 6.特征分布:直方图近似表示特征概率分布 知识点二:创建新特征 1.特征线性修正 ...
  • 2.7.2 使用指针简单活化边 72 2.7.3 排序活化边 72 2.7.4 使用链表活化边 74 2.7.5 修改链表 74 2.8 图像压缩 77 2.8.1 行程编码 77 2.8.2 区域图像压缩 79 2.9 显示直线、字符和多边形 82 2.9.1...

空空如也

空空如也

1 2
收藏数 38
精华内容 15
关键字:

交叉表的相关性分析