精华内容
下载资源
问答
  • 相关性分析

    2019-10-31 14:05:18
    单相关影响因素是单个变量,复相关影响因素是多个变量; 偏相关指是控制其他的变量不变,只研究两个变量之间关系。 5种常用相关分析方法分类: 图表相关性分析:折线图和散点图。 折线图:与时间或类似...

    随机变量之间的相关关系的分类:

    1. 相关方向:正相关和负相关
    2. 相关形式:线性相关和非线性相关
    3. 相关程度:完全相关、不完全相关和不相关
    4. 按照影响因素的多少:单相关和复相关

    单相关的影响因素是单个变量,复相关的影响因素是多个变量;

    偏相关指的是控制其他的变量不变,只研究两个变量之间的关系。

    5种常用的相关分析方法分类:

    1. 图表相关性分析:折线图和散点图。

    折线图:与时间或类似时间的因素作为横坐标,另外两个变量分别作为纵坐标,画出两条折线,观察这两条折线之间的变化趋势,看是否符合相关关系。

    散点图:两个变量一个当做x,另一个做y,观察趋势

    2.协方差和协方差矩阵

    如果两组数据的变化趋势一致,协方差就是正值。如果变化趋势相反,协方差就是负值。如果两个变量独立,协方差就是0。

     

    如果是三组数据,就需要用协方差矩阵。

     

    3.相关系数

    相关系数是反应变量密切程度的指标,取值在-1到1之间,1表示两个变量完全线性相关,-1表示两个变量完全负相关,0表示两个变量不相关。数据越趋近于0,表示相关关系越弱。

     

    其中rxy表示样本相关系数,Sxy表示样本协方差,Sx表示x的标准差。由于是样本协方差和样本标准差,因此分母使用的是n-1。

     

     

    4.一元回归及多元回归

     

     

    上面是两个变量,下面是多个变量:

     

    5.信息熵及互信息

    影响因素不止是数值形式,可能还有一些其他的形式,可能是特征值。

    度量这些文本特征值相关关系的方法就是互信息。

    总结:图标方法更为直观,相关系数方法可以看到两两变量的相关性,回归方程可以对相关系数进行提炼,并生成模型进行预测,互信息可以对文本类特征的相关关系进行度量。

    详细可以参考:http://bluewhale.cc/2016-06-30/analysis-of-correlation.html

    展开全文
  • # 计算相关系数:二元变量的相关性分析中常用pearson相关系数,spearman秩相关系数和判定系数;pearson相关系数要求连续变量的取值服从正态分布,不服从正态分布的变量、分类或者等级变量之间...
    #相关性分析:分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来
    # 直接绘制散点图
    # 绘制散点图矩阵:当同事考虑多个变量间的相关关系时,可以利用散点图矩阵同时绘制各变量间的散点图。
    # 计算相关系数:二元变量的相关性分析中常用pearson相关系数,spearman秩相关系数和判定系数;pearson相关系数要求连续变量的取值服从正态分布,不服从正态分布的变量、分类或者等级变量之间采用spearman秩相关系数
    # 一个变量相同的取值必须有相同的秩次。只要两个变量具有严格单调的函数关系,那么他们就是完全spearman相关的,pearson相关只有在变量具有线性关系时才是完全相关的。
    # 在正态分布假定下,spearmanpearson在效率上是等价的,对于连续测量数据,pearson更适合。
    # 判定系数:是相关系数的平方,用来衡量回归方程对y的解释成都。
    # 餐饮销量数据相关性分析代码
    from __future__ import print_function
    import pandas as pd
    catering_sale='E:/WTTfiles/自我学习/机器学习/python数据分析与挖掘实战/chapter3/demo/data/catering_sale_all.xls'
    data=pd.read_excel(catering_sale,index_col=u'日期')
    print(data.corr())
    print(data.corr()[u'百合酱蒸凤爪'])#只显示百合酱蒸凤爪与其它菜式的相关系数
    print(data[u'百合酱蒸凤爪'].corr(data[u'翡翠蒸香茜饺']))#计算百合酱蒸凤爪与翡翠蒸香茜饺之间的相关系数
    
    
    
    # 一些pandasnumpy的常用函数和作图函数
    #>>> import pandas as pd
    # >>> D=pd.DataFrame([range(1,8),range(2,9)])
    # >>> D.corr(method='pearson')
    # >>> s1=D.loc[0]
    # >>> s2=D.loc[1]
    # >>> s1.corr(s2,method='pearson')
    # >>> import numpy as np
    # >>> D=pd.DataFrame(np.random.randn(6,5))
    # >>> D.cov()
    #>>> D=pd.DataFrame([range(1,8),range(2,9)])
    # >>> D.corr(method='spearman')
    #>>> D=pd.DataFrame(np.random.randn(6,5))
    # >>> D.skew()
    #>>> D.kurt()
    # >>> D.describe()
    # >>> D=pd.Series(range(0,20))
    # >>> D.cumsum
    
    # >>> import matplotlib.pyplot as plt
    # >>> plt.rcParams['font.sans-serif']=['SimHei']
    # >>> plt.rcParams['axes.unicode_minus']=False
    # >>> plt.figure(figsize=(7,5))
    # >>> import numpy as np
    # >>> x=np.linspace(0,2*np.pi,50)
    # >>> y=np.sin(x)
    # >>> plt.plot(x,y,'bp--')
    # [<matplotlib.lines.Line2D object at 0x000001F715CE3710>]
    # >>> plt.show()
    # >>> import matplotlib.pyplot as plt
    # >>> labels='Frogs','Hogs','Dogs','Logs'
    # >>> sizes=[15,30,45,10]
    # >>> colors=['yellowgreen','gold','lightskyblue','lightcoral']
    # >>> explode=(0,0.1,0,0)
    # >>> plt.pie(sizes,explode=explode,labels=labels,colors=colors,autopct='%1.1f%%',shadow=True,startangle=90)
    # >>> plt.axis('equal')
    # >>> plt.show()
    
    # >>> import matplotlib.pyplot as plt
    # >>> import numpy as np
    # >>> x=np.random.randn(1000)
    # >>> plt.hist(x,10)
    # >>> plt.show()
    
    # >>> import pandas as pd
    # >>> x=np.random.randn(1000)
    # >>> D=pd.DataFrame([x,x+1]).T
    # >>> D.plot(kind='box')
    # <matplotlib.axes._subplots.AxesSubplot object at 0x000001F715A7E898>
    # >>> plt.show()
    
    # >>> erro=np.random.randn(10)
    # >>> y=pd.Series(np.sin(np.arange(10)))
    # >>> y.plot(yerr=erro)
    # >>> plt.show()
               百合酱蒸凤爪    翡翠蒸香茜饺   金银蒜汁蒸排骨     乐膳真味鸡     蜜汁焗餐包      生炒菜心    铁板酸菜豆腐  \
    百合酱蒸凤爪   1.000000  0.009206  0.016799  0.455638  0.098085  0.308496  0.204898   
    翡翠蒸香茜饺   0.009206  1.000000  0.304434 -0.012279  0.058745 -0.180446 -0.026908   
    金银蒜汁蒸排骨  0.016799  0.304434  1.000000  0.035135  0.096218 -0.184290  0.187272   
    乐膳真味鸡    0.455638 -0.012279  0.035135  1.000000  0.016006  0.325462  0.297692   
    蜜汁焗餐包    0.098085  0.058745  0.096218  0.016006  1.000000  0.308454  0.502025   
    生炒菜心     0.308496 -0.180446 -0.184290  0.325462  0.308454  1.000000  0.369787   
    铁板酸菜豆腐   0.204898 -0.026908  0.187272  0.297692  0.502025  0.369787  1.000000   
    香煎韭菜饺    0.127448  0.062344  0.121543 -0.068866  0.155428  0.038233  0.095543   
    香煎罗卜糕   -0.090276  0.270276  0.077808 -0.030222  0.171005  0.049898  0.157958   
    原汁原味菜心   0.428316  0.020462  0.029074  0.421878  0.527844  0.122988  0.567332   
    
    
                香煎韭菜饺     香煎罗卜糕    原汁原味菜心  
    百合酱蒸凤爪   0.127448 -0.090276  0.428316  
    翡翠蒸香茜饺   0.062344  0.270276  0.020462  
    金银蒜汁蒸排骨  0.121543  0.077808  0.029074  
    乐膳真味鸡   -0.068866 -0.030222  0.421878  
    蜜汁焗餐包    0.155428  0.171005  0.527844  
    生炒菜心     0.038233  0.049898  0.122988  
    铁板酸菜豆腐   0.095543  0.157958  0.567332  
    香煎韭菜饺    1.000000  0.178336  0.049689  
    香煎罗卜糕    0.178336  1.000000  0.088980  
    原汁原味菜心   0.049689  0.088980  1.000000  
    百合酱蒸凤爪     1.000000
    翡翠蒸香茜饺     0.009206
    金银蒜汁蒸排骨    0.016799
    乐膳真味鸡      0.455638
    蜜汁焗餐包      0.098085
    生炒菜心       0.308496
    铁板酸菜豆腐     0.204898
    香煎韭菜饺      0.127448
    香煎罗卜糕     -0.090276
    原汁原味菜心     0.428316
    Name: 百合酱蒸凤爪, dtype: float64
    0.009205803051836482
    
    展开全文
  • 1 聚类分析 聚类分析这种多元统计分析方法,用于定量...因子分析法是一种变量统计分析方法,是以所观察变量的内在相关性为研究基础,将这些有复杂内在相关性的观测变量,浓缩成少数具有代表性的综合因子,并进行 ...

    1 什么是对应分析?

    在社会科学的数量研究中,人们经常会对品质型(属性)变量(定类尺度或定序尺度)进行分析,研究两个或多个品质型变量之间的相关关系。


    这里有必要说一下,什么是品质变量,这是一个统计术语,《统计学原理》中是这样解释的

    变量是说明现象某种属性和特征的名称。可分为品质变量和数值变量。

    品质变量就是品质标志(品质标志只能用文字进行描述)

    在这里插入图片描述

    而数量变量包括数量标志和指标,数量变量可以分为连续变量和离散变量。

    连续变量的数值通过连续登记取得,数值表现为无穷小数(如身高,体重);
    离散变量的数值通过间断登记取得,数值表现为整数(如学校个数)。


    对于研究两个属性变量之间的各种状态或是相关关系,常常用列联表的形式来呈现。

    例如1:为了解消费者对公司产品的满意度情况,需要针对不同职业的消费者进行调查。(该问题中消费者的满意度与其职业均是定类的品质型变量)

    在这里插入图片描述

    例如2:利用超市销售数据研究其销售水平与超市促销方式之间的关系。(该问题中销售水平和促销方式均是品质型变量,其中销售水平为定序变量,促销方式为定类变量)

    例如3:分析顾客职业与购买汽车品牌之间的关系,研究不同客户群对汽车的喜爱偏好。(该问题中顾客职业和汽车品牌均是定类的品质型变量)

    例如4
    在这里插入图片描述
    上述这些例子,基本都属于对两个分类变量间的关系进行分析,通常采用频数统计、卡方拟合优度检验(判断两个变量是否独立)、二分类logistic模型等进行分析

    但是

    当研究的分类变量类别较多或者分类变量的个数较多时,就很难透过列联表直观地揭示出变量之间的联系以及变量各分类之间的联系。

    例如,这里属性变量A有n个分类值,属性变量B有p个分类值,如果 n 、p 都较大

    这时交叉列联表行列数剧增,列联表频数的形式变得复杂,不易于对列联表进行直观地观察或者建模。(列多行少这种情况也不易于卡方检验)在这里插入图片描述

    此时就可以利用降维的思想来简化列联表的结构

    通常,对于降维方法我们一般会想到主成分分析或者因子分析,这两种方法都是用少数的综合变量提取原始变量大部分信息的有效方法。

    但是因子分析这种方法存在一定的不足,就是

    在因子分析中,Q型、R型分析针对的对象不同,R型因子分析研究变量(指标)之间的相关关系,Q型因子分析研究样本之间的相关关系,这两种分析方法往往是相互对立的,必须分别对样本和变量进行处理。(变量是一列,样本是一行)

    因此,不能同时进行 R型因子分析和 Q型因子分析,这是因子分析的一大局限;

    有时不仅关心变量之间或样本之间的相关关系,还关心变量和样本之间的对应关系,这是因子分析方法不能解释的。https://blog.csdn.net/mengjizhiyou/article/details/83243248

    另一方面,当 n 或者 p 较大时,单独使用因子分析会极大增加计算量。

    这种情况怎么办呢?

    这时就该本文的主角登场啦——对应分析(冲鸭)

    啥是对应分析?

    对应分析也称为关联分析、R-Q型因子分析,它克服了因子分析的缺点,综合R型和Q型因子分析的优点同时对交叉列联表中的行与列进行处理

    利用降维的思想达到简化数据结构的目,寻求以低维图形表示数据表中行与列之间的关系,是特别适合于多分类属性变量研究的一种多元统计分析方法。(广泛应用于市场分析、产品定位、广告研究、社会学等)

    对应分析为我们可以提供三个方面的信息

    • 变量之间的信息
    • 样本之间的信息
    • 变量与样本之间的信息

    上述三方面信息都可以通过二维图呈现出来

    • 当对两个分类变量进行的对应分析称为简单对应分析
    • 对两个以上的分类变量进行的对应分析称为多重对应分析

    2 对应分析的基本思想

    该方法的基本思想就是将一个列联表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。(列联表的每一行及每一列均以二维图上的一个点来表示,以直观、简洁的形式描述属性变量各种状态之间的相互关系及不同属性变量之间的相互关系。)

    对应分析将变量及变量之间的联系同时反映在一张二维或三维的散点图上,并使联系密切的类别点较集中联系疏远的类别点较分散;通过观察对应分布图就能直观地把握变量类别之间的联系。


    例子:研究轿车特征与用户特征之间的联系(这里引用自:对应分析

    在这里插入图片描述

    在这里插入图片描述

    从这个例子可以看出,对应分析的一大特点就是它可以在一张二维图上同时表示出属性变量的各种状态,以直观描述原始数据结构。

    对于该方法,在减少维度方面与因子分析相似,在作分布图方面与多维尺度方法相似

    那么现在有一个问题就是,如何将多个类别点表示在低维空间或者说二维图中呢?

    3 对应分析的基本步骤

    对应分析法整个处理过程由两部分组成:列联表和关联图(行列变量分类的对应分布图)。

    因此,对应分析大致有四大步骤,分别为:

    1. 编制交叉列联表
    2. 根据原始矩阵进行对应变换
    3. 行变量和列变量的分类降维处理
    4. 绘制行列变量分类的对应分布图

    3.1 编制 样品-变量 交叉列联表

    首先是编制两个品质变量的交叉列联表,涉及的两个变量分别称为行变量和列变量

    比如,编制 顾客职业与购买汽车的品牌 的列联表,其中 顾客职业A 是行变量( n 个类或者 n 个样品),购买汽车的品牌B 是列变量,( p 个类或者 p个变量)
    在这里插入图片描述

    在上表中,

    <ni.=ni1+ni2++nipn.j=n1j+n2j++nnj \left< \begin{array}{l} n_{i.}=n_{i1}+n_{i2}+\cdots +n_{ip}\\ \\ n_{.j}=n_{1j}+n_{2j}+\cdots +n_{nj}\\ \end{array} \right.

    右下角元素 nn 是所有频数的总和,即

    n=n1.+n2.++nn.=n.1+n.2++n.p n=n_{1.}+n_{2.}+\cdots +n_{n.} =n_{.1}+n_{.2}+\cdots +n_{.p}

    3.2 根据原始矩阵进行对应变换

    将上述矩进行规格化处理得到新的矩阵,即对应矩阵 PP ,也称概率矩阵,令
    pij=nijn pi.=j=1ppij p.j=i=1npij p_{ij}=\frac{n_{ij}}{n}\text{,\\\\\\ }p_{i.}=\sum_{j=1}^p{p_{ij}}\text{,\\\\\\ }p_{.j}=\sum_{i=1}^n{p_{ij}}

    在这里插入图片描述

    这里 pijp_{ij} 可以解释为概率

    这里的卡方检验如下,如果 A 与 B 相互独立,满足 pij=pi.×p.jp_{ij}=p_{i.}\times p_{.j},那么可以提出以下假设问题:

    H0: AB相互独立H1: AB不独立  H_0:\ A\text{与}B\text{相互独立}\Leftrightarrow H_1:\ A\text{与}B\text{不独立\ }
    此时卡方统计量为

    χ2=ni=1nj=1p(pijpi.×p.j)2pi.×p.jχ2(n1)(p1) \chi ^2=n\sum_{i=1}^n{\sum_{j=1}^p{\frac{\left( p_{ij}-p_{i.}\times p_{.j} \right) ^2}{p_{i.}\times p_{.j}}\sim \chi ^2\left( n-1 \right) \left( p-1 \right)}}

    这里称
    总惯量=i=1nj=1p(pijpi.×p.j)2pi.×p.j \text{总惯量}=\sum_{i=1}^n{\sum_{j=1}^p{\frac{\left( p_{ij}-p_{i.}\times p_{.j} \right) ^2}{p_{i.}\times p_{.j}}}}

    对应分析的目的就是在原假设 H0H_0 被否定后,也就是已知 A 和 B 不独立,进一步探究其各状态之间的关系。

    所以对应分析是以变量和样本的协方差矩阵或相关系数矩阵为基础来进行分析的,那么接下来可以

    将对应矩阵 PP 进行标准化变换得到过渡矩阵 ZZ

    Z=(z11z12z1z21z22z2pzn1zn2znp) Z=\left( \begin{matrix}{} z_{11}& z_{12}& \cdots& z_1\\ z_{21}& z_{22}& \cdots& z_{2p}\\ \vdots& \vdots& & \vdots\\ z_{n1}& z_{n2}& \cdots& z_{np}\\ \end{matrix} \right)

    式中
    zij=pijpi.×p.jpi.×p.j ,(i=1,2,,nj=1,2,,p) z_{ij}=\frac{p_{ij}-p_{i.}\times p_{.j}}{\sqrt{p_{i.}\times p_{.j}}}\ \text{,}\left( i=1,2,\cdots ,n\text{;}j=1,2,\cdots ,p \right)

    3.3 行变量和列变量的分类降维处理

    3.3.1 对列变量实施分类降维(RR 型因子分析)

    计算(列)变量的协方差矩阵 A=ZTZA=Z^TZ的特征根 λ1λ2λp\lambda _1\ge \lambda _2\ge \cdots \ge \lambda _p,以及特征根对应的特征向量 UiU_i

    根据累计方差贡献率确定最终提取特征根的个数 m,并计算出相应的 RR 型因子载荷矩阵 FF,即

    F=(u11λ1u12λ2u1mλmu21λ1u22λ2u2mλmup1λ1up2λ2upmλm)变量之间的关系 F=\left( \begin{matrix} u_{11}\sqrt{\lambda _1}& u_{12}\sqrt{\lambda _2}& \cdots& u_{1m}\sqrt{\lambda _m}\\ u_{21}\sqrt{\lambda _1}& u_{22}\sqrt{\lambda _2}& \cdots& u_{2m}\sqrt{\lambda _m}\\ \vdots& \vdots& & \vdots\\ u_{p1}\sqrt{\lambda _1}& u_{p2}\sqrt{\lambda _2}& \cdots& u_{pm}\sqrt{\lambda _m}\\ \end{matrix} \right) \Rightarrow \text{变量之间的关系}

    通常 mm 取 2,

    F=(u11λ1u12λ2u21λ1u22λ2up1λ1up2λ2) F=\left( \begin{matrix}{} u_{11}\sqrt{\lambda _1}& u_{12}\sqrt{\lambda _2}\\ u_{21}\sqrt{\lambda _1}& u_{22}\sqrt{\lambda _2}\\ \vdots& \vdots\\ u_{p1}\sqrt{\lambda _1}& u_{p2}\sqrt{\lambda _2}\\ \end{matrix} \right)

    对这里不熟悉的可以在回顾一下:因子分析

    其中,因子载荷是列变量的某分类在某个因子上的载荷,反映了它们之间的相关关系。

    在这里插入图片描述

    与因子分析类似,

    • 可通过变量(列变量某分类)的共同度测度其方差的解释程度和信息的丢失程度;
    • 可通过因子的方差贡献测度因子的重要程度。

    3.3.2 对行样本实施分类降维(QQ 型因子分析)

    对于 变量的协方差矩阵 A=ZTZA=Z^TZ与样本的协方差矩阵 B=ZZTB=ZZ^T

    矩阵 AABB 具有完全相同的非零特征根,即矩阵 BB 的特征根也为 λ1λ2λp\lambda _1\ge \lambda _2\ge \cdots \ge \lambda _p

    其特征向量为 Vi=ZUiV_i=ZU_i

    计算出相应的 QQ 型因子载荷矩阵 GG,即
    G=(v11λ1v12λ2v1mλmv21λ1v22λ2v2mλmvn1λ1vn2λ2vnmλm)样本之间的关系 G=\left( \begin{matrix} v_{11}\sqrt{\lambda _1}& v_{12}\sqrt{\lambda _2}& \cdots& v_{1m}\sqrt{\lambda _m}\\ v_{21}\sqrt{\lambda _1}& v_{22}\sqrt{\lambda _2}& \cdots& v_{2m}\sqrt{\lambda _m}\\ \vdots& \vdots& & \vdots\\ v_{n1}\sqrt{\lambda _1}& v_{n2}\sqrt{\lambda _2}& \cdots& v_{nm}\sqrt{\lambda _m}\\ \end{matrix} \right) \Rightarrow \text{样本之间的关系}

    通常 mm 取 2,

    G=(v11λ1v12λ2v21λ1v22λ2vn1λ1vn2λ2) G=\left( \begin{matrix}{} v_{11}\sqrt{\lambda _1}& v_{12}\sqrt{\lambda _2}\\ v_{21}\sqrt{\lambda _1}& v_{22}\sqrt{\lambda _2}\\ \vdots& \vdots\\ v_{n1}\sqrt{\lambda _1}& v_{n2}\sqrt{\lambda _2}\\ \end{matrix} \right)

    3.4 绘制行列变量分类的对应分布图

    因为矩阵 AABB 具有完全相同的非零特征根,而这些特征根又正是各公因子的方差,因此,可用同一因子轴同时表示变量点和样本点

    另外

    对于 RR 型因子载荷 FFQQ 型因子载荷 GG 中元素,

    F=(u11λ1u12λ2u21λ1u22λ2up1λ1up2λ2)      G=(v11λ1v12λ2v21λ1v22λ2vn1λ1vn2λ2) F=\left( \begin{matrix} u_{11}\sqrt{\lambda _1}& u_{12}\sqrt{\lambda _2}\\ u_{21}\sqrt{\lambda _1}& u_{22}\sqrt{\lambda _2}\\ \vdots& \vdots\\ u_{p1}\sqrt{\lambda _1}& u_{p2}\sqrt{\lambda _2}\\ \end{matrix} \right) \ \ \ \ \ \ G=\left( \begin{matrix} v_{11}\sqrt{\lambda _1}& v_{12}\sqrt{\lambda _2}\\ v_{21}\sqrt{\lambda _1}& v_{22}\sqrt{\lambda _2}\\ \vdots& \vdots\\ v_{n1}\sqrt{\lambda _1}& v_{n2}\sqrt{\lambda _2}\\ \end{matrix} \right)

    取值范围是相同的,且元素数量大小的含义也类似

    因此

    可将 FFGG 分别看成 pp 个二维点和 nn 个二维点绘制在一个共同的坐标平面中,形成对应分布图,各点的坐标即为相应的因子载荷

    至此

    通过以上步骤,实现了对行列变量多类别的降维,并以因子载荷为坐标,将行列变量的多个分类点直观地表示在对应分布图中,实现了品质变量各类别间差异的量化。通过观察对应分布图中各数据点的远近就能够判断各类别之间的联系

    3.5 对应分析流程图

    引用参考[2]的流程图,可以把整个过程串起来
    在这里插入图片描述

    4 对应分析的适用条件以及注意事项

    运用对应分析法处理问题有这样的要求:

    • 变量是名义变量或定序变量
    • 行变量的类别取值与列变量相互独立
      在对数据作对应分析之前,需要先了解因素间是否独立。如果因素之间相互独立,则没有必要进行对应分析,当因素间在统计学上具有显著的关联性时,在此基础上使用对应分析方法,其分析结果才具有意义。
    • 行列变量构成的交叉频数表中不能出现小于等于零的情况

    需要注意一下几点:

    • 对应分析不能应用在相关关系的假设检验中,无法解释两个变量间存在的联系显著与否。因此,在应用对应分析时,需要事先做的工作是检验两个变量之间的相关性,能够通过卡方统计量检验进行。

    • 对应分析也是一种降维方法,因此在将行列信息投射到低纬空间时也可能会有信息的损失。

    • 对应分析可以省去因子旋转和因子选择等复杂中间过程,降低数学运算难度,且从因子载荷图上可以直接对行因素和列因素进行分类。

    • 对应分析对异常点或者极端值敏感

    • 研究对象要有可比性

    • 不同标准化分析的结果不同

    • 定性变量划分的类别越多,对应分析方法的优越性越明显


    参考文章:

    [1] 于秀林.多元统计分析与程序[M].北京:中国统计出版社,1993.1-45.
    [2] 刘冬梅. 对应分析在航空安全事件研究中的应用[D].中国民航大学,2016.
    [3] 尚佳. 基于对应分析法的综合保税区与自由贸易园区的差别化研究[D].上海交通大学,2012.
    [4] 百度文库—对应分析
    [5] 百度文库—SPSS数据的对应分析资料
    [6] 对应分析

    展开全文
  • 为提高分类准确率,或者出于汇报要求(哪些特征,或者有可解释性意义特征组合对结果影响较大)需要对特征进行分析和组合,不是PCA之类降维,比如对两个连续变量进行计算组合,对几个分类变量生成透视表,...
  • 任意多个变量都可以考虑相关问题,不单单局限于两个变量,一次可以分析多个变量的相关性 任意测量尺度的变量都可以测量相关强度,不单单仅可以测连续与连续变量的相关性,连续变量和有序分类变量,连续变量和...

    SPSS(五)SPSS之相关分析与线性回归模型(图文+数据集)

    在讲解线性回归模型之前,先来学习相关分析的知识点,因为相关分析与回归有着密切的联系

    相关分析

    • 任意多个变量都可以考虑相关问题,不单单局限于两个变量,一次可以分析多个变量的相关性

    • 任意测量尺度的变量都可以测量相关强度,不单单仅可以测连续与连续变量的相关性,连续变量和有序分类变量,连续变量和无序分类变量都可以测量相关性,不过衡量指标我们不常接触而已

    连续与连续变量的相关性常用术语

    直线相关

        两变量呈线性共同增大

        呈线性一增一减

    曲线相关

        两变量存在相关趋势

        并非线性,而是呈各种可能的曲线趋势

    正相关与负相关

    完全相关

     

    相关分析对应SPSS位置(分析--相关)

    双变量过程(例子:考察信心指数值和年龄的相关性

    §进行两个/多个变量间的参数/非参数相关分析

    §如果是多个变量,则给出两两相关的分析结果

    偏相关过程(例子:在控制家庭收入QS9对总信心指数影响的前提下,考察总信心指数值和年龄的相关性。

    §对其他变量进行控制

    §输出控制其他变量影响后的相关系数

    距离过程

    §对同一变量内部各观察单位间的数值或各个不同变量间进行相似性或不相似性(距离)分析

    §前者可用于检测观测值的接近程度

    §后者则常用于考察各变量的内在联系和结构

    §一般不单独使用,而是作为多维标度分析(multidimensional scaling ,MDS)的预分析过程

     

    相关分析和回归分析的关系

    研究两个变量间的紧密程度:相关分析

    研究因变量随自变量的变化:回归分析

     

    回归分析概述

    因变量:连续变量

    自变量:通常为连续变量,也可以是其他类型

    1. 研究一个连续性变量(因变量)的取值随着其它变量(自变量)的数值变化而变化的趋势
    2. 通过回归方程解释两变量之间的关系显的更为精确,可以计算出自变量改变一个单位时因变量平均改变的单位数量,这是相关分析无法做到的
    3. 除了描述两变量的关系以外,通过回归方程还可以进行预测和控制,这在实际工作中尤为重要

    §回归分析假定自变量对因变量的影响强度是始终保持不变的,如公式所示:

    §对于因变量的预测值可以被分解成两部分:

    §常量(constant):x取值为零时y的平均估计量,可以被看成是一个基线水平

    §回归部分:它刻画因变量Y的取值中,由因变量Y与自变量X的线性关系所决定的部分,即可以由X直接估计的部分

    §Ŷy的估计值(所估计的平均水平),表示给定自变量的取值时,根据公式算得的y的估计值

    §a:常数项,表示自变量取值均为0时因变量的平均水平,即回归直线在y轴上的截距(多数情况下没有实际意义,研究者也不用关心)

    §b:回归系数,在多变量回归(多个自变量的回归)中也称偏回归系数。自变量x 改变一个单位,y估计值的改变量。即回归直线的斜率

    §估计值和每一个实测值之间的差被称为残差。它刻画了因变量y除了自变量x以外的其它所有未进入该模型,或未知但可能与y有关的随机和非随机因素共同引起的变异,即不能由x直接估计的部分。

    §为了方程可以得到估计,我们往往假定ei服从正态分布N(0,σ2),就是说相同

    (大家可以发现和方差分析模型表达式几乎一模一样,a对应u,只不过bx是连续的,ai和bi是分类的)

     

    线性回归模型适用范围

    §线性趋势

    §独立性

    §样本量

    §根据经验,记录数应当在希望分析的自变量数的20倍以上为宜

    §实质上样本量和模型的决定系数有关,可通过迭代的方法进行计算

    §正态性

    §方差齐性

    §如果只是探讨自变量与因变量间的关系,则后两个条件可以适当放宽

    备注:由于是连续变量,不可能事先分组描述,分组检验,我们一般做事后残差分析来看检验模型的正态性及方差齐性

     

    线性回归模型分析步骤

    1.考察数据的分布,进行必要的预处理。即分析变量的正态性、方差齐等问题

    2.进行直线回归分析

    3.残差分析

        残差间是否独立(Durbin-Watson检验)

        残差分布是否为正态(图形或统计量)

     

    如何进行残差分析

    图一是正常的残差图

    图二残差随着自变量的变大而增大,证明方差不齐,我们可以使用变量转换的方法或者加权最小二乘法(同理随着自变量的变大而减小也是)

    图三可能是没有把高次项或者交互项放进模型建模分析

     

     案例

    §某专门面向年轻人制作肖像的公司计划在国内再开设几家分店,收集了目前已开设的分店的销售数据(Y,万元)及分店所在城市的16岁以下人数(X1,万人)、人均可支配收入(X2,元)试进行统计分析。

    §实际上拟合的模型如下:(回归里面一般不考虑交互项,想加的话可以作为一个新变量x1*x2加进来)

    数据集如下

    17.44	6.85	1670
    16.44	4.52	1680
    24.42	9.13	1820
    15.46	4.78	1630
    18.16	4.69	1730
    20.75	6.61	1820
    15.28	4.95	1590
    16.32	5.20	1720
    14.54	4.89	1660
    13.72	3.84	1600
    24.19	8.79	1830
    19.11	7.28	1710
    23.20	8.84	1740
    14.53	4.29	1580
    16.11	5.25	1780
    20.97	8.57	1840
    14.64	4.13	1650
    14.40	5.17	1630
    23.26	8.96	1810
    22.41	8.27	1910
    16.65	5.23	1600

    首先作所有自变量---因变量散点图

    作散点图作用有三个:

    1.观察有无趋势

    2.是否是线性趋势

    3.有无强离群点

     

    图形----图表构建程序

    选择散点图

    发现销售收入--年轻人数有线性趋势,无强离群点

    同理销售收入--人均可支配收入有线性趋势,可能有离群点,我们最后结合残差分析

     

    建模(分析----回归---线性)

    结果解读

    决定系数R2(无限接近于1越好,简单来说衡量模型可用性与模型信息量的表达)

    相应的相关系数的平方,用R2表示,它反映因变量y的全部变异中能够通过回归关系被自变量解释的比例

     

    看sig.,加入sig.<0.05证明用这些因变量来预测是有价值的,但是具体哪一个变量有价值,要结合下面这张表格来看

    年轻人人数、人均可支配收入sig.<0.05,证明都有意义,B就是回归模型的偏回归系数,标准系数就是偏回归系数消除量纲影响进行标准化

    所以我们回归的方程为

    y=-6.886+1.455*x1+0.009*x2

     

    残差分析

    • 检验残差之间的独立性(Durbin-Watson检验

    分析--回归--线性--统计量

    在结果的

     

    一般Durbin-Watson取值在[0,4] 

    当Durbin-Watson为2时残差完全独立

    当1<=Durbin-Watson<=3时,没有什么大问题

    Durbin-Watson<1 或者Durbin-Watson>3就有问题了

     

    • 残差分布是否为正态(图形或统计量)

    作标准化残差图

    正态性,由于样本量少,就不强求其正态分布了

     

    P-P图也是检验其正态性的,数据要靠近那条线越好

    最重要是这张图形 ,标准化残差图,我们可以从这图看数据有无极端值,一般在[-3,3]以没什么大问题

    还有查看变量之间的相关性以及多重共线性

     

    多重共线性(VIF>10或者条件索引>100就可能存在多重共线性)

     

    所以分析到这里,这个案列就完成了

     

    逐步回归

    由于刚才那个案例两个自变量是我们定死的,一定要扔进去建模的,但是正常会有很多自变量,需要我们做变量的挑选

    逐步回归的基本思想是将变量逐个引入模型,每引入一个解释变量后都要进行F检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入变得不再显著时,则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变量集是最优的。

     

    多变量的筛选策略较稳妥的方式

    • 单自变量回归模型,筛掉那些显然无关联的候选变量
    • 尝试建立多自变量模型,可手动、也可利用自动筛选方法,但使用后者时要谨慎
    • 多自变量和单自变量模型结果相矛盾时,以前者为准
    • 结果不符合专业知识时,尽量寻找原因

     

    案例:固体垃圾排放量与土地种类的关系

    本例来自Golueke and McGauhey 1970年对美国40个城市的固体垃圾排放量()的调查资料,所关心的问题是不同种类土地使用面积(单位,英亩)与固体垃圾排放量之间的关系。可能的影响因素有:indust(工业区土地面积的大小)、metals(金属制造企业用地面积)、trucks(运输及批发商业用地面积)、retail(零售业用地面积)、restrnts(餐馆与宾馆用地面积)。试作逐步回归分析。

    数据集如下

    102.0	69.0	133.0	125.0	36.0	0.3574
    1220.0	723.0	2616.0	953.0	132.0	1.9673
    139.0	138.0	46.0	35.0	6.0	0.1862
    221.0	637.0	153.0	115.0	16.0	0.3816
    12.0	0.0	1.0	9.0	1.0	0.1512
    1.0	50.0	3.0	25.0	2.0	0.1449
    1046.0	127.0	313.0	392.0	56.0	0.4711
    2032.0	44.0	409.0	540.0	98.0	0.6512
    895.0	54.0	168.0	117.0	32.0	0.6624
    0.0	0.0	2.0	0.0	1.0	0.3457
    25.0	2.0	24.0	78.0	15.0	0.3355
    97.0	12.0	91.0	135.0	24.0	0.3982
    1.0	0.0	15.0	46.0	11.0	0.2044
    4.0	1.0	18.0	23.0	8.0	0.2969
    42.0	4.0	78.0	41.0	61.0	1.1515
    87.0	162.0	599.0	11.0	3.0	0.5609
    2.0	0.0	26.0	24.0	6.0	0.1104
    2.0	9.0	29.0	11.0	2.0	0.0863
    48.0	18.0	101.0	25.0	4.0	0.1952
    131.0	126.0	387.0	6.0	0.0	0.1688
    4.0	0.0	103.0	49.0	9.0	0.0786
    1.0	4.0	46.0	16.0	2.0	0.0955
    0.0	0.0	468.0	56.0	2.0	0.0486
    7.0	0.0	52.0	37.0	5.0	0.0867
    5.0	1.0	6.0	95.0	11.0	0.1403
    174.0	113.0	285.0	69.0	18.0	0.3786
    0.0	0.0	6.0	35.0	4.0	0.0761
    233.0	153.0	682.0	404.0	85.0	0.8927
    155.0	56.0	94.0	75.0	17.0	0.3621
    120.0	74.0	55.0	120.0	8.0	0.1758
    8983.0	37.0	236.0	77.0	38.0	0.2699
    59.0	54.0	138.0	55.0	11.0	0.2762
    72.0	112.0	169.0	228.0	39.0	0.324
    571.0	78.0	25.0	162.0	43.0	0.3737
    853.0	1002.0	1017.0	418.0	57.0	0.9114
    5.0	0.0	17.0	14.0	13.0	0.2594
    11.0	34.0	3.0	20.0	4.0	0.4284
    258.0	1.0	33.0	48.0	13.0	0.1905
    69.0	14.0	126.0	108.0	20.0	0.2341
    4790.0	2046.0	3719.0	31.0	7.0	0.7759

    逐步回归建模两种方法

    • 手动自己一个一个去尝试,一般结果非常重要,建议手动,SPSS自动化错误率达到30%(这里就不演示了)

     

    • SPSS自动方法(向前法、向后法、逐步法),一般来说逐步法结合了向前法向后法是最好的(只演示逐步法)

    可以看到每一个步骤 

    每一个步骤决定系数变化是我们最关注的,R2越大越好 ,也是我们筛选变量的标准

    已排除变量这张表要讲一下,说的是加入这个因变量模型会变得更加好吗?sig.<0.05表示会

     

     

    SPSS自动方法逐步法扔进变量和剔除变量的阈值是?

     

     

     

     

     

     

    展开全文
  • 任意多个变量都可以考虑相关问题,不单单局限于两个变量,一次可以分析多个变量的相关性 任意测量尺度的变量都可以测量相关强度,不单单仅可以测连续与连续变量的相关性,连续变量和有序分类变量,连续变量和无序...
  • 多个变量的情况下,我们可以使用向前选择法,向后剔除法和逐步筛选法来选择最重要的自变量。 2. 逻辑回归(Logistic Regression) 逻辑回归是用来计算“事件=Success”和“事件=Failure”的概率。 当因...
  • 因子分析是将具有错综复杂关系的变量(或样本)综合为少数几个因子,以再现原始变量和因子之间相互关系,探讨多个能够直接测量,并且具有一定相关性的实测指标是如何受少数几个内在独立因子所支配,并且在条件...
  • 在进行数据分析的时候,往往需要对两个甚至多个分类变量的频数分布进行联合观察,此时就设计到了多个分类变量的联合描述。 基本任务 根据收集到的样本数据编制交叉列联表 在交叉列联表的基础上,对两组变量间是否...
  • 数据分析-建立回归模型流程

    千次阅读 2019-01-28 23:09:42
    分类变量的处理:将分类变量改为列进行处理 备注:异常值一般不要直接处理,了解一下是什么情况再行处理,有必要的单独拎出来 三、相关分析自变量x都和y跑一下相关系数,画散点图,判断一下相关性 四、...
  • 多类别分类问题与二元分类问题类似,不同之处在于它有多个离散输出,而不是只有两个。回顾探测未爆炸水雷问题,它输出只有两种可能性:声纳探测物体是岩石或者水雷。而红酒口感评分问题根据其化学成分会...
  • 视图学习

    千次阅读 2017-09-03 20:56:37
    从整体上把握两组指标之间的相关关系,分别在两组变量中提取有代表性的两综合变量u和v(分别为两变量组合中各变量的线性组合),利用这两综合变量之间的相关关系来反映两组指标之间的整体相关性。 协同训练...
  • 变量只有一个,自变量可以有多个。 回归目的 1、识别重要变量 2、判断相关性的方向 3、估计权重(回归系数) 可以理解为用X解释Y 数据的分类 横截面数据:在某一个时间点收集不同对象数据 时间序列数据:同...
  • 1.IV的用途 IV的全称是Information Value,中文意思是信息价值,或者信息...挑选入模变量过程是比较复杂的过程,需要考虑的因素很,比如:变量的预测能力,变量之间的相关性变量的简单性(容易生成和使用),变量
  • Logistic回归(Logistic regression,对数线性模型) 与多重线性回归有很相同之处,最大区别就在于他们之间变量不同,它将线性回归结果,通过Logistic函数生成概率,从而进行分类。 尽管Logistic函数是非线性...
  •  常用数据挖掘方法主要是基于客户画像体系与结果,选取相关性较大特征变量,通过分类模型、聚类模型、回归模型、神经网络和关联规则等机器算法进行深度挖掘。常用算法基本内容如下:  1、分类和聚类 ...
  • 主成分分析 PCA算法原理

    万次阅读 2012-04-20 09:59:22
    主成分分析 PCA算法 ...对同一个体进行多项观察时,必定涉及多个随机变量X1,X2,…,Xp,它们都是的相关性, 一时难以综合。这时就需要借助主成分分析 (principal component analysis)来概括诸多信息的主
  • 在这一步中,针对每一个变量,理解其意义,分析变量与问题的相关性。该步骤会耗费很时间,但对于分析问题非常有用。为使分析更有条理,可以建立excel表格,并包含以下列: a.变量名 b.类型-鉴别变量类型,主要...
  • 图像组训练过程PCA和LDA应用方法

    千次阅读 2015-01-15 01:28:58
     在图像的训练中,通常会把图像的每一像素看做是一变量,所以在图形训练的时候,变量的个数非常,继而出现比较大的问题是变量之间往往有很存在相关性,变量间的相关性会造成信息的重叠和分析的复杂性,所以...
  • statix 提供简单直观的管道友好框架,与“ tidyverse”设计理念相一致,用于执行基本的统计检验,包括t检验,Wilcoxon...get_summary_stats() :计算一个或多个数字变量的摘要统计信息。 可以处理分组数据。 freq_t
  • 条形图:以长方形的长度为变量的统计图表,用来比较多个项目分类的数据大小,通常利用较小的数据集分析。 直方图:由一系列高度不等的纵向条形组成,表示数据分析的情况。 饼图:饼状图显示一个数据系
  • 相关性分析,找到变量间关系 学习方法 k-均值聚类 k-means clustering:类内,样本相似度高;类间,样本相似度低 核心思想:迭代,找k簇,给出簇中心 代价函数:各簇中,样本距簇中心误差平方和 算法步骤: (1...
  • 文章目录探索性数据分析概念结构化数据组成矩形数据位置估计变异性估计自由度探索数据分布二元数据和分类数据分布相关性及以上变量数据和抽样分布概念随机抽样和样本偏差偏差选择偏差自助法置信区间抽样分布...
  • 场景:观察个体之间的相似程度,例如根据年龄,性别,收入等因素对客户进行细分,根据客户对多个产品的购买,发现产品之间的相关性。主要算法有:聚类,因子分析,主要成分分析,对应分析。 预测性:用一个或多个自...

空空如也

空空如也

1 2 3
收藏数 60
精华内容 24
关键字:

多个分类变量的相关性分析