精华内容
下载资源
问答
  • 多重对应分析在超过两个以上定类变量时有时候非常有效,当然首先我们要理解并思考,如果只有三个或有限个变量完全可以通过数据变换和交互表变量重组可以转换成两个定类变量,这时候就可以用简单对应分析了。...
    I。多重对应分析
     
    多重对应分析在超过两个以上定类变量时有时候非常有效,当然首先我们要理解并思考,如果只有三个或有限的几个变量完全可以通过数据变换和交互表变量重组可以转换成两个定类变量,这时候就可以用简单对应分析了。

    对应分析对数据的格式要求:

    • 对应分析数据的典型格式是列联表或交叉频数表。
    • 常表示不同背景的消费者对若干产品或产品的属性的选择频率。
    • 背景变量或属性变量可以并列使用或单独使用。
    • 两个变量间——简单对应分析。
    • 多个变量间——多元对应分析。

    现在,我们还是来看看如何操作多重对应分析并如何解读对应图;

    我们假定有个汽车数据集,包括:来源国(1-美国、2-欧洲、3-日本),尺寸(1-大型、2-中型、3-小型),类型 (1-家庭、2-运动、3-工作),拥有(1-自有、2-租赁)性别(1-男、2-女),收入来源(1-1份工资来源、2-2份工资来源),婚姻状况(1-已婚、2-已婚有孩子、3-单身、4-单身有孩子);

    给大家整理数据相关的干货送给大家扫码关注就可以领取

    在这里插入图片描述
    在这里插入图片描述

    从数据集看,我们有7个定类变量,如果组合成简单的交叉表是困难的事情,此时采用多重对应分析是恰当的分析方法。

    “多变量分析”——数据挖掘、数据分析【初稿】

    下面我还是采用SPSS18.0,现在叫PASW Statistics 18.0来操作!注意:不同版本在多重对应分析方法有一些不同,但大家基本上可以看出了,高版本只能是更好,但选择会复杂和不同!

    在进行多重对应分析之前,研究者应该能够记住各个变量大致有多少类别,个别变量如果变量取值太偏或异常值出现,都会影响对应分析的结果和对应图分析!

    “多变量分析”——数据挖掘、数据分析【初稿】

    在SPSS分析菜单下选择降维(Data Redaction-数据消减)后选择最优尺度算法,该选项下,根据数据集和数据测量尺度不同有“多变量分析”——数据挖掘、数据分析【初稿】三种不同的高级定类分析算法,主要包括:多重对应分析、分类(非线性)主成分分析、非线性典型相关分析;

    注意:随着版本的增高,研究人员在统计分析时就要各位主要变量的测量尺度,并且最好在进行数据清理和分析前,明确定义好测量尺度;当然也要做好Lable工作!

    接下来,我们就可以选择变量和条件了!


    大家可以把要分析的变量都放到分析变量内,补充变量的含义是如果有哪个变量你并不想作为对应分析的变量,而只是作为附属变量表现在对应图上可以加入!这一点其实在简单对应分析也有这种定义。(我们将在专门的简单对应分析方法中再讲!)


    “多变量分析”——数据挖掘、数据分析【初稿】

    然后我们要选择“变量”选项,大家可以选择类别图:每一个变量的分类图,重点是选择联合类别图,我们把7个变量全部放入,执行!(其它选项大家可以测试,我还有一些没有搞清楚)

    “多变量分析”——数据挖掘、数据分析【初稿】

    下面我们看结果:

    “多变量分析”——数据挖掘、数据分析【初稿】

    从图中我们可以看出:美国车都比较大,家庭型,主要购买者是已婚带孩子的;日本和欧洲车主要是小型、运动的和已婚没有孩子的人购买;特别注意:单身和单身带孩子的往往是租赁汽车,收入单一来源,但这个地区没有车满足这个市场,或许是市场空白;

    具体的解读大家可以根据自己的研究设计和假设去寻找答案!

    主要统计指标可以看:

    “多变量分析”——数据挖掘、数据分析【初稿】

    上图主要给我们了对应图维度的解释比率,最下面的图大家会看吗?

    提示:夹角是锐角意味着相关,所以:定类变量的相关性是不是可以解释啦!

    总结:(同样适合简单对应分析)

    对应分析的优点:

    • 定性变量划分的类别越多,这种方法的优势越明显。
    • 揭示行变量类别间与列变量类别间的联系。
    • 将类别联系直观地表现在二维图形中(对应图)。
    • 可以将名义变量或次序变量转变为间距变量。

    对应分析的缺点:

    • 不能用于相关关系的假设检验。
    • 维度要由研究者决定。
    • 有时候对应图解释比较困难。
    • 对极端值比较敏感。
    II.对应分析是一种多元统计分析技术,主要分析定性数据Category Data方法,也是强有力的数据图示化技术,当然也是强有力的市场研究分析技术。

        这里主要介绍大家了解对应分析的基本方法,如何帮助探索数据,分析列联表和卡方的独立性检验,如何解释对应图,当然大家也可以看到如何用SPSS操作对应分析和对数据格式的要求!

        对应分析是一种数据分析技术,它能够帮助我们研究由定性变量构成的交互汇总表来揭示变量间的联系。交互表的信息以图形的方式展示。主要适用于有多个类别的定类变量,可以揭示同一个变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。适用于两个或多个定类变量。

    主要应用领域:

    • 概念发展   (Concept Development)
    • 新产品开发  (New Product Development)
    • 市场细分     (Market Segmentation)
    • 竞争分析     (Competitive Analysis)
    • 广告研究     (Advertisement Research)

    主要回答以下问题:

    • 谁是我的用户?
    • 还有谁是我的用户?
    • 谁是我竞争对手的用户?
    • 相对于我的竞争对手的产品,我的产品的定位如何?
    • 与竞争对手有何差异?
    • 我还应该开发哪些新产品?
    • 对于我的新产品,我应该将目标指向哪些消费者?
    数据的格式要求
    •  对应分析数据的典型格式是列联表或交叉频数表。 常表示不同背景的消费者对若干产品或产品的属性的选择频率。背景变量或属性变量可以并列使用或单独使用。
               两个变量间——简单对应分析。
               多个变量间——多元对应分析。
    案例分析:自杀数据分析
    “多变量分析”——数据挖掘、数据分析【初稿】上面的交互分析表,主要收集了48961人的自杀方式以及自杀者的性别和年龄数据!POISON(毒药)GAS(煤气)HANG(上吊)DROWN(溺水)GUN(开枪)JUMP(跳楼)(我们就不翻译成中文了,读者可以把六个方式想象成品牌或别的什么)
    当然,我们拿到的最初原始数据可能是SPSS数据格式记录表,
    “多变量分析”——数据挖掘、数据分析【初稿】其中,性别取值1-male 2-female,年龄取值1-5,分别表示不同年龄段。
    要回答的问题是:
    1-不同性别的人在选择自杀方式上有什么差别?
    2-不同年龄的人在选择自杀方式上有什么差别?
    3-不同性别年龄的人在选择自杀方式上有什么差别?
    我们首先,把性别字段乘上10加上年龄字段生成新字段sexage,取值是11-15,21-25,然后分别用M/F和年龄组中值代表Sexage字段的变量值标,这样我们就可以进行简单对应分析了!

    现在问大家,如果你看到上面的6×10的矩阵-列联表,你能看出什么差异?
    现在我们采用SPSS软件进行对应分析!
    (我现在用的是SPSS17.0多语言版本,前两天听博易智讯的人说,现在SPSS已经有18.0版本了,不过从对应分析方法角度我还是希望用11.5版本,因为可以自己拆分重新组合修改图形,现在的版本是图片了,不能随心所欲的修改,不爽!)

    “多变量分析”——数据挖掘、数据分析【初稿】分别定义好行列变量以及它们的取值范围!
    “多变量分析”——数据挖掘、数据分析【初稿】对应分析中,6×10的列联表(交互表)可以得到行列维度最小值减1的维度,我们看到第一维度Dim1解释了列联表的60.4%,第二维度Dim2解释了列联表的33.0%,说明在两个维度上已经能够说明数据的93.4%,这是比较理想的,当然我们也可以看卡方检验等!
    下面我们主要解释如何解读对应图(小蚊子的博客中也有非常相似的解释,我非常欣赏他的博客)
    首先对SPSS分析得到的对应图进行修饰和编辑,在零点增加两条中线!
    “多变量分析”——数据挖掘、数据分析【初稿】解读方法:
    1-总体观察:
    我们从图上左右可以看出,左边全部是M*,男性,右边F*全部是女性,说明男女有显著差异;同时看横轴中线上方都是年龄大的,下面都是年龄小的,说明年龄有差异;这样就一目了然看出和回答了前两个问题;

    2-观察邻近区域
    我们从图上可以看出,老的男性比较喜欢HANG,GAS和GUN是年轻男性的偏好;老的女性比较喜欢DAWN,年轻的女性比较偏好POISON;

    3-向量分析——偏好排序
    我们可以从中心向任意点连线-向量,例如从中心向GUN做向量,然后让所有的人往这条向量及延长线上作垂线,垂点越靠近向量正向的表示越偏好这种方法。
    “多变量分析”——数据挖掘、数据分析【初稿】记住:是垂点到GUN正向排名,从图中我们可以看出,希望GUN方法的人依次是M15、M30、M45、M60、M80、F15等等;依次类推,我们还可以从中心向任意一种方法作垂线,都可以排出每种方法选择人群的偏好次序;当然,你也可以从中心往所有的人作向量,得到每一类人在选择六种方法上的偏好排名!
    “多变量分析”——数据挖掘、数据分析【初稿】你是否可以看出,F15年轻的女性对六个“品牌”的偏好吗?

    4-向量的夹角——余弦定理
    接着,我们可以从向量夹角的角度看不同方法或不同人之间的相似情况,从余弦定理的角度看相似性!
    “多变量分析”——数据挖掘、数据分析【初稿】从图上我们可以看出,当我们从中心向任意两个点(相同类别)做向量的时候,夹角是锐角的话表示两个方法具有相似性,锐角越小越相似;也就是说,GUN和GAS是相似品牌,当如也是竞争品牌,也具有替代性,如果这次开枪没有自杀成功,下次他一定选择毒气啦;我们也看出F15和F30的人比较相似,但F15与M80就有非常大的差异了,因为如果作向量他们是钝角,几乎是平角了!

    5-从距离中的位置看:越靠近中心,越没有特征,越远离中心,说明特征越明显
    从这张对应图中我们看到,有些点远离中心,有些点靠近中心,这说明什么呢?从几何空间的角度,如果我对每一人都一样的好,在规范图上我就应该站在大家的重心,也就是中心;这说明越靠近中心的点,越没有差异,(记住:没有差异并不代表不重要,只是没有差异,因为统计的技术是研究差异的技术,差异越大往往重要性就大!),越远离中心特征越明显,也就是说,如果听到一个M80的人自杀了,估计你就会想到是不是HANG啦!

    从品牌角度思考,说明越远离中的的品牌,消费者很容易识别,说明品牌特征(特色、特点)明显,越靠近中心的品牌,消费者不易识别,也说明你的品牌定位没有显著可识别的特征,没有差异认知!

    6-坐标轴定义和象限分析
    我们还没有定义坐标轴呢?从第一点的分析,其实我们很快就可以定义坐标轴的含义了!(当然有时候对应图的座位是非常难定义的)
    “多变量分析”——数据挖掘、数据分析【初稿】因此,落在第四象限的是年轻的女性所喜欢的品牌!

    7-产品定位:理想点与反理想点模型
    “多变量分析”——数据挖掘、数据分析【初稿】我们可以在图上以POISON为定位点,以POISON为圆心,以它的利益为半径画圆,那么我们可以得出这样的结论:越先圈进来的人就是最喜欢这个品牌的消费群,越先圈进来的品牌越可能是竞争品牌;当然,你也可以以某类人作为圆心,同意解读;如果POISON是市场不存在的,在调查中可以设定为理想点,这样我们就可以得到理想点模型,同理也可以得到反理想点模型分析!

    8-市场细分和定位
    最后,研究人员可以根据前面的分析和自身市场状况,进行市场细分,找到目标消费群,然后定位进行分析!最终选择不同的目标市场制定有针对性的营销策略和市场投放!
    “多变量分析”——数据挖掘、数据分析【初稿】我们也可以尝试采用多元对应分析,但不如简单对应分析有意义!
    简单对应分析的优点:
    定性变量划分的类别越多,这种方法的优势越明显,揭示行变量类别间与列变量类别间的联系,将类别联系直观地表现在二维图形中(对应图),可以将名义变量或次序变量转变为间距变量。
    简单对应分析的缺点:不能用于相关关系的假设检验,维度要由研究者决定,有时候对应图解释比较困难,对极端值比较敏感。
    结合分析(Conjoint Analysis)是一种应用广泛,非常流行和有效的市场研究技术。近些年来,结合分析广泛地应用在消费品、工业产品和商业服务等相关领域的市场研究中,在我国越来越受到市场研究公司和企业的重视,尤其是在汽车行业的市场研究领域,结合分析在汽车的新产品开发、市场占有率分析、竞争分析、市场细分和价格策略等方面都发挥了积极而有效的作用。结合分析也叫联合分析技术!

     

    结合分析适用于测量消费者的心理判断,如理解(Perceptions)和偏好(Preferences)。在结合分析中,产品/服务被描述为“轮廓”(Profiles),每一个轮廓是由能够描述产品/服务重要特征的属性(Attributes)以及赋予每一个属性的不同水平的组合构成的。结合分析的一个重要的基本假定是:消费者是根据构成产品/服务的多个属性来进行理解和作偏好判断;也就是说,消费者对产品/服务的偏好每次并不是基于一个因素而是基于几个因素的结合来判断的,消费者对某一轮廓的偏好可以分解成构成该轮廓的多个属性的偏好得分(Preference Scores)。在结合分析中用效用值(utilities)来描述。

    “多变量分析”——数据挖掘、数据分析【初稿】

    结合分析是一种多元统计分析方法。其因变量是消费者对某一轮廓的整体偏好评价。某一轮廓的整体也称为全轮廓(full profiles),是由全部属性的各个水平组合构成的。自变量是组成各轮廓的不同属性(因子)水平。因此,结合分析是在已知消费者对全轮廓的评价结果(overall evaluations)的基础上,经过分解的方法(decompositional approach)去估计其偏好结构的一种分析法。

    “多变量分析”——数据挖掘、数据分析【初稿】

    在结合分析中,轮廓是由研究人员事先按照某种因子结构(factorial structure)采用部分因子正交实验加以设计的。结合分析有三个主要目的:(1)确定消费者赋予某个预测变量(水平)的贡献和效用(utilities)以及属性的相对重要性(2)寻找消费者可接受的某种产品的最佳市场组合,这种组合最初可能并没有被消费者所评价(3)模拟市场,估计市场占有率和市场占有率变化。为了达到这些研究目的,首先要估计不同属性水平的效用,进一步计算出属性的相对重要性(Attributes relative importance)和轮廓效用(profile utilities),以便定量化地测量消费者的偏好,然后基于消费者的偏好采用最大效用模型或者Bradley-Terry-Luce(BTL)模型和logit模型估计市场占有率。

    “多变量分析”——数据挖掘、数据分析【初稿】

          全轮廓方法:每一个属性同时展现给消费者

     

     

    • 样本量:一般消费者研究   100到400之间
    • 调查方法:派调查员面访 face-to-face
    • 因子设计:属性和水平数目不太多  (<20个最多不超过30个)
    • 部分因子设计: 正交排列法 orthoplan
    • 估计主效应 ( main effect )
    • 产品/服务的概念(轮廓)事先设计和确定。
    • 调查可以采用纸张或计算机辅助访问。
          最小轮廓数选择:NC=NL - NA + 1 ,
            其中:     NC: 最小组合轮廓数
                      NL: 所有属性水平数的和
                      NA: 所有属性数的和

         例如:六个属性,每个属性有4个水平,可能组合数=4×4×4×4×4×4=4096(种),
               最小组合数=(4+4+4+4+4+4)- 6+1=19(种)
         推荐组合轮廓数:最小轮廓数的 1.5 到 2 倍

    下面我们通过一个案例:赛欧轿车上市前的市场分析,阐述了结合分析在汽车市场的应用,以及采用一般最小二乘法(
    OLS)回归估计主效应的全轮廓结合分析法的基本概念、原理、步骤和方法。
    (备注:研究的时候产品配置已知,但还没有下线投放市场)

    “多变量分析”——数据挖掘、数据分析【初稿】根据研究目的和前期的定性研究,最终确定了产品的属性和水平:
    “多变量分析”——数据挖掘、数据分析【初稿】
    在确认了属性水平后,我们通过SPSS来进行正交实验设计。
    “多变量分析”——数据挖掘、数据分析【初稿】我们可以依次定义每一个属性和水平,SPSS软件最多提供每个属性有9个水平的可能性,所以如果水平数太多就要考虑其它方法,或者进行相应的变换,当然,如果属性的水平数越多代表了你越重视它,将来的分析相当重要性就会高!
    “多变量分析”——数据挖掘、数据分析【初稿】    正交实验设计方法,在SPSS是比较简单的,人为的控制不多,我们只能寄希望SPSS的正交实验设计给我们一个号的结果,但没有评估设计效应的指标。如果你希望下次得到同样的正交设计集,必须设定一样的随机种子!
        在这点上说,如果对于复杂的正交实验设计,我还是比较偏向用SAS软件来进行,不仅得到的结果比较好,还有设计效应等各种指标评估,所以,实际市场研究中,大部分情况都是SAS来完成的!其实我用SAS,有时候更简单的,就几个命令:%mktrun和%mktex等;
        设计好后,大家记住,先不用运行,先要“粘贴”下来,也就是把语法粘贴下来,因为Conjoint Analysis分析方法在SPSS中没有窗体命令,必须用语法执行!
        当然,在细节上还有“Holdout”卡片的问题,(检验问题,但是对于商业研究我基本上都不用了,为了保证更好的建模卡片,为了减轻被访者负担,反正做都做了!——这里我没有学术思想啦)
    “多变量分析”——数据挖掘、数据分析【初稿】正交实验设计生成了16张卡片,同时也是随机卡片集,并产生两个系统变量,不要改变变量名称,其中:STATUS_值标 1-Design 2-Holdout 3-Simulation
    记住:我们并不关心这16张卡片如何,我们只是关系这16张卡片的对432种组合产品的代表性,原则上即使有不理想或不现实的卡片出现,也不要没理由的删除!在SPSS系统分析中,最好考察属性水平设定的问题,而不要随意改变!
    下面我们就要考虑收集被访者评价信息了,当然也包括卡片的展示方式!
    “多变量分析”——数据挖掘、数据分析【初稿】收集到被访者信息后,我们就可以分析了!
    “多变量分析”——数据挖掘、数据分析【初稿】我这里采用了最一般的离散变量方法,实际上属性变量可以有多种模型(离散、线性、理想点、反理想点等)
    结合分析既可以分析群体、总体也可以分析每个人的偏好选择!
    “多变量分析”——数据挖掘、数据分析【初稿】大家可以根据公式自己计算个体和群体的效用值、属性相对重要性等,但是记住:所以群体的效用值、相对重要性来自于个体的平均!
        从分析的角度,有时候模拟市场,模拟市场份额是最重要的分析,但是如果研究者不是最终决策者,就必须设计市场组合份额的模拟器,我一般采用Excel来设计,这需要大家懂得结合分析原理,并能够设计Excel应用!
        在文章的最上面,我是采用Excel设计的电脑配置的市场研究模拟器,希望对你有所启发!

        近年来,结合分析成为市场研究的重要利器,但是它也有着局限性,所以开发了不同的改进方法和软件工具,代表性的就是Sawtooth公司的产品,另外也可以考虑更复杂的CBC技术,离散选择模型!(下次再专题讲)

        最后,要说明的是结合分析只是得到了消费者的偏好,喜欢一个人,并不一定会跟她结婚的!

    多元回归分析(Multiple Regression Analysis)是多变量分析的基础,也是理解监督类分析方法的入口!实际上大部分学习统计分析和市场研究的人的都会用回归分析,操作也是比较简单的,但能够知道多元回归分析的适用条件或是如何将回归应用于实践,可能还要真正领会回归分析的基本思想和一些实际应用手法! 下面我们就来谈谈多元回归分析,这张图是利用多元线性回归制作的策略分析图,你可以理解X轴是重要性,Y轴是表现;

    “多变量分析”——数据挖掘、数据分析【初稿】

    首先,多元回归分析应该强调是多元线性回归分析!强调线性是因为大部分人用回归都是线性回归,线性的就是直线的,直线的就是简单的,简单的就是因果成比例的;理论上讲,非线性的关系我们都可以通过函数变化线性化,就比如:Y=a+bLnX,我们可以令 t=LnX,方程就变成了 Y=a+bt,也就线性化了。

    一般我们采用的变化要根据数据分布特征来进行,下表是常用的变化方法:

    “多变量分析”——数据挖掘、数据分析【初稿】

    当然,变化的主要目的是线性化,同时期望数据分布是近似正态分布!

    第二,线性回归思想包含在其它多变量分析中,例如:判别分析的自变量实际上是回归,尤其是Fisher线性回归方程;Logistics回归的自变量也是回归,只不过是计算线性回归方程的得分进行了概率转换;甚至因子分析和主成分分析最终的因子得分或主成分得分也是回归算出来的;当然,还有很多分析最终也是回归思想!

    第三:什么是“回归”,回归就是向平均靠拢。

    第四:如果你用线性回归方式去解释过去,你只能朝着一个趋势继续,但未来对过去的偏离有无数种可能性;

    第五:线性回归方程纳入的自变量越多,越应该能够反应现实,但解释起来就越困难;

    第六:统计学家往往追求的是简约的模型和更高的解释度,往往关注模型R平方,共线性和回归诊断问题;

    第七:市场研究人员往往注重模型的解释合理性,是否与预设的直觉一直,是否支持了我的市场假设等;

    下面我们从市场研究人员的角度看看如何利用多元线性回归:

    多元线性回归分析的主要目的是:解释和预测

    假设我们收集了100个企业客户经理对我产品的总体满意度和分项指标的满意度评价,我期望知道,什么分项指标对我总体满意度有重要影响,它的改进更能够提升总体满意度;如果建立预测模型,我期望知道了分项指标的评价就能够预测总体满意度数值;

    “多变量分析”——数据挖掘、数据分析【初稿】

    在SPSS中选择回归分析后,把X10作为因变量,X1到X7作为自变量

    “多变量分析”——数据挖掘、数据分析【初稿】

    一般选择自变量进入方程的方法,可以先采用逐步回归,让计算机程序帮助确定变量的重要性,这在统计层面非常好,但是如果针对我现在的研究我需要采用Enter全部进入,如果某个指标不显著,就不在方程中了我如何与客户说呢?(假设他不懂统计,并且我需要完成上面的策略图);

    “多变量分析”——数据挖掘、数据分析【初稿】

    选择相应的统计参数和输出结果,注意:多变量分析都需要考虑缺省值问题,逐步回归中我们可以得到R平方的变化对我们理解方程有帮助!(Enter方法不需要)

    “多变量分析”——数据挖掘、数据分析【初稿】

    R平方是我们最需要关注的,该值说明了方程的拟合好坏,R平方=0.80非常不错了,说明:1)总体满意度的80%的变差都可以由7个分项指标解释,或者说,7个分项指标可以解释总体满意度80%的变差!2)R平方如果太大,大家不要高兴太早,社会科学很少有那么完美的预测或解释,一定存在了共线性!

    “多变量分析”——数据挖掘、数据分析【初稿】

    方程分析表的显著性表明了回归具有解释力!

    “多变量分析”——数据挖掘、数据分析【初稿】

    线性回归方程给出可预测的计算系数,但是,社会科学很少进行预测,重要的是解释;

    这里要注意的是如果自变量的测量尺度是统一的话,我们可以直接比较系数的大小,但是如果自变量的测量尺度不统一的话,我们必须看标准化回归系数,标准化回归系数去掉的量纲,且反应了重要性!我们就是需要重要性测量!

    当然,这个时候,研究人员应该关注每个指标的回归系数是否真的等于零,要进行假设检验!

    我这里就直接应用了,我们可以把7个自变量指标的均值作为表现,7个自变量的标准化相关系数作为重要性,完成散点图!重要的指标,表现差当然是我们急需改进的了,这就是前面策略图了。

    我这是典型的市场研究思维方式,不太关注统计意义,而且我将所有的坐标轴和坐标数值都让你看不到,我只是表现了测量,或许对市场洞察足够了;但记住统计学家不能这样!如果你是关注统计思想的人,应该要理解下面这张回归解释图!

    “多变量分析”——数据挖掘、数据分析【初稿】


      线性回归:提及因果关系,   必须非常谨慎!
    物以类聚,人以群分,聚类分析是一种重要的多变量统计方法,但记住其实它是一种数据分析方法,不能进行统计推断的。当然,聚类分析主要应用在市场细分等领域,我们也经常采用聚类分析技术来实现对抽样框的分层,我就不多罗嗦了。

        聚类分析:顾名思义是一种分类的多元统计分析方法。按照个体或样品(individuals, objects or subjects)的特征将它们分类,使同一类别内的个体具有尽可能高的同质性(homogeneity),而类别之间则应具有尽可能高的异质性(heterogeneity)。

    “多变量分析”——数据挖掘、数据分析【初稿】
        我们也可以对变量进行聚类—分类,但是更常见的还是对个体分类(样本聚类——细分)。为了得到比较合理的分类,首先要采用适当的指标来定量地描述研究对象(样本或变量,常用的是样本)之间的联系的紧密程度。常用的指标为“距离”和“相似系数”,假定研究对象均用所谓的“点”来表示。
        在聚类分析中,一般的规则是将“距离”较小的点或“相似系数”较大的点归为同一类,将“距离”较大的点或“相似系数”较小的点归为不同的类!(一般的相似系数就是相关系数了)

        基本概念:

        需要一组表示个体性质或特征的变量,称之为聚类变量。根据个体或样本之间联系的紧密程度进行分类。一般来说分类变量的组合都是由研究者规定的,不是像其它多元分析方法那样估计推导出来的。
        聚类分析前所有个体或样本所属的类别是未知的,类别个数一般也是未知的,分析的依据就是原始数据,没有任何事先的有关类别的信息可参考。所以:严格说来聚类分析并不是纯粹的统计技术,它不像其它多元分析法那样,需要从样本去推断总体。聚类分析一般都涉及不到有关统计量的分布,也不需要进行显著性检验。聚类分析更像是一种建立假设的方法,而对假设的检验还需要借助其它统计方法。

        聚类方法:

    • 聚类分析简单、直观。
    • 聚类分析主要应用于探索性的研究,其分析的结果可以提供多个可能的解,选择最终的解需要研究者的主观判断和后续的分析;
    • 不管实际数据中是否真正存在不同的类别,利用聚类分析都能得到分成若干类别的解;
    • 聚类分析的解完全依赖于研究者所选择的聚类变量,增加或删除一些变量对最终的解都可能产生实质性的影响。
    • 研究者在使用聚类分析时应特别注意可能影响结果的各个因素。
    • 异常值和特殊的变量对聚类有较大影响
      当分类变量的测量尺度不一致时,需要事先做标准化处理。
    当然,聚类分析不能做的事情是:
    • 自动发现和告诉你应该分成多少个类——属于非监督类分析方法
    • 期望能很清楚的找到大致相等的类或细分市场是不现实的;
    • 样本聚类,变量之间的关系需要研究者决定;
    • 不会自动给出一个最佳聚类结果;
         我这里提到的聚类分析主要是谱系聚类(hierarchical clustering)和快速聚类(K-means)、两阶段聚类(Two-Step);
    “多变量分析”——数据挖掘、数据分析【初稿】
         根据聚类变量得到的描述两个个体间(或变量间)的对应程度或联系紧密程度的度量。
         可以用两种方式来测量:
    • 采用描述个体对(变量对)之间的接近程度的指标,例如“距离”,“距离”越小的个体(变量)越具有相似性。
    • 采用表示相似程度的指标,例如“相关系数”,“相关系数”越大的个体(变量)越具有相似性。
         计算聚类——距离指标D(distance)的方法非常多:按照数据的不同性质,可选用不同的距离指标。欧氏距离(Euclidean distance)、欧氏距离的平方(Squared Euclidean distance)、曼哈顿距离(Block)、切比雪夫距离(Chebychev distance)、卡方距离(Chi-aquare measure) 等;相似性也有不少,主要是皮尔逊相关系数了!
    “多变量分析”——数据挖掘、数据分析【初稿】注意:上面主要在谱系聚类方法中采用,但谱系聚类主要用在变量聚类上,如果对样本聚类样本不能太多了,否则你要等很长时间,还不一定有用!
        
    总体推荐:
    • 聚类变量的测量尺度不同,需要事先对变量标准化;
    • 聚类变量中如果有些变量非常相关,意味着这个变量的权重会更大
    • 欧式距离的平方是最常用的距离测量方法;
    • 聚类算法要比距离测量方法对聚类结果影响更大;
    • 标准化方法影响聚类模式:
    • 变量标准化倾向产生基于数量的聚类;
    • 样本标准化倾向产生基于模式的聚类;
    • 一般聚类个数在4-6类,不易太多,或太少;
    • 数据挖掘软件中的聚类更理想

    “多变量分析”——数据挖掘、数据分析【初稿】
        当然我现在聚类都用数据挖掘技术了,其实聚类分析采用数据挖掘技术更合理,毕竟是发现知识,我们事先不知道是否存在显著差异的细分市场,而且往往在统计分析聚类中,需要研究者主观给出聚类变量,得到的结果也可能是研究者或客户能想到的,往往客户最希望得到事先不知道的,直觉不能感知到的,数据挖掘就体现了这一点。当然采用数据挖掘软件得到的聚类结果,也更直观,最重要的是采用SPSS聚类的结果要呈现出来,是个体力活,用Clementine得到的结果就非常容易看出来和理解了!

        关于市场细分中的聚类分析,主要是采用两阶段聚类或快速聚类,一般要先进行因子分析,聚类分析,类的识别,聚成几类,类的稳定性测试,选择目标类,定位,描述细分市场,市场营销组合等!

    上一篇博客提到聚类分析方法和基本概念,但是可能没有回答一些人的疑问?比如到底应该分成多少类,类的稳定性以及如何评估聚类的结果。其实,要想解决这个问题,首先是要与分析目的有关,不简单是一个统计分析问题,或者说聚类问题,而应该是研究者的判断或者说研究者的洞察力,当然,我们还是要有一套方法去指导。

          但大家记住:聚类分析不是统计方法,是一种数据处理技术,也就是说在SPSS里面,有时候你的数据排序改变,聚类的结果都会改变;

          还要记住:如果市场上不存在明显的细分市场,只要聚类总是能够按照聚类要求分成类的,这时候你就要注意了,如果采用不同的聚类方法,总是能够聚成大致相等(样本)的类,先不要高兴,可能就是不存在有差异细分市场;这就像一个球或圆,按照要求总能分割成大致相等的块一样;

        还要记住:如果市场存在着明显的细分市场,也就是差远很大的类,无论什么细节技术或聚类技术都应该得到类似的结果;难点主要是细分不明显的时候,需要依赖方法了,尝试不同的聚类方法!

         “多变量分析”——数据挖掘、数据分析【初稿】

        我记得曾经做过一个市场细分项目,因为我没有能够得到满意的细分市场,或者说无法解释清楚细分市场的独特性,客户提出一个问题:你尝试了各种聚类结果吗?当时还没有数据挖掘技术,不过因为这个要求,我把聚类过程和可能的情况有了新的认识,与大家分享:

        上面的样本,实际上存在不同的类,但粗看可能看不出来,但是如果我们采用聚类分析,就可以得到如下可能结果:

    “多变量分析”——数据挖掘、数据分析【初稿】

    比较明显的可以看出,上面的样本在两个维度上存在着五个不同类别。

    现在我们来看看聚类分析的基本思路和思考:

    1)市场细分:是采用聚类分析的主要目的,主要分成监督类和非监督类,我们现在讨论的是非监督类方法,就是事先不知道是否存在细分市场,也就是事后细分;

    • 这就需要我们采用市场研究的方法收集目标市场消费者的分类变量和关键性描述信息。
    • 在收集和分析所有相关信息之前,市场细分并不确定。
    • 采用多元统计分析技术识别细分市场,并将消费者按一定的算法规则划分为不同的市场。
    2)具体分成多少类:没有一个统一的答案。
    • 经验、直觉、统计结果和常识判断,所有这些都可以用来决定市场细分的个数。
    • 如果细分后存在着几个非常小的市场,需要修正分类标准,或者将原始资料中的异常值剔除掉。
    • 如果市场被划分得太细的话,将导致对一些小的、相似性的市场采用许多不同的市场营销策略。
    3)数据预处理-因子分析:一般在社会科学和市场研究领域的事后细分,往往我们面对的是态度量表,也就是希望从消费者的消费行为,社会态度和价值观等层面进行细分,那么我们聚类就面临着要进行数据预处理;这里一般都会设计到因子分析。
    • 根据量表的信度和效度得到的因子应该有意义和进行因子命名,否则后面的聚类都是根据因子名称来理解的;
    • 原始变量需要进行标准化,但是因子分析后得到的因子已经是标准化变量了;
    • 一种思路直接用因子进行聚类分析,因子是正交的,得到的是“清晰”的聚类结果;但是记住:有时候更适合聚类的因子分析是采用斜交因子!所以,我们如果目标是聚类的话,要考虑斜交方法;
    • 一种思路是放弃因子,而采用原始变量,但这时候要考虑选择每个因子负荷前几个的变量,最好数量相当,否则某些变量越相关,意味着权重越大;
    4)数量还是模式:得到因子后要明确是基于量的聚类还是基于模式的聚类,这个差异是非常大的;
    “多变量分析”——数据挖掘、数据分析【初稿】
    从上面我们可以看出:基于量的聚类A和B,C和D是一类,但基于模式则A和C,B和D是一路;
    记住:所以在聚类变量的标准化要考虑这一点!
    5)聚类数量:一般从3-7个不断尝试,如果你用SPSS软件,建议事项保证样本是排序的;
    6)类的评估:一般我们可以采用类均值的F检验,看不同类在F统计量上的差异,也就是每个类在聚类变量上的显著差异:
    “多变量分析”——数据挖掘、数据分析【初稿】
    上面的3个类,进行方差分析,得到F统计量,我们可以看到,F值越大说明分成3类的主要差异在什么变量上;
    7)测试不同的聚类结果:同上想法,我们可以尝试在4类后的情况发生什么变化,然后把3类和4类结果进行交互分析,看看3类变成4类到底在哪里发生变化,主要影响变量是什么因素影响:
    “多变量分析”——数据挖掘、数据分析【初稿】
    8)最后,针对可能的稳定聚类,测试每个变量(最初的量表)在各个类的F统计量,看看最初的原始变量(不是因子)的影响特性;
    9)把最后确定的聚类结果写入原始数据集,进行类命名;
    10)采用判别分析,判别类和聚类变量的可视化,画判别图,进一步识别类的特征
    11) 采用对应分析和多元对应分析,识别类的属性和关键类(细分)表述变量,比如:性别、年龄、职业、收入、消费特性等
    12)采用CHAID分类决策树,自动侦测进一步识别类的特性;

    记住:
    • 为了得到比较好的结果,我们一般现在都采用Two-step聚类,这样可以把定类变量纳入聚类
    • 如果希望得到稳定的聚类结果,可以在聚类分析的时候提供类中心——一般来自分类均值
    • 聚类结果得到的细分市场一定是研究者能表述并有营销手段达到目标市场的
    • 细分不光为自己找到细分市场,也为竞争对手细分了市场
    最后我要说:聚类是一门技术,细分是一门艺术!
    很多人在从事市场研究和经营分析的时候,特别是定量研究方法需要用到统计分析的时候,到底应该采用哪种分析方法,或者应该用哪种方法更适合这个分析,比较困惑。下面我来总结一下,如何选择多变量统计分析方法来适应研究的需要!

    请大家记住一句话:选择什么样的多变量统计分析方法,主要是根据变量的测量尺度决定的,更明确的说是根据因变量的测量尺度和类型决定的!这就要求研究者能够在从事项目前明确:研究设计和假设,确认因变量,以及如何测量,测量尺度达到什么等级等要素。

    “多变量分析”——数据挖掘、数据分析【初稿】

    1. 首先,市场研究公司不断提升自己的竞争力,希望有能力提供更好的市场洞察力,随着研究机构的经验积累,不光是就数据说话,更应帮助解决企业的实际问题,提供更好的研究咨询和解决方案;
    2. 另一方面,随着技术的发展,采集数据方法更加多样,从传统的面访到在线调查,甚至也进入商业自动化生成的数据分析;
    3. 再有,从我的感觉大部分市场研究公司都采用SPSS统计分析软件,部分机构因为特定的客户需求采用宝洁要求的软件,现在其实是SPSSMR产品,当然,SPSS软件版本更新太快了,我从3.0DOS版本开始使用,现在都18版本了,而且支持了中文,其实从我个人角度看,SPSS软件的发展更新进程就是从传统的社会科学研究不断向市场领域迈进,现在很多案例都是市场研究和经营分析的内容,甚至纳入了更多的建模技术,也直接指向了数据挖掘和数据库营销,比如RFM模型,直销模型等都有了。(SPSS18 直销模块)

    “多变量分析”——数据挖掘、数据分析【初稿】

    我们看到除了SPSS软件,还有就是SAS软件,当然懂得SAS的人不多,但特殊情况下SAS更有效,比如,在进行实验设计,非标准的正交实验设计,Conjoint Analysis等市场研究核心技术方面,SAS更灵活些!

        4. 当然,除了我们看到的SPSS和SAS软件以外,要真正在市场研究中利用好各种分析和模型技术,还需要掌握各种专业软件工具。例如:

    • AMOS/Lisrel软件:主要用于顾客满意度研究,品牌驱动研究等;
    • ACA/CBC/VCA软件:主要用于结合分析(联合分析)conjoint analysis以及离散选择模型等,产品开发等都经常用这些软件;
    • Ucinet/Netdraw软件:是社会网络分析工具,主要用于关系研究,开放题和半开放题、相似性和差异性矩阵等都可以用;
    • Clementine/Miner软件:主要是数据挖掘技术;
    • Xcelsius软件:动态报表和分析报告软件,非常炫的Dashbaord仪表盘工具;
    • 其它工具:Yed、Visio、SmartDraw、Mindmanager、Swiff Chart、AnswerTree、DecisionTime&Whatif等等!
    除此之外,市场研究的定量分析更关注解决非数理化数据的分析以及可视化技术,还有就是市场研究模型技术!
    “多变量分析”——数据挖掘、数据分析【初稿】我们还是回到市场研究的多变量分析技术吧!
    这里的多变量分析技术主要是指统计分析和数据挖掘技术:
    • 描述性统计分析技术
    • 频数分析:主要用于数据清洗,调查结果的Q&A,各种统计量、基本报告数据源等
    • 数据探查:探索性分析主要从统计的角度查看统计量来评估数据分布,主要用于异常值侦测、正态分布检验、数据分段、分位点测算等
    • 交叉表分析:交互分析是市场研究的主要工作,大部分市场研究分析到此为止。主要用于分析报告和分析数据源,各种图表等,宝洁公司要求的很多分析就是完成各种交叉表,制作各种报表,当然其中也有卡方检验和T检验,寻找差异;一般我们采用列百分比进行图表分析,记住:如果交叉表单元格数据比较小需要合并或者不要用百分数来说,直接说值就可以了。
    • T检验:假设检验方法,主要用来比较两个总体均值的差异是否显著;
    • 方差分析:超过两个总体的均值检验,也经常用于实验设计后的检验问题;
    • 相关分析:线性相关性,只有变量呈现相关我们才能进行影响关系的研究,但记住相关主要是线性相关,不相关并不代表没有关系;
    • 多变量分析技术
    • 回归分析技术:是监督类分析方法,最重要的认识多变量分析的基础方法,只有掌握了回归我们才能进入多变量分析,其它很多方法都是变种。主要用在影响研究、满意度研究等,当然市场研究基本上是解释性回归分析,也就是不注重预测而关注解释自变量对因变量的影响。主要把握R平方、逐步回归、标准化回归系数(当作权重或重要性)等;回归也是预处理技术,缺省值处理等
    • 主成分分析和因子分析:是非监督类分析方法的代表,是主要认识多变量分析的基础方法,只有掌握了因子分析我们才能进入多因素相互关系的研究;主要用在消费者行为态度等研究、价值观态度语句的分析、市场细分之前的因子聚类等,问卷的信度和效度检验等,因子分析也可算是数据的预处理技术。主成分分析与因子分析是两种方法,要能够区分。主成分分析可以消减变量,权重等,主成分还可以用作构建综合排名!
    • 判别分析技术:判别分析是最好的构建Biplot二元判别图的好方法,主要用于分类和判别图,也是图示化技术的一种;
    • 对应分析技术:市场研究非常有用的研究技术,主要分析定类变量,构建二元图,也是图示化技术的一种;
    • Logistics回归技术:分类技术,主要针对因变量是0-1情况下的判别,该技术是我们认识非线性关系的重要基础,很多情况下,我们需要作出是与否的判断,基础模型就是它了,像客户离网分析、客户价值分析、客户信用等都用这个模型;
    • 聚类分析技术:主要用在市场细分方面,但聚类分析本质上不是统计分析,是数据处理技术,从事市场细分的人要好好把握,特别是注重聚类分析的细节,可以进行变量和样本的聚类;记住:样本聚类有可能数据排列不同聚类结果不同,要进行聚类后的稳定性测试,一般也要采用方差最大旋转,有时候斜交更适合聚类细分;当然,聚类后的细分市场识别是头痛问题,用到上面的几种技术,也很繁琐!我现在进行市场细分基本上都用数据挖掘软件工具了!现在比较好用的是Two-Step两阶段聚类;
    • MDS多维尺度分析技术:这个技术目前不太用了,但它是认识多变量分析技术,尤其是测量与分析技术好的视角。比如,相似性和差异性测量、语异差异法等,洞察潜在消费者心理和潜在分类维度等。
    • 其它:GLM通用线性模型、Logit回归、Probit分析、可靠性分析等
    • 市场研究分析技术
    • 结合分析(联合分析)Conjoint Analysis技术:如果一家市场研究公司没有掌握该技术,就不能称为一流的市场研究!可见该技术的地位,应用领域非常广泛,新产品开发、产品重新定位、市场细分、利润分析、偏好分析等,我就是掌握了这个技术后,才发现统计与市场这么紧密联系,学好数学和统计有这么大的用武之地!
    • 离散选择模型(Choice base analysis):也叫Discrete Choice Analysis分析技术,现在市场研究采用这种方法越来越大,属于结合分析的一种,但更复杂也更反映现实选择行为;主要应用在价格研究中!研究消费者微观选择行为的人得了诺贝尔经济学奖呢!SPSS软件没有这个分析方法,只能用SAS软件,或者选择Sawtooth公司的产品。
    • 结构方程式模型(SEM):其实SEM本质上是实证研究,证实性分析,特别适合写学术论文和研究性项目,在市场研究主要用在顾客满意度上,也可以用在品牌驱动力研究等方面;主要软件是AMOS;
    • 多维偏好分析(Multidimensional Preference Analysis):主要用于构建偏好图,进行产品定位,消费者偏好结构,属于图示化技术的一种;SPSS没有专门称呼的模块,可以采用因子分析或主成分分析的转换来完成,但在SAS中就比较方便了;
    • 决策树技术:属于监督类建模技术,主要用于分类和细分,因为决策树比较好理解,所以可以非常自动和智能化的得到无法感知到的结果;掌握了决策树后,我就不愿意用交互分析了!主要有CHAID、C&RT、QUEST等,当然还有C5.0规则等!
    • 其它:PSM价格弹性测量、品牌资产指数等等;
    • 数据挖掘和建模技术(数据挖掘技术将来再详细描述)
    • 分类建模技术:
    • 预测建模技术:
    • 细分建模技术:
    • 关联建模技术:
    • 序列建模技术:

    “多变量分析”——数据挖掘、数据分析【初稿】主要的英文描述:
    “多变量分析”——数据挖掘、数据分析【初稿】
    多变量分析方法的分类图谱!(主要部分)
    从图中,大家可以看到,假设你不知道研究目的的意义,但看到数据后,你可以尝试沿着分类图谱去找寻你该选择的分析方法!“多变量分析”——数据挖掘、数据分析【初稿】
    当然,选择什么样的多变量分析技术,前提还是你的研究设计和假设,也就是说我们设计了什么样的问卷或者说什么样的测量变量及尺度,应该在数据收集回来之前就应该明确的,特别是选择了针对性的研究模型也就意味着分析技术的明确,如果你在调查之前还不知道用什么分析方法,应该不是一个合格的研究人员!

    多变量分析技术的选择主要看变量测量等级,特别是因变量!

    因子分析(Factor Analysis)是一种非常有用的多变量分析技术。我想说,你要想学好多变量分析技术,一是:理解多元回归分析,二是:理解因子分析;这是多变量分析技术的两个出发点。为什么这么说呢?多元回归分析是掌握有因变量影响关系的重点,无论什么分析,只要研究的变量有Y,也就是因变量,一般都是回归思想,无非就是Y的测量尺度不同,选择不同的变形方法。而因子分析则是研究没有因变量和自变量之分的一组变量X1 X2 X3 ... Xn之间的关系。

        在市场研究中,我们经常要测量消费者的消费行为、态度、信仰和价值观,当然最重要的是测量消费者的消费行为和态度!我们往往采用一组态度量表进行测量,用1-5打分或1-9打分,经常提到的李克特量表。 

    “多变量分析”——数据挖掘、数据分析【初稿】

        上面的数据是我们为了测量消费者的生活方式或者价值观什么的,选择了24个语句,让消费者进行评估,同意还是不同意,像我还是不像,赞成还是不赞成等等,用1-9打分;

        因子分析有探索性因子分析和证实性因子分析之分,这里我们主要讨论探索性因子分析!证实性因子分析主要采用SEM结构方程式来解决。

    从探索性因子分析角度看:

    • 一种非常实用的多元统计分析方法;
    • 一种探索性变量分析技术;
    • 分析多变量相互依赖关系的方法;
    • 数据和变量的消减技术;
    • 其它细分技术的预处理过程;
    我们为什么要用因子分析呢?
        首先,24个可测量的观测变量之间的存在相互依赖关系,并且我们确信某些观测变量指示了潜在的结构-因子,也就是存在潜在的因子;而潜在的因子是不可观测的,例如:真实的满意度水平,购买的倾向性、收获、态度、经济地位、忠诚度、促销、广告效果、品牌形象等,所以,我们必须从多个角度或维度去测量,比如多维度测量购买产品的动机、消费习惯、生活态度和方式等;
        这样,一组量表,有太多的变量,我们希望能够消减变量,用一个新的、更小的由原始变量集组合成的新变量集作进一步分析。这就是因子分析的本质,所以在SPSS软件中,因子分析方法归类在消减变量菜单下。新的变量集能够更好的说明问题,利于简化和解释问题。
        当然,因子分析也往往是预处理技术,例如,在市场研究中我们要进行市场细分研究,往往采用一组量表测量消费者,首先,通过因子分析得到消减变量后的正交的因子(概念),然后利用因子进行聚类分析,而不再用原来的测量变量了!我想这是市场研究中因子分析的主要应用!  
        其实,你可以想象,例如在多元回归分析中,如果多个自变量存在相关性,如果可以用因子分析,得到几个不相关的变量(因子),再进行回归,就解决了自变量共线性问题。(理论上是这样的,但市场研究很少这么操作!)
    下面是要理解的因子分析的基本概念:
    • 一种简化数据的技术。
    • 探索性因子分析和证实性因子分析
    • 因子分析就是要找到具有本质意义的少量因子。
    • 用一定的结构/模型,去表达或解释大量可观测的变量。
    • 用相对少量的几个因子解释原来许多相互关联的变量之间的关系。
    • 描述的变量是可观测的——显在变量。
    • 相关性较高,联系比较紧密的变量放在一类。
    • 每一类变量隐含一个因子——潜在变量。
    • 不同类的变量之间相关性较弱。
    • 各个因子之间不相关。
    下面我们通过PASW Statistics软件来进行操作!
    “多变量分析”——数据挖掘、数据分析【初稿】
        在进行因子分析前,大家务必明确你的数据集中24个变量是否存在缺失值问题!默认情况下系统采用Lisewase,也即是只要24个变量有一个缺失,该记录删除,也就是说如果你的样本存在大量缺失,可能造成因子分析的样本量大量收缩!
    “多变量分析”——数据挖掘、数据分析【初稿】
    我们将24个变量选择后,选择描述对话框,可以选择KMO和Bartlett的球形度检验!这个指标主要从统计角度给出24个变量是否存在内在结构,也就是潜在因子结构,说白了,就是不适合因子分析!极端可能就是所有24个变量都测量的是一个维度的因子概念,另一个极端就是24个变量全部是正交不相关的,根本不存在因子,不适合因子分析!
    接下来我们要选择抽取因子的方法:“多变量分析”——数据挖掘、数据分析【初稿】在方法上,我们如果不是非常理解或有特殊要求,就选择主成份方法;这也是为什么在SPSS软件中没有独立的主成份分析,其实是包容在因子分析中了!记住一点:如果24个变量存在因子结构,用什么方法得当的结果基本相同!况且,市场研究采用量表24个变量的测量尺度都是一致的!如果你没有特殊要求,默然选择抽取特征值大于1的因子!选择碎石图——也是表达因子选择的图示方式!因为是研究结构,所以从相关矩阵出发,实际上就是标准化后的方差矩阵,没有了量纲!
    接下来,我们选择因子旋转方法!
    “多变量分析”——数据挖掘、数据分析【初稿】
        因子旋转是因子分析的核心技巧,也是我们期望得到的结果。旋转的概念就是坐标变换,不过旋转有正交和斜交旋转差别罢了!从解释因子结构的角度正交旋转是最容易解释的,得到的因子也是不相关的;斜交则得到的因子具有相关性,但更符合或能捕捉数据的维度!所以,有一种说法,如果是接下来要进行市场细分,最好采用斜交更好!当然,我们最常用的,一般采用最大方差旋转!
    最后,有一个选择要完成,就是选项对话框!
    “多变量分析”——数据挖掘、数据分析【初稿】我们要选择按大小排序,并且将因子负荷小于0.4的都不显示,这样我们看的更清楚!
    为什么选择0.4呢?这主要依赖样本量和绝对误差的考虑!
    “多变量分析”——数据挖掘、数据分析【初稿】











    从样本量角度看因子负荷,大部分市场研究样本量都在200以上!
    记住:如果你不能精细考虑,就选0.4吧!
    下面我们就可以执行了!我们看看结果:
    “多变量分析”——数据挖掘、数据分析【初稿】
        从结果可以看出,Bartlett球检验是显著的,说明存在因子结构,另外KMO=0.764,较适宜因子分析!,一般KMO=0.8就是Excellent了!
    接下来看因子方差解释,总的方差解释是63.448%,总共存在7个公因子,说明如果将来不用24个变量,而改用这7个因子可以说明原来24个变量的63.4%的变差。(如果你确认了这样的结果,可以选择把7个因子得分保存为变量了)
    如果我们只是看非旋转的话,就是主成份分析部分了,我们来看旋转后的结果:
    “多变量分析”——数据挖掘、数据分析【初稿】     我们可以看到因子排列非常恰当和明显,这都是因为我们在选项中选择了排序和压缩了小于0.4的负荷值!
    你可以看到F1_6变量在3和4因子上都有负荷,这就产生了双负荷!如果存在大量的双负荷,我们就要考虑是否要斜交旋转了!
    “多变量分析”——数据挖掘、数据分析【初稿】
    最后,我们要完成因子命名!如果不能给出好的因子命名,我们放弃24个变量用7个因子变量都不知道意义,如何分析呢!当然如何命名因子是个艺术活了!我一般的思考方式是:1)先看意义,哪些变量负荷在一个因子上,是否能解释这些因子;2)如果可以,选择因子名称;3)如果不能给出恰当名字,就选择负荷变量的简称综合在一起,先代表着;4)随着后续的分析,因子慢慢确定;
    到这里因子分析就完成了!
    但因子分析往往是预处理技术,如果要用来细分市场,该如何进一步操作呢?是选因子还是选前两个负荷最大的变量,我将在聚类分析中讲解!

    注:仅供学习,所有资源来自互联网。

    展开全文
  • 如上所述,回归分析估计了两个或多个变量之间关系。 下面,让我们举一个简单例子来理解它: 比如说,在当前经济条件下,你要估计一家公司销售额增长情况。 现在,你有公司最新数据,这些数据...
  • matlab神经网络30案例分析

    千次下载 热门讨论 2011-06-01 20:06:07
    本例用RBF网络拟合未知函数,预先设定一个非线性函数,如式y=20+x21-10cos(2πx1)+x22-10cos(2πx2)所示,假定函数解析式不清楚情况下,随机产生x1,x2和由这两个变量按上式得出y。将x1,x2作为RBF网络输入...
  • spss 对应分析

    2019-12-26 14:06:32
    个案加权,默认的数据要求是每一行就是一个个案,由于二维列表是两个分类变量的交叉汇总,将其转换为一位列表后,每一行数据仍然是对应分类变量汇总个案数,所以需要在 spss 中采用加权方法,为每个个案数据赋予对应...

     

    把一个交叉表结果通过图形的方式展现出来,用以表达不同变量之间以及不同类别之间的关系

     

    个案加权,默认的数据要求是每一行就是一个个案,由于二维列表是两个分类变量的交叉汇总,将其转换为一位列表后,每一行数据仍然是对应分类变量汇总个案数,所以需要在 spss 中采用加权方法,为每个个案数据赋予对应的权重

    【数据】【个案加权】,右下角,权重开启,则说明加权完成

    【分析】【降维】【对应分析】

    一共有11个品牌,最大11,最小1

    同样方法更新列范围【确定】

     

     

    结果解读

    累积达到80%,效果非常好

     

    行/列点总览表,主要提供了各类别在各维度上的得分

     

    散点反应了图形距离和位置各自之间的关系

    在同一个维度上,同一个变量的类别距离越近,说明这个维度上的差异越小,例如“外观稳重大气”和“外观时尚”对于参与品牌形象评价的用户来说,差异相对较小

    不同类别散点之间的距离越近,说明相关性越大

     

     

     

     

     

     

     

     

     

     

     

     

    展开全文
  • 9 多目标Pareto最优解搜索算法(胡斐) 多目标优化是指在约束条件下有两个两个以上优化目标,而且这些目标之间相互矛盾,不能同时达 到最优,也就是说,一个目标最优往往是以牺牲其它目标作为代价,因此多...
  • “多变量分析”——数据挖掘、数据分析

    万次阅读 多人点赞 2016-05-03 17:07:40
    多重对应分析在超过两个以上定类变量时有时候非常有效,当然首先我们要理解并思考,如果只有三个或有限个变量完全可以通过数据变换和交互表变量重组可以转换成两个定类变量,这时候就可以用简单对应分析了。...
    I。多重对应分析
     
    多重对应分析在超过两个以上定类变量时有时候非常有效,当然首先我们要理解并思考,如果只有三个或有限的几个变量完全可以通过数据变换和交互表变量重组可以转换成两个定类变量,这时候就可以用简单对应分析了。

    对应分析对数据的格式要求:

    • 对应分析数据的典型格式是列联表或交叉频数表。
    • 常表示不同背景的消费者对若干产品或产品的属性的选择频率。
    • 背景变量或属性变量可以并列使用或单独使用。
    • 两个变量间——简单对应分析。
    • 多个变量间——多元对应分析。

    现在,我们还是来看看如何操作多重对应分析并如何解读对应图;

    我们假定有个汽车数据集,包括:来源国(1-美国、2-欧洲、3-日本),尺寸(1-大型、2-中型、3-小型),类型 (1-家庭、2-运动、3-工作),拥有(1-自有、2-租赁)性别(1-男、2-女),收入来源(1-1份工资来源、2-2份工资来源),婚姻状况(1-已婚、2-已婚有孩子、3-单身、4-单身有孩子);

    从数据集看,我们有7个定类变量,如果组合成简单的交叉表是困难的事情,此时采用多重对应分析是恰当的分析方法。

    “多变量分析”——数据挖掘、数据分析【初稿】

    下面我还是采用SPSS18.0,现在叫PASW Statistics 18.0来操作!注意:不同版本在多重对应分析方法有一些不同,但大家基本上可以看出了,高版本只能是更好,但选择会复杂和不同!

    在进行多重对应分析之前,研究者应该能够记住各个变量大致有多少类别,个别变量如果变量取值太偏或异常值出现,都会影响对应分析的结果和对应图分析!

    “多变量分析”——数据挖掘、数据分析【初稿】

    在SPSS分析菜单下选择降维(Data Redaction-数据消减)后选择最优尺度算法,该选项下,根据数据集和数据测量尺度不同有“多变量分析”——数据挖掘、数据分析【初稿】三种不同的高级定类分析算法,主要包括:多重对应分析、分类(非线性)主成分分析、非线性典型相关分析;

    注意:随着版本的增高,研究人员在统计分析时就要各位主要变量的测量尺度,并且最好在进行数据清理和分析前,明确定义好测量尺度;当然也要做好Lable工作!

    接下来,我们就可以选择变量和条件了!


    大家可以把要分析的变量都放到分析变量内,补充变量的含义是如果有哪个变量你并不想作为对应分析的变量,而只是作为附属变量表现在对应图上可以加入!这一点其实在简单对应分析也有这种定义。(我们将在专门的简单对应分析方法中再讲!)


    “多变量分析”——数据挖掘、数据分析【初稿】

    然后我们要选择“变量”选项,大家可以选择类别图:每一个变量的分类图,重点是选择联合类别图,我们把7个变量全部放入,执行!(其它选项大家可以测试,我还有一些没有搞清楚)

    “多变量分析”——数据挖掘、数据分析【初稿】

    下面我们看结果:

    “多变量分析”——数据挖掘、数据分析【初稿】

    从图中我们可以看出:美国车都比较大,家庭型,主要购买者是已婚带孩子的;日本和欧洲车主要是小型、运动的和已婚没有孩子的人购买;特别注意:单身和单身带孩子的往往是租赁汽车,收入单一来源,但这个地区没有车满足这个市场,或许是市场空白;

    具体的解读大家可以根据自己的研究设计和假设去寻找答案!

    主要统计指标可以看:

    “多变量分析”——数据挖掘、数据分析【初稿】

    上图主要给我们了对应图维度的解释比率,最下面的图大家会看吗?

    提示:夹角是锐角意味着相关,所以:定类变量的相关性是不是可以解释啦!

    总结:(同样适合简单对应分析)

    对应分析的优点:

    • 定性变量划分的类别越多,这种方法的优势越明显。
    • 揭示行变量类别间与列变量类别间的联系。
    • 将类别联系直观地表现在二维图形中(对应图)。
    • 可以将名义变量或次序变量转变为间距变量。

    对应分析的缺点:

    • 不能用于相关关系的假设检验。
    • 维度要由研究者决定。
    • 有时候对应图解释比较困难。
    • 对极端值比较敏感。
    II.对应分析是一种多元统计分析技术,主要分析定性数据Category Data方法,也是强有力的数据图示化技术,当然也是强有力的市场研究分析技术。

        这里主要介绍大家了解对应分析的基本方法,如何帮助探索数据,分析列联表和卡方的独立性检验,如何解释对应图,当然大家也可以看到如何用SPSS操作对应分析和对数据格式的要求!

        对应分析是一种数据分析技术,它能够帮助我们研究由定性变量构成的交互汇总表来揭示变量间的联系。交互表的信息以图形的方式展示。主要适用于有多个类别的定类变量,可以揭示同一个变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。适用于两个或多个定类变量。

    主要应用领域:

    • 概念发展   (Concept Development)
    • 新产品开发  (New Product Development)
    • 市场细分     (Market Segmentation)
    • 竞争分析     (Competitive Analysis)
    • 广告研究     (Advertisement Research)

    主要回答以下问题:

    • 谁是我的用户?
    • 还有谁是我的用户?
    • 谁是我竞争对手的用户?
    • 相对于我的竞争对手的产品,我的产品的定位如何?
    • 与竞争对手有何差异?
    • 我还应该开发哪些新产品?
    • 对于我的新产品,我应该将目标指向哪些消费者?
    数据的格式要求
    •  对应分析数据的典型格式是列联表或交叉频数表。 常表示不同背景的消费者对若干产品或产品的属性的选择频率。背景变量或属性变量可以并列使用或单独使用。
               两个变量间——简单对应分析。
               多个变量间——多元对应分析。
    案例分析:自杀数据分析
    “多变量分析”——数据挖掘、数据分析【初稿】上面的交互分析表,主要收集了48961人的自杀方式以及自杀者的性别和年龄数据!POISON(毒药)GAS(煤气)HANG(上吊)DROWN(溺水)GUN(开枪)JUMP(跳楼)(我们就不翻译成中文了,读者可以把六个方式想象成品牌或别的什么)
    当然,我们拿到的最初原始数据可能是SPSS数据格式记录表,
    “多变量分析”——数据挖掘、数据分析【初稿】其中,性别取值1-male 2-female,年龄取值1-5,分别表示不同年龄段。
    要回答的问题是:
    1-不同性别的人在选择自杀方式上有什么差别?
    2-不同年龄的人在选择自杀方式上有什么差别?
    3-不同性别年龄的人在选择自杀方式上有什么差别?
    我们首先,把性别字段乘上10加上年龄字段生成新字段sexage,取值是11-15,21-25,然后分别用M/F和年龄组中值代表Sexage字段的变量值标,这样我们就可以进行简单对应分析了!

    现在问大家,如果你看到上面的6×10的矩阵-列联表,你能看出什么差异?
    现在我们采用SPSS软件进行对应分析!
    (我现在用的是SPSS17.0多语言版本,前两天听博易智讯的人说,现在SPSS已经有18.0版本了,不过从对应分析方法角度我还是希望用11.5版本,因为可以自己拆分重新组合修改图形,现在的版本是图片了,不能随心所欲的修改,不爽!)

    “多变量分析”——数据挖掘、数据分析【初稿】分别定义好行列变量以及它们的取值范围!
    “多变量分析”——数据挖掘、数据分析【初稿】对应分析中,6×10的列联表(交互表)可以得到行列维度最小值减1的维度,我们看到第一维度Dim1解释了列联表的60.4%,第二维度Dim2解释了列联表的33.0%,说明在两个维度上已经能够说明数据的93.4%,这是比较理想的,当然我们也可以看卡方检验等!
    下面我们主要解释如何解读对应图(小蚊子的博客中也有非常相似的解释,我非常欣赏他的博客)
    首先对SPSS分析得到的对应图进行修饰和编辑,在零点增加两条中线!
    “多变量分析”——数据挖掘、数据分析【初稿】解读方法:
    1-总体观察:
    我们从图上左右可以看出,左边全部是M*,男性,右边F*全部是女性,说明男女有显著差异;同时看横轴中线上方都是年龄大的,下面都是年龄小的,说明年龄有差异;这样就一目了然看出和回答了前两个问题;

    2-观察邻近区域
    我们从图上可以看出,老的男性比较喜欢HANG,GAS和GUN是年轻男性的偏好;老的女性比较喜欢DAWN,年轻的女性比较偏好POISON;

    3-向量分析——偏好排序
    我们可以从中心向任意点连线-向量,例如从中心向GUN做向量,然后让所有的人往这条向量及延长线上作垂线,垂点越靠近向量正向的表示越偏好这种方法。
    “多变量分析”——数据挖掘、数据分析【初稿】记住:是垂点到GUN正向排名,从图中我们可以看出,希望GUN方法的人依次是M15、M30、M45、M60、M80、F15等等;依次类推,我们还可以从中心向任意一种方法作垂线,都可以排出每种方法选择人群的偏好次序;当然,你也可以从中心往所有的人作向量,得到每一类人在选择六种方法上的偏好排名!
    “多变量分析”——数据挖掘、数据分析【初稿】你是否可以看出,F15年轻的女性对六个“品牌”的偏好吗?

    4-向量的夹角——余弦定理
    接着,我们可以从向量夹角的角度看不同方法或不同人之间的相似情况,从余弦定理的角度看相似性!
    “多变量分析”——数据挖掘、数据分析【初稿】从图上我们可以看出,当我们从中心向任意两个点(相同类别)做向量的时候,夹角是锐角的话表示两个方法具有相似性,锐角越小越相似;也就是说,GUN和GAS是相似品牌,当如也是竞争品牌,也具有替代性,如果这次开枪没有自杀成功,下次他一定选择毒气啦;我们也看出F15和F30的人比较相似,但F15与M80就有非常大的差异了,因为如果作向量他们是钝角,几乎是平角了!

    5-从距离中的位置看:越靠近中心,越没有特征,越远离中心,说明特征越明显
    从这张对应图中我们看到,有些点远离中心,有些点靠近中心,这说明什么呢?从几何空间的角度,如果我对每一人都一样的好,在规范图上我就应该站在大家的重心,也就是中心;这说明越靠近中心的点,越没有差异,(记住:没有差异并不代表不重要,只是没有差异,因为统计的技术是研究差异的技术,差异越大往往重要性就大!),越远离中心特征越明显,也就是说,如果听到一个M80的人自杀了,估计你就会想到是不是HANG啦!

    从品牌角度思考,说明越远离中的的品牌,消费者很容易识别,说明品牌特征(特色、特点)明显,越靠近中心的品牌,消费者不易识别,也说明你的品牌定位没有显著可识别的特征,没有差异认知!

    6-坐标轴定义和象限分析
    我们还没有定义坐标轴呢?从第一点的分析,其实我们很快就可以定义坐标轴的含义了!(当然有时候对应图的座位是非常难定义的)
    “多变量分析”——数据挖掘、数据分析【初稿】因此,落在第四象限的是年轻的女性所喜欢的品牌!

    7-产品定位:理想点与反理想点模型
    “多变量分析”——数据挖掘、数据分析【初稿】我们可以在图上以POISON为定位点,以POISON为圆心,以它的利益为半径画圆,那么我们可以得出这样的结论:越先圈进来的人就是最喜欢这个品牌的消费群,越先圈进来的品牌越可能是竞争品牌;当然,你也可以以某类人作为圆心,同意解读;如果POISON是市场不存在的,在调查中可以设定为理想点,这样我们就可以得到理想点模型,同理也可以得到反理想点模型分析!

    8-市场细分和定位
    最后,研究人员可以根据前面的分析和自身市场状况,进行市场细分,找到目标消费群,然后定位进行分析!最终选择不同的目标市场制定有针对性的营销策略和市场投放!
    “多变量分析”——数据挖掘、数据分析【初稿】我们也可以尝试采用多元对应分析,但不如简单对应分析有意义!
    简单对应分析的优点:
    定性变量划分的类别越多,这种方法的优势越明显,揭示行变量类别间与列变量类别间的联系,将类别联系直观地表现在二维图形中(对应图),可以将名义变量或次序变量转变为间距变量。
    简单对应分析的缺点:不能用于相关关系的假设检验,维度要由研究者决定,有时候对应图解释比较困难,对极端值比较敏感。
    结合分析(Conjoint Analysis)是一种应用广泛,非常流行和有效的市场研究技术。近些年来,结合分析广泛地应用在消费品、工业产品和商业服务等相关领域的市场研究中,在我国越来越受到市场研究公司和企业的重视,尤其是在汽车行业的市场研究领域,结合分析在汽车的新产品开发、市场占有率分析、竞争分析、市场细分和价格策略等方面都发挥了积极而有效的作用。结合分析也叫联合分析技术!

     

    结合分析适用于测量消费者的心理判断,如理解(Perceptions)和偏好(Preferences)。在结合分析中,产品/服务被描述为“轮廓”(Profiles),每一个轮廓是由能够描述产品/服务重要特征的属性(Attributes)以及赋予每一个属性的不同水平的组合构成的。结合分析的一个重要的基本假定是:消费者是根据构成产品/服务的多个属性来进行理解和作偏好判断;也就是说,消费者对产品/服务的偏好每次并不是基于一个因素而是基于几个因素的结合来判断的,消费者对某一轮廓的偏好可以分解成构成该轮廓的多个属性的偏好得分(Preference Scores)。在结合分析中用效用值(utilities)来描述。

    “多变量分析”——数据挖掘、数据分析【初稿】

    结合分析是一种多元统计分析方法。其因变量是消费者对某一轮廓的整体偏好评价。某一轮廓的整体也称为全轮廓(full profiles),是由全部属性的各个水平组合构成的。自变量是组成各轮廓的不同属性(因子)水平。因此,结合分析是在已知消费者对全轮廓的评价结果(overall evaluations)的基础上,经过分解的方法(decompositional approach)去估计其偏好结构的一种分析法。

    “多变量分析”——数据挖掘、数据分析【初稿】

    在结合分析中,轮廓是由研究人员事先按照某种因子结构(factorial structure)采用部分因子正交实验加以设计的。结合分析有三个主要目的:(1)确定消费者赋予某个预测变量(水平)的贡献和效用(utilities)以及属性的相对重要性(2)寻找消费者可接受的某种产品的最佳市场组合,这种组合最初可能并没有被消费者所评价(3)模拟市场,估计市场占有率和市场占有率变化。为了达到这些研究目的,首先要估计不同属性水平的效用,进一步计算出属性的相对重要性(Attributes relative importance)和轮廓效用(profile utilities),以便定量化地测量消费者的偏好,然后基于消费者的偏好采用最大效用模型或者Bradley-Terry-Luce(BTL)模型和logit模型估计市场占有率。

    “多变量分析”——数据挖掘、数据分析【初稿】

          全轮廓方法:每一个属性同时展现给消费者

     

     

    • 样本量:一般消费者研究   100到400之间
    • 调查方法:派调查员面访 face-to-face
    • 因子设计:属性和水平数目不太多  (<20个最多不超过30个)
    • 部分因子设计: 正交排列法 orthoplan
    • 估计主效应 ( main effect )
    • 产品/服务的概念(轮廓)事先设计和确定。
    • 调查可以采用纸张或计算机辅助访问。
          最小轮廓数选择:NC=NL - NA + 1 ,
            其中:     NC: 最小组合轮廓数
                      NL: 所有属性水平数的和
                      NA: 所有属性数的和

         例如:六个属性,每个属性有4个水平,可能组合数=4×4×4×4×4×4=4096(种),
               最小组合数=(4+4+4+4+4+4)- 6+1=19(种)
         推荐组合轮廓数:最小轮廓数的 1.5 到 2 倍

    下面我们通过一个案例:赛欧轿车上市前的市场分析,阐述了结合分析在汽车市场的应用,以及采用一般最小二乘法(
    OLS)回归估计主效应的全轮廓结合分析法的基本概念、原理、步骤和方法。
    (备注:研究的时候产品配置已知,但还没有下线投放市场)

    “多变量分析”——数据挖掘、数据分析【初稿】根据研究目的和前期的定性研究,最终确定了产品的属性和水平:
    “多变量分析”——数据挖掘、数据分析【初稿】
    在确认了属性水平后,我们通过SPSS来进行正交实验设计。
    “多变量分析”——数据挖掘、数据分析【初稿】我们可以依次定义每一个属性和水平,SPSS软件最多提供每个属性有9个水平的可能性,所以如果水平数太多就要考虑其它方法,或者进行相应的变换,当然,如果属性的水平数越多代表了你越重视它,将来的分析相当重要性就会高!
    “多变量分析”——数据挖掘、数据分析【初稿】    正交实验设计方法,在SPSS是比较简单的,人为的控制不多,我们只能寄希望SPSS的正交实验设计给我们一个号的结果,但没有评估设计效应的指标。如果你希望下次得到同样的正交设计集,必须设定一样的随机种子!
        在这点上说,如果对于复杂的正交实验设计,我还是比较偏向用SAS软件来进行,不仅得到的结果比较好,还有设计效应等各种指标评估,所以,实际市场研究中,大部分情况都是SAS来完成的!其实我用SAS,有时候更简单的,就几个命令:%mktrun和%mktex等;
        设计好后,大家记住,先不用运行,先要“粘贴”下来,也就是把语法粘贴下来,因为Conjoint Analysis分析方法在SPSS中没有窗体命令,必须用语法执行!
        当然,在细节上还有“Holdout”卡片的问题,(检验问题,但是对于商业研究我基本上都不用了,为了保证更好的建模卡片,为了减轻被访者负担,反正做都做了!——这里我没有学术思想啦)
    “多变量分析”——数据挖掘、数据分析【初稿】正交实验设计生成了16张卡片,同时也是随机卡片集,并产生两个系统变量,不要改变变量名称,其中:STATUS_值标 1-Design 2-Holdout 3-Simulation
    记住:我们并不关心这16张卡片如何,我们只是关系这16张卡片的对432种组合产品的代表性,原则上即使有不理想或不现实的卡片出现,也不要没理由的删除!在SPSS系统分析中,最好考察属性水平设定的问题,而不要随意改变!
    下面我们就要考虑收集被访者评价信息了,当然也包括卡片的展示方式!
    “多变量分析”——数据挖掘、数据分析【初稿】收集到被访者信息后,我们就可以分析了!
    “多变量分析”——数据挖掘、数据分析【初稿】我这里采用了最一般的离散变量方法,实际上属性变量可以有多种模型(离散、线性、理想点、反理想点等)
    结合分析既可以分析群体、总体也可以分析每个人的偏好选择!
    “多变量分析”——数据挖掘、数据分析【初稿】大家可以根据公式自己计算个体和群体的效用值、属性相对重要性等,但是记住:所以群体的效用值、相对重要性来自于个体的平均!
        从分析的角度,有时候模拟市场,模拟市场份额是最重要的分析,但是如果研究者不是最终决策者,就必须设计市场组合份额的模拟器,我一般采用Excel来设计,这需要大家懂得结合分析原理,并能够设计Excel应用!
        在文章的最上面,我是采用Excel设计的电脑配置的市场研究模拟器,希望对你有所启发!

        近年来,结合分析成为市场研究的重要利器,但是它也有着局限性,所以开发了不同的改进方法和软件工具,代表性的就是Sawtooth公司的产品,另外也可以考虑更复杂的CBC技术,离散选择模型!(下次再专题讲)

        最后,要说明的是结合分析只是得到了消费者的偏好,喜欢一个人,并不一定会跟她结婚的!

    多元回归分析(Multiple Regression Analysis)是多变量分析的基础,也是理解监督类分析方法的入口!实际上大部分学习统计分析和市场研究的人的都会用回归分析,操作也是比较简单的,但能够知道多元回归分析的适用条件或是如何将回归应用于实践,可能还要真正领会回归分析的基本思想和一些实际应用手法! 下面我们就来谈谈多元回归分析,这张图是利用多元线性回归制作的策略分析图,你可以理解X轴是重要性,Y轴是表现;

    “多变量分析”——数据挖掘、数据分析【初稿】

    首先,多元回归分析应该强调是多元线性回归分析!强调线性是因为大部分人用回归都是线性回归,线性的就是直线的,直线的就是简单的,简单的就是因果成比例的;理论上讲,非线性的关系我们都可以通过函数变化线性化,就比如:Y=a+bLnX,我们可以令 t=LnX,方程就变成了 Y=a+bt,也就线性化了。

    一般我们采用的变化要根据数据分布特征来进行,下表是常用的变化方法:

    “多变量分析”——数据挖掘、数据分析【初稿】

    当然,变化的主要目的是线性化,同时期望数据分布是近似正态分布!

    第二,线性回归思想包含在其它多变量分析中,例如:判别分析的自变量实际上是回归,尤其是Fisher线性回归方程;Logistics回归的自变量也是回归,只不过是计算线性回归方程的得分进行了概率转换;甚至因子分析和主成分分析最终的因子得分或主成分得分也是回归算出来的;当然,还有很多分析最终也是回归思想!

    第三:什么是“回归”,回归就是向平均靠拢。

    第四:如果你用线性回归方式去解释过去,你只能朝着一个趋势继续,但未来对过去的偏离有无数种可能性;

    第五:线性回归方程纳入的自变量越多,越应该能够反应现实,但解释起来就越困难;

    第六:统计学家往往追求的是简约的模型和更高的解释度,往往关注模型R平方,共线性和回归诊断问题;

    第七:市场研究人员往往注重模型的解释合理性,是否与预设的直觉一直,是否支持了我的市场假设等;

    下面我们从市场研究人员的角度看看如何利用多元线性回归:

    多元线性回归分析的主要目的是:解释和预测

    假设我们收集了100个企业客户经理对我产品的总体满意度和分项指标的满意度评价,我期望知道,什么分项指标对我总体满意度有重要影响,它的改进更能够提升总体满意度;如果建立预测模型,我期望知道了分项指标的评价就能够预测总体满意度数值;

    “多变量分析”——数据挖掘、数据分析【初稿】

    在SPSS中选择回归分析后,把X10作为因变量,X1到X7作为自变量

    “多变量分析”——数据挖掘、数据分析【初稿】

    一般选择自变量进入方程的方法,可以先采用逐步回归,让计算机程序帮助确定变量的重要性,这在统计层面非常好,但是如果针对我现在的研究我需要采用Enter全部进入,如果某个指标不显著,就不在方程中了我如何与客户说呢?(假设他不懂统计,并且我需要完成上面的策略图);

    “多变量分析”——数据挖掘、数据分析【初稿】

    选择相应的统计参数和输出结果,注意:多变量分析都需要考虑缺省值问题,逐步回归中我们可以得到R平方的变化对我们理解方程有帮助!(Enter方法不需要)

    “多变量分析”——数据挖掘、数据分析【初稿】

    R平方是我们最需要关注的,该值说明了方程的拟合好坏,R平方=0.80非常不错了,说明:1)总体满意度的80%的变差都可以由7个分项指标解释,或者说,7个分项指标可以解释总体满意度80%的变差!2)R平方如果太大,大家不要高兴太早,社会科学很少有那么完美的预测或解释,一定存在了共线性!

    “多变量分析”——数据挖掘、数据分析【初稿】

    方程分析表的显著性表明了回归具有解释力!

    “多变量分析”——数据挖掘、数据分析【初稿】

    线性回归方程给出可预测的计算系数,但是,社会科学很少进行预测,重要的是解释;

    这里要注意的是如果自变量的测量尺度是统一的话,我们可以直接比较系数的大小,但是如果自变量的测量尺度不统一的话,我们必须看标准化回归系数,标准化回归系数去掉的量纲,且反应了重要性!我们就是需要重要性测量!

    当然,这个时候,研究人员应该关注每个指标的回归系数是否真的等于零,要进行假设检验!

    我这里就直接应用了,我们可以把7个自变量指标的均值作为表现,7个自变量的标准化相关系数作为重要性,完成散点图!重要的指标,表现差当然是我们急需改进的了,这就是前面策略图了。

    我这是典型的市场研究思维方式,不太关注统计意义,而且我将所有的坐标轴和坐标数值都让你看不到,我只是表现了测量,或许对市场洞察足够了;但记住统计学家不能这样!如果你是关注统计思想的人,应该要理解下面这张回归解释图!

    “多变量分析”——数据挖掘、数据分析【初稿】


      线性回归:提及因果关系,   必须非常谨慎!
    物以类聚,人以群分,聚类分析是一种重要的多变量统计方法,但记住其实它是一种数据分析方法,不能进行统计推断的。当然,聚类分析主要应用在市场细分等领域,我们也经常采用聚类分析技术来实现对抽样框的分层,我就不多罗嗦了。

        聚类分析:顾名思义是一种分类的多元统计分析方法。按照个体或样品(individuals, objects or subjects)的特征将它们分类,使同一类别内的个体具有尽可能高的同质性(homogeneity),而类别之间则应具有尽可能高的异质性(heterogeneity)。

    “多变量分析”——数据挖掘、数据分析【初稿】
        我们也可以对变量进行聚类—分类,但是更常见的还是对个体分类(样本聚类——细分)。为了得到比较合理的分类,首先要采用适当的指标来定量地描述研究对象(样本或变量,常用的是样本)之间的联系的紧密程度。常用的指标为“距离”和“相似系数”,假定研究对象均用所谓的“点”来表示。
        在聚类分析中,一般的规则是将“距离”较小的点或“相似系数”较大的点归为同一类,将“距离”较大的点或“相似系数”较小的点归为不同的类!(一般的相似系数就是相关系数了)

        基本概念:

        需要一组表示个体性质或特征的变量,称之为聚类变量。根据个体或样本之间联系的紧密程度进行分类。一般来说分类变量的组合都是由研究者规定的,不是像其它多元分析方法那样估计推导出来的。
        聚类分析前所有个体或样本所属的类别是未知的,类别个数一般也是未知的,分析的依据就是原始数据,没有任何事先的有关类别的信息可参考。所以:严格说来聚类分析并不是纯粹的统计技术,它不像其它多元分析法那样,需要从样本去推断总体。聚类分析一般都涉及不到有关统计量的分布,也不需要进行显著性检验。聚类分析更像是一种建立假设的方法,而对假设的检验还需要借助其它统计方法。

        聚类方法:

    • 聚类分析简单、直观。
    • 聚类分析主要应用于探索性的研究,其分析的结果可以提供多个可能的解,选择最终的解需要研究者的主观判断和后续的分析;
    • 不管实际数据中是否真正存在不同的类别,利用聚类分析都能得到分成若干类别的解;
    • 聚类分析的解完全依赖于研究者所选择的聚类变量,增加或删除一些变量对最终的解都可能产生实质性的影响。
    • 研究者在使用聚类分析时应特别注意可能影响结果的各个因素。
    • 异常值和特殊的变量对聚类有较大影响
      当分类变量的测量尺度不一致时,需要事先做标准化处理。
    当然,聚类分析不能做的事情是:
    • 自动发现和告诉你应该分成多少个类——属于非监督类分析方法
    • 期望能很清楚的找到大致相等的类或细分市场是不现实的;
    • 样本聚类,变量之间的关系需要研究者决定;
    • 不会自动给出一个最佳聚类结果;
         我这里提到的聚类分析主要是谱系聚类(hierarchical clustering)和快速聚类(K-means)、两阶段聚类(Two-Step);
    “多变量分析”——数据挖掘、数据分析【初稿】
         根据聚类变量得到的描述两个个体间(或变量间)的对应程度或联系紧密程度的度量。
         可以用两种方式来测量:
    • 采用描述个体对(变量对)之间的接近程度的指标,例如“距离”,“距离”越小的个体(变量)越具有相似性。
    • 采用表示相似程度的指标,例如“相关系数”,“相关系数”越大的个体(变量)越具有相似性。
         计算聚类——距离指标D(distance)的方法非常多:按照数据的不同性质,可选用不同的距离指标。欧氏距离(Euclidean distance)、欧氏距离的平方(Squared Euclidean distance)、曼哈顿距离(Block)、切比雪夫距离(Chebychev distance)、卡方距离(Chi-aquare measure) 等;相似性也有不少,主要是皮尔逊相关系数了!
    “多变量分析”——数据挖掘、数据分析【初稿】注意:上面主要在谱系聚类方法中采用,但谱系聚类主要用在变量聚类上,如果对样本聚类样本不能太多了,否则你要等很长时间,还不一定有用!
        
    总体推荐:
    • 聚类变量的测量尺度不同,需要事先对变量标准化;
    • 聚类变量中如果有些变量非常相关,意味着这个变量的权重会更大
    • 欧式距离的平方是最常用的距离测量方法;
    • 聚类算法要比距离测量方法对聚类结果影响更大;
    • 标准化方法影响聚类模式:
    • 变量标准化倾向产生基于数量的聚类;
    • 样本标准化倾向产生基于模式的聚类;
    • 一般聚类个数在4-6类,不易太多,或太少;
    • 数据挖掘软件中的聚类更理想

    “多变量分析”——数据挖掘、数据分析【初稿】
        当然我现在聚类都用数据挖掘技术了,其实聚类分析采用数据挖掘技术更合理,毕竟是发现知识,我们事先不知道是否存在显著差异的细分市场,而且往往在统计分析聚类中,需要研究者主观给出聚类变量,得到的结果也可能是研究者或客户能想到的,往往客户最希望得到事先不知道的,直觉不能感知到的,数据挖掘就体现了这一点。当然采用数据挖掘软件得到的聚类结果,也更直观,最重要的是采用SPSS聚类的结果要呈现出来,是个体力活,用Clementine得到的结果就非常容易看出来和理解了!

        关于市场细分中的聚类分析,主要是采用两阶段聚类或快速聚类,一般要先进行因子分析,聚类分析,类的识别,聚成几类,类的稳定性测试,选择目标类,定位,描述细分市场,市场营销组合等!

    上一篇博客提到聚类分析方法和基本概念,但是可能没有回答一些人的疑问?比如到底应该分成多少类,类的稳定性以及如何评估聚类的结果。其实,要想解决这个问题,首先是要与分析目的有关,不简单是一个统计分析问题,或者说聚类问题,而应该是研究者的判断或者说研究者的洞察力,当然,我们还是要有一套方法去指导。

          但大家记住:聚类分析不是统计方法,是一种数据处理技术,也就是说在SPSS里面,有时候你的数据排序改变,聚类的结果都会改变;

          还要记住:如果市场上不存在明显的细分市场,只要聚类总是能够按照聚类要求分成类的,这时候你就要注意了,如果采用不同的聚类方法,总是能够聚成大致相等(样本)的类,先不要高兴,可能就是不存在有差异细分市场;这就像一个球或圆,按照要求总能分割成大致相等的块一样;

        还要记住:如果市场存在着明显的细分市场,也就是差远很大的类,无论什么细节技术或聚类技术都应该得到类似的结果;难点主要是细分不明显的时候,需要依赖方法了,尝试不同的聚类方法!

         “多变量分析”——数据挖掘、数据分析【初稿】

        我记得曾经做过一个市场细分项目,因为我没有能够得到满意的细分市场,或者说无法解释清楚细分市场的独特性,客户提出一个问题:你尝试了各种聚类结果吗?当时还没有数据挖掘技术,不过因为这个要求,我把聚类过程和可能的情况有了新的认识,与大家分享:

        上面的样本,实际上存在不同的类,但粗看可能看不出来,但是如果我们采用聚类分析,就可以得到如下可能结果:

    “多变量分析”——数据挖掘、数据分析【初稿】

    比较明显的可以看出,上面的样本在两个维度上存在着五个不同类别。

    现在我们来看看聚类分析的基本思路和思考:

    1)市场细分:是采用聚类分析的主要目的,主要分成监督类和非监督类,我们现在讨论的是非监督类方法,就是事先不知道是否存在细分市场,也就是事后细分;

    • 这就需要我们采用市场研究的方法收集目标市场消费者的分类变量和关键性描述信息。
    • 在收集和分析所有相关信息之前,市场细分并不确定。
    • 采用多元统计分析技术识别细分市场,并将消费者按一定的算法规则划分为不同的市场。
    2)具体分成多少类:没有一个统一的答案。
    • 经验、直觉、统计结果和常识判断,所有这些都可以用来决定市场细分的个数。
    • 如果细分后存在着几个非常小的市场,需要修正分类标准,或者将原始资料中的异常值剔除掉。
    • 如果市场被划分得太细的话,将导致对一些小的、相似性的市场采用许多不同的市场营销策略。
    3)数据预处理-因子分析:一般在社会科学和市场研究领域的事后细分,往往我们面对的是态度量表,也就是希望从消费者的消费行为,社会态度和价值观等层面进行细分,那么我们聚类就面临着要进行数据预处理;这里一般都会设计到因子分析。
    • 根据量表的信度和效度得到的因子应该有意义和进行因子命名,否则后面的聚类都是根据因子名称来理解的;
    • 原始变量需要进行标准化,但是因子分析后得到的因子已经是标准化变量了;
    • 一种思路直接用因子进行聚类分析,因子是正交的,得到的是“清晰”的聚类结果;但是记住:有时候更适合聚类的因子分析是采用斜交因子!所以,我们如果目标是聚类的话,要考虑斜交方法;
    • 一种思路是放弃因子,而采用原始变量,但这时候要考虑选择每个因子负荷前几个的变量,最好数量相当,否则某些变量越相关,意味着权重越大;
    4)数量还是模式:得到因子后要明确是基于量的聚类还是基于模式的聚类,这个差异是非常大的;
    “多变量分析”——数据挖掘、数据分析【初稿】
    从上面我们可以看出:基于量的聚类A和B,C和D是一类,但基于模式则A和C,B和D是一路;
    记住:所以在聚类变量的标准化要考虑这一点!
    5)聚类数量:一般从3-7个不断尝试,如果你用SPSS软件,建议事项保证样本是排序的;
    6)类的评估:一般我们可以采用类均值的F检验,看不同类在F统计量上的差异,也就是每个类在聚类变量上的显著差异:
    “多变量分析”——数据挖掘、数据分析【初稿】
    上面的3个类,进行方差分析,得到F统计量,我们可以看到,F值越大说明分成3类的主要差异在什么变量上;
    7)测试不同的聚类结果:同上想法,我们可以尝试在4类后的情况发生什么变化,然后把3类和4类结果进行交互分析,看看3类变成4类到底在哪里发生变化,主要影响变量是什么因素影响:
    “多变量分析”——数据挖掘、数据分析【初稿】
    8)最后,针对可能的稳定聚类,测试每个变量(最初的量表)在各个类的F统计量,看看最初的原始变量(不是因子)的影响特性;
    9)把最后确定的聚类结果写入原始数据集,进行类命名;
    10)采用判别分析,判别类和聚类变量的可视化,画判别图,进一步识别类的特征
    11) 采用对应分析和多元对应分析,识别类的属性和关键类(细分)表述变量,比如:性别、年龄、职业、收入、消费特性等
    12)采用CHAID分类决策树,自动侦测进一步识别类的特性;

    记住:
    • 为了得到比较好的结果,我们一般现在都采用Two-step聚类,这样可以把定类变量纳入聚类
    • 如果希望得到稳定的聚类结果,可以在聚类分析的时候提供类中心——一般来自分类均值
    • 聚类结果得到的细分市场一定是研究者能表述并有营销手段达到目标市场的
    • 细分不光为自己找到细分市场,也为竞争对手细分了市场
    最后我要说:聚类是一门技术,细分是一门艺术!
    很多人在从事市场研究和经营分析的时候,特别是定量研究方法需要用到统计分析的时候,到底应该采用哪种分析方法,或者应该用哪种方法更适合这个分析,比较困惑。下面我来总结一下,如何选择多变量统计分析方法来适应研究的需要!

    请大家记住一句话:选择什么样的多变量统计分析方法,主要是根据变量的测量尺度决定的,更明确的说是根据因变量的测量尺度和类型决定的!这就要求研究者能够在从事项目前明确:研究设计和假设,确认因变量,以及如何测量,测量尺度达到什么等级等要素。

    “多变量分析”——数据挖掘、数据分析【初稿】

    1. 首先,市场研究公司不断提升自己的竞争力,希望有能力提供更好的市场洞察力,随着研究机构的经验积累,不光是就数据说话,更应帮助解决企业的实际问题,提供更好的研究咨询和解决方案;
    2. 另一方面,随着技术的发展,采集数据方法更加多样,从传统的面访到在线调查,甚至也进入商业自动化生成的数据分析;
    3. 再有,从我的感觉大部分市场研究公司都采用SPSS统计分析软件,部分机构因为特定的客户需求采用宝洁要求的软件,现在其实是SPSSMR产品,当然,SPSS软件版本更新太快了,我从3.0DOS版本开始使用,现在都18版本了,而且支持了中文,其实从我个人角度看,SPSS软件的发展更新进程就是从传统的社会科学研究不断向市场领域迈进,现在很多案例都是市场研究和经营分析的内容,甚至纳入了更多的建模技术,也直接指向了数据挖掘和数据库营销,比如RFM模型,直销模型等都有了。(SPSS18 直销模块)

    “多变量分析”——数据挖掘、数据分析【初稿】

    我们看到除了SPSS软件,还有就是SAS软件,当然懂得SAS的人不多,但特殊情况下SAS更有效,比如,在进行实验设计,非标准的正交实验设计,Conjoint Analysis等市场研究核心技术方面,SAS更灵活些!

        4. 当然,除了我们看到的SPSS和SAS软件以外,要真正在市场研究中利用好各种分析和模型技术,还需要掌握各种专业软件工具。例如:

    • AMOS/Lisrel软件:主要用于顾客满意度研究,品牌驱动研究等;
    • ACA/CBC/VCA软件:主要用于结合分析(联合分析)conjoint analysis以及离散选择模型等,产品开发等都经常用这些软件;
    • Ucinet/Netdraw软件:是社会网络分析工具,主要用于关系研究,开放题和半开放题、相似性和差异性矩阵等都可以用;
    • Clementine/Miner软件:主要是数据挖掘技术;
    • Xcelsius软件:动态报表和分析报告软件,非常炫的Dashbaord仪表盘工具;
    • 其它工具:Yed、Visio、SmartDraw、Mindmanager、Swiff Chart、AnswerTree、DecisionTime&Whatif等等!
    除此之外,市场研究的定量分析更关注解决非数理化数据的分析以及可视化技术,还有就是市场研究模型技术!
    “多变量分析”——数据挖掘、数据分析【初稿】我们还是回到市场研究的多变量分析技术吧!
    这里的多变量分析技术主要是指统计分析和数据挖掘技术:
    • 描述性统计分析技术
    • 频数分析:主要用于数据清洗,调查结果的Q&A,各种统计量、基本报告数据源等
    • 数据探查:探索性分析主要从统计的角度查看统计量来评估数据分布,主要用于异常值侦测、正态分布检验、数据分段、分位点测算等
    • 交叉表分析:交互分析是市场研究的主要工作,大部分市场研究分析到此为止。主要用于分析报告和分析数据源,各种图表等,宝洁公司要求的很多分析就是完成各种交叉表,制作各种报表,当然其中也有卡方检验和T检验,寻找差异;一般我们采用列百分比进行图表分析,记住:如果交叉表单元格数据比较小需要合并或者不要用百分数来说,直接说值就可以了。
    • T检验:假设检验方法,主要用来比较两个总体均值的差异是否显著;
    • 方差分析:超过两个总体的均值检验,也经常用于实验设计后的检验问题;
    • 相关分析:线性相关性,只有变量呈现相关我们才能进行影响关系的研究,但记住相关主要是线性相关,不相关并不代表没有关系;
    • 多变量分析技术
    • 回归分析技术:是监督类分析方法,最重要的认识多变量分析的基础方法,只有掌握了回归我们才能进入多变量分析,其它很多方法都是变种。主要用在影响研究、满意度研究等,当然市场研究基本上是解释性回归分析,也就是不注重预测而关注解释自变量对因变量的影响。主要把握R平方、逐步回归、标准化回归系数(当作权重或重要性)等;回归也是预处理技术,缺省值处理等
    • 主成分分析和因子分析:是非监督类分析方法的代表,是主要认识多变量分析的基础方法,只有掌握了因子分析我们才能进入多因素相互关系的研究;主要用在消费者行为态度等研究、价值观态度语句的分析、市场细分之前的因子聚类等,问卷的信度和效度检验等,因子分析也可算是数据的预处理技术。主成分分析与因子分析是两种方法,要能够区分。主成分分析可以消减变量,权重等,主成分还可以用作构建综合排名!
    • 判别分析技术:判别分析是最好的构建Biplot二元判别图的好方法,主要用于分类和判别图,也是图示化技术的一种;
    • 对应分析技术:市场研究非常有用的研究技术,主要分析定类变量,构建二元图,也是图示化技术的一种;
    • Logistics回归技术:分类技术,主要针对因变量是0-1情况下的判别,该技术是我们认识非线性关系的重要基础,很多情况下,我们需要作出是与否的判断,基础模型就是它了,像客户离网分析、客户价值分析、客户信用等都用这个模型;
    • 聚类分析技术:主要用在市场细分方面,但聚类分析本质上不是统计分析,是数据处理技术,从事市场细分的人要好好把握,特别是注重聚类分析的细节,可以进行变量和样本的聚类;记住:样本聚类有可能数据排列不同聚类结果不同,要进行聚类后的稳定性测试,一般也要采用方差最大旋转,有时候斜交更适合聚类细分;当然,聚类后的细分市场识别是头痛问题,用到上面的几种技术,也很繁琐!我现在进行市场细分基本上都用数据挖掘软件工具了!现在比较好用的是Two-Step两阶段聚类;
    • MDS多维尺度分析技术:这个技术目前不太用了,但它是认识多变量分析技术,尤其是测量与分析技术好的视角。比如,相似性和差异性测量、语异差异法等,洞察潜在消费者心理和潜在分类维度等。
    • 其它:GLM通用线性模型、Logit回归、Probit分析、可靠性分析等
    • 市场研究分析技术
    • 结合分析(联合分析)Conjoint Analysis技术:如果一家市场研究公司没有掌握该技术,就不能称为一流的市场研究!可见该技术的地位,应用领域非常广泛,新产品开发、产品重新定位、市场细分、利润分析、偏好分析等,我就是掌握了这个技术后,才发现统计与市场这么紧密联系,学好数学和统计有这么大的用武之地!
    • 离散选择模型(Choice base analysis):也叫Discrete Choice Analysis分析技术,现在市场研究采用这种方法越来越大,属于结合分析的一种,但更复杂也更反映现实选择行为;主要应用在价格研究中!研究消费者微观选择行为的人得了诺贝尔经济学奖呢!SPSS软件没有这个分析方法,只能用SAS软件,或者选择Sawtooth公司的产品。
    • 结构方程式模型(SEM):其实SEM本质上是实证研究,证实性分析,特别适合写学术论文和研究性项目,在市场研究主要用在顾客满意度上,也可以用在品牌驱动力研究等方面;主要软件是AMOS;
    • 多维偏好分析(Multidimensional Preference Analysis):主要用于构建偏好图,进行产品定位,消费者偏好结构,属于图示化技术的一种;SPSS没有专门称呼的模块,可以采用因子分析或主成分分析的转换来完成,但在SAS中就比较方便了;
    • 决策树技术:属于监督类建模技术,主要用于分类和细分,因为决策树比较好理解,所以可以非常自动和智能化的得到无法感知到的结果;掌握了决策树后,我就不愿意用交互分析了!主要有CHAID、C&RT、QUEST等,当然还有C5.0规则等!
    • 其它:PSM价格弹性测量、品牌资产指数等等;
    • 数据挖掘和建模技术(数据挖掘技术将来再详细描述)
    • 分类建模技术:
    • 预测建模技术:
    • 细分建模技术:
    • 关联建模技术:
    • 序列建模技术:

    “多变量分析”——数据挖掘、数据分析【初稿】主要的英文描述:
    “多变量分析”——数据挖掘、数据分析【初稿】
    多变量分析方法的分类图谱!(主要部分)
    从图中,大家可以看到,假设你不知道研究目的的意义,但看到数据后,你可以尝试沿着分类图谱去找寻你该选择的分析方法!“多变量分析”——数据挖掘、数据分析【初稿】
    当然,选择什么样的多变量分析技术,前提还是你的研究设计和假设,也就是说我们设计了什么样的问卷或者说什么样的测量变量及尺度,应该在数据收集回来之前就应该明确的,特别是选择了针对性的研究模型也就意味着分析技术的明确,如果你在调查之前还不知道用什么分析方法,应该不是一个合格的研究人员!

    多变量分析技术的选择主要看变量测量等级,特别是因变量!

    因子分析(Factor Analysis)是一种非常有用的多变量分析技术。我想说,你要想学好多变量分析技术,一是:理解多元回归分析,二是:理解因子分析;这是多变量分析技术的两个出发点。为什么这么说呢?多元回归分析是掌握有因变量影响关系的重点,无论什么分析,只要研究的变量有Y,也就是因变量,一般都是回归思想,无非就是Y的测量尺度不同,选择不同的变形方法。而因子分析则是研究没有因变量和自变量之分的一组变量X1 X2 X3 ... Xn之间的关系。

        在市场研究中,我们经常要测量消费者的消费行为、态度、信仰和价值观,当然最重要的是测量消费者的消费行为和态度!我们往往采用一组态度量表进行测量,用1-5打分或1-9打分,经常提到的李克特量表。 

    “多变量分析”——数据挖掘、数据分析【初稿】

        上面的数据是我们为了测量消费者的生活方式或者价值观什么的,选择了24个语句,让消费者进行评估,同意还是不同意,像我还是不像,赞成还是不赞成等等,用1-9打分;

        因子分析有探索性因子分析和证实性因子分析之分,这里我们主要讨论探索性因子分析!证实性因子分析主要采用SEM结构方程式来解决。

    从探索性因子分析角度看:

    • 一种非常实用的多元统计分析方法;
    • 一种探索性变量分析技术;
    • 分析多变量相互依赖关系的方法;
    • 数据和变量的消减技术;
    • 其它细分技术的预处理过程;
    我们为什么要用因子分析呢?
        首先,24个可测量的观测变量之间的存在相互依赖关系,并且我们确信某些观测变量指示了潜在的结构-因子,也就是存在潜在的因子;而潜在的因子是不可观测的,例如:真实的满意度水平,购买的倾向性、收获、态度、经济地位、忠诚度、促销、广告效果、品牌形象等,所以,我们必须从多个角度或维度去测量,比如多维度测量购买产品的动机、消费习惯、生活态度和方式等;
        这样,一组量表,有太多的变量,我们希望能够消减变量,用一个新的、更小的由原始变量集组合成的新变量集作进一步分析。这就是因子分析的本质,所以在SPSS软件中,因子分析方法归类在消减变量菜单下。新的变量集能够更好的说明问题,利于简化和解释问题。
        当然,因子分析也往往是预处理技术,例如,在市场研究中我们要进行市场细分研究,往往采用一组量表测量消费者,首先,通过因子分析得到消减变量后的正交的因子(概念),然后利用因子进行聚类分析,而不再用原来的测量变量了!我想这是市场研究中因子分析的主要应用!  
        其实,你可以想象,例如在多元回归分析中,如果多个自变量存在相关性,如果可以用因子分析,得到几个不相关的变量(因子),再进行回归,就解决了自变量共线性问题。(理论上是这样的,但市场研究很少这么操作!)
    下面是要理解的因子分析的基本概念:
    • 一种简化数据的技术。
    • 探索性因子分析和证实性因子分析
    • 因子分析就是要找到具有本质意义的少量因子。
    • 用一定的结构/模型,去表达或解释大量可观测的变量。
    • 用相对少量的几个因子解释原来许多相互关联的变量之间的关系。
    • 描述的变量是可观测的——显在变量。
    • 相关性较高,联系比较紧密的变量放在一类。
    • 每一类变量隐含一个因子——潜在变量。
    • 不同类的变量之间相关性较弱。
    • 各个因子之间不相关。
    下面我们通过PASW Statistics软件来进行操作!
    “多变量分析”——数据挖掘、数据分析【初稿】
        在进行因子分析前,大家务必明确你的数据集中24个变量是否存在缺失值问题!默认情况下系统采用Lisewase,也即是只要24个变量有一个缺失,该记录删除,也就是说如果你的样本存在大量缺失,可能造成因子分析的样本量大量收缩!
    “多变量分析”——数据挖掘、数据分析【初稿】
    我们将24个变量选择后,选择描述对话框,可以选择KMO和Bartlett的球形度检验!这个指标主要从统计角度给出24个变量是否存在内在结构,也就是潜在因子结构,说白了,就是不适合因子分析!极端可能就是所有24个变量都测量的是一个维度的因子概念,另一个极端就是24个变量全部是正交不相关的,根本不存在因子,不适合因子分析!
    接下来我们要选择抽取因子的方法:“多变量分析”——数据挖掘、数据分析【初稿】在方法上,我们如果不是非常理解或有特殊要求,就选择主成份方法;这也是为什么在SPSS软件中没有独立的主成份分析,其实是包容在因子分析中了!记住一点:如果24个变量存在因子结构,用什么方法得当的结果基本相同!况且,市场研究采用量表24个变量的测量尺度都是一致的!如果你没有特殊要求,默然选择抽取特征值大于1的因子!选择碎石图——也是表达因子选择的图示方式!因为是研究结构,所以从相关矩阵出发,实际上就是标准化后的方差矩阵,没有了量纲!
    接下来,我们选择因子旋转方法!
    “多变量分析”——数据挖掘、数据分析【初稿】
        因子旋转是因子分析的核心技巧,也是我们期望得到的结果。旋转的概念就是坐标变换,不过旋转有正交和斜交旋转差别罢了!从解释因子结构的角度正交旋转是最容易解释的,得到的因子也是不相关的;斜交则得到的因子具有相关性,但更符合或能捕捉数据的维度!所以,有一种说法,如果是接下来要进行市场细分,最好采用斜交更好!当然,我们最常用的,一般采用最大方差旋转!
    最后,有一个选择要完成,就是选项对话框!
    “多变量分析”——数据挖掘、数据分析【初稿】我们要选择按大小排序,并且将因子负荷小于0.4的都不显示,这样我们看的更清楚!
    为什么选择0.4呢?这主要依赖样本量和绝对误差的考虑!
    “多变量分析”——数据挖掘、数据分析【初稿】











    从样本量角度看因子负荷,大部分市场研究样本量都在200以上!
    记住:如果你不能精细考虑,就选0.4吧!
    下面我们就可以执行了!我们看看结果:
    “多变量分析”——数据挖掘、数据分析【初稿】
        从结果可以看出,Bartlett球检验是显著的,说明存在因子结构,另外KMO=0.764,较适宜因子分析!,一般KMO=0.8就是Excellent了!
    接下来看因子方差解释,总的方差解释是63.448%,总共存在7个公因子,说明如果将来不用24个变量,而改用这7个因子可以说明原来24个变量的63.4%的变差。(如果你确认了这样的结果,可以选择把7个因子得分保存为变量了)
    如果我们只是看非旋转的话,就是主成份分析部分了,我们来看旋转后的结果:
    “多变量分析”——数据挖掘、数据分析【初稿】     我们可以看到因子排列非常恰当和明显,这都是因为我们在选项中选择了排序和压缩了小于0.4的负荷值!
    你可以看到F1_6变量在3和4因子上都有负荷,这就产生了双负荷!如果存在大量的双负荷,我们就要考虑是否要斜交旋转了!
    “多变量分析”——数据挖掘、数据分析【初稿】
    最后,我们要完成因子命名!如果不能给出好的因子命名,我们放弃24个变量用7个因子变量都不知道意义,如何分析呢!当然如何命名因子是个艺术活了!我一般的思考方式是:1)先看意义,哪些变量负荷在一个因子上,是否能解释这些因子;2)如果可以,选择因子名称;3)如果不能给出恰当名字,就选择负荷变量的简称综合在一起,先代表着;4)随着后续的分析,因子慢慢确定;
    到这里因子分析就完成了!
    但因子分析往往是预处理技术,如果要用来细分市场,该如何进一步操作呢?是选因子还是选前两个负荷最大的变量,我将在聚类分析中讲解!

    注:仅供学习,所有资源来自互联网。

    展开全文
  • 第5章 两个文件 241 5.1 文件malloc.c 241 5.1.1 列表维护规则 241 5.1.2 malloc(2528) 242 5.1.3 mfree(2556) 243 5.1.4 结论 244 5.2 文件prf.c 244 5.2.1 printf(2340) 244 5.2.2 printn(2369) 245 5.2.3 putchar...
  • 莱昂氏UNIX源代码分析

    2011-10-21 18:56:31
    第5章 两个文件 241 5.1 文件malloc.c 241 5.1.1 列表维护规则 241 5.1.2 malloc(2528) 242 5.1.3 mfree(2556) 243 5.1.4 结论 244 5.2 文件prf.c 244 5.2.1 printf(2340) 244 5.2.2 printn(2369) 245 5.2.3 putchar...
  • 第5章 两个文件 241 5.1 文件malloc.c 241 5.1.1 列表维护规则 241 5.1.2 malloc(2528) 242 5.1.3 mfree(2556) 243 5.1.4 结论 244 5.2 文件prf.c 244 5.2.1 printf(2340) 244 5.2.2 printn(2369) 245 5.2.3 putchar...
  • C#.net_经典编程例子400

    热门讨论 2013-05-17 09:25:30
    329 实例238 列出系统中打印机 330 7.12 其他 332 实例239 种信息发送方式 332 实例240 功能快捷键 336 第8章 注册表 339 8.1 操作注册表 340 实例241 怎样存取注册表信息 ...
  • 11.2.1 两个工具函数 11.2.2 段(Segment) 11.2.3 函数 11.2.4 交叉引用 11.2.5 调试器钩子 11.3 脚本实例 11.3.1 搜寻危险函数的交叉代码 11.3.2 函数覆盖检测 11.3.3 检测栈变量大小 第12章 PYEmu——脚本驱动式...
  • excel使用

    2012-11-25 17:06:01
    然后选中A2和A3两个单元格,使这二项变成一个带黑色边框的矩形,再用鼠标指向这黑色矩形的右下角的小方块“■”,当光标变成"+"后,按住鼠标拖动光标到适当的位置,就完成自变量的输入。输入函数式:在B列的B1格...
  • Lasso回归和岭回归

    2020-08-14 00:58:12
    Lasso回归和岭回归1、两个回归产生原因2、lambda确定方法:最小化均方差预测误差(K折交叉验证)3、实例:分析棉花产量问题4、Lasso回归使用步骤5、附录(1)OLS原理(2)岭回归原理(3)Lasso回归原理 ...


    Lasso回归和岭回归的作用:为线性回归筛选变量、筛选变量、数据降维

    1、两个回归的产生原因

    在多元线性回归中估计回归系数使用的时OLS,OLS的使用需要满足一个条件:
    n*k维数据矩阵的秩 = k 即要求矩阵列满秩,在多重线性回归中为保持回归没有完全多重共线性,需要n>=k,才能保证回归系数能够通过OLS估计出来。
    (PS:n指的是样本个数,k指的是指标数)

    那么当n<k时,就不能使用OLS估计系数,所以产生Lasso回归的岭回归来解决此种情况。

    (PS:但是一般不使用岭回归)

    2、lambda的确定方法:最小化均方差预测误差(K折交叉验证)

    在这里插入图片描述

    3、实例:分析棉花产量问题

    分析影响棉花产量的最主要原因
    在这里插入图片描述
    使用lasso回归的结果:
    在这里插入图片描述
    在这里插入图片描述
    第一列数据:
    Lasso 所估计的变量系数,只有3个变量的系数为非零。
    第二列数据:
    在使用最左侧的选择结果作为解释变量进行OLS回归后的结果。

    PS:结果会随着设置的随机数种子变化,因为lasso回归的估计是近似算法,且剔除的多重共线性变量是相对的。因为如果X1 和X2存在多重共线性,你可以选择剔除X1也可以选择剔除X2。

    4、Lasso回归的使用步骤

    1. 判断自变量的量纲是否一样:是否需要进行标准化预处理。
    2. 计算膨胀因子–VIF:若VIF>10则说明存在多重共线性,需要对变量进行筛选。
    3. 对变量使用Lasso回归筛选变量
    4. 对筛选后的变量进行回归

    5、附录

    (1)OLS原理

    OLS又称古典回归模型,它的使用需要满足四个假定。

    1. 线性假定在这里插入图片描述
    2. 严格外生性:这个条件保证了估计出来的回归系数无偏并且一致在这里插入图片描述
    3. 无完全多重共线性:保证OLS能够估计出系数,列满秩可以保证两个互相转秩的矩阵相乘一定可逆。在这里插入图片描述
    4. 球形扰动:满足“同方差”和”无自相关“两个条件在这里插入图片描述
    5. OLS的推导在这里插入图片描述
      在这里插入图片描述
      细节
      在这里插入图片描述

    (2)岭回归原理

    I为单位矩阵
    在这里插入图片描述
    细节
    在这里插入图片描述
    岭回归的lambda选择:
    方法一:
    在这里插入图片描述
    方法二:VIF法,不断的增加lambda,直到所有的lambda的VIF<10

    方法三:就是上面的K折交叉验证,这方法最为常用

    (3)Lasso回归原理

    在这里插入图片描述

    说白了岭回归时在OLS的基础上添加了不同的惩罚项,岭回归是残差的平方,Lasso是绝对值。

    展开全文
  • 实例276 判断输入数据是否符合要求 395 实例277 通过存储过程实现自动编号 398 9.9 数据删除 401 实例278 删除表格中指定记录 401 实例279 利用SQL语句删除数据 402 9.10 数据记录 403 实例280 分页...
  • 是指以公司制为主体市场经济基本成份,它包含两个层次含义:一是作为市场经济基本成份,凡符合市场经济要求的,与市场经济要求相适应企业制度均可称为现代企业制度。二是指公司制为核心具体形式,按公司...
  • 全书最后还有三附录,分别给出了过程调用交叉参考表、程序代码中用到c数据结构交叉参考表以及xinu函数和常量。本书可供计算机和通信专业研究生、高年级本科生作为教科书和学习参考书,也可供各种从事科研...
  • 软件工程知识点

    2012-12-02 21:34:25
    在进行概要设计时,模块独立性是一个有关质量重要技术性指标,可以使用模块内聚、耦合这两个定性参数对模块独立性进行度量。 2.软件详细设计 设计工作第二步是详细设计,它以概要设计为依据,用于确定软件...
  • 软件工程教程

    热门讨论 2012-07-06 23:10:29
    “用户对软件的要求不断变化,然而软件是柔软而灵活的,可以轻易地改动” “软件投入生产性运行以后需要的维护工作并不多,而且维护是一件很容易做的简单工作” 软件危机的解决 解决途径 组织管理 工程项目管理方法...
  • 6.2.1 用RMAN替换变量编写脚本 217 6.2.2 新RMAN配置参数 219 6.2.3 分段备份大文件 220 6.2.4 创建归档(长期)备份 222 6.2.5 新验证命令 225 6.2.6 配置归档重做日志删除策略 228 6.2.7 归档重做日志...
  • 抽象描述,其内部包括属性和服务两个主要部分。在面向对象编程语言中,类是一个独立程 序单位,它应该有一个类名并包括属性说明和服务说明两个主要部分。 LAMP 大讲堂PHP 面向对象技术(全面讲解) 网站:...
  • 实例140 合二为一——合并两个数据集数据内容 实例141 一分为二——复制数据集 实例142 动态创建DataTable 实例143 DataTable行状态与行版本 5.4 高效开发:数据库操作类封装设计 实例144 执行命令方法...
  • 实例140 合二为一——合并两个数据集数据内容 实例141 一分为二——复制数据集 实例142 动态创建DataTable 实例143 DataTable行状态与行版本 5.4 高效开发:数据库操作类封装设计 实例144 执行命令方法...

空空如也

空空如也

1 2 3 4
收藏数 74
精华内容 29
关键字:

交叉分析两个变量的要求