精华内容
下载资源
问答
  • 判别分析

    千次阅读 2018-11-27 23:53:17
    简要介绍了判别分析中的DISCRIM过程、STEPDISC过程和CANDISC过程。

    根据已有的数据分类知识,建立一个判别准则,使其错判率最低,进而基于这个判别准则实现对未知样本所属类别进行判断。

    一般判别分析

    DISCRIM过程

    格式:

    proc discrim data=数据集名;
    class 变量; *此语句必需的,指定判别分析用的分类变量名;
    var 变量列表;*指定判别分析中使用的变量;
    run;
    

    注:
    1.proc过程选项:
    I.list:显示已知分类的数据集重分类的结果;
    ii.testlist:在结果窗口中显示对检验未知样本的所有分类结果;
    iii.testdata=待分析数据集名

    根据下面第一张表对经济发达水平的判别,对第二张表进行经济发达水平的判别分析。


    代码:

    data test1;        /*创建判别分析数据*/
    input area$ x1-x7 type;
    cards;
    西城区 1.96  18.85 19.34 198.49 89.11 59.88 2.34  2
    崇文区 0.94  6.49  10.98 61.95 32.9  39.3  1.1  1
    宣武区 0.33  12.04 58.8  586.48 458.73 167.29 6.78  2
    石景山区 1.01  16.14 74.26 483.57 209.81 250.16 3.91  2
    海淀区 201.26 69.5  125.01 640.38 373.06 448.59 36.5  3
    门头沟区 0.97  4.32  8.67  44.31 27.02 18.91 0.59  2
    房山区 4.17  1.42  43.88 293.31 163.33 305.44 0.03  2
    通州区 5.46  10.71 14.99 86.64 54.18 48.65 1.06  2
    顺义区 10.33 135.15 42.91 231.81 131.43 229.14 14.25 3
    昌平区 9.1  10.37 17.45 103.33 61.94 52.28 2.39  2
    大兴区 14.15 94.62 56.59 199.47 102.55 140.28 13.64 3
    平谷县 6.99  8.17  9.58  49.42 37.22 30.96 1.6  1
    怀柔县 10.59 17.84 21.48 80.42 47.75 75.95 4.25  1
    密云县 2.92  17.52 14.32 42.99 24.89 37.44 1.79  1
    ;
    run;
    data test2;        /*创建待判别分析数据*/
    input area$ x1-x7; 
    cards;
    东城区 2.46  42.33 24.6  178.96 77.67 87.86 6.39
    朝阳区 52.08 313.41 124.83 836.01 473.35 581.38 30.3
    丰台区 14.33 32.01 30.38 202.38 125.29 116.2 3.83
    延庆县 0.44  0.58  1.24  7.64  5.66  5.05 - 0.09
    ;
    run;
    proc discrim data=test1 testdata=test2 list testlist;
    class type;
    var x1-x7;
    run;
    

    结果:
    一些基本信息:
    以下是对已知分类的数据重分类后的结果:

    以下是对未知分类数据进行分类的结果:

    典型判别分析

    即通常的Fisher判别分析。

    CANDISC过程

    类似于主成分分析,通过数据降维,找一些变量,其为已存在变量的线性组合,使得依据这些变量可以很好地对数据进行分类判别。若要获得完整的判别分析结果,还需要将CANDISC过程的输出结果作为DISCRIM过程的输入,进行一般判别分析。
    格式:

    proc candisc data=数据集名 outstat=数据集名;
    class 变量;
    var 变量;
    run;
    

    注:
    1.proc过程的选项:
    a.outstat指定一个数据集,包含典型判别分析各种统计量;

    逐步判别分析

    思想类似于逐步回归分析

    STEPDISC过程

    用于在判别分析之前筛选出对数据的判别具有显著影响的变量,凭借这些结果(var var1 ... varm)再使用Discrim过程进行一般判别分析。
    格式:

    proc stepdisc data=数据集名;
    class 分类变量;
    var 指标变量; *逐步分析判别中使用的变量;
    

    注:
    1.proc stepdisc选项:
    a.method:指定筛选变量的方法,包括forward、backward、stepwise;

    根据下面第一张表对评价等级的判别,对第二张表进行经济发达水平的判别分析。


    代码:

    data test;      /*创建判别分析数据*/
    input x1-x5 type;
    cards;
    195 119 1815 43 28 3
    386 12 1908 202 32 1
    225 131 1516 115 36 2
    369 228 1537 150 21 2
    212 240 1851 174 38 2
    211 276 2088 248 38 2
    208 254 1483 205 32 2
    191 116 1552 299 25 3
    406 190 1773 288 37 1
    12 222 1735 27 30 4
    140 66 1931 114 34 3
    31 272 1664 69 28 4
    314 175 2009 85 39 2
    296 193 1636 183 21 2
    442 77 1241 24 31 2
    ;
    run;
    data test2;       /*创建待判别分析的数据集*/
    input x1-x5;
    cards;
    253 169 1910 175 25
    186 280 2277 213 37
    97 107 2048 89 26
    285 200 1914 227 33
    332 223 1630 224 21
    ;
    proc stepdisc data=test stepwise;
    class type;
    var x1-x5;
    run;
    proc discrim data=test testdata=test2 list testlist;
    class type;
    var x1 x2 x4;
    run; 
    

    结果:
    先进行stepdisc过程,结果显示x1、x2、x4选入的逐步回归模型:
    以下是根据判别变量x1、x2、x4对未知数据进行分类的结果:

    展开全文
  • SAS判别分析

    2014-12-03 10:18:20
    判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。 其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定...
  • 判别分析基础

    千次阅读 2016-03-29 12:46:57
    判别分析与聚类分析不同,判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据。在实际中判别分析和聚类分析往往联合起来用,当总体分类不清楚时,可先用聚类分析对原来的一批样品...
    1. 与聚类分析的比较
      判别分析是判别样品所属类型的一种统计方法。
      判别分析与聚类分析不同,判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据。在实际中判别分析和聚类分析往往联合起来用,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。

    2. 判别分析基本思想:样品和哪个总体距离最近,就判断它属于哪个总体。距离判别也称为直观判别。

      (一)距离判别法
      对各类总体的分布并无特定要求
      基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值;
      判别准则:对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i类。
      分两种情况,如果各类协方差阵相等,则建立的判别函数为线性判别函数;如果各类协方差阵不相等,则建立的判别函数为二次函数。

      (二)Fisher判别法
      按类内方差尽量小,类间方差尽量大的准则来求判别函数的。
      该方法的基本思想是投影,即将原来空间的自变量组合投影到维度较低的空间去,然后再进行分类。(线性判别法LDA)
      注意:
      构造判别式的样品个数必须至少是指标个数的两倍;构造判别式的样品个数不宜太少,否则会影响判别式的优良性;其次判别式选用的指标不宜过多,指标过多不仅使用不方便,还会影响预报的稳定性,在建立判别式之前,应挑选对分类特别有关系的指标。

      (三)Bayes判别法
      首先需要知道待判总体的先验概率和密度函数(概率函数),当取得样本后,就可以用样本来修正已有的先验概率分布,得出后验概率分布,通过后验概率分布进行各种统计推断。

      实际中遇到的许多总体往往服从正态分布,所以常用的是正态总体的判别函数,此时分两种情况:一是假设所有总体的协方差阵相等,这时的判别函数为线性判别函数,即判别函数是从各类合并的协方差阵得来;二是所有总体的协方差阵不等,此时的判别函数为非线性判别函数,即判别函数是从各类协方差阵得来。
      如果总体的分布未知或不服从正态分布,可用非参数方法,来估计类别密度实现分类。此类非参数法包括(kernel method)核密度估计法和KNN最近邻法

      (四)逐步判别法
      类似于回归分析,这是一种变量选择的方法,选择判别能力高的变量。这个筛选过程实质就是作假设检验,通过检验找出显著性变量,剔除不显著变量。

      逐步判别法要求指标变量在各组内服从多元正态分布,并且具有相同的协方差阵。因此各个类之间的统计差别表现在均值向量上。若各个均值相等,则各个总体的统计差异不显著,在此基础上建立判别函数肯定不好。就产生了对各个类均值的假设检验。

      前进法选择变量时,stepdisc过程依据每一个变量对判别效能贡献(由WILKs` lambda值及相应统计量进行判断)的大小次序排序,将贡献最大者作为待选择变量,然后判断该变量是否达到事先指定的变量选入标准(依据方差分析的F检验)。

      后退法选择变量时,最初的判别模型包括了所有待选择的变量,在后续操作的每一步,依据每一个变量对判别效能贡献的大小次序,将贡献最小者作为考察变量,判断该变量是否达到事先指定的变量剔除标准,如果是则将其剔除模型,直到留下的变量没有达到事先指定的变量剔除标准。

      逐步法选择变量时,最初的判别模型与用前进法时的相同,未包含任何变量。后续的每一步操作中,先对已选入模型的变量进行比较,进行剔除操作,再对未入选的变量进行选入操作,重复以上步骤,直到模型中的变量没有任何一个达到剔除标准并且模型外的变量没有任何一个达到选入标准。

      要注意的是,在选入变量的过程中,每一步只选择一个变量进入模型,而且在此过程中并未考虑模型外变量之间的关系问题,因此一些重要的变量可能会被排出在模型外,因此在实际应用中,要善于用交叉验证结果对判别模型进行恰当的评价,Wilks` lambda值也并不总是评价判别效能的最佳指标。

    判别方法的比较:
    Fisher判别法随着总体变量个数的增加,判别式也增加,因此计算起来比较麻烦。Bayes判别法对多个总体的判别考虑的不是建立判别式,而是计算新样品属于各总体的条件概率,将新样品判给来自概率最大的总体。
    一般用Fisher判别即可,要考虑概率及误判损失最小的用Bayes判别,但变量较多时,一般先进行逐步判别筛选出有统计意义的变量,再结合实际情况选择用哪种判别方法。

    附上上文结构:

    展开全文
  • 统计方法判别分析: 判别分析在已知研究对象分成若干类型并已取得各种类型的一批已知样品的观测数据在此基础上根据某些准则建立判别式然后对未知类型的样品进行判别分类 距离判别法首先根据已知分类的数据分别计算...
  • SAS数据分析之判别分析

    千次阅读 2019-02-26 21:56:41
    判别分析与聚类分析有非常类似的特性,因此,在多数数据分析的教材中,这两章是一前一后出现的,简而言之,聚类分析,其实是判别分析的基础,即在聚类分析的基础上,总结出各类的权值,将待判样本与各类权值做对比,...

    判别分析与聚类分析有非常类似的特性,因此,在多数数据分析的教材中,这两章是一前一后出现的,简而言之,聚类分析,其实是判别分析的基础,即在聚类分析的基础上,总结出各类的权值,将待判样本与各类权值做对比,距离最近的,即为一类。
    以下,给出我在判别分析实验中做的一个小例子。

    判别分析

    人文与发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中公布的。该报告建议,目前对人文发展的衡量指标应当以人生的三大要素为重点。衡量人生的三大要素的指标分别为:实际人均GDP指数、出生时的预期寿命指数、受教育程度指数(由成人识字率指数和综合总人学率指数按2/3、1/3的权重加权而得),将一生三个指数合成为一个指数就是人文发展指数。今从2007年世界各国人文发展指数(2005年)的排序中,选取高发展水平、中等发展水平和低发展水平国家各6个作为三组样品,另选四个国家作为待判样品,资料如下表所示。试用距离判别对以下数据资料进行判别分析,并据此对待选的四个国家进行判别归类,并使用Fisher 判别写出判别函数。
    G 国家 人均GDP(美元) 出生时的预期寿命(岁) 成人识字率(%) 初等、中等和高等教育入学率(%)
    第一类:高发展水平国家 1 美国 41890 77.9 99.5 93.3
    1 德国 29461 79.1 99.2 88
    1 希腊 23381 78.9 96 99
    1 新加坡 29663 79.4 92.5 87.3
    1 意大利 28529 80.3 98.4 90.6
    1 韩国 22029 77.9 99 96
    第二类:中等发展水平国家 2 古巴 6000 77.7 99.8 87.6
    2 罗马尼亚 9060 71.9 97.3 76.8
    2 巴西 8402 71.7 88.6 87.5
    2 泰国 8677 69.6 92.6 71.2
    2 菲律宾 5137 71 92.6 81.1
    2 土耳其 8407 71.4 87.4 68.7
    第三类:低发展水平国家 3 尼泊尔 1550 62.6 48.6 58.1
    3 尼日利亚 1128 46.5 69.1 56.2
    3 喀麦隆 2299 49.8 67.9 62.3
    3 巴基斯坦 2370 64.6 49.9 40
    3 越南 3071 73.7 90.3 63.9
    3 印度尼西亚 3843 69.7 90.4 68.2
    待判组 日本 31267 82.3 99 85.9
    印度 3452 63.7 61 63.8
    中国 6757 72.5 90.9 69.1
    南非 11110 50.8 82.4 77

    这是在判别分析中非常经典的例题,以下给出SAS代码:

    距离判别

    data exp; 
    /*生成训练样本数据集ex_6_2_1; 数据为坐标数据*/
    input g $ name $ x1 x2 x3 x4;
    cards;
    1	美国	41890	77.9	99.5	93.3
    1	德国	29461	79.1	99.2	88
    1	希腊	23381	78.9	96	99
    1	新加坡	29663	79.4	92.5	87.3
    1	意大利	28529	80.3	98.4	90.6
    1	韩国	22029	77.9	99	96
    2	古巴	6000	77.7	99.8	87.6
    2	罗马尼亚	9060	71.9	97.3	76.8
    2	巴西	8402	71.7	88.6	87.5
    2	泰国	8677	69.6	92.6	71.2
    2	菲律宾	5137	71	92.6	81.1
    2	土耳其	8407	71.4	87.4	68.7
    3	尼泊尔	1550	62.6	48.6	58.1
    3	尼日利亚	1128	46.5	69.1	56.2
    3	喀麦隆	2299	49.8	67.9	62.3
    3	巴基斯坦	2370	64.6	49.9	40
    3	越南	3071	73.7	90.3	63.9
    3	印度尼西亚	3843	69.7	90.4	68.2
    ;
    data testexp;    /*生成待判样品数据集ex1*/
    input name $ x1 x2 x3 x4;
    cards;
    日本	31267	82.3	99	85.9
    印度	3452	63.7	61	63.8
    中国	6757	72.5	90.9	69.1
    南非	11110	50.8	82.4	77
    ;
    proc discrim  data=exp testdata=testexp testout=fexp list listerr testlist testlisterr crosslist  crosslisterr ; 
    class g;
    var x1 x2 x3 x4;
    run;
    proc print data=fexp;run;
    

    以下是程序结果:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    Fish判别

    data exp; 
    input g $ name $ x1 x2 x3 x4;
    cards;
    1	美国	41890	77.9	99.5	93.3
    1	德国	29461	79.1	99.2	88
    1	希腊	23381	78.9	96	99
    1	新加坡	29663	79.4	92.5	87.3
    1	意大利	28529	80.3	98.4	90.6
    1	韩国	22029	77.9	99	96
    2	古巴	6000	77.7	99.8	87.6
    2	罗马尼亚	9060	71.9	97.3	76.8
    2	巴西	8402	71.7	88.6	87.5
    2	泰国	8677	69.6	92.6	71.2
    2	菲律宾	5137	71	92.6	81.1
    2	土耳其	8407	71.4	87.4	68.7
    3	尼泊尔	1550	62.6	48.6	58.1
    3	尼日利亚	1128	46.5	69.1	56.2
    3	喀麦隆	2299	49.8	67.9	62.3
    3	巴基斯坦	2370	64.6	49.9	40
    3	越南	3071	73.7	90.3	63.9
    3	印度尼西亚	3843	69.7	90.4	68.2
    ;
    proc candisc data=exp out=outcan simple;
    class g;
    var x1 x2 x3 x4;
    proc print data=outcan;
    run;
    proc plot ;
    plot  can2*can1=g; /*如果不足两个典型变量则不产生散点图*/
    run; 
    

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    最后四个观测的归类结果为19号(日本)观测为高发展水平国家,第20号(印度)为第3类,即低发展水平国家,21号(中国)和22号(南非)归为中等发展水平国家。

    展开全文
  • Fisher判别分析法在判别混合水时,只能将此确定为最相像的某一分组,从而发生误判,因此在Fisher判别分析理论的基础上引入了质心距评价法,剔除可能为混合水样的样本数据,可以提高判别结果的准确率。为此选取13种水化学...
  • 将Bayes判别分析方法应用于岩体质量等级判别与分类中,建立了岩体质量综合评判的Bayes判别分析模型.模型选用岩石质量指标、完整性系数、单轴饱和抗压强度、纵波波速、弹性抗力系数和结构面摩擦因数等6个指标作为判别...
  • 本文利用SPSS 软件对各地区农村居民平均每人全年家庭收入来源进行了聚类分析和判别分析。该分类一定程度上反映了各省及直辖市农村居民的收入结构和总收入高低的水平。论文将31个省市的根据农村居民平均每人的纯收入...
  • 文章目录判别分析判别分析的基本思想距离判别两总体情况多总体情况贝叶斯判别费歇判别逐步判别 判别分析 本章介绍的判别分析适用于被解释变量是非度量变量的情形。在这种情况下,人们对于预测和解释影响一个对象...

    鄙人学习笔记



    判别分析

    本章介绍的判别分析适用于被解释变量是非度量变量的情形。在这种情况下,人们对于预测和解释影响一个对象所属类别的关系感兴趣,比如为什么某人是或者不是消费者,一家公司成功还是破产等。

    判别分析的基本思想

    • 基本思想

    当被解释变量是属性变量而解释变量是度量变量时,判别分析是合适的统计分析方法。
    当包含两组时,称作两组判别分析。当包含三组或者三组以上时,称作多组判别分析。
    判别分析最基本的要求是:分组类型在两组以上;每组案例的规模必须至少在一个以上。解释变量必须是可测量的,才能够计算其平均值和方差,使其能合理地应用于统计函数。

    • 判别分析的假设

    假设之一是:
    每一个判别变量(解释变量)不能是其他判别变量的线性组合。这时,为其他变量线性组合的判别变量不能提供新的信息,更重要的是在这种情况下无法估计判别函数。有时一个判别变量与另外的判别变量高度相关,或与另外的判别变量的线性组合高度相关,虽然能求解,但参数估计的标准误将很大,以至于参数估计统计上不显著。这就是通常所说的多重共线性问题。

    假设之二是:
    各组变量的协方差矩阵相等。

    假设之三是:
    各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。在这种条件下可以精确计算显著性检验值和分组归属的概率。

    距离判别

    两总体情况

    设有两个总体G1 和G2,x 是一个p 维样品,若能定义样品到总体G1 和G2 的距离d(x,G1)和d(x,G2),则可用如下的规则进行判别:若样品x 到总体G1 的距离小于到总体G2 的距离,则认为样品x 属于总体G1,反之,则认为样品x 属于总体G2;若样品x 到总体G1 和G2 的距离相等,则让它待判。这个准则的数学模型可作如下描述:


    当总体G1 和G2 为正态总体且协方差相等时,距离选用马氏距离,即

    当总体不是正态分布时,有时也可以用马氏距离来描述x 到总体的远近。
    若 ∑ 1= ∑2 = ∑,这时:


    令:

    于是判别规则可表示为:

    W( x)为判别函数,由于它是线性函数,又称为线性判别函数, α称为判别系数(类似于回归系数)。

    当两个总体协差阵∑1与∑2不等时,可用:

    作为判别函数,这时它是x的二次函数。

    当μ1,μ2,∑未知时,可通过样本来估计:

    设x1(1),…,xn1(1)是来自G1的样本,x1(2),…,xn2(2)是来自G2的样本,可以得到以下估计:

    其中,

    多总体情况

    • 协方差阵相等

    设有 k个总体 G1, G2,…, Gk,它们的均值分别是 µ1, µ2,…, µk,协差阵均为 ∑。类似于两总体的讨论,判别函数为:

    相应的判别规则是:

    当µ1,µ2,…,µk,∑ 未知时,设从Ga 中抽取的样本为x1(a),…,xna(a)(a = 1,2,…,k),则它们的估计为:

    式中:
    n =n1 +n2 +…+nk

    • 协方差阵不同

    这时判别函数为:

    判别规则为:

    当µ 1,µ 2,…,µ k,∑ 1,∑ 2,…,∑ k 未知时:

    贝叶斯判别

    • 贝叶斯统计的思想

    贝叶斯( Bayes)统计的思想是:假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识,然后我们取得一个样本,用样本来修正已有的认识(先验概率分布),得到后验概率分布,各种统计推断都通过后验概率分布来进行。将贝叶斯思想用于判别分析,就得到贝叶斯判别。

    费歇判别

    费歇( Fisher)判别的思想是投影,将 k组 p维数据投影到某一个方向,使得它们的投影组与组之间尽可能地分开。

    如何衡量组与组之间尽可能地分开呢?他借用了一元方差分析的思想。
    设从k 个总体分别取得k 组p 维观察值如下:

    令a 为Rp 中的任一向量,u(x)=a′x 为x 向以a 为法线方向的投影,这时,上述数据的投影:

    它正好组成一元方差分析的数据。

    其组间平方和为:

    其组内平方和为:

    式中,

    如果 k组均值有显著差异,则:

    应该充分大,或者:

    应该充分大。

    所以我们可以求 a,使得∆( a)达到最大。显然,这个 a并不唯一,因为如果 a使 ∆(·)达到极大,则 ca也使 ∆(·)达到极大, c为任意不等于零的实数。
    由矩阵知识,我们知道 ∆(·)的极大值为 λ 1,它是 ∣ B-λ E ∣= 0的最大特征根, l1, l2,…, lr为相应的特征向量,当 a= l1时,可使 ∆(·)达到最大。

    费歇准则下的线性判别函数 u( x)= a′ x的解 a为方程 ∣ B-λ E ∣= 0的最大特征根 λ1所对应的特征向量 l1,且相应的判别效率为 ʌ(l1)= λ 1

    在有些问题中,仅用一个线性判别函数不能很好地区别各个总体,可取 λ 2对应的特征向量 l2,建立第二个判别函数。如还不够,可建立第三个线性判别函数 ,依次类推。

    在费歇准则下的判别函数并不唯一,若 u( x)= l′ x为判别函数,则 au( x)+ β也为具有与 u( x)相同判别效率的判别函数。。不唯一性对制定判别规则并没有任何妨碍,我们可从中任取一个。一旦取定了判别函数,根据它就可以确定判别规则。

    逐步判别

    在多元回归中熟知,变量选择的好坏直接影响回归的效果,而在判别分析中也有类似的问题。理论和实践证明,指标太多了,不仅带来大量的计算,同时许多对判别无作用的指标反而会干扰我们的视线。因此,适当筛选变量的问题就成为一件很重要的事情。

    • 逐步判别的原则

    逐步判别的原则为:
    (一)在 x1, x2,…, xm(即 m个自变量)中先选出一个自变量,它使维尔克斯统计量 ʌ i( i= 1, 2,…, m)达到最小。
    假定挑选的变量次序是按自然的次序,即第 r步正好选中 xr,第一步选中 x1,则有 ʌ1= min{ ʌi} (1≤ i ≤ m),并考察 ʌ1是否落入接受域,如不显著,则表明一个变量也选不中,不能用判别分析;如显著,则进入下一步。
    (二)在未选中的变量中,计算它们与已选中的变量 x1配合的 ʌ值。选择使 ʌ1i( 2 ≤ i ≤ m)达到最小的作为第二个变量。
    (三)在已选入的 r个变量中,要考虑较早选中的变量中其重要性有没有较大的变化,应及时把不能提供附加信息的变量剔除出去。剔除的原则等同于引进的原则。
    (四)这时既不能选进新变量,又不能剔除已选进的变量,将已选中的变量建立判别函数。

    展开全文
  • 根据生化指标对胃病患者进行判别 一、导入数据并查看数据情况: 1、数据总体状况: 其中Group表示病人胃病类型。 2、更改变量名:把x1,x2,x3,x4改成具有意义的变量名并且修改变量度量类型,如下图所示: ...
  • 为了更加准确的预测煤与瓦斯突出的危险性,基于距离判别分析理论,选取电磁辐射预测指标(电磁辐射强度E和脉冲数N)和常规指标R指标、钻孔瓦斯涌出初速度q及钻屑量S作为判别因子,选取演马庄矿某掘进工作面2011年4、5月...
  • 关于聚类分析、判别分析、主成分分析、因子分析 主成分分析与因子分析的区别   1. 目的不同: 因子分析把诸多变量看成由对每一个变量都有作用的一些公共因子和仅对某一个变量有作用的特殊...
  • matlab的判别分析

    2014-02-12 11:16:58
    以广西某锰矿床已知两种不同锰矿石各项评价指标为样本,通过Matlab代码实现距离判别和贝叶斯判别
  • 一、导入数据并查看数据情况: 1、数据总体状况: 其中Group表示病人胃病...可以看到数据的分布没有特别的离异点,也没有缺失值和不合理的分布,从而可以用该数据做接下来的距离判别分析。 4、由于后续做判别...
  • R语言判别分析

    万次阅读 多人点赞 2017-02-27 17:07:54
    部分参考薛毅的《统计建模与R软件》和《R语言实战》本文中分三个方法介绍判别分析,Bayes判别,距离判别,Fisher判别。前两种判别方法都要考虑两个、或多个总体协方差(这里是算方差,方差是协方差的一种)相等或...
  • 1.3-判别分析

    千次阅读 2018-07-09 16:39:40
    判别分析方法最初应用于考古学, 例如要根据挖掘出来的人头盖骨的各种指标来判别其性别年龄等. 近年来, 在生物学分类, 医疗诊断, 地质找矿, 石油钻探, 天气预报等许多领域, 判别分析方法已经成为一种有效的统计推断...
  • 鸢尾花数据的聚类分析和判别分析 摘要:本文基于鸢尾花数据的公开数据集,根据鸢尾花的萼片长度和宽度,花瓣的长度和宽度,对鸢尾花的类别归属进行聚类分析和判别分析。本文使用 R 语言,对鸢尾花的种类进行了聚类...
  • 主成分分析(PCA)和线性判别分析(LDA)原理简介

    万次阅读 多人点赞 2018-02-04 21:58:53
    本文整理自下面的博客,对PCA和LDA的原理进行介绍,并对比了其不同点。 1).主成分分析(PCA)原理详解 2).线性判别分析LDA与主成分分析...6).Dimensionality Reduction——LDA线性判别分析原理篇 7).主成分分析...
  • k近邻判别分析

    2018-05-04 16:25:49
    本文阐述了k-近邻判别分析法的基本思想,对该方法运用 于个人信用评估的适用性进行了分析,通过确定相应的评估指标体系,建立 了基于k-近邻判别分析法的个人信用评估模型,使用一个小样本集数据对 模型进行了应用,对模型...
  • 判别分析原理及R语言实现

    万次阅读 多人点赞 2018-08-07 00:08:54
    判别分析内容 判别分析做的好能挖掘数据最大的价值。判别分析(discriminat analysis)他要解决的问题是在一些已知研究对象已经用某种方法分成若干类的情况下,确定新的样品属于已知类别中的哪一类。如已知健康人和...
  • 判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。  其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料...
  • 针对隧道围岩分类问题,基于Fisher判别分析理论,选用岩石质量指标、完整性指数、饱和单轴抗压强度、纵波波速、弹性抗力系数和结构面摩擦因数等6个指标作为判别因子,以30组隧洞围岩数据作为学习样本进行训练,建立相应...
  • matlab距离判别分析的应用

    千次阅读 2019-07-25 19:25:50
    matlab距离判别分析的应用 一、定义 距离判别法:距离判别分析方法是判别样品所属类别的一应用性很强的多因素决方法,其中包括两个样本总体距离判别法,多个样本距离判别法。 多个总体距离判别法:多个总体距离判别法...
  • 13 MATLAB判别分析

    万次阅读 多人点赞 2017-05-06 14:47:00
    判别分析是对未知类别的样本进行归类的一种方法。虽然也是对样品进行分类,但它与聚类分析还是不同的。聚类分析的研究对象还没有分类,就是要根据抽样的样本进行分类,而判别分析的研究对象已经有了分类,只是根据...
  • 选用煤层的含水层富水性、含水层水压、隔水层厚度、断层导水性和构造发育程度5个指标作为该模型的判别因子,以不同地区煤矿的14组煤层实测数据作为训练样本,建立了Bayes判别分析模型。为了验证模型的准确性,用回代...
  • 多元统计:判别分析

    2020-06-09 13:11:26
    多元统计:判别分析一. 判别分析介绍二. 距离判别法1. 欧几里得距离与马氏距离的区别和联系1.1欧几里得距离1.2马氏距离2. 距离判别法的基本思想和方法3. 距离判别法例题三. 贝叶斯判别法1. 贝叶斯判别法原理2. ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 10,831
精华内容 4,332
关键字:

判别分析的指标