精华内容
下载资源
问答
  • 运用煤矿生产实践中积累的相关数据,分析影响顶煤可放性的多个因素,基于逐步判别分析理论,建立逐步判别分析模型.通过逐步判别分析法优选瓦斯、开采深度、倾角、煤层厚度四项作为主要判别指标,利用工程实测数据作为...
  • 逐步判别分析法在筛选水质评价因子中的应用,卢文喜,李俊,应用逐步判别分析法对水质进行评价因子筛选,通过对水质实际监测因子的假设检验分析,引入判别能力好的因子,建立判别方程,对实
  • 应用多组逐步判别分析方法原理,结合测井、录井、完井测试等资料的气、水显示情况,选取鄂尔多斯盆地北部某气藏典型井建立该地区气、水层的判别模型,以便对该地区单井进行气、水层划分。在建立初步判识模型后,应用...
  • 多总体逐步判别分析法在复杂油水层识别中的应用
  • 星形细胞瘤是最常见的神经上皮性肿瘤,其术前分级对治疗和预后影响很大。 本研究根据星形细胞瘤相关因素建立逐步判别分析模型,探讨逐步判别分析在星形细胞瘤分级中的应用价 值。
  • 判别分析中特征变量是影响判别结果的决定性因素,选取适当的特征变量组合可以提高正判率、减少计算量。介绍了贝叶斯判别和逐步判别法的基本原理,分析了目前出现的一些特征变量优化方法,以油气解释评价中的贝叶斯...
  • 利用统计软件SPSS的逐步判别分析功能筛选出判别无烟煤、烟煤、褐煤的主要指标——氢含量和氧含量,以该指标为变量建立贝叶斯逐步线性判别函数,并采用该函数分别对建模样本和测试样本进行识别。识别结果显示:基于SPSS...
  • 文章目录判别分析判别分析的基本思想距离判别两总体情况多总体情况贝叶斯判别费歇判别逐步判别 判别分析 本章介绍的判别分析适用于被解释变量是非度量变量的情形。在这种情况下,人们对于预测和解释影响一个对象...

    鄙人学习笔记



    判别分析

    本章介绍的判别分析适用于被解释变量是非度量变量的情形。在这种情况下,人们对于预测和解释影响一个对象所属类别的关系感兴趣,比如为什么某人是或者不是消费者,一家公司成功还是破产等。

    判别分析的基本思想

    • 基本思想

    当被解释变量是属性变量而解释变量是度量变量时,判别分析是合适的统计分析方法。
    当包含两组时,称作两组判别分析。当包含三组或者三组以上时,称作多组判别分析。
    判别分析最基本的要求是:分组类型在两组以上;每组案例的规模必须至少在一个以上。解释变量必须是可测量的,才能够计算其平均值和方差,使其能合理地应用于统计函数。

    • 判别分析的假设

    假设之一是:
    每一个判别变量(解释变量)不能是其他判别变量的线性组合。这时,为其他变量线性组合的判别变量不能提供新的信息,更重要的是在这种情况下无法估计判别函数。有时一个判别变量与另外的判别变量高度相关,或与另外的判别变量的线性组合高度相关,虽然能求解,但参数估计的标准误将很大,以至于参数估计统计上不显著。这就是通常所说的多重共线性问题。

    假设之二是:
    各组变量的协方差矩阵相等。

    假设之三是:
    各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。在这种条件下可以精确计算显著性检验值和分组归属的概率。

    距离判别

    两总体情况

    设有两个总体G1 和G2,x 是一个p 维样品,若能定义样品到总体G1 和G2 的距离d(x,G1)和d(x,G2),则可用如下的规则进行判别:若样品x 到总体G1 的距离小于到总体G2 的距离,则认为样品x 属于总体G1,反之,则认为样品x 属于总体G2;若样品x 到总体G1 和G2 的距离相等,则让它待判。这个准则的数学模型可作如下描述:


    当总体G1 和G2 为正态总体且协方差相等时,距离选用马氏距离,即

    当总体不是正态分布时,有时也可以用马氏距离来描述x 到总体的远近。
    若 ∑ 1= ∑2 = ∑,这时:


    令:

    于是判别规则可表示为:

    W( x)为判别函数,由于它是线性函数,又称为线性判别函数, α称为判别系数(类似于回归系数)。

    当两个总体协差阵∑1与∑2不等时,可用:

    作为判别函数,这时它是x的二次函数。

    当μ1,μ2,∑未知时,可通过样本来估计:

    设x1(1),…,xn1(1)是来自G1的样本,x1(2),…,xn2(2)是来自G2的样本,可以得到以下估计:

    其中,

    多总体情况

    • 协方差阵相等

    设有 k个总体 G1, G2,…, Gk,它们的均值分别是 µ1, µ2,…, µk,协差阵均为 ∑。类似于两总体的讨论,判别函数为:

    相应的判别规则是:

    当µ1,µ2,…,µk,∑ 未知时,设从Ga 中抽取的样本为x1(a),…,xna(a)(a = 1,2,…,k),则它们的估计为:

    式中:
    n =n1 +n2 +…+nk

    • 协方差阵不同

    这时判别函数为:

    判别规则为:

    当µ 1,µ 2,…,µ k,∑ 1,∑ 2,…,∑ k 未知时:

    贝叶斯判别

    • 贝叶斯统计的思想

    贝叶斯( Bayes)统计的思想是:假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识,然后我们取得一个样本,用样本来修正已有的认识(先验概率分布),得到后验概率分布,各种统计推断都通过后验概率分布来进行。将贝叶斯思想用于判别分析,就得到贝叶斯判别。

    费歇判别

    费歇( Fisher)判别的思想是投影,将 k组 p维数据投影到某一个方向,使得它们的投影组与组之间尽可能地分开。

    如何衡量组与组之间尽可能地分开呢?他借用了一元方差分析的思想。
    设从k 个总体分别取得k 组p 维观察值如下:

    令a 为Rp 中的任一向量,u(x)=a′x 为x 向以a 为法线方向的投影,这时,上述数据的投影:

    它正好组成一元方差分析的数据。

    其组间平方和为:

    其组内平方和为:

    式中,

    如果 k组均值有显著差异,则:

    应该充分大,或者:

    应该充分大。

    所以我们可以求 a,使得∆( a)达到最大。显然,这个 a并不唯一,因为如果 a使 ∆(·)达到极大,则 ca也使 ∆(·)达到极大, c为任意不等于零的实数。
    由矩阵知识,我们知道 ∆(·)的极大值为 λ 1,它是 ∣ B-λ E ∣= 0的最大特征根, l1, l2,…, lr为相应的特征向量,当 a= l1时,可使 ∆(·)达到最大。

    费歇准则下的线性判别函数 u( x)= a′ x的解 a为方程 ∣ B-λ E ∣= 0的最大特征根 λ1所对应的特征向量 l1,且相应的判别效率为 ʌ(l1)= λ 1

    在有些问题中,仅用一个线性判别函数不能很好地区别各个总体,可取 λ 2对应的特征向量 l2,建立第二个判别函数。如还不够,可建立第三个线性判别函数 ,依次类推。

    在费歇准则下的判别函数并不唯一,若 u( x)= l′ x为判别函数,则 au( x)+ β也为具有与 u( x)相同判别效率的判别函数。。不唯一性对制定判别规则并没有任何妨碍,我们可从中任取一个。一旦取定了判别函数,根据它就可以确定判别规则。

    逐步判别

    在多元回归中熟知,变量选择的好坏直接影响回归的效果,而在判别分析中也有类似的问题。理论和实践证明,指标太多了,不仅带来大量的计算,同时许多对判别无作用的指标反而会干扰我们的视线。因此,适当筛选变量的问题就成为一件很重要的事情。

    • 逐步判别的原则

    逐步判别的原则为:
    (一)在 x1, x2,…, xm(即 m个自变量)中先选出一个自变量,它使维尔克斯统计量 ʌ i( i= 1, 2,…, m)达到最小。
    假定挑选的变量次序是按自然的次序,即第 r步正好选中 xr,第一步选中 x1,则有 ʌ1= min{ ʌi} (1≤ i ≤ m),并考察 ʌ1是否落入接受域,如不显著,则表明一个变量也选不中,不能用判别分析;如显著,则进入下一步。
    (二)在未选中的变量中,计算它们与已选中的变量 x1配合的 ʌ值。选择使 ʌ1i( 2 ≤ i ≤ m)达到最小的作为第二个变量。
    (三)在已选入的 r个变量中,要考虑较早选中的变量中其重要性有没有较大的变化,应及时把不能提供附加信息的变量剔除出去。剔除的原则等同于引进的原则。
    (四)这时既不能选进新变量,又不能剔除已选进的变量,将已选中的变量建立判别函数。

    展开全文
  • 判别分析实例

    千次阅读 2011-04-24 17:08:00
    判别分析的方法主要有距离判别、Fisher判别、贝叶斯判别、逐步判别。 实例分析: Fisher于1936年发表的鸢尾花(Iris)数据被广泛地作为判别分析的例子。数据是对3种鸢尾花:刚毛鸢尾花(setosa第1组)、...

    转自课件:

    简介:

    别分析(Discriminate Analysis)是用以判别个体所属类体的一种统计方法,它根据已掌握类别信息,建立判别准则(判别函数),进而来判别未知样本所属的类别。判别分析的方法主要有距离判别、Fisher判别、贝叶斯判别、逐步判别。

    实例分析:

    Fisher1936年发表的鸢尾花(Iris)数据被广泛地作为判别分析的例子。数据是对3种鸢尾花:刚毛鸢尾花(setosa1组)、变色鸢尾花(versicolor2组)和佛吉尼亚鸢尾花(virginica3组)各抽取一个容量为50的样本,测量其花萼长(sepallenx1、花萼宽(sepalwidx2 、花瓣长(petallenx3、花瓣宽(petalwidx4,单位为mm,分组标记为S

    1.建立数据.

    proc format;
         value specname   1='Setosa'
                          2='Versicolor'
                          3='Virginica';
    run;
    data iris;
        title 'Discriminant Analysis of Fisher (1936) Iris Data';
        input sepallen sepalwid petallen petalwid species @@;
        format species specname.;
        label sepallen='Sepal Length in mm.'
              sepalwid='Sepal Width  in mm.'
              petallen='Petal Length in mm.'
              petalwid='Petal Width  in mm.';
        cards;
    50 33 14 02 1 64 28 56 22 3 65 28 46 15 2 67 31 56 24 3
    63 28 51 15 3 46 34 14 03 1 69 31 51 23 3 62 22 45 15 2
    59 32 48 18 2 46 36 10 02 1 61 30 46 14 2 60 27 51 16 2
    65 30 52 20 3 56 25 39 11 2 65 30 55 18 3 58 27 51 19 3
    68 32 59 23 3 51 33 17 05 1 57 28 45 13 2 62 34 54 23 3
    77 38 67 22 3 63 33 47 16 2 67 33 57 25 3 76 30 66 21 3
    49 25 45 17 3 55 35 13 02 1 67 30 52 23 3 70 32 47 14 2
    64 32 45 15 2 61 28 40 13 2 48 31 16 02 1 59 30 51 18 3
    55 24 38 11 2 63 25 50 19 3 64 32 53 23 3 52 34 14 02 1
    49 36 14 01 1 54 30 45 15 2 79 38 64 20 3 44 32 13 02 1
    67 33 57 21 3 50 35 16 06 1 58 26 40 12 2 44 30 13 02 1
    77 28 67 20 3 63 27 49 18 3 47 32 16 02 1 55 26 44 12 2
    50 23 33 10 2 72 32 60 18 3 48 30 14 03 1 51 38 16 02 1
    61 30 49 18 3 48 34 19 02 1 50 30 16 02 1 50 32 12 02 1
    61 26 56 14 3 64 28 56 21 3 43 30 11 01 1 58 40 12 02 1
    51 38 19 04 1 67 31 44 14 2 62 28 48 18 3 49 30 14 02 1
    51 35 14 02 1 56 30 45 15 2 58 27 41 10 2 50 34 16 04 1
    46 32 14 02 1 60 29 45 15 2 57 26 35 10 2 57 44 15 04 1
    50 36 14 02 1 77 30 61 23 3 63 34 56 24 3 58 27 51 19 3
    57 29 42 13 2 72 30 58 16 3 54 34 15 04 1 52 41 15 01 1
    71 30 59 21 3 64 31 55 18 3 60 30 48 18 3 63 29 56 18 3
    49 24 33 10 2 56 27 42 13 2 57 30 42 12 2 55 42 14 02 1
    49 31 15 02 1 77 26 69 23 3 60 22 50 15 3 54 39 17 04 1
    66 29 46 13 2 52 27 39 14 2 60 34 45 16 2 50 34 15 02 1
    44 29 14 02 1 50 20 35 10 2 55 24 37 10 2 58 27 39 12 2
    47 32 13 02 1 46 31 15 02 1 69 32 57 23 3 62 29 43 13 2
    74 28 61 19 3 59 30 42 15 2 51 34 15 02 1 50 35 13 03 1
    56 28 49 20 3 60 22 40 10 2 73 29 63 18 3 67 25 58 18 3
    49 31 15 01 1 67 31 47 15 2 63 23 44 13 2 54 37 15 02 1
    56 30 41 13 2 63 25 49 15 2 61 28 47 12 2 64 29 43 13 2
    51 25 30 11 2 57 28 41 13 2 65 30 58 22 3 69 31 54 21 3
    54 39 13 04 1 51 35 14 03 1 72 36 61 25 3 65 32 51 20 3
    61 29 47 14 2 56 29 36 13 2 69 31 49 15 2 64 27 53 19 3
    68 30 55 21 3 55 25 40 13 2 48 34 16 02 1 48 30 14 01 1
    45 23 13 03 1 57 25 50 20 3 57 38 17 03 1 51 38 15 03 1
    55 23 40 13 2 66 30 44 14 2 68 28 48 14 2 54 34 17 02 1
    51 37 15 04 1 52 35 15 02 1 58 28 51 24 3 67 30 50 17 2
    63 33 60 25 3 53 37 15 02 1          
     ;
     run;
     proc print data=iris;
     run;

    2.调用判别分析discrim过程

    proc stepdisc data=iris short sle=0.3 sls=0.05;

    /*逐步判别分析,对变量进行筛选,偏R方、F统计量值帮助得到建立判别函数的最优变量*/
       class species;
       var   sepallen sepalwid petallen petalwid ;
    run; 
    proc discrim  data=iris
       method=normal pool=test anova short  crosslisterr;
       class species;
       var petallen; /*依变量petalwid进行判别分析*/
    run;
    proc discrim  data=iris outstat=plotiris
       method=normal pool=test manova listerr crosslisterr;
       class species;
       var  petallen petalwid sepalwid sepallen  ;/*依四变量进行判别*/
    run;
    proc print   data=plotiris;
    run;

    3.利用判别函数来判别未知分类的数据

    用已知分类的样本数据iris作为判别标准,来判别不知分类的数据集newiris中的新数据的分类。注意iris数据集应与newiris数据集中具有相同的数据变量名和含义。为简单起见,我们将iris数据集中的已知分类species变量去掉,形成一个不知分类的新数据集newiris。可如下调用程序:

    data newiris (drop=species);
    set iris;
    run;
    proc print data=plotdata;
    run;
    proc discrim data=iris testdata=newiris testout=plotp1 testoutd=plotd1
                  method=normal pool=yes short noclassify crosslisterr;
        class species;
        var petallen ;
        title2 'Using Normal Density Estimates with Equal Variance';
    run;

    proc discrim data=iris testdata=newiris testout=plotp2 testoutd=plotd2
                  method=normal pool=no short noclassify crosslisterr;
        class species;
        var petallen ;
        title2 'Using Normal Density Estimates with Unequal Variance';
    run;
    proc print data=plotp;
    run;
    proc print data=plotd;
    run;
    proc discrim data=iris testdata=newiris testout=plotp3 testoutd=plotd3
                  method=npar kernel=normal r=.4 pool=yes
                  short noclassify crosslisterr;
        class species;
        var petallen ;
        title2 'Using Kernel Density Estimates with Equal Bandwidth';
    run;
    proc discrim data=iris testdata=newiris testout=plotp4 testoutd=plotd4
                  method=npar kernel=normal r=.4 pool=no
                  short noclassify crosslisterr;
        class species;
        var petallen ;
        title2 'Using Kernel Density Estimates with Unequal Bandwidth';
      run;

    4.调用典型判别CANDISC过程,输出典型变量散布图。

     proc candisc data=iris out=outcan distance anova;
     class species;
     var sepallen sepalwid petallen petalwid;
     run;
     proc print data=outcan;
     run;
     proc format;
         value specfmt   1='+'
                         2='c'
                         3='*';
    run;
    proc plot data=outcan formchar='|----|---' vpct=50 hpct=80;
    plot can2*can1=species;
    format species specfmt.;
    title2 'Plot of Canonical Variables';
    run;

    展开全文
  • 本文利用潘北煤矿55个典型水样,选取Ca2+、Mg2+、Na++K+、HCO3-、Cl-、SO42-、碱度、总硬度、矿化度以及pH共10个判别指标,基于多元逐步Bayes判别分析理论,建立突水水源判别模型,并进行回判检验。结果表明:该模型的判...
  • 基于聚类分析和判别分析方法的股票投资价值研究,吴冲,王栋 ,随着市场投资理念逐步转向价值投资,上市公司基本面的变化将更受关注.中小企业作为新兴的资本市场板块,具有重要的研究意义.现利用38
  • 为准确评价底板突水危险性,考虑到不同影响因素对于评价方法的作用与影响不同,运用逐步判别法剔除了判别效果不显著的指标,选取了含水层富水性、水压、隔水层厚度、断层导水性、构造发育程度5项主要影响因素作为判别...
  • 为了更准确地预测岩溶塌陷,基于...随后将上述预测结果与前人运用逐步判别、神经网络判别等方法得到的结果进行比较分析,认为Fisher判别分析法具有不需进行模型和参数的选择以及不受人为因素的影响等优点;最后将建立
  • 选取地下含水层中的Ca2+、Mg2+、K+、Na+、HCO3-、Cl-、SO42-、总硬度、碱度、pH值和矿化度作为突水来源的判别指标,基于逐步Bayes判别分析理论,以20组水化数据作为训练样本,建立矿井突水水源的逐步Bayes判别模型并...
  • 为了快速判别矿井突水水源,进而为防治矿井水害服务,以水质指标为判别因子,应用可拓识别...将结果与模糊综合法、灰色关联度法、Bayes逐步判别分析法分别进行比较,其正确率略高于前两者,与Bayes逐步分析法判别结果相同.
  • 以徐庄煤矿为例,分析了矿井4个突水水源的水化学成分;应用逐步判别方法建立了徐庄煤矿突水水源判别模型,经检验,该模型具有较好的判别效果。对矿井突水水源判别及防治水工作具有一定的指导意义。
  • 为了实现对矿井突水进行准确快速地水源类型判别,分析孙疃矿主要含水层的水化学特征,以Na++K+、Ca2+、Mg2+、Cl-、SO2-4、HCO-3实测含量为依据,借助SPSS统计软件对主要含水层水样进行逐步判别分析。在此基础之上,筛选...
  • 开滦唐山矿9水平在其上覆个体煤矿闭坑后发生涌水,为分析涌水水源,在综合分析唐山矿水文地质条件的基础上,根据水常规测试资料,应用聚类分析、逐步判别分析、人工神经网络分析等非线性方法对涌水水源进行了快速判别;...
  • 利用超声波监听仪(D980)在同一研究区域内记录到5种蝙蝠63个个体自然飞行状态下回声定位的叫声138次。依据声谱图可分为(FM/)CF/FM型(马铁菊头蝠...采用逐步判别分析方法对其他4种蝙蝠回声定位声波的6个参数进行
  • 并结合水化学三线图、离子浓度之间的相互关系与系统聚类逐步判别的方法,确定和建立了郑村区块主要含水层的水化学特征及判别函数。通过判别分析,识别了郑村区块煤层气井产出水来源并给与有效验证。
  • 分析生态对策从典型的 k-选择类型到典型的 r-选择类型的 6类共 28种淡水鱼类,用逐步判别法对这些鱼类的 7项生态参数变量(渐近体长 L∞,渐近体重 m∞,生长系数K,初次性成熟年龄 tm,最大性成熟年龄 tmax,瞬时自然死亡...
  • 2010年7-8月,在重庆大木山自然保护区设点对红腹锦鸡沙浴地进行研究,共测定了...逐步判别分析表明,草本高度、隐蔽级、林缘距离、灌丛密度、乔木直径和灌丛高度具有重要作用,由这6个变量构成的方程在对利用样方和对照样方
  • 测量了代表刀鱿种群和湖跻种群形态特征的传统可量性状和框架参数,采用主成分分析法和逐步判别法,对它们进行形态综合分析。结果表明:两种群的形态差异主要是受额部有鳞部最前缘到背鳍起点的距离所影响的;所有25个...
  • 针对情感声学特征在语音情感识别中的重要性问题,运用优先选择、序列前向、序列后向和逐步判别分析进行了特征选择.对说话人和文本均无关、说话人相关2组普通话情感语音进行特征选择,然后利用线性判别分析和支持...
  • 为了准确而快速地判别矿井突水水源,以聚类分析、灰色关联分析、多元逐步判别分析3种方法建立了矿井突水水源判别模型,提出了通过适应性来选择具体矿井或矿区的判别方法,利用粗糙集理论的属性约简来筛选水化学特征指标...
  • 鉴于矿井水对矿井安全生产的重要意义及钱家营矿区复杂的水文地质条件,利用piper三线图、聚类分析逐步判别等方法对样品常规水质数据、微量元素数据进行分析,研究钱家营矿区区域水化学特征及各含水层间的联系。...
  • 本文根据50余座山塘水库的泥沙实测数据,...文中还根据土壤侵蚀模数及其主要影响因素,使用逐步判别分析力法,对土壤侵蚀强度进行了分级,从而提高了分级的可靠性。该研究成果可应用于四川盆地的高丘中谷及中丘中谷地区。
  • 介绍了熵权模糊综合评判方法的基本原理,通过实例分析,逐步建立了单因素和模糊综合评判矩阵,利用熵权法确定了各指标对评价结果的贡献系数,通过模糊综合评判模型实现了待判水样突水水源的准确判别。结果表明:定量化的...
  • 然后,采用逐步判别分析方法对8个林分类型分别建立了判别函数,并据此预测该地天然沙棘林类型。林分类型划分的基点是以沙棘产果的林分生产力为依据,除了确定以产果为主的改造利用类型外,其余类型因不具备建设产果基地...

空空如也

空空如也

1 2 3 4 5
收藏数 90
精华内容 36
关键字:

逐步判别分析