精华内容
下载资源
问答
  • 数据挖掘中所需的概率论与数理统计知识

    万次阅读 多人点赞 2012-12-17 19:24:47
    数据挖掘中所需的概率论与数理统计知识  (关键词:微积分、概率分布、期望、方差、协方差、数理统计简史、大数定律、中心极限定理、正态分布)   导言:本文从微积分相关概念,梳理到概率论与数理统计中的...

    数据挖掘中所需的概率论与数理统计知识

      (关键词:微积分、概率分布、期望、方差、协方差、数理统计简史、大数定律、中心极限定理、正态分布)

     

    导言:本文从微积分相关概念,梳理到概率论与数理统计中的相关知识,但本文之压轴戏在本文第4节彻底颠覆以前读书时大学课本灌输给你的观念,一探正态分布之神秘芳踪,知晓其前后发明历史由来),相信,每一个学过概率论与数理统计的朋友都有必要了解数理统计学简史,因为,只有了解各个定理.公式的发明历史,演进历程.相关联系,才能更好的理解你眼前所见到的知识,才能更好的运用之。

    PS:《机器学习中的数学班》:https://www.julyedu.com/category/index/12。专为复习、巩固机器学习中所需的数学基础,包括微积分、概率统计、线性代数、凸优化

     

     

    前言

        一个月余前,在微博上感慨道,不知日后是否有无机会搞DM,微博上的朋友“只看不发的围脖”评论道:算法研究领域,那里要的是数学,你可以深入学习数学,将算法普及当兴趣。想想,甚合我意。自此,便从rickjin写的“正态分布的前世今生”开始研习数学。

        如之前微博上所说,“今年5月接触DM,循序学习决策树.贝叶斯,SVM.KNN,感数学功底不足,遂补数学,从‘正态分布的前后今生’中感到数学史有趣,故买本微积分概念发展史读,在叹服前人伟大的创造之余,感微积分概念模糊,复习高等数学上册,完后学概率论与数理统计,感概道:微积分是概数统计基础,概数统计则是DM&ML之必修课。”包括读者相信也已经感觉到,我在写这个Top 10 Algorithms in Data Mining系列的时候,其中涉及到诸多的数学概念与基础知识(例如此篇SVM文章内诸多max.s.t.对偶.KKT条件.拉格朗日.松弛因子等问题则皆属于数学内一分支:最优化理论与算法范畴内),特别是概率论与数理统计部分。更进一步,在写上一篇文章的时候,看到机器学习中那么多距离度量的表示法,发现连最起码的期望,方差,标准差等基本概念都甚感模糊,于此,便深感数学之重要性。

        很快,我便买了一本高等教育出版社出版的概率论与数理统计一书,此书“从0-1分布、到二项分布、正态分布,概率密度函数,从期望到方差、标准差、协方差,中心极限定理,样本和抽样,从最大似然估计量到各种置信区间,从方差分析到回归分析,bootstrap方法,最后到马尔可夫链,以前在学校没开概率论与数理统计这门课,现在有的学有的看了”。且人类发明计算机,是为了辅助人类解决现实生活中遇到的问题,然计算机科学毕竟只发展了数十年,可在数学.统计学中,诸多现实生活问题已经思考了数百年甚至上千年,故,计算机若想更好的服务人类解决问题,须有效借鉴或参考数学.统计学。世间万事万物,究其本质乃数学,于变化莫测中寻其规律谓之统计学。

        话休絮烦。本文结合高等数学上下册、微积分概念发展史,概率论与数理统计、数理统计学简史等书,及rickjin写的“正态分布的前世今生”系列(此文亦可看作读书笔记或读后感)与wikipedia整理而成,对数据挖掘中所需的概率论与数理统计相关知识概念作个总结梳理,方便你我随时查看复习相关概念,而欲深入学习研究的课后还需参看相关专业书籍.资料。同时,本文篇幅会比较长,简单来说:

    1. 第一节、介绍微积分中极限、导数,微分、积分等相关概念;
    2. 第二节、介绍随机变量及其分布;
    3. 第三节、介绍数学期望.方差.协方差.相关系数.中心极限定理等概念;
    4. 第四节、依据数理统计学简史介绍正态分布的前后由来;
    5. 第五节、论道正态,介绍正态分布的4大数学推导。

        这五个部分起承转合,彼此依托,层层递进。且在本文中,会出现诸多并不友好的大量各种公式,但基本的概念.定理是任何复杂问题的根基,所以,你我都有必要硬着头皮好好细细阅读。最后,本文若有任何问题或错误,恳请广大读者朋友们不吝批评指正,谢谢。

     

    第一节、微积分的基本概念

        开头前言说,微积分是概数统计基础,概数统计则是DM&ML之必修课”,是有一定根据的,包括后续数理统计当中,如正态分布的概率密度函数中用到了相关定积分的知识,包括最小二乘法问题的相关探讨求证都用到了求偏导数的等概念,这些都是跟微积分相关的知识。故咱们第一节先复习下微积分的相关基本概念。

        事实上,古代数学中,单单无穷小、无穷大的概念就讨论了近200年,而后才由无限发展到极限的概念。

    1.1、极限

        极限又分为两部分:数列的极限和函数的极限。

    1.1.1、数列的极限

        定义  如果数列{xn}与常a 有下列关系:对于任意给定的正数e (不论它多么小), 总存在正整数N , 使得对于n >N 时的一切xn, 不等式 |xn-a |<e都成立, 则称常数a 是数列{xn}的极限, 或者称数列{xn}收敛于a , 记为

        也就是说,

    1.1.2、函数的极限

        设函数f(x)在点x0的某一去心邻域内有定义. 如果存在常数A, 对于任意给定的正数e (不论它多么小), 总存在正数d, 使得当x满足不等式0<|x-x0|<d 时, 对应的函数值f(x)都满足不等式     |f(x)-A|<e , 那么常数A就叫做函数f(x)时的极限, 记为

        也就是说,

        几乎没有一门新的数学分支是某个人单独的成果,如笛卡儿和费马的解析几何不仅仅是他们两人研究的成果,而是若干数学思潮在16世纪和17世纪汇合的产物,是由许许多多的学者共同努力而成。

        甚至微积分的发展也不是牛顿与莱布尼茨两人之功。在17世纪下半叶,数学史上出现了无穷小的概念,而后才发展到极限,到后来的微积分的提出。然就算牛顿和莱布尼茨提出了微积分,但微积分的概念尚模糊不清,在牛顿和莱布尼茨之后,后续经过一个多世纪的发展,诸多学者的努力,才真正清晰了微积分的概念。

        也就是说,从无穷小到极限,再到微积分定义的真正确立,经历了几代人几个世纪的努力,而课本上所呈现的永远只是冰山一角。

    1.2、导数

        设有定义域和取值都在实数域中的函数。若在点的某个邻域内有定义,则当自变量处取得增量(点仍在该邻域内)时,相应地函数取得增量;如果之比当时的极限存在,则称函数在点处可导,并称这个极限为函数在点处的导数,记为

        即:

        也可记为:

    1.3、微分

        设函数在某区间内有定义。对于内一点,当变动到附近的也在此区间内)时。如果函数的增量可表示为(其中是不依赖于的常数),而是比高阶的无穷小,那么称函数在点是可微的,且称作函数在点相应于自变量增量的微分,记作,即的线性主部。通常把自变量的增量称为自变量的微分,记作,即。 

        实际上,前面讲了导数,而微积分则是在导数的基础上加个后缀,即为:

     

    1.4、积分 

        积分是微积分学与数学分析里的一个核心概念。通常分为定积分和不定积分两种。

    不定积分的定义

        一个函数的不定积分,也称为原函数或反导数,是一个导数等于的函数,即

        不定积分的有换元积分法,分部积分法等求法。

    定积分的定义

        直观地说,对于一个给定的正实值函数,在一个实数区间上的定积分:

        定积分与不定积分区别在于不定积分便是不给定区间,也就是说,上式子中,积分符号没有a、b。下面,介绍定积分中值定理。

        如果函数f(x)在闭区间[a,b]上连续, 则在积分区间[a,b]上至少存在一个点,使下式成立:

        这个公式便叫积分中值公式。

    牛顿-莱布尼茨公式

        接下来,咱们讲介绍微积分学中最重要的一个公式:牛顿-莱布尼茨公式。

         如果函数F (x)是连续函数f(x)在区间[a, b]上的一个原函数, 则

        此公式称为牛顿-莱布尼茨公式, 也称为微积分基本公式。这个公式由此便打通了原函数与定积分之间的联系,它表明:一个连续函数在区间[a, b]上的定积分等于它的任一个原函数在区间[a, b]上的增量,如此,便给定积分提供了一个有效而极为简单的计算方法,大大简化了定积分的计算手续。

        下面,举个例子说明如何通过原函数求取定积分。

        如要计算,由于的一个原函数,所以

    1.5、偏导数

        对于二元函数z = f(x,y) 如果只有自变量x 变化,而自变量y固定 这时它就是x的一元函数,这函数对x的导数,就称为二元函数z = f(x,y)对于x的偏导数。
        定义  设函数z = f(x,y)在点(x0,y0)的某一邻域内有定义,当y固定在y0而x在x0处有增量时,相应地函数有增量

        如果极限

        存在,则称此极限为函数z = f(x,y)在点(x0,y0)处对 x 的偏导数,记作:

        例如。类似的,二元函数对y求偏导,则把x当做常量。

        此外,上述内容只讲了一阶偏导,而有一阶偏导就有二阶偏导,这里只做个简要介绍,具体应用具体分析,或参看高等数学上下册相关内容。接下来,进入本文的主题,从第二节开始。

     

     

    第二节、离散.连续.多维随机变量及其分布

    2.1、几个基本概念点

    (一)样本空间

             定义:随机试验E的所有结果构成的集合称为E的 样本空间,记为S={e},
            称S中的元素e为样本点,一个元素的单点集称为基本事件.

    (二)条件概率

    1. 条件概率就是事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在B条件下A的概率”。
    2. 联合概率表示两个事件共同发生的概率。A与B的联合概率表示为或者
    3. 边缘概率是某个事件发生的概率。边缘概率是这样得到的:在联合概率中,把最终结果中不需要的那些事件合并成其事件的全概率而消失(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率)。这称为边缘化(marginalization)。A的边缘概率表示为P(A),B的边缘概率表示为P(B)。 

     在同一个样本空间Ω中的事件或者子集A与B,如果随机从Ω中选出的一个元素属于B,那么这个随机选择的元素还属于A的概率就定义为在B的前提下A的条件概率。从这个定义中,我们可以得出P(A|B) = |A∩B|/|B|分子、分母都除以|Ω|得到

        有时候也称为后验概率。

        同时,P(A|B)与P(B|A)的关系如下所示:

        。 

    (三)全概率公式和贝叶斯公式

        1、全概率公式

        假设{ Bn : n = 1, 2, 3, ... } 是一个概率空间的有限或者可数无限的分割,且每个集合Bn是一个可测集合,则对任意事件A有全概率公式:

     

        又因为

     

        所以,此处Pr(A | B)是B发生后A的条件概率,所以全概率公式又可写作:

     

         在离散情况下,上述公式等于下面这个公式:。但后者在连续情况下仍然成立:此处N是任意随机变量。这个公式还可以表达为:"A的先验概率等于A的后验概率的先验期望值。 

        2、贝叶斯公式

        贝叶斯定理(Bayes' theorem),是概率论中的一个结果,它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解说中,贝叶斯定理(贝叶斯更新)能够告知我们如何利用新证据修改已有的看法。
        通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯定理就是这种关系的陈述。

        如此篇blog第二部分所述“据维基百科上的介绍,贝叶斯定理实际上是关于随机事件A和B的条件概率和边缘概率的一则定理。

       如上所示,其中P(A|B)是在B发生的情况下A发生的可能性。在贝叶斯定理中,每个名词都有约定俗成的名称:

    • P(A)是A的先验概率或边缘概率。之所以称为"先验"是因為它不考虑任何B方面的因素。
    • P(A|B)是已知B发生后A的条件概率(直白来讲,就是先有B而后=>才有A),也由于得自B的取值而被称作A的后验概率。
    • P(B|A)是已知A发生后B的条件概率(直白来讲,就是先有A而后=>才有B),也由于得自A的取值而被称作B的后验概率。
    • P(B)是B的先验概率或边缘概率,也作标准化常量(normalized constant)。

        按这些术语,Bayes定理可表述为:后验概率 = (相似度*先验概率)/标准化常量,也就是說,后验概率与先验概率和相似度的乘积成正比。另外,比例P(B|A)/P(B)也有时被称作标准相似度(standardised likelihood),Bayes定理可表述为:后验概率 = 标准相似度*先验概率。”    综上,自此便有了一个问题,如何从从条件概率推导贝叶斯定理呢?

         根据条件概率的定义,在事件B发生的条件下事件A发生的概率是

     

        同样地,在事件A发生的条件下事件B发生的概率

     

         整理与合并这两个方程式,我们可以找到

     

         这个引理有时称作概率乘法规则。上式两边同除以P(B),若P(B)是非零的,我们可以得到贝叶斯定理

    2.2、随机变量及其分布

    2.2.1、何谓随机变量

        何谓随机变量?即给定样本空间,其上的实值函数称为(实值)随机变量。

        如果随机变量的取值是有限的或者是可数无穷尽的值,则称为离散随机变量(用白话说,此类随机变量是间断的)。

        如果由全部实数或者由一部分区间组成,则称为连续随机变量,连续随机变量的值是不可数及无穷尽的(用白话说,此类随机变量是连续的,不间断的):

     

        也就是说,随机变量分为离散型随机变量,和连续型随机变量,当要求随机变量的概率分布的时候,要分别处理之,如:

    • 针对离散型随机变量而言,一般以加法的形式处理其概率和;
    • 而针对连续型随机变量而言,一般以积分形式求其概率和。

        再换言之,对离散随机变量用求和得全概率,对连续随机变量用积分得全概率。这点包括在第4节中相关期望.方差.协方差等概念会反复用到,望读者注意之。

    2.2.2、离散型随机变量的定义

        定义:取值至多可数的随机变量为离散型的随机变量。概率分布(分布律)为

        且

    (一)(0-1)分布

         若X的分布律为:

         同时,p+q=1,p>0,q>0,则则称X服从参数为p的0-1分布,或两点分布。

        此外,(0-1)分布的分布律还可表示为:

        或

        

        我们常说的抛硬币实验便符合此(0-1)分布。

    (二)、二项分布

        二项分布是n个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。举个例子就是,独立重复地抛n次硬币,每次只有两个可能的结果:正面,反面,概率各占1/2。

        设A在n重贝努利试验中发生X次,则

        并称X服从参数为p的二项分布,记为:

        与此同时,

    (三)、泊松分布(Poisson分布)

            Poisson分布(法语:loi de Poisson,英语:Poisson distribution),即泊松分布,是一种统计与概率学里常见到的离散概率分布,由法国数学家西莫恩·德尼·泊松(Siméon-Denis Poisson)在1838年时发表。

        若随机变量X的概率分布律为

        称X服从参数为λ的泊松分布,记为:

        有一点提前说一下,泊松分布中,其数学期望与方差相等,都为参数λ。 

    泊松分布的来源

        在二项分布的伯努力试验中,如果试验次数n很大,二项分布的概率p很小,且乘积λ= n p比较适中,则事件出现的次数的概率可以用泊松分布来逼近。事实上,二项分布可以看作泊松分布在离散时间上的对应物。证明如下。

        首先,回顾e的定义:

        二项分布的定义:

        如果令趋于无穷时的极限:

        上述过程表明:Poisson(λ) 分布可以看成是二项分布 B(n,p) 在 np=λ,n→∞ 条件下的极限分布。

    最大似然估计

        给定n个样本值ki,希望得到从中推测出总体的泊松分布参数λ的估计。为计算最大似然估计值, 列出对数似然函数:

        对函数L取相对于λ的导数并令其等于零:

        解得λ从而得到一个驻点(stationary point):

        检查函数L的二阶导数,发现对所有的λ 与ki大于零的情况二阶导数都为负。因此求得的驻点是对数似然函数L的极大值点:

        证毕。OK,上面内容都是针对的离散型随机变量,那如何求连续型随机变量的分布律呢?请接着看以下内容。

     

    2.2.3、随机变量分布函数定义的引出

        实际中,如上2.2.2节所述,

    • 对于离散型随机变量而言,其所有可能的取值可以一一列举出来,
    • 可对于非离散型随机变量,即连续型随机变量X而言,其所有可能的值则无法一一列举出来,

        故连续型随机变量也就不能像离散型随机变量那般可以用分布律来描述它,那怎么办呢(事实上,只有因为连续,所以才可导,所以才可积分,这些东西都是相通的。当然了,连续不一定可导,但可导一定连续)?

        既然无法研究其全部,那么我们可以转而去研究连续型随机变量所取的值在一个区间(x1,x2] 的概率:P{x1 < X <=x2 },同时注意P{x1 < X <=x2 } = P{X <=x2} - P{X <=x1},故要求P{x1 < X <=x2 } ,我们只需求出P{X <=x2} 和 P{X <=x1} 即可。

        针对随机变量X,对应变量x,则P(X<=x) 应为x的函数。如此,便引出了分布函数的定义。

        定义:随机变量X,对任意实数x,称函数F(x) = P(X <=x ) 为X 的概率分布函数,简称分布函数。

        F(x)的几何意义如下图所示:

        且对于任意实数x1,x2(x1<x2),有P{x1<X<=x2} = P{X <=x2} - P{X <= x1} = F(x2) - F(x1)。

        同时,F(X)有以下几点性质:

     

    2.2.4、连续型随机变量及其概率密度

        定义:对于随机变量X的分布函数F(x),若存在非负的函数f(x),使对于任意实数x,有:

         则称X为连续型随机变量,其中f(x)称为X的概率密度函数,简称概率密度。连续型随机变量的概率密度f(x)有如下性质:

    (针对上述第3点性质,我重点说明下:

      1. 在上文第1.4节中,有此牛顿-莱布尼茨公式:如果函数F (x)是连续函数f(x)在区间[a, b]上的一个原函数, 则
      2. 在上文2.2.3节,连续随机变量X 而言,对于任意实数a,b(a<b),有P{a<X<=b} = P{X <=b} - P{X <= a} = F(b) - F(a);

    故结合上述两点,便可得出上述性质3)

        且如果概率密度函数在一点上连续,那么累积分布函数可导,并且它的导数:。如下图所示:

        接下来,介绍三种连续型随机变量的分布,由于均匀分布及指数分布比较简单,所以,一图以概之,下文会重点介绍正态分布。

    (一)、均匀分布

        若连续型随机变量X具有概率密度

        则称X 在区间(a,b)上服从均匀分布,记为X~U(a,b)。

        易知,f(x) >= 0,且其期望值为(a + b)/ 2。

    (二)、指数分布

        若连续型随机变量X 的概率密度为

      

        其中λ>0为常数,则称X服从参数为λ的指数分布。记为

    (三)、正态分布

         在各种公式纷至沓来之前,我先说一句:正态分布没有你想的那么神秘,它无非是研究误差分布的一个理论,因为实践过程中,测量值和真实值总是存在一定的差异,这个不可避免的差异即误差,而误差的出现或者分布是有规律的,而正态分布不过就是研究误差的分布规律的一个理论。

        OK,若随机变量服从一个位置参数为、尺度参数为的概率分布,记为: 

        则其概率密度函数为

        我们便称这样的分布为正态分布或高斯分布,记为:

        正态分布的数学期望值或期望值等于位置参数,决定了分布的位置;其方差的开平方,即标准差等于尺度参数,决定了分布的幅度。正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线。它有以下几点性质,如下图所示:

        正态分布的概率密度曲线则如下图所示:

     

        当固定尺度参数,改变位置参数的大小时,f(x)图形的形状不变,只是沿着x轴作平移变换,如下图所示:

        而当固定位置参数,改变尺度参数的大小时,f(x)图形的对称轴不变,形状在改变,越小,图形越高越瘦,越大,图形越矮越胖。如下图所示:

        故有咱们上面的结论,在正态分布中,称μ为位置参数(决定对称轴位置),而 σ为尺度参数(决定曲线分散性)。同时,在自然现象和社会现象中,大量随机变量服从或近似服从正态分布。

        而我们通常所说的标准正态分布是位置参数, 尺度参数的正态分布,记为:

        相关内容如下两图总结所示(来源:大嘴巴漫谈数据挖掘):

    2.2.5、各种分布的比较

        上文中,从离散型随机变量的分布:(0-1)分布、泊松分布、二项分布,讲到了连续型随机变量的分布:均匀分布、指数分布、正态分布,那这么多分布,其各自的期望.方差(期望方差的概念下文将予以介绍)都是多少呢?虽说,还有不少分布上文尚未介绍,不过在此,提前总结下,如下两图所示(摘自盛骤版的概率论与数理统计一书后的附录中):

        本文中,二维.多维随机变量及其分布不再论述。

     

     

     

    第三节、从数学期望、方差、协方差到中心极限定理

    3.1、数学期望、方差、协方差

    3.1.1、数学期望

         如果X是在概率空间(Ω, P)中的一个随机变量,那么它的期望值E[X]的定义是:

         并不是每一个随机变量都有期望值的,因为有的时候这个积分不存在。如果两个随机变量的分布相同,则它们的期望值也相同。

        在概率论和统计学中,数学期望分两种(依照上文第二节相关内容也可以得出),一种为离散型随机变量的期望值,一种为连续型随机变量的期望值。

    • 一个离散性随机变量的期望值(或数学期望、或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。换句话说,期望值是随机试验在同样的机会下重复多次的结果计算出的等同“期望”的平均值。

        例如,掷一枚六面骰子,得到每一面的概率都为1/6,故其的期望值是3.5,计算如下:

        承上,如果X 是一个离散的随机变量,输出值为x1, x2, ..., 和输出值相应的概率为p1, p2, ...(概率和为1),若级数绝对收敛,那么期望值E[X]是一个无限数列的和:

        上面掷骰子的例子就是用这种方法求出期望值的。 

    • 而对于一个连续型随机变量来说,如果X的概率分布存在一个相应的概率密度函数f(x),若积分绝对收敛,那么X 的期望值可以计算为: 

        

        实际上,此连续随机型变量的期望值的求法与离散随机变量的期望值的算法同出一辙,由于输出值是连续的,只不过是把求和改成了积分。

    3.1.2、方差与标准差

    方差    

        在概率论和统计学中,一个随机变量的方差(Variance)描述的是它的离散程度,也就是该变量离其期望值的距离。一个实随机变量的方差也称为它的二阶矩或二阶中心动差,恰巧也是它的二阶累积量。方差的算术平方根称为该随机变量的标准差。

        其定义为:如果是随机变量X的期望值(平均数) 设为服从分布的随机变量,则称为随机变量或者分布的方差:

        其中,μ为平均数,N为样本总数。 

        分别针对离散型随机变量和连续型随机变量而言,方差的分布律和概率密度如下图所示:

    标准差

        标准差(Standard Deviation),在概率统计中最常使用作为统计分布程度(statistical dispersion)上的测量。标准差定义为方差的算术平方根,反映组内个体间的离散程度。

        简单来说,标准差是一组数值自平均值分散开来的程度的一种测量观念。一个较大的标准差,代表大部分的数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。例如,两组数的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是 7 ,但第二个集合具有较小的标准差。

        前面说过,方差的算术平方根称为该随机变量的标准差,故一随机变量的标准差定义为:

        须注意并非所有随机变量都具有标准差,因为有些随机变量不存在期望值。 如果随机变量具有相同概率,则可用上述公式计算标准差。 

        上述方差.标准差等相关内容,可用下图总结之:

    样本标准差

        在真实世界中,除非在某些特殊情况下,找到一个总体的真实的标准差是不现实的。大多数情况下,总体标准差是通过随机抽取一定量的样本并计算样本标准差估计的。说白了,就是数据海量,想计算总体海量数据的标准差无异于大海捞针,那咋办呢?抽取其中一些样本作为抽样代表呗。

        而从一大组数值当中取出一样本数值组合,进而,我们可以定义其样本标准差为:

        样本方差是对总体方差的无偏估计。  中分母为 n-1 是因为的自由度为n-1(且慢,何谓自由度?简单说来,即指样本中的n个数都是相互独立的,从其中抽出任何一个数都不影响其他数据,所以自由度就是估计总体参数时独立数据的数目,而平均数是根据n个独立数据来估计的,因此自由度为n),这是由于存在约束条件。 

    3.1.3、协方差与相关系数

    协方差

        下图即可说明何谓协方差,同时,引出相关系数的定义:

     

    相关系数 

        如上篇kd树blog所述相关系数 ( Correlation coefficient )的定义是:

    (其中,E为数学期望或均值,D为方差,D开根号为标准差,E{ [X-E(X)] [Y-E(Y)]}称为随机变量X与Y的协方差,记为Cov(X,Y),即Cov(X,Y) = E{ [X-E(X)] [Y-E(Y)]},而两个变量之间的协方差和标准差的商则称为随机变量X与Y的相关系数,记为)
        相关系数衡量随机变量X与Y相关程度的一种方法,相关系数的取值范围是[-1,1]。相关系数的绝对值越大,则表明X与Y相关度越高。当X与Y线性相关时,相关系数取值为1(正线性相关)或-1(负线性相关)。
        具体的,如果有两个变量:X、Y,最终计算出的相关系数的含义可以有如下理解:

    1. 当相关系数为0时,X和Y两变量无关系。
    2. 当X的值增大(减小),Y值增大(减小),两个变量为正相关,相关系数在0.00与1.00之间。
    3. 当X的值增大(减小),Y值减小(增大),两个变量为负相关,相关系数在-1.00与0.00之间。

       根据相关系数,相关距离可以定义为:

        这里只对相关系数做个简要介绍,欲了解机器学习中更多相似性距离度量表示法,可以参看上篇kd树blog第一部分内容。

        自此,已经介绍完期望方差协方差等基本概念,但一下子要读者接受那么多概念,怕是有难为读者之嫌,不如再上几幅图巩固下上述相关概念吧(来源:大嘴巴满谈数据挖掘):

    3.1.4、协方差矩阵与主成成分分析

    协方差矩阵

        由上,我们已经知道:协方差是衡量两个随机变量的相关程度。且随机变量 之间的协方差可以表示为

                                                             

         故根据已知的样本值可以得到协方差的估计值如下:

                                                   

        可以进一步地简化为:

                                                                 

        如此,便引出了所谓的协方差矩阵: 

    主成成分分析

        尽管从上面看来,协方差矩阵貌似很简单,可它却是很多领域里的非常有力的工具。它能导出一个变换矩阵,这个矩阵能使数据完全去相关(decorrelation)。从不同的角度看,也就是说能够找出一组最佳的基以紧凑的方式来表达数据。这个方法在统计学中被称为主成分分析(principal components analysis,简称PCA),在图像处理中称为Karhunen-Loève 变换(KL-变换)。

        根据wikipedia上的介绍,主成分分析PCA由卡尔·皮尔逊于1901年发明,用于分析数据及建立数理模型。其方法主要是通过对协方差矩阵进行特征分解,以得出数据的主成分(即特征矢量)与它们的权值(即特征值)。PCA是最简单的以特征量分析多元统计分布的方法。其结果可以理解为对原数据中的方差做出解释:哪一个方向上的数据值对方差的影响最大。

        然为何要使得变换后的数据有着最大的方差呢?我们知道,方差的大小描述的是一个变量的信息量,我们在讲一个东西的稳定性的时候,往往说要减小方差,如果一个模型的方差很大,那就说明模型不稳定了。但是对于我们用于机器学习的数据(主要是训练数据),方差大才有意义,不然输入的数据都是同一个点,那方差就为0了,这样输入的多个数据就等同于一个数据了。

        简而言之,主成分分析PCA,留下主成分,剔除噪音,是一种降维方法,限高斯分布,n维眏射到k维,

     

    1. 减均值,
    2. 求特征协方差矩阵,
    3. 求协方差的特征值和特征向量,
    4. 取最大的k个特征值所对应的特征向量组成特征向量矩阵,
    5. 投影数据=原始样本矩阵x特征向量矩阵。其依据为最大方差,最小平方误差或坐标轴相关度理论,及矩阵奇异值分解SVD(即SVD给PCA提供了另一种解释)。

        也就是说,高斯是0均值,其方差定义了信噪比,所以PCA是在对角化低维表示的协方差矩阵,故某一个角度而言,只需要理解方差、均值和协方差的物理意义,PCA就很清晰了。

     

     

        再换言之,PCA提供了一种降低数据维度的有效办法;如果分析者在原数据中除掉最小的特征值所对应的成分,那么所得的低维度数据必定是最优化的(也即,这样降低维度必定是失去讯息最少的方法)。主成分分析在分析复杂数据时尤为有用,比如人脸识别。

    3.2、中心极限定理

        本节先给出现在一般的概率论与数理统计教材上所介绍的2个定理,然后简要介绍下中心极限定理的相关历史。

    3.2.1、独立同分布的中心极限定理

        独立中心极限定理如下两图所示:

    3.2.2、棣莫弗-拉普拉斯中心极限定理

     

        此外,据wikipedia上的介绍,包括上面介绍的棣莫弗-拉普拉斯定理在内,历史上前后发展了三个相关的中心极限定理,它们得出的结论及内容分别是:

    • 棣莫弗-拉普拉斯(de Movire - Laplace)定理是中心极限定理的最初版本,讨论了服从二项分布的随机变量序列。
     其内容为:若是n次伯努利实验中事件A出现的次数,,则对任意有限区间
    (i)当时,一致地有

    (ii)当时,一致地有, 

    ,其中

             它指出,参数为n, p的二项分布以np为均值、np(1-p)为方差的正态分布为极限。    

    • 林德伯格-列维(Lindeberg-Levy)定理,是棣莫佛-拉普拉斯定理的扩展,讨论独立同分布随机变量序列的中心极限定理。
     其内容为:设随机变量独立同分布, 且具有有限的数学期望和方差

    ,则,其中是标准正态分布的分布函数。 

        它表明,独立同分布、且数学期望和方差有限的随机变量序列的标准化和以标准正态分布为极限。

    • 林德伯格-费勒定理,是中心极限定理的高级形式,是对林德伯格-列维定理的扩展,讨论独立,但不同分布的情况下的随机变量和。
        其内容为:记随机变量序列独立但不一定同分布,且有有限方差)部分和为
        记
        如果对每个,序列满足
        则称它满足林德伯格(Lindeberg)条件。
        满足此条件的序列趋向于正态分布,即
        与之相关的是李雅普诺夫(Lyapunov)条件:
        满足李雅普诺夫条件的序列必满足林德伯格条件。 

        它表明,满足一定条件时,独立,但不同分布的随机变量序列的标准化和依然以标准正态分布为极限。

    3.2.3、历史

        1776年,拉普拉斯开始考虑一个天文学中的彗星轨道的倾角的计算问题,最终的问题涉及独立随机变量求和的概率计算,也就是计算如下的概率值
        令 Sn=X1+X2+⋯+Xn, 那么

        在这个问题的处理上,拉普拉斯充分展示了其深厚的数学分析功底和高超的概率计算技巧,他首次引入了特征函数(也就是对概率密度函数做傅立叶变换)来处理概率分布的神妙方法,而这一方法经过几代概率学家的发展,在现代概率论里面占有极其重要的位置。基于这一分析方法,拉普拉斯通过近似计算,在他的1812年的名著《概率分析理论》中给出了中心极限定理的一般描述:

        [定理Laplace,1812]设 ei(i=1,⋯n)为独立同分布的测量误差,具有均值μ和方差σ2。如果λ1,⋯,λn为常数,a>0,则有

        这已经是比棣莫弗-拉普拉斯中心极限定理更加深刻的一个结论了,在现在大学本科的教材上,包括包括本文主要参考之一盛骤版的概率论与数理统计上,通常给出的是中心极限定理的一般形式: 

        [Lindeberg-Levy中心极限定理] 设X1,⋯,Xn独立同分布,且具有有限的均值μ和方差σ2,则在n→∞时,有


        多么奇妙的性质,随意的一个概率分布中生成的随机变量,在序列和(或者等价的求算术平均)的操作之下,表现出如此一致的行为,统一的规约到正态分布。

        概率学家们进一步的研究结果更加令人惊讶,序列求和最终要导出正态分布的条件并不需要这么苛刻,即便X1,⋯,Xn并不独立,也不具有相同的概率分布形式,很多时候他们求和的最终归宿仍然是正态分布。

        在正态分布、中心极限定理的确立之下,20世纪之后,统计学三大分布χ2分布、t分布、F分布也逐步登上历史舞台:

        如上所述,中心极限定理的历史可大致概括为:

    1. 中心极限定理理的第一版被法国数学家棣莫弗发现,他在1733年发表的卓越论文中使用正态分布去估计大量抛掷硬币出现正面次数的分布;
    2. 1812年,法国数学家拉普拉斯在其巨著 Théorie Analytique des Probabilités中扩展了棣莫弗的理论,指出二项分布可用正态分布逼近;
    3. 1901年,俄国数学家李雅普诺夫用更普通的随机变量定义中心极限定理并在数学上进行了精确的证明。

        如今,中心极限定理被认为是(非正式地)概率论中的首席定理。

     

     

    第四节、从数理统计简史中看正态分布的历史由来

     

        本节将结合《数理统计学简史》一书,从早期概率论的发展、棣莫弗的二项概率逼近讲到贝叶斯方法、最小二乘法、误差与正态分布等问题,有详有略,其中,重点阐述正态分布的历史由来。

     

        相信,你我可以想象得到,我们现在眼前所看到的正态分布曲线虽然看上去很美,但数学史上任何一个定理的发明几乎都不可能一蹴而就,很多往往经历了几代人的持续努力。因为在科研上诸多观念的革新和突破是有着很多的不易的,或许某个定理在某个时期由某个人点破了,现在的我们看来一切都是理所当然,但在一切没有发现之前,可能许许多多的顶级学者毕其功于一役,耗尽一生,努力了几十年最终也是无功而返。

         如上文前三节所见,现在概率论与数理统计的教材上,一上来介绍正态分布,然后便给出其概率密度分布函数,却从来没有说明这个分布函数是通过什么原理推导出来的。如此,可能会导致你我在内的很多人一直搞不明白数学家当年是怎么找到这个概率分布曲线的,又是怎么发现随机误差服从这个奇妙的分布的。我们在实践中大量的使用正态分布,却对这个分布的来龙去脉知之甚少。

        本文接下来的第四节将结合陈希儒院士的《数理统计学简史》及“正态分布的前世今生”为你揭开正态分布的神秘面纱。

     

    4.1、正态分布的定义

        上文中已经给出了正态分布的相关定义,咱们先再来回顾下。如下两图所示(来源:大嘴巴漫谈数据挖掘):

        相信,经过上文诸多繁杂公式的轰炸,读者或有些许不耐其烦,咱们接下来讲点有趣的内容:历史。下面,咱们来结合数理统计简史一书,及正态分布的前世今生系列,从古至今论述正态分布的历史由来。

     

    4.2、早期概率论:从萌芽到推测术

    4.2.1、惠更新的三个关于期望的定理

    (一)惠更新的论赌博的计算

        所谓概率,即指一个事件发生,一种情况出现的可能性大小的数量指标,介于0和1之间,这个概念最初形成于16世纪,说来可能令你意想不到,凡事无绝对,早期很多概率论中的探讨却与掷骰子等当今看来是违法犯罪的赌博活动有着不可分割的联系,可以说,这些赌博活动反而推动了概率论的早期发展。

        历史是纷繁多杂的,咱们从惠更斯的机遇的规律一书入手,此人指导过微积分的奠基者之一的莱布尼兹学习数学,与牛顿等人也有交往,终生未婚。如诸多历史上有名的人物一般,他们之所以被后世的人们记住,是因为他们在某一个领域的杰出贡献,这个贡献可能是提出了某一个定理或者公式,换句话来说,就是现今人们口中所说的代表作,一个意思。

        而惠更新为当代人们所熟知的应该是他在《摆式时钟或用于时钟上的摆的运动的几何证明》、《摆钟》等论文中提出了物理学史上钟摆摆动周期的公式:。 

    (二)创立数学期望

        与此同时,惠更斯1657年发表了《论赌博中的计算》,被认为是概率论诞生的标志。同时对二次曲线、复杂曲线、悬链线、曳物线、对数螺线等平面曲线都有所研究。

        《论赌博中的计算》中,惠更斯先从关于公平赌博值的一条公理出发,推导出有关数学期望的三个基本定理,如下述内容所示:

    • 公理:每个公平博弈的参与者愿意拿出经过计算的公平赌注冒险而不愿拿出更多的数量。即赌徒愿意押的赌注不大于其获得赌金的数学期望数。

        对这一公理至今仍有争议。所谓公平赌注的数额并不清楚,它受许多因素的影响。但惠更斯由此所得关于数学期望的3 个命题具有重要意义。这是数学期望第一次被提出,由于当时概率的概念还不明确,后被拉普拉斯( Laplace ,1749 —1827) 用数学期望来定义古典概率。在概率论的现代表述中,概率是基本概念,数学期望则是二级概念,但在历史发展过程中却顺序相反。
    关于数学期望的三个命题为:

    • 命题1  若某人在赌博中以等概率1/2获得赌金a元、b元,则其数学期望值为:a*1/2+b*1/2,即为( a + b)/2;
    • 命题2  若某人在赌博中以等概率1/3获得赌金a 、b 元和c元 ,则其数学期望值为( a + b + c)/3元;
    • 命题3  若某人在赌博中以概率p 和q ( p ≥0 , q ≥0 , p + q = 1) 获得赌金a元、b元 ,则获得赌金的数学期望值为p*a + q*b 元。

        这些今天看来都可作为数学期望定义,不准确的说,数学期望来源于取平均值。同时,根据上述惠更斯的3个命题不难证明:若某人在赌博中分别以概率p1...,pk(p1+..+pk=1)分别赢得a1,..ak元,那么其期望为p1*a1+...+pk*ak,这与本文第一节中关于离散型随机变量的期望的定义完全一致(各值与各值概率乘积之和)。

        但惠更新关于概率论的讨论局限于赌博中,而把概率论由局限于对赌博机遇的讨论扩展出去的则得益于伯努利,他在惠更新的论赌博中的计算一书出版的56年,即1733年出版了划时代的著作:推测术。伯努利在此书中,不仅对惠更斯的关于掷骰子等赌博活动中出现的额各种情况的概率进行了计算,而且还提出了著名的“大数定律”,这个定律在历史上甚至到今天,影响深远,后续诸多的统计方法和理论都是建立在大数定律的基础上。

    (三) 伯努利的大数定律及其如何而来

        同样,咱们在读中学的时候,之所以记住了伯努利这个人,恐怕是因为物理课上,老师所讲的伯努利方程C,(C为常量)。

        当然,伯努利的贡献不仅在此,而在于他的大数定律。那何谓伯努利大数定律呢?

        设在n次独立重复试验中,事件X发生的次数为。事件X在每次试验中发生的概率为P。则对任意正数,下式成立:

        定理表明事件发生的频率依概率收敛于事件的概率。定理以严格的数学形式表达了频率的稳定性。就是说当n很大时,事件发生的频率于概率有较大偏差的可能性很小。 

        这个定理如何而来的呢?

        咱们来看一个简单的袋中抽球的模型,袋中有a个白球,b个黑球,则从袋中取出白球的概率为p=a/(a+b),有放回的充袋中抽球N次(每次抽取时保证袋中a+b个球的每一个都有同等机会被抽出),记得抽到的白球的次数为X然后以X/N 这个值去估计p,这个估计方法至今仍是数理统计学中最基本的方法之一。

        伯努利试图证明的是:用X/N 估计p 可以达到事实上的确定性,即:任意给定两个数ε>0和η>0,取足够大的抽取次数N,使得事件的概率不超过η,这意思是,表面估计误差未达到制定的接近程度η。

        换句话说,我们需要证明的是当N充分无限大时,X/N 无限逼近于p,用公式表达即为:

        (N趋于无穷大)

        尽管现在我们看来,上述这个结论毫无疑问是理所当然的,但直到1909年才有波莱尔证明。此外,此伯努利大数定律是我们今天所熟知的契比雪夫不等式的简单推论,但须注意的是在伯努利那个时代,并无“方差”这个概念,更不用说从这个不等式而推论出伯努利大数定律了。

        此外,常用的大数定律除了伯努利大数定律之外,还有辛钦大数定律、柯尔莫哥洛夫强大数定律和重对数定律等定律。这里稍微提下辛钦大数定律,如下图所示。

        在1733年,棣莫弗发展了用正态分布逼近二项分布的方法,这对于当时而言,是一实质性的深远改进。

     

    4.3、棣莫弗的二项概率逼近

        同上文中的惠更新,伯努利一样,人们熟悉棣莫弗,想必是因为著名的棣莫弗公式,如下:

        据数理统计学简史一书上的说明,棣莫弗之所以投身到二项概率的研究,非因伯努利之故,而又是赌博问题(赌博贡献很大丫哈)。有一天一个哥们,也许是个赌徒,向棣莫弗提了一个和赌博相关的一个问题:A,B两人在赌场里赌博,A,B各自的获胜概率是p和q=1−p,赌n局,若A赢的局数X>np,则A付给赌场X−np元,否则B付给赌场np−X元。问赌场挣钱的期望值是多少?按定义可知,此期望值为:

        上式的b(N,平,i)为二项概率,棣莫弗最终在Np为整数的条件下得到:

        

        当m=N/2时,N趋于无穷,

        也就是说上述问题的本质上是上文第一节中所讲的一个二项分布。虽然从上述公式可以集结此问题,但在N很大时,计算不易,故棣莫弗想找到一个更方便于计算的近似公式。

        棣莫弗后来虽然做了一些计算并得到了一些近似结果,但是还不够,随后有人讲棣莫弗的研究工作告诉给了斯特林,于是,便直接催生了在数学分析中必学的一个重要公式斯特林公式(斯特林公式最初发表于1730年,而后棣莫弗改进了斯特林公式):

    (其中,m= N/2)

        1733年,棣莫弗有了一个决定性意义的举动,他证明了当N趋于去穷时,有下列式子成立:

        不要小瞧了这个公式。当它与上面给出的这个公式结合后,便有了:

        根据上面式子,近似地以定积分代替和,得到下式:

        不知道,当读者读到这里的时候,是否从上式看出了些许端倪,此式可隐藏了一个我们习以为常却极其重要的概念。OK,或许其形式不够明朗,借用rickjin的式子转化下:

      

        没错,正态分布的概率密度(函数)在上述的积分公式中出现了!于此,我们得到了一个结论,原来二项分布的极限分布便是正态分布。与此同时,还引出了统计学史上占据重要地位的中心极限定理。

        「棣莫弗-拉普拉斯定理」:设随机变量Xn(n=1,2...)服从参数为p的二项分布,则对任意的x,恒有下式成立:

        我们便称此定理为中心极限定理。而且还透露着一个极为重要的信息:1730年,棣莫弗用二项分布逼近竟然得到了正太密度函数,并首次提出了中心极限定理。

        还没完,随后,在1744年,拉普拉斯证明了:

        最终,1780年,拉普拉斯建立了中心极限定理的一般形式(也就是上文3.2节中所讲的中心极限定理的一般形式):

       「Lindeberg-Levy中心极限定理」设X1,⋯,Xn独立同分布,且具有有限的均值μ和方差σ2,则在n→∞时,有


        棣莫弗的工作对数理统计学有着很大的影响,棣莫弗40年之后,拉普拉斯建立中心极限定理的一般形式,20世纪30年代最终完成独立和中心极限定理最一般的形式,在中心极限定理的基础之上,统计学家们发现当样本量趋于无穷时,一系列重要统计量的极限分布如二项分布,都有正态分布的形式,也就是说,这也构成了数理统计学中大样本方法的基础。

        此外,从上面的棣莫弗-拉普拉斯定理,你或许还没有看出什么蹊跷。但我们可以这样理解:若取c充分大,则对足够大的N,事件|的概率可任意接近于1,由于,故对于任意给定的ε>0, 有下式成立:

        而这就是上文中所讲的伯努利大数定律(注:上面讨论的是对称情况,即p=1/2的情况)。

        我之所以不厌其烦的要论述这个棣莫弗的二项概率逼近的相关过程,是想说明一点:各个定理.公式彼此之前是有着紧密联系的,要善于发现其中的各种联系。

        同时,还有一个问题,相信读者已经意识到了,如本文第一节内容所述,咱们的概率论与数理统计教材讲正态分布的时候,一上来便给出正态分布的概率密度(函数),然后告诉我们说,符合这个概率密度(函数)的称为正态分布,紧接着阐述和证明相关性质,最后说了一句:”在自然现象和社会现象中,大量随机变量都服从或近似服从正态分布,如人的身高,某零件长度的误差,海洋波浪的高度“,然后呢?然后什么也没说了。连正态分布中最基本的两个参数为、和的的意义都不告诉我们(位置参数即为数学期望,尺度参数为即为方差,换句话说,有了期望和方差,即可确定正态分布)。

        随后,教材上便开始讲数学期望,方差等概念,最后才讲到中心极限定理。或许在读者阅读本文之后,这些定理的先后发明顺序才得以知晓。殊不知:正态分布的概率密度(函数)形式首次发现于棣莫弗-拉普拉斯中心极限定理中,即先有中心极限定理,而后才有正态分布(通过阅读下文4.6节你将知道,高斯引入正太误差理论,才成就了正态分布,反过来,拉普拉斯在高斯的工作之上用中心极限定理论证了正态分布)。

        如rickjin所言:’‘学家研究数学问题的进程很少是按照我们数学课本的安排顺序推进的,现代的数学课本都是按照数学内在的逻辑进行组织编排的,虽然逻辑结构上严谨优美,却把数学问题研究的历史痕迹抹得一干二净。DNA双螺旋结构的发现者之一James Waston在他的名著《DNA双螺旋》序言中说:‘科学的发现很少会像门外汉所想象的一样,按照直接了当合乎逻辑的方式进行的。’ ’‘

     

    4.4、贝叶斯方法

        前面,介绍了惠更斯、伯努利和棣莫弗等人的重大成果,无疑在这些重要发明中,二项分布都占据着举重轻重的地位。这在早期的概率统计史当中,也是唯一一个研究程度很深的分布。但除了伯努利的大数定律及棣莫弗的二项逼近的研究成果外,在18世纪中叶,为了解决二项分布概率的估计问题,出现了一个影响极为广泛的贝叶斯方法,贝叶斯方法经过长足的发展,如今已经成为数理统计学中的两个主要学派之一:贝叶斯学派,牢牢占据数理统计学领域的半壁江山。

        据数理统计学简史一书,托马斯.贝叶斯,此人在18世纪上半叶的欧洲学术界,并不算得上很知名,在提出贝叶斯定理之前,也未发表过片纸只字的科学论著,套用当今的话来说,他便是活生生一个民间学术屌丝。

        未发表过任何科学著作,但一个人如果热爱研究,喜好学术的话,必找人交流。于此,诸多重大发明定理都出现在学者之间的一些书信交流中。奇怪的是,贝叶斯这方面的书信材料也不多。或许读者读到此处,已知我意,会说这一切在他提出贝叶斯定理之后有了改变,但读者朋友只猜对了一半。

        贝叶斯的确发表了一篇题为An essay towards solving a problem in the doctrine of chances(机遇理论中一个问题的解)的遗作,此文在他发表后很长一段时间起,在学术界没有引起什么反响,直到20世纪以来,突然受到人们的重视,此文也因此成为贝叶斯学派最初的奠基石(又一个梵高式的人物)。

        有人说贝叶斯发表此文的动机是为了解决伯努利和棣莫弗未能解决的二项分布概率P的“逆概率”问题。所谓逆概率,顾名思义,就是求概率问题的逆问题:已知时间的概率为P,可由之计算某种观察结果的概率如何;反过来,给定了观察结果,问由之可以对概率P作何推断。也就是说,正概率是由原因推结果,称之为概率论;而逆概率是结果推原因,称之为数理统计。

        由于本文中,重点不在贝叶斯定理,而本文第一节之2.1小节已对其做简要介绍,再者,此文从决策树学习谈到贝叶斯分类算法、EM、HMM第二部分也详细介绍过了贝叶斯方法,故为本文篇幅所限,不再做过多描述。

     

    4.5、最小二乘法,数据分析的瑞士军刀

        事实上,在成百上千的各式各样的攻击方法中,取算术平均恐怕是最广为人知使用也最为广泛的方法,因为可能一个小学生都知道使用算术平均来计算自己每天平均花了多少零花钱而以此作为向爸妈讨要零花钱的依据。而我们大多数成年人也经常把“平均说来”挂在嘴边。故此节要讲的最小二乘法其实并不高深,它的本质思想即是来源于此算术平均的方法。

        不太精确的说,一部数理统计学的历史,就是从纵横两个方向对算术平均进行不断深入研究的历史,

    • 纵的方面指平均值本身,诸如伯努利及其后众多的大数定律,棣莫弗-拉普拉斯中心极限定理,高斯的正太误差理论,这些在很大程度上都可以视为对算术平均的研究成果,甚至到方差,标准差等概念也是由平均值发展而来;
    • 横的方面中最为典型的就是此最小二乘法。

        而算术平均也是解释最小二乘法的最简单的例子。使误差平方和达到最小以寻求估计值的方法,则称为最小二乘估计(当然,取平方和作为目标函数知识众多可取的方法之一,例如也可以取误差4次方或绝对值和,取平方和是人类千百年实践中被证实行之有效的方法,因此被普遍采用)。

         何谓最小二乘法?实践中,常需寻找两变量之间的函数关系,比如测定一个刀具的磨损速度,也就是说,随着使用刀具的次数越多,刀具本身的厚度会逐渐减少,故刀具厚度与使用时间将成线性关系,假设符合f(t)=at + b(t代表时间,f(t)代表刀具本身厚度),a,b是待确定的常数,那么a、b如何确定呢?

        最理想的情形就是选取这样的a、b,能使直线y = at + b 所得到的值与实际中测量到的刀具厚度完全符合,但实际上这是不可能的,因为误差总是存在难以避免的。故因误差的存在,使得理论值与真实值存在偏差,为使偏差最小通过偏差的平方和最小确定系数a、b,从而确定两变量之间的函数关系f(t)= at + b。

        这种通过偏差的平方和为最小的条件来确定常数a、b的方法,即为最小二乘法。最小二乘法的一般形式可表述为:

        在此,说点后话,最小二乘法是与统计学有着密切联系的,因为观测值有随机误差,所以它同正态分布一样与误差论有着密切联系(说实话,最小二乘法试图解决的是误差最小的问题,而正态分布则是试图寻找误差分布规律的问题,无论是最小二乘法,还是正态分布的研究工作,至始至终都围绕着误差进行)。

        那么,最小二乘法是如何发明的呢?据史料记载,最小二乘法最初是由法国数学家勒让德于1805年发明的。那勒让德发明它的动机来源于哪呢?

        18世纪中叶,包括勒让德、欧拉、拉普拉斯、高斯在内的许多天文学家和数学家都对天文学上诸多问题的研究产生了浓厚的兴趣。比如以下问题:

    • 土星和木星是太阳系中的大行星,由于相互吸引对各自的运动轨道产生了影响,许多大数学家,包括欧拉和拉普拉斯都在基于长期积累的天文观测数据计算土星和木星的运行轨道。
    • 勒让德承担了一个政府给的重要任务,测量通过巴黎的子午线的长度。
    • 海上航行经纬度的定位。主要是通过对恒星和月面上的一些定点的观测来确定经纬度。

        这些问题都可以用如下数学模型描述:我们想估计的量是β0,⋯,βp,另有若干个可以测量的量x1,⋯,xp,y,这些量之间有线性关系

        如何通过多组观测数据求解出参数β0,⋯,βp呢?欧拉和拉普拉斯采用的都是求解线性方程组的方法。

        但是面临的一个问题是,有n组观测数据,p+1个变量,如果n>p+1,则得到的线性矛盾方程组,无法直接求解。所以欧拉和拉普拉斯采用的方法都是通过一定的对数据的观察,把n个线性方程分为p+1组,然后把每个组内的方程线性求和后归并为一个方程,从而就把n个方程的方程组化为p+1个方程的方程组,进一步解方程求解参数。这些方法初看有一些道理,但是都过于经验化,无法形成统一处理这一类问题的一个通用解决框架。
        以上求解线性矛盾方程的问题在现在的本科生看来都不困难,就是统计学中的线性回归问题,直接用最小二乘法就解决了,可是即便如欧拉、拉普拉斯这些数学大牛,当时也未能对这些问题提出有效的解决方案。可见在科学研究中,要想在观念上有所突破并不容易。有效的最小二乘法是勒让德在1805年发表的,基本思想就是认为测量中有误差,所以所有方程的累积误差为:

        我们求解出导致累积误差最小的参数即可。

        上面我们已经看到,是勒让德最初发明的最小二乘法,那为何历史上人们常常把最小二乘法的发明与高斯的名字联系起来呢?(:勒让德时期的最小二乘法还只是作为一个处理测量数据的代数方法来讨论的,实际上与统计学并无多大关联,只有建立在了测量误差分布的概率理论之后,这个方法才足以成为一个统计学方法。尽管拉普拉斯用他的中心极限定理定理也可以推导出最小二乘法,但无论是之前的棣莫弗,还是当时的勒让德,还是拉普拉斯,此时他们这些研究成果都还只是一个数学表达式而非概率分布)。

        因为1829年,高斯提供了最小二乘法的优化效果强于其他方法的证明,即为高斯-马尔可夫定理。也就是说勒让德最初提出了最小二乘法,而却是高斯让最小二乘法得以巩固而影响至今。且高斯对最小二乘法的最大贡献在于他是建立在正太误差分布的理论基础之上的(后续更是导出了误差服从正态分布的结论),最后,1837年,统计学家们正式确立误差服从正态分布,自此,人们方才真正确信:观测值与理论值的误差服从正态分布。

     

    4.6、误差分布曲线的建立

        十八世纪,天文学的发展积累了大量的天文学数据需要分析计算,应该如何来处理数据中的观测误差成为一个很棘手的问题。我们在数据处理中经常使用平均的常识性法则,千百年来的数据使用经验说明算术平均能够消除误差,提高精度。平均有如此的魅力,道理何在,之前没有人做过理论上的证明。算术平均的合理性问题在天文学的数据分析工作中被提出来讨论:测量中的随机误差应该服从怎样的概率分布?算术平均的优良性和误差的分布有怎样的密切联系?

        伽利略在他著名的《关于两个主要世界系统的对话》中,对误差的分布做过一些定性的描述,主要包括:

    • 误差是对称分布的分布在0的两侧;
    • 大的误差出现频率低,小的误差出现频率高。

        用数学的语言描述,也就是说误差分布函数f(x)关于0对称分布,概率密度随|x|增加而减小,这两个定性的描述都很符合常识。

    4.6.1、辛普森的工作

        许多天文学家和数学家开始了寻找误差分布曲线的尝试。托马斯•辛普森(Thomas Simpson,1710-1761)先走出了有意义的一步。

    • 设真值为θ,而为n次测量值,现在用测量值去估计真值,那么每次测量的误差为
    • 但若用算术平均去估计θ呢,则其误差为

        Simpson证明了,对于如下的一个概率分布,

    Simpson的误差态分布曲线

        有这样的估计:

        也就是说,相比于取小值的机会更大。辛普森的这个工作很粗糙,但是这是第一次在一个特定情况下,从概率论的角度严格证明了算术平均的优良性。

    4.6.2、拉普拉斯的工作

        在1772-1774年间,拉普拉斯也加入到了寻找误差分布函数的队伍中。与辛普森不同,拉普拉斯不是先假定一种误差分后去设法证明平均值的优良性,而是直接射向应该去怎么的分布为误差分布,以及在确定了误差分布之后,如何根据观测值去估计真值

        拉普拉斯假定误差密度函数f(x)满足如下性质:

        m>0,且为常数,上述方程解出,C>0且为常数,由于,得。故当x<0,结合概率密度的性质之一(参看上文2.2.4节):,解得c=m/2。

        由此,最终1772年,拉普拉斯求得的分布密度函数为:

        这个概率密度函数现在被称为拉普拉斯分布:

        以这个函数作为误差密度,拉普拉斯开始考虑如何基于测量的结果去估计未知参数的值,即用什么方法通过观测值去估计真值呢?要知道咱们现今所熟知的所谓点估计方法、矩估计方法,包括所谓的极大似然估计法之类的,当时可是都还没有发明。

        拉普拉斯可以算是一个贝叶斯主义者,他的参数估计的原则和现代贝叶斯方法非常相似:假设先验分布是均匀的,计算出参数的后验分布后,取后验分布的中值点,即1/2分位点,作为参数估计值。可是基于这个误差分布函数做了一些计算之后,拉普拉斯发现计算过于复杂,最终没能给出什么有用的结果,故拉普拉斯最终还是没能搞定误差分布的问题。

        至此,整个18世纪,可以说,寻找误差分布的问题,依旧进展甚微,下面,便将轮到高斯出场了,历史总是出人意料,高斯以及其简单的手法,给了这个误差分布的问题一个圆满的解决,其结果也就成为了数理统计发展史上的一块重要的里程碑。

    4.6.3、高斯导出误差正态分布

        事实上,棣莫弗早在1730年~1733年间便已从二项分布逼近的途径得到了正态密度函数的形式,到了1780年后,拉普拉斯也推出了中心极限定理的一般形式,但无论是棣莫弗,还是拉普拉斯,此时他们这些研究成果都还只是一个数学表达式而非概率分布,也就是压根就还没往误差概率分布的角度上去思索,而只有到了1809年,高斯提出“正太误差”的理论之后,它正太理论才得以“概率分布“的身份进入科学殿堂,从而引起人们的重视。

       追本溯源,正态分布理论这条大河的源头归根结底是测量误差理论。那高斯到底在正态分布的确立做了哪些贡献呢?请看下文。

        1801年1月,天文学家Giuseppe Piazzi发现了一颗从未见过的光度8等的星在移动,这颗现在被称作谷神星(Ceres)的小行星在夜空中出现6个星期,扫过八度角后在就在太阳的光芒下没了踪影,无法观测。而留下的观测数据有限,难以计算出他的轨道,天文学家也因此无法确定这颗新星是彗星还是行星,这个问题很快成了学术界关注的焦点。高斯当时已经是很有名望的年轻数学家了,这个问题也引起了他的兴趣。高斯一个小时之内就计算出了行星的轨道,并预言了它在夜空中出现的时间和位置。1801年12月31日夜,德国天文爱好者奥伯斯(Heinrich Olbers)在高斯预言的时间里,用望远镜对准了这片天空。果然不出所料,谷神星出现了!

        高斯为此名声大震,但是高斯当时拒绝透露计算轨道的方法直到1809年高斯系统地完善了相关的数学理论后,才将他的方法公布于众,而其中使用的数据分析方法,就是以正态误差分布为基础的最小二乘法。那高斯是如何推导出误差分布为正态分布的呢?请看下文。
        跟上面一样,还是设真值为,而为n次独立测量值,每次测量的误差为,假设误差ei的密度函数为f(e),则测量值的联合概率为n个误差的联合概率,记为

        到此为止,高斯的作法实际上与拉普拉斯相同,但在继续往下进行时,高斯提出了两个创新的想法。

        第一个创新的想法便是:高斯并没有像前面的拉普拉斯那样采用贝叶斯的推理方式,而是直接取L(θ)达到最小值的作为的估计值,这也恰恰是他解决此问题采用的创新方法,即

         现在我们把L(θ)称为样本的似然函数,而得到的估计值θˆ称为极大似然估计。高斯首次给出了极大似然的思想,这个思想后来被统计学家R.A.Fisher系统地发展成为参数估计中的极大似然估计理论。
        高斯的第二点创新的想法是:他把整个问题的思考模式倒过来,既然千百年来大家都认为算术平均是一个好的估计,那么就直接先承认算术平均就是极大似然估计(换言之,极大似然估计导出的就应该是算术平均),所以高斯猜测:

        然后高斯再去寻找相应的误差密度函数以迎合这一点。即寻找这样的概率分布函数,使得极大似然估计正好是算术平均。通过应用数学技巧求解这个函数f,高斯证明了所有的概率密度函数中,唯一满足这个性质的就是(记为(11)式):

       

        而这恰巧是我们所熟知的正态分布的密度函数,就这样,误差的正态分布就被高斯给推导出来了!

        但,高斯是如何证明的呢?也就是说,高斯是如何一下子就把上面(11)式所述的概率密度函数给找出来的呢?如下图所示(摘自数理统计学简史第127页注2,图中开头所说的高斯的第2原则就是上面所讲的高斯的第二点创新的想法,而下图最后所说的(11)式就是上面推导出来的概率密度函数):

        进一步,高斯基于这个误差分布函数对最小二乘法给出了一个很漂亮的解释。对于最小二乘公式中涉及的每个误差ei,有,则结合高斯的第一个创新方法:极大似然估计及上述的概率密度,(e1,⋯,en)的联合概率分布为

        要使得这个概率最大,必须使得取最小值,这正好就是最小二乘法的要求。

        高斯的这项工作对后世的影响极大,它使正态分布同时有了”高斯分布“的名称,不止如此,后世甚至也把最小二乘法的发明权也归功于他,由于他的这一系列突出贡献,人们    采取了各种形式纪念他,如现今德国10马克的钞票上便印有这高斯头像及正态分布的密度曲线,借此表明在高斯的一切科学贡献中,尤以此”正太分布“的确立对人类文明的进程影响最大。

        至此,咱们来总结下:

    1. 如你所见,相比于勒让德1805给出的最小二乘法描述,高斯基于误差正态分布的最小二乘理论显然更高一筹,高斯的工作中既提出了极大似然估计的思想,又解决了误差的概率密度分布的问题,由此我们可以对误差大小的影响进行统计度量了。
    2. 但事情就完了么?没有。高斯设定了准则“最大似然估计应该导出优良的算术平均”,并导出了误差服从正态分布,推导的形式上非常简洁优美。但是高斯给的准则在逻辑上并不足以让人完全信服,因为算术平均的优良性当时更多的是一个经验直觉,缺乏严格的理论支持。高斯的推导存在循环论证的味道:因为算术平均是优良的,推出误差必须服从正态分布;反过来,又基于正态分布推导出最小二乘和算术平均,来说明最小二乘法和算术平均的优良性,故其中无论正反论点都必须借助另一方论点作为其出发点,可是算术平均到并没有自行成立的理由。

        也就是上面说到的高斯的第二点创新的想法“他把整个问题的思考模式倒过来:既然千百年来大家都认为算术平均是一个好的估计,那么就直接先承认算术平均就是极大似然估计(换言之,极大似然估计导出的就应该是算术平均)”存在着隐患,而这一隐患的消除又还得靠咱们的老朋友拉普拉斯解决了。

        受高斯启发,拉普拉斯将误差的正态分布理论和中心极限定理联系起来,提出了元误差解释。他指出如果误差可以看成许多微小量的叠加,则根据他的中心极限定理,随机误差理应当有高斯分布(换言之,按中心极限定理来说,正态分布是由大量的但每一个作用较小的因素的作用导致而成)。而20世纪中心极限定理的进一步发展,也给这个解释提供了更多的理论支持。

        至此,误差分布曲线的寻找尘埃落定,正态分布在误差分析中确立了自己的地位。在整个正态分布被发现与应用的历史中,棣莫弗、拉普拉斯、高斯各有贡献,拉普拉斯从中心极限定理的角度解释它,高斯把它应用在误差分析中,殊途同归。不过因为高斯在数学家中的名气实在是太大,正态分布的桂冠还是更多的被戴在了高斯的脑门上,目前数学界通行的用语是正态分布、高斯分布,两者并用。

    4.6.4、正态分布的时间简史

        至此,正态分布从首次出现到最终确立,其时间简史为:

    1. 1705年,伯努力的著作推测术问世,提出伯努利大数定律;
    2. 1730-1733年,棣莫弗从二项分布逼近得到正态密度函数,首次提出中心极限定理;
    3. 1780年,拉普拉斯建立中心极限定理的一般形成;
    4. 1805年,勒让德发明最小二乘法;
    5. 1809年,高斯引入正态误差理论,不但补充了最小二乘法,而且首次导出正态分布;
    6. 1811年,拉普拉斯利用中心极限定理论证正态分布;
    7. 1837年,海根提出元误差学说,自此之后,逐步正式确立误差服从正态分布。

        如上所见,是先有的中心极限定理,而后才有的正态分布(当然,最后拉普拉斯用中心极限定理论证了正态分布),能了解这些历史,想想,都觉得是一件无比激动的事情。所以,我们切勿以为概率论与数理统计的教材上是先讲的正态分布,而后才讲的中心极限定理,而颠倒原有历史的发明演进过程。

     

     

    第五节、论道正态,正态分布的4大数学推导

        如本blog内之前所说:凡是涉及到要证明的东西.理论,便一般不是怎么好惹的东西。绝大部分时候,看懂一个东西不难,但证明一个东西则需要点数学功底,进一步,证明一个东西也不是特别难,难的是从零开始发明创造这个东西的时候,则更显艰难(因为任何时代,大部分人的研究所得都不过是基于前人的研究成果,前人所做的是开创性工作,而这往往是最艰难最有价值的,他们被称为真正的先驱。牛顿也曾说过,他不过是站在巨人的肩上。你,我则更是如此)。

         上述第4节已经介绍了正态分布的历史由来,但尚未涉及数学推导或证明,下面,参考概率论沉思录,引用“正态分布的前世今生”等相关内容,介绍推导正太分布的4种方法,曲径通幽,4条小径,殊途同归,进一步领略正态分布的美妙。

        「注:本节主要整编自rickjin写的"正态分布的前后今生"系列」

    5.1、 高斯的推导(1809)

        第一条小径是高斯找到的,高斯以如下准则作为小径的出发点

    误差分布导出的极大似然估计 = 算术平均值

        设真值为,而次独立测量值,每次测量的误差为,假设误差的密度函数为,则测量值的联合概率为n个误差的联合概率,记为

        为求极大似然估计,令

        整理后可以得到

        令,由上式可以得到

        由于高斯假设极大似然估计的解就是算术平均,把解带入上式,可以得到

        在上式中取,有

        由于此时有,并且是任意的,由此得到:.再在(6)式中取,并且要求,且,则有,并且

        所以得到而满足上式的唯一的连续函数就是,从而进一步可以求解出

        由于是概率分布函数,把正规化一下就得到正态分布密度函数

    5.2、Herschel(1850)和麦克斯韦(1860)的推导

        第二条小径是天文学家John Hershcel和物理学家麦克斯韦(Maxwell)发现的。1850年,天文学家Herschel在对星星的位置进行测量的时候,需要考虑二维的误差分布,为了推导这个误差的概率密度分布f(x,y),Herschel设置了两个准则:

    1. x轴和y轴的误差是相互独立的,即误差的概率在正交的方向上相互独立;
    2. 误差的概率分布在空间上具有旋转对称性,即误差的概率分布和角度没有关系。

        这两个准则对于Herschel考虑的实际测量问题看起来都很合理。由准则1,可以得到应该具有如下形式

        把这个函数转换为极坐标,在极坐标下的概率密度函数设为,有

        由准则2,具有旋转对称性,也就是应该和无关,所以,综合以上,我们可以得到

        取,得到,所以上式可以转换为

        令,则有

        从这个函数方程中可以解出,从而可以得到的一般形式如下

        而就是正态分布,而就是标准二维正态分布函数。

     

        1860年,我们伟大的物理学家麦克斯韦在考虑气体分子的运动速度分布的时候,在三维空间中基于类似的准则推导出了气体分子运动的分布是正态分布。这就是著名的麦克斯韦分子速率分布定律。大家还记得我们在普通物理中学过的麦克斯韦-波尔兹曼气体速率分布定律吗?

        所以这个分布其实是三个正态分布的乘积。你的物理老师是否告诉过你其实这个分布就是三维正态分布?反正我是一直不知道,直到今年才明白。
        Herschel-Maxwell推导的神妙之处在于,没有利用任何概率论的知识,只是基于空间几何的不变性,就推导出了正态分布。美国诺贝尔物理学奖得主费曼(Feymann)每次看到一个有的数学公式的时候,就会问:圆在哪里?这个推导中使用到了,也就是告诉我们正态分布密度公式中有个,其根源来在于二维正态分布中的等高线恰好是个圆。

    5.3、Landon的推导(1941)

        第三条道是一位电气工程师,Vernon D. Landon 给出的。1941年,Landon 研究通信电路中的噪声电压,通过分析经验数据他发现噪声电压的分布模式很相似,不同的是分布的层级,而这个层级可以使用方差来刻画。因此他推理认为噪声电压的分布函数形式是。现在假设有一个相对于而言很微小的误差扰动,且的分布函数是,那么新的噪声电压是。Landon提出了如下的准则

    1. 随机噪声具有稳定的分布模式
    2. 累加一个微小的随机噪声,不改变其稳定的分布模式,只改变分布的层级(用方差度量)

        用数学的语言描述:如果

        则有.现在我们来推导函数应该长成啥样。按照两个随机变量和的分布的计算方式,的分布函数将是的分布函数和的分布函数的卷积,即有

        把在x′处做泰勒级数展开(为了方便,展开后把自变量由x′替换为x),上式可以展开为

    ,则有

        对于微小的随机扰动,我们认为他取正值或者负值是对称的,所以。所以有

    (8)

        对于新的噪声电压是x′=x+e,方差由增加为,所以按照Landon的分布函数模式不变的假设,新的噪声电压的分布函数应该为。把处做泰勒级数展开,得到

    (9)

        比较(8)和(9)这两个式子,可以得到如下偏微分方程

        而这个方程就是物理上著名的扩散方程(diffusion equation),求解该方程就得到

     

        又一次,我们推导出了正态分布!
        概率论沉思录作者E.T.Jaynes对于这个推导的评价很高,认为Landon的推导本质上给出了自然界的噪音形成的过程。他指出这个推导基本上就是中心极限定理的增量式版本,相比于中心极限定理来说,是一次性累加所有的因素,Landon的推导是每次在原有的分布上去累加一个微小的扰动。而在这个推导中,我们看到,正态分布具有相当好的稳定性;只要数据中正态的模式已经形成,他就容易继续保持正态分布,无论外部累加的随机噪声是什么分布,正态分布就像一个黑洞一样把这个累加噪声吃掉。

    5.4、正态分布和最大熵

        还有一条小径是基于最大熵原理的,物理学家E.T.Jaynes在最大熵原理上有非常重要的贡献,他在《概率论沉思录》里面对这个方法有描述和证明,没有提到发现者,不过难以确认这条道的发现者是否是Jaynes本人。
        熵在物理学中由来已久,信息论的创始人香农(Claude Elwood Shannon)把这个概念引入了信息论,读者中很多人可能都知道目前机器学习中有一个非常好用的分类算法叫最大熵分类器。要想把熵和最大熵的来龙去脉说清楚可不容易,不过这条道的风景是相当独特的,E.T.Jaynes对这条道也是偏爱有加。
        对于一个概率分布,我们定义它的熵为

        如果给定一个分布函数的均值和方差(给定均值和方差这个条件,也可以描述为给定一阶原点矩和二阶原点矩,这两个条件是等价的)则在所有满足这两个限制的概率分布中,熵最大的概率分布就是正态分布
        这个结论的推导数学上稍微有点复杂,不过如果已经猜到了给定限制条件下最大熵的分布是正态分布,要证明这个猜测却是很简单的,证明的思路如下。
        考虑两个概率分布,使用不等式,得

        于是

          (读者注意:经好友白石指正,上述等式,右边的第一项p(x)之后,1/p(x) 之前少画了个log符号)

        所以

     

        熟悉信息论的读者都知道,这个式子是信息论中的很著名的结论:一个概率分布的熵总是小于相对熵。上式要取等号只有取
        对于,在给定的均值和方差下,我们取,则可以得到

        由于的均值方差有如下限制:,于是

        而当的时候,上式可以取到等号,这就证明了结论。


        E.T.Jaynes显然对正态分布具有这样的性质极为赞赏,因为这从信息论的角度证明了正态分布的优良性。而我们可以看到,正态分布熵的大小,取决于方差的大小。这也容易理解,因为正态分布的均值和密度函数的形状无关,正态分布的形状是由其方差决定的,而熵的大小反应概率分布中的信息量,显然和密度函数的形状相关。

       所谓横看成岭侧成峰,远近高低各不同,正态分布给人们提供了多种欣赏角度和想象空间。法国菩萨级别的大数学家庞加莱对正态分布说过一段有意思的话,引用来作为这个小节的结束:
        Physicists believe that the Gaussian law has been proved in mathematics while mathematicians think that it was experimentally established in physics.
    —Henri Poincaré

        OK,虽然上文已经花了如此多的篇幅讲了那么多的概念,然事实上,在概率论与数理统计中,上文所讲的概念尚不到1/3,限于篇幅,还有诸多概念没有阐述完毕,如下图所示:

        So,如上,之前微博上http://weibo.com/1580904460/z9htU9VzT 说要写的概率论与数理统计的科普blog已经初步整理完成(当然,后续一个星期之内会继续修补完善)。从前天晚上开始,连续写了两天,花了半身力气,文章若有任何问题,欢迎指正,尤能给出批评修订意见,则倍感荣幸,谢谢。.同时,但所有以上这些绝大部分都只是概率论与数理统计的基础知识,因此本文只能作个科普之效,若要深入学习,还是烦请读者朋友们阅读相关书籍,或加以动手实践。

     

    参考文献及推荐阅读

    1. 高等数学第六版上下册,同济大学数学系编;
    2. 微积分概念发展史,[美] 卡尔·B·波耶 著,唐生 译;
    3. 概率论与数理统计,高教版,盛骤等编;
    4. 浙大版概率论与数理统计电子PPT课件;
    5. 数理统计学简史,陈希孺院士著;
      (极力推荐上书,相信每一个学概率统计的朋友都有必要看一看,同时,此书也是正态分布的前后今生这一系列的主要参考)
    6. rickjin,正态分布的前后今生:http://t.cn/zlH3Ygc
    7. 正态分布的前后今生系列集成版上:http://t.cn/zjJStYq,下:http://t.cn/zjoAtUQ
    8. 大嘴巴漫谈数据挖掘:http://vdisk.weibo.com/s/bUbzJ
    9. 误差论与最小平方法 & 数学传播,蔡聪明;
    10. 正态分布进入统计学的历史演化,吴江霞;
    11. Probability Theory & The Logic of Science (概率论沉思录),E.T. Jaynes 著; 
    12. 手写数学公式编辑器:http://webdemo.visionobjects.com/equation.html?locale=zh_CN
    13. wikipedia上标准差:http://zh.wikipedia.org/wiki/%E6%A0%87%E5%87%86%E5%B7%AE
    14. 泊松分布与概率分布:http://zh.wikipedia.org/wiki/%E6%B3%8A%E6%9D%BE%E5%88%86%E4%BD%88
    15. wikipedia上一堆概念;
    16. ....

     

    后记

        本文之后,待写的几篇文章罗列如下,具体完成时间全部待定:

    1. 机器学习中相关的降维方法,如PCA/LDA等等;
    2. 神经网络入门学习导论;
    3. 程序员编程艺术第二十八章~第二十九章  (2013年3月已经写好,点击左边链接查看);
    4. ..

        在写完数据挖掘十大算法系列之后,还将写一系列机器学习的相关笔记。此外,这是本文的微博地址:http://weibo.com/1580904460/zarZW2Jye,欢迎大家推荐转发。最后,有一点必须说明的是,本文大部内容或参考或引用自上文所列的相关参考文献中,自己只是做了个总结和梳理,附带自己的一些理解,若有任何问题,欢迎读者随时交流 & 批评指正,谢谢大家。July、二零一二年十二月十九日。

     

    PS:《机器学习中的数学班》:https://www.julyedu.com/category/index/12。专为复习、巩固机器学习中所需的数学基础,包括微积分、概率统计、线性代数、凸优化

    展开全文
  • 统计数据挖掘

    千次阅读 2010-03-31 22:45:00
    统计数据挖掘技术统计:借助于数学模型手段,对数据进行那个归纳、推断和预测,寻找数据间的模式。统计研究中的抽样推断方法,相关与回归分析方法,统计推算与预测,统计假设检验等方法。u 统计数据挖掘技术:l...

    统计类数据挖掘技术

    统计:借助于数学模型手段,对数据进行那个归纳推断预测,寻找数据间的模式。统计研究中的抽样推断方法相关与回归分析方法统计推算与预测统计假设检验等方法。

    u  统计类数据挖掘技术:

    l  数据的聚集和度量技术

    聚集函数,count(),sum(),avg(),max(),min()等,这些函数在数据挖掘中发挥着重要的统计作用。count()用于统计对象的个数,sum()用于统计对象的总值,avg()用于统计对象的平均值,max()用于统计对象的最大值,min()用于统计对象的最小值。

    为数据进行中心趋势的度量,可以采用算术平均值,这就是一般数据库中的avg()函数。在大部分的数据立方体的预计算中都保存了count()sum()函数。此时,算术平均值就可以使用sum()/count()来导出。

    如果数据对象的值与某个权重有关,即值得大小需要考虑值的意义,重要性或频率, 就不能简单地用算术平均值来度量数据对象的中心趋势,而需要采用加权算术平均值。

    在数据对象是倾斜的情况下,数据中心的度量最好采用中位数。如果数据对象已经排好序,当数据对象的个数为奇数时,中位数就是有序数列的中间值,如果数据对象的个数为偶数时,中位数就是中间两个数的平均值。

    l  柱状图数据挖掘技术

    总结数据的最好方法是提供数据的柱状图。在一个简单的样本数据库中,通过计算数据库中信用评价的不同发生次数,就可以创建信用评价的一个柱状图。对于只有10个记录的简单客户信用数据库,这相当容易做到;对于一个有许多条记录的数据库,例如,对于一个超过100万数据记录的数据库,柱状图将是一个非常有用的方法,可以获得对数据库中数据的更高层次理解。

    l  线性回归数据挖掘技术

    回归是研究自变量与因变量之间关系的分析方法。其目的在于根据已知自变量来估计和预测因变量的总平均值。在统计中有许多不同类型的回归,但是它们的基本思想都是创建模型能够匹配预测属性中的值,这样做预测时就会犯很少的错误,回归最简单的形式是仅包含

    一个预测目标和一个预测属性的见到那线性回归。在经过数据所画的许多曲线中,曲线和数据点距离最小的那条曲线被选泽为预测模型。

    线性回归是最简单的回归形式,双变量回归将一个随机变量Y(称做响应变量)看做是另一个随机变量x(称为预测变量)的线性函数,即

    其中,假定 的方差为常数, 是回归系数 ,分别表示直线在Y轴的截距和直线的斜率。这些系数可用最小二乘法求解。这使得实际数据与该直线的估计之间误差很小。给定s个样本或形如( ,y1)  (x2,y2) …. (xs,ys)的数据点,回归系数 可用公式

    =

    =

    其中, , ,…, 的平均值,而 , ,… 的平均值。系数 通常给出在其它情况下复杂回归方程的较好的近似。

    l  非线性回归数据挖掘技术

    当判定变量间的关系大致是一条直线时,可以拟合成一条直线反映其变动关系。然而很多情况下,变量间的关系城曲线形式,即非线性的,这时就应拟合一条曲线来反映变量间的关系。例如,给定的响应变量和预测变量间的关系可用多项式函数表示。通过对基本模型添加多项式项,多项式回归可以用于建模。通过对变量进行变换,可将非线性模型转换成线性的,然后用最小二乘法求解。

    非线性回归主要有以下7种模型。

    1.       双曲线模型

    2.       二次曲线模型

    3.       对数模型

    4.       三角函数模型

    5.       指数模型

    6.       幂函数模型

    7.       修正指数增长曲线

                       根据非线性回归模型线型化的不同性质上述模型一般可细分成如下3种类型。

    n  1类:直接换元法。这类非线性回归模型通过简单的变量换元,可以直接划为线性回归模型,如双曲线模型二次曲线模型对数模型三角函数模型。由于这类模型因变量没有变形,可以直接采用最小平方法估计回归系数并且进行检验和预测

    n  2类:间接代换法。这类非线性回归模型经常通过对数变形的代换间接地化为线性回归模型,如指数模型幂函数模型。由于这类模型在对数变形代换过程中改变了因变量的形态,使得变形后模型的最小平方估计失去了原模型残差平方和为最小的意义,从而估计不到原模型的最佳回归系数。造成回归模型和原数列之间的较大偏差。

    n  3类:非线性。这类非线性回归模型属于不可线性化的非线性回归模型,如修正指数增长曲线。

    l  聚类数据挖掘技术

    聚类(clustering)是将数据对象分组多个类或簇(cluster)的数据挖掘技术。聚类分析方法作为统计学分支,在其多年的研究中主要集中在距离的聚类分析上。这些方法已经在许多统计软件包中得到应用,例如,SPSSSAS统计软件包中均有聚类方法。在数据挖掘中,聚类分析主要集中聚类方法的可伸缩性,对聚类复杂形状类型的数据有效性,高维聚类分析技术以及针对大型数据库中混合数值分类数据的聚类方法上。

      聚类分析原理

    在进行聚类分析时,必须用到n维“空间”。该空间用来定义聚类中必须解决的计量距离问题。例如,某房产开发商对其客户数据进行聚类分析时发现,如果按照数据中的“年龄”和“收入”两个字段值进行聚类处理,客户群可以分成三个主要的类别:类别1是中低收入但是已经退休的老年人、类别2是较高收入的中年人,类别3是高收入的年轻人。除此以外,还有一部分数据散落在这三个类以外;高收入的中年人和低收入的年轻人。

    这些散落在外,不能归并到任一类中的数据称为“孤立点”或“奇异点”。“孤立点”的数据与数据库中其他部分数据不同或不一致,在这些“孤立点”数据中就可能隐藏着一些重要的信息。例如在“欺诈分析”中,这些“孤立点”可能意味着有欺诈行为的存在。在市场分析中则可用来分析极低或极高收入客户的消费行为。“孤立点”的确定需要通过“孤立点”与类别中心距离来判断。凡是落入半径范围以内的点都归属于该类。否则就是孤立点。

    n维空间中应用聚类数据挖掘时,需要对数据之间的距离进行测量,这种距离的测量可以采用“欧几里德距离”、“曼哈顿距离”和“明考斯距离

    面前,聚类方法主要有分层聚类划分聚类密度聚类网格聚类模型聚类

      分层聚类

    分层聚类主要有创建一个层次的聚类和另外一些部分层次的聚类两种类型。分层聚类技术是从小到大创建一个聚类的层次。分层聚类的好处是它们允许最终用户从许多簇或某些簇中做出选择。聚类的目的就是发现数据库中有用的模式并且概括它。

    分层聚类通常被看成一棵树,其中最小的簇合并在一起创建下一个较高层次的簇。这一层次的簇再合并在一起,就创建了再下一层次的簇。

      划分聚类

    划分聚类方法是给定一个n个对象或元组的数据库构建k个划分的方法每个划分为一个聚簇,并且k n。该方法将数据划分分为k个组,每个组至少有一个对象,每个对象必须属于而且只能属于一个组(在有的模糊划分技术中对此要求不很严格)。该方法的划分采用给定的k个划分要求,先给出一个初始的划分,再用迭代重定位技术,通过对象在划分之间的移动来改进划分。

    为达到划分的全局最优,划分的聚类可能穷举所有可能的划分。但实际操作中,采用比较流行的k-平均算法k-中心点算法。前者,每个簇用该簇中对象的平均值表示。后者,每个簇用接近聚类中心的一个对象表示。划分的最后认可,要求同一类中对象之间尽可能接近或相关,而不同类之间尽可能远离或不同

      密度聚类

    密度聚类的思想基于距离的划分方法只能发现球状的簇,而不能发现其他形状的簇。密度聚类则只要邻近区域的密度对象或数据点的数目超过某个阀值,就继续聚类。也就是说,对给定类中的每个数据点,在一个给定范围的区域中必须至少包含某个数目的点。这样,密度聚类方法就可用于过滤“噪声”孤立点数据,发现任意形状的簇。

      网格聚类

    网格聚类方法是将对象空间量化为有限数目的单元形成一个网格结构。所有的聚类都在这个网格结构(即量化的空间)上进行。这种方法的优点是它的处理速度很快,其处理时间独立于数据对象的数目,只与量化空间中每一维的单元数目有关

      模型聚类

    基于模型的聚类方法为每个簇假定一个模型寻找数据对给定模型的最佳拟合。一个基于模型的算法,可能通过构建反映数据点空间分布的密度函数来定位聚类,它也是基于标准的统计数字自动决定聚类的数目,考虑“噪声”数据或孤立点,从而产生健壮的聚类方法。

    l  最近邻数据挖掘技术

    最近邻数据挖掘工具是数据挖掘技术中最容易理解的技术之一。因为它用与人们思维方式相似的方法进行分析——检测最接近的匹配样本。例如,在预测某些柔嫩的收入时,常需了解他目前出于什么阶层或获得什么学位。因为人们的收入高低往往与其所处的人群、与他的文化程度有关,因此需要检测与其最相邻的人群。

    用最近邻方法进行预测的基本概念是相互之间“接近”的对象具有相似的预测值。

    如果知道其中的一个对象的预测值后,可以预测其最近的邻居对象。这种最近邻的概念往往和人们能将对象进行合理排序的能力有关。

    k近邻方法,如果k个最近邻的预测值是二元的逻辑值,就按照k个记录的多数取值,如果k个最近邻预测值是多元的分类值,就可以取它们的平均值作为未分类记录的预测值

    u  统计分析类工具

    l  统计类数据挖掘工具与商业业务员

    使统计分析工具开始为商业分析人员所采纳和应用。这些商业分析员是其业务领域的专家,但却不是程序员或统计员。他们要从数据仓库中选择恰当的数据,将它抽取出来并且进行分析。商业分析员不可能将其有限的时间和精力投入学习如恶化编写计算机程序、操作数据库,而构造形式化的统计分析方法策略可能更适合他们的决策分析。

    l  统计类数据挖掘工具的功能

      可视化的功能

      探索功能

      统计和操作的功能

      数据管理功能

      显示功能

      挖掘结果描述功能

      开发功能

      可接收的响应时间

    l  统计类数据挖掘工具——SPSS(Statistical Program for Social Sciences)

      基本统计分析工具

    SPSS的基本统计分析工具由Analyze菜单下的报告分析(Report描述性统计分析(Descriptive Statistics)两项功能组成。利用基本统计分析,可以了解所分析数据对象的许多统计学指标,例如均数方差标准差标准误差最大值最小值范围偏差峰值以及标准误差等,并且能对数据进行正态分析独立性检验,分析单变量数据的特性多变量数据的相互关系

    报告分析通过命令“Analyze->Report,可以启动连机分析处理(OLAP Cubes)、观察值摘要分析(Cases Summary)、行式摘要报告(Report Summaries in Rows)和列式摘要报告(Report Summaries in Columns)等分析。

    描述性统计分析可以通过“Analyze->Descriptive Statics,启动频数分析(Frequencies)、描述性统计量(Descriptives)、探索分析(Explore)和多维频数分布列联表(Crosstabs)

      回归分析

    SPSS中可以完成线性回归分析(Linear)、曲线回归分析(Curve Estimation)、二维logistic回归分析(Binary Logistic)、多维logistic回归分析(Multinomial Logistic)Ordinal回归分析(Ordinal)、概率单位回归分析(Proibit)和非线性回归分析(Nonlinear)等统计分析。这些回归分析Analyze->Regression菜单项下启动。

      相关分析

    SPSS中的相关分析包括相关分析(Bivariate)、偏相关分析(Partial)和距离分析(Distances)等数据分析功能。相关分析主要通过数据变量之间的密切程度根据样本资料推断总体是否相关。这些相关分析的启动需要使用命令“Analyze->”Correlate”

      分类分析

    SPSS中的分类分析主要有快速样本聚类(K-Means Cluster)、层次聚类(Hierararchical Cluster)和判别分类(Discriminant)。这些分类方法均在命令”Analyze”->”Classify”下。

      因子分析

    SPSS中的因子分析主要用于研究若干个变量(因素)中每个变量对某些响应的作用。对这些因素的研究可以是单因素也可以是多因素的。在SPSS中用“Analyze->”Data Reduction”->”Factor”命令进行因子分析。因子分析目的是用少数几个因子去描述许多指标或因素之间的联系,即将相互关系比较密切的几个变量归纳在同一个类别中,每个类别就成为一个因子,就可以用少数几个因子反映数据中的大部分信息。

      非参数分析

    u  统计分析类工具的用途

    在数据挖掘过程中,有时需要对时序数据库序列数据库进行数据挖掘。统计类数据挖掘工具可以在时序数据和序列数据的挖掘过程中发挥重要作用,主要是趋势分析相似性搜索与时间有关数据的序列模式挖掘周期性模式的挖掘

    l  趋势分析

    发生时序变化的数据通常可能出现长期的趋势变化循环变化季节变化以及随机变化的趋向。

      趋势变化的数据序列可以反映一般的变化方向,它的时序图是一种较长时间间隔上的数据变化。这种变化反映一种趋势,确定这种趋势的方法可以采用加权平均最小二乘法

      循环变化数据的趋势线在一个较长的时间内呈现一种摆动变化迹象。这种摆动可能是一种完全周期性的,也可能不是周期性的,即在时间间隔之间循环不按同样的模式演变

      季节变化数据反映每年都重复出现的事件,例如,春节前,各种商品的销售量会有一个较大幅度的增长。这种时序变化是以同一或类似同一模式,在连续几年的有关月份中重复出现。

    l  时序分析

    时序分析是指在时序数据中应用所谓的相似搜索,找出与给定查询序列最接近数据序列,主要找出与给定序列相似的所有数据序列的子序列匹配或找出彼此间相似的整体序列匹配,这些相似搜索可以用于对市场数据的分析中。时序的相似搜索需要经过数据变换,将时序数据时间域转换到频率域,转换方法主要采用傅立叶变换(DFT)离散小波变换(DWT),一旦数据完成变换,就可提交系统,由系统根据索引检索出与查询序列保持最小距离的数据序列。

    为提高相似搜索效率,在数据转换以后需要建立一些索引,这些索引主要有R-树、R*-树以及后缀树。

    l  周期分析

    周期分析是针对周期模式的挖掘,即在所时序数据库中找出重复出现的模式。周期模式挖掘可以看成一组分片序列为持续时间序列模式挖掘。例如,在每年春节销售这一事件出现前后的每一天销售等。

    周期模式的挖掘问题可以分成挖掘全周期模式挖掘部分周期模式挖掘周期关联关则3种。挖掘全周期模式是指在周期中的每一时间点都影响时序上的循环行为,例如一周中的每一天销售量都会对一周中的销售量发挥作用。

    挖掘部分周期模式是一种比较松散的全周期模式,这种模式在现实中是常见的,他主要描述部分时间点的时序周期。

    挖掘周期关联规则是指周期性出现的事件的关联规则。即在某个周期中,某个事件发生以后,将会导致另一事件的发生。

    u  统计分析类工具应用中的问题

    l  统计类数据挖掘的预处理问题

      空缺值处理:如果数据库中许多元组的一些属性值没有记录只,可以采用以下的方法为该属性添上空缺的值。

    ü  忽略元组:该方法应用时,要求元组有多个属性缺少值。

    ü  人工填写空缺值:该方法很费时,且当数据量很大、缺少很多值时,该方法可能行不通。

    ü  使用一个全局变量来填充空缺值:将空缺的值用同一个常数替换

    ü  使用属性的平均值填充空缺值:使用与给定元组属同一类的所有样本的平均值。

    ü  使用最可能的值填充空缺值:使用回归、基于推导的使用贝叶斯形式化方法的工具或判定树归纳确定最有可能的值,将其填充到空缺值中。

      噪声数据处理:噪声是一个测量变量中的随机错误或偏差。给定一个数值属性的噪声,可以将其平滑或剔除掉噪声。

    ü  分箱:分箱方法用来平滑噪声,该方法主要通过考察“邻居”(即周围的值),平滑存储数据的值,存储值被分布到一些“桶”或箱中。由于分箱方法参考相邻的值,因此它进行局部平滑。箱平均值平滑,箱边界平滑。一般而言,宽度越大,平滑效果越大。

    ü  聚类:数据中的孤立点噪声可用聚类检测出来。聚类将类似的值组织成群或“聚类”。直观地看,落在聚类集合之外的值被视为孤立点。孤立点值作为噪声值处理,将其删除或用“聚类”中心代替。

    ü  计算机和人工检查结合

    可以通过计算机和人工检查相结合的方法来识别孤立点。

    ü  回归:可以通过让数据适合一个函数(如回归函数)来平滑噪声数据。线性回归涉及找出适合两个变量的“最佳”直线,使得一个变量能够预测另一个。多线性回归是线性回归的扩展,它涉及多于两个变量。适合多维面数据。使得回归找出适合数据的数学方程式,能够帮助消除噪声。

      不一致数据处理

    对于有些事务,所记录的数据可能存在不一致性。有些数据不一致可以使用其他材料人工加以更正,

    l  统计分析遵循的基本原则

      与定性分析相结合的原则

    统计分析是一种定量分析,但不是抽象的量,而是具有一定质的量。

      连贯和类推原则

    这是进行模拟外推分析所要遵循的两条重要原则。连贯性指的是过去和现在的状况将会依某种规律延续到将来。它有两方面的含义:一是时间的连贯性,而是结构的连贯性。类推原则指客观事物的结构和变化都有一定模式。同一性质,同一类型的饰物,其结构变化应该有同一模式。这种模式可由数学模型模拟,将过去的情况类推到将来,类推原则是建立统计模型的理论基础。

      统计资料的可靠性和分析公式的适应性原则

    必须保证统计资料的准确、可靠和合理。对于同一目的、同一批数据的分析问题来说,可以有不同的分析模型和分析方法,建立最合适的分析公式。

    l  统计分析的步骤

      确定分析目标:分析对象是什么,解决什么问题,达到什么要求以及分析的时间、范围等。

      收集、审核及分析统计资料

      确定分析模型、选择分析方法

      进行分析

    根据选定的模型,用选定的分析方法计算出参数后,就有了据以分析的公式,根据分析公式对数据进行分析。

      误差分析

    l  统计类数据挖掘的性能问题

    许多人认为统计方法是数据挖掘最准确的形式。事实上许多数据挖掘技术都用存在已久的统计技术。一种很流行的决策树方法CHAID卡方度量关联算法使用了支持度和置信度聚类技术使用了K均值算法之类的统计尺度;贝叶斯网使用了1763年就在的统计技术“贝叶斯概率理论

    展开全文
  • 数据挖掘统计方法

    千次阅读 2017-09-10 00:21:22
    统计学是一门收集、组织数据并从这些数据集中得出结论的科学,描述和组织数据集的一般特性是描述性统计学的主题领域,而怎样从这些数据中退出结论是统计推理的主题 统计判断 在统计分析中观测到的所有值,不管其...
    1. 统计学是一门收集、组织数据并从这些数据集中得出结论的科学,描述和组织数据集的一般特性是描述性统计学的主题领域,而怎样从这些数据中退出结论是统计推理的主题
    2. 统计判断
      在统计分析中观测到的所有值,不管其数量是有限还是无限,都称为总体,这个术语适用于任何统计对象,总体中观测值的数量称为总体的大小,一般来说,总体可能是无限的或有限的,但由于一些有限的总体太大,理论上,就把他们假定为无限的
      根据已知的数据集,可以建立总体的统计模型,来帮助对总体作判断,如果取样过程中得出的推断总是高估或低估总体的某个特性,就称之为偏向,,为了消除取样过程中的偏向的可能性,最好是在独立、随机的观察值中选取一个随机的数据集,选取随机样本的主要目的是得到未知总体参数的信息
    3. 统计判断理论包括一些能够哦对总体进行推断和归纳的方法,这些方法分为两大类:估计和假设检验
      A:在估计中,为了估计系统的未知参数,需要给出一个置信度或一个置信空间,目的是从数据集中获得信息,来估计现实世界系统模型的一个或多个参数
      X*=X-Y,如果Y是数值,就称为回归,如果Y是离散、无序的数据集,就称为分类
      B: 在统计检验中,根据对数据集的分析来判断接受还是拒绝对总体特性值的假设,统计假设是关于一个或多个总体的断言或推测,除非检测了整个总体,否则不能完全肯定一个统计假设的真假,当然,在多数情况下,这是不切实际的,甚至是不可能的,所以可以根据随机选取的数据集来检验假设的真假,如果从这些数据集中得出的结果与原假设不一致,就拒绝这个假设,如果得出的证据支持这个假设,就接受它
    4. 评测数据集的差异
      对于数据挖掘任务来说,了解已知数据集中有关中心趋势和数据分布的更一般特性是非常有用的,数据集的这些简单参数是评价不同数据集的差异的描述符,平均数、中位数和众数是反映数据的中心趋势的典型指标,而方差和标准差是反映数据离散程度的指标
    5. 贝叶斯定理
      先给出待分析数据集的概率分布,因为这个分布在给出时没有考虑任何数据,所以称为先验分布,新的数据集将先验分布修正后得到后验分布,进行这个修正的基本工具就是贝叶斯定理
      6.预测回归
      连续性数值的预测可用称为“回归”的统计技术来建模,回归分析的目的是找到一个联系输入变量和输出变量的最优模型,更确切的讲,回归分析是确定变量Y与一个或多个变量之间的相互关系的过程
      进行回归分析的主要原因:
      A:测量输出的开销很大,而输入则不是,因此要寻求一种预测输出的廉价方法
      B: 输入值是已知的,而输出值是未知的,所以需要预测输出值
      C: 控制输入值,就能够预测相应输出的行为
      D: 一些输入值和输出值之间可能有因果关系需要识别这些关系
      如果数据集没有干扰数据,就进行插值,此时需要找出函数f(x)使所有这些训练数据点都满足
      在回归技术中,是将干扰因素添加到未知函数f的输出中
      广义线性回归是目前最常用的统计方法,它用来描述一个变量的变化趋势和其他几个变量值的关系,这类关系的建模叫做线性回归,统计建模的任务并不仅仅是拟合模型,还常常需要从几个可行的模型中选择最优的一个
      多元回归时线性回归的扩展,涉及多个预测变量
      许多非线性回归问题也能转换成一半线性模型的形式
    6. 在应用多元回归方法时,主要的任务是从原来的数据集中识别相关的自变量,并用这些相关变量选择回归模型,完成这个任务的两种常用方法是:
      A: 顺序搜索方法,主要是对原来的变量组建立一个回归模型,并选择性的增删变量,知道满足某个整体条件或达到最优
      B: 组合方法,实际上,它是一种强力方法,即搜索所有可能的自变量组合,以确定最优的回归模型
    7. 方差分析
      在分析估计回归直线的性能和自变量对最终回归的影响时,使用方差分析(ANOVA)方法,分析的过程是将因变量的总方差细分成几个有意义的组成部分,他们可以用系统的方式观测和处理
      方差分析主要用于识别线性回归模型中的那些B值非零
      一个模型是另一个模型的特例时,ANOVA方法才有效
      多元方差分析(MANOVA)是前述ANOVA的一个推广,MANOVA是一种不考虑输出间关联的分析方式
      ANOVA方法中有F统计检验,而MANOVA基于矩阵R,有四个常用的检验统计方法:Roy的最大根检验、Lawley-Holtteling跟踪检验,、Pillai跟踪检验、Wilks的Lambda检验
    8. 对数回归
      线性回归用于对连续值函数的建模,广义线性模型的一种常见形式是对数回归,对数回归将某事件发生的概率建模为预测变量集的线性函数
      对数回归中的概率p称为成功概率
      只有模型的输出变量定义为二元分类变量,才能应用对数回归,另一方面,输入变量也应是定量的
      对数回归在数据挖掘的应用中是一个简易强大的分类工具,根据一组数据(训练集)就可以建立对数回归模型,再根据另一组数据(检验集)就可以分析在预测分类值时模型的性能
    9. 对数-线性模型
      对数-线性模型是一种分析分类变量间关系的方法,对数-线性模型近似于离散的、多元的概率分布,由于所有的变量都是分类变量,因此表示数据总体分布的频率表来表示它们,对数-线性建模的目的是识别分类变量间的关系,这种关系对应于模型中的相互作用的项
      11.线性判别分析
      线性判别分析(LDA)是解决因变量是分类型(名义类型或顺序类型)、自变量是数值型的分类问题
      LDA的目标是构造一个判别函数,在计算不同输出类中的数据时产生不同的分数
    展开全文
  • 数据挖掘面试 150 道题(附答案)

    万次阅读 多人点赞 2019-09-21 13:50:38
    1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的评价标准...

     

    单选题

    1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)

    A. 关联规则发现

    B. 聚类

    C. 分类

    D. 自然语言处理


    2. 以下两种描述分别对应哪两种对分类算法的评价标准? (A)

    (a) 警察抓小偷,描述警察抓的人中有多少个是小偷的标准。

    (b) 描述有多少比例的小偷给警察抓了的标准。

    A. Precision, Recall 准确率和召回率

    B. Recall, Precision

    C. Precision, ROC

    D. Recall, ROC


    3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)

    A. 频繁模式挖掘

    B. 分类和预测

    C. 数据预处理

    D. 数据流挖掘


    4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)

    A. 分类

    B. 聚类

    C. 关联分析

    D. 隐马尔可夫链


    5. 什么是 KDD? (A)

    A. 数据挖掘与知识发现

    B. 领域知识发现

    C. 文档知识发现

    D. 动态知识发现


    6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A)

    A. 探索性数据分析

    B. 建模描述

    C. 预测建模

    D. 寻找模式和规则


    7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B)

    A. 探索性数据分析

    B. 建模描述

    C. 预测建模

    D. 寻找模式和规则


    8. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)

    A. 根据内容检索

    B. 建模描述

    C. 预测建模

    D. 寻找模式和规则


    9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A)

    A. 根据内容检索

    B. 建模描述

    C. 预测建模

    D. 寻找模式和规则


    11. 下面哪种不属于数据预处理的方法? (D)

    A 变量代换

    B 离散化

    C 聚集

    D 估计遗漏值


    12. 假设 12 个销售价格记录组已经排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15 在第几个箱子内? (B)

    A 第一个

    B 第二个

    C 第三个

    D 第四个


    13. 上题中,等宽划分时(宽度为 50),15 又在哪个箱子里? (A)

    A 第一个

    B 第二个

    C 第三个

    D 第四个


    14. 下面哪个不属于数据的属性类型:(D)

    A 标称

    B 序数

    C 区间

    D 相异


    15. 在上题中,属于定量的属性类型是:(C)

    A 标称

    B 序数

    C 区间

    D 相异


    16. 只有非零值才重要的二元属性被称作:(C)

    A 计数属性

    B 离散属性

    C 非对称的二元属性

    D 对称属性


    17. 以下哪种方法不属于特征选择的标准方法: (D)

    A 嵌入

    B 过滤

    C 包装

    D 抽样


    18. 下面不属于创建新属性的相关方法的是: (B)

    A 特征提取

    B 特征修改

    C 映射数据到新的空间

    D 特征构造


    19. 考虑值集 {1、2、3、4、5、90},其截断均值(p=20%)是 (C) ?

    A 2

    B 3

    C 3.5

    D 5


    20. 下面哪个属于映射数据到新的空间的方法? (A)

    A 傅立叶变换

    B 特征加权

    C 渐进抽样

    D 维归约


    21. 熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是: (B)

    A 1 比特

    B 2.6 比特

    C 3.2 比特

    D 3.8 比特


    22. 假设属性 income 的最大最小值分别是 12000 元和 98000 元。利用最大最小规范化的方法将属性的值映射到 0 至 1 的范围内。对属性 income 的 73600 元将被转化为:(D)

    A 0.821

    B 1.224

    C 1.458

    D 0.716


    23. 假定用于分析的数据包含属性 age。数据元组中 age 的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为 3。第二个箱子值为:(A)

    A 18.3

    B 22.6

    C 26.8

    D 27.9


    24. 考虑值集 {12, 24, 33, 2, 4, 55, 68, 26},其四分位数极差是:(A)

    A 31

    B 24

    C 55

    D 3


    25. 一所大学内的各年纪人数分别为:一年级 200 人,二年级 160 人,三年级 130 人,四年级 110 人。则年级属性的众数是: (A)

    A 一年级

    B 二年级

    C 三年级

    D 四年级


    26. 下列哪个不是专门用于可视化时间空间数据的技术: (B)

    A 等高线图

    B 饼图

    C 曲面图

    D 矢量场图


    27. 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: (D)

    A 有放回的简单随机抽样

    B 无放回的简单随机抽样

    C 分层抽样

    D 渐进抽样


    28. 数据仓库是随着时间变化的, 下面的描述不正确的是 (C)

    A. 数据仓库随时间的变化不断增加新的数据内容;

    B. 捕捉到的新数据会覆盖原来的快照;

    C. 数据仓库随事件变化不断删去旧的数据内容;

    D. 数据仓库中包含大量的综合数据, 这些综合数据会随着时间的变化不断地进行重新综合.


    29. 关于基本数据的元数据是指: (D)

    A. 基本元数据与数据源, 数据仓库, 数据集市和应用程序等结构相关的信息;

    B. 基本元数据包括与企业相关的管理方面的数据和信息;

    C. 基本元数据包括日志文件和简历执行处理的时序调度信息;

    D. 基本元数据包括关于装载和更新处理, 分析处理以及管理方面的信息.


    30. 下面关于数据粒度的描述不正确的是: (C)

    A. 粒度是指数据仓库小数据单元的详细程度和级别;

    B. 数据越详细, 粒度就越小, 级别也就越高;

    C. 数据综合度越高, 粒度也就越大, 级别也就越高;

    D. 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量.


    31. 有关数据仓库的开发特点, 不正确的描述是: (A)

    A. 数据仓库开发要从数据出发;

    B. 数据仓库使用的需求在开发出去就要明确;

    C. 数据仓库的开发是一个不断循环的过程, 是启发式的开发;

    D. 在数据仓库环境中, 并不存在操作型环境中所固定的和较确切的处理流, 数据仓库中数据分析和处理更灵活, 且没有固定的模式


    32. 在有关数据仓库测试, 下列说法不正确的是: (D)

    A. 在完成数据仓库的实施过程中, 需要对数据仓库进行各种测试. 测试工作中要包括单元测试和系统测试.

    B. 当数据仓库的每个单独组件完成后, 就需要对他们进行单元测试.

    C. 系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试.

    D. 在测试之前没必要制定详细的测试计划.


    33. OLAP 技术的核心是: (D)

    A. 在线性;

    B. 对用户的快速响应;

    C. 互操作性.

    D. 多维分析


    34. 关于 OLAP 的特性, 下面正确的是: (D)

    (1) 快速性 (2) 可分析性 (3) 多维性 (4) 信息性 (5) 共享性

    A. (1) (2) (3)

    B. (2) (3) (4)

    C. (1) (2) (3) (4)

    D. (1) (2) (3) (4) (5)


    35. 关于 OLAP 和 OLTP 的区别描述, 不正确的是:(C)

    A. OLAP 主要是关于如何理解聚集的大量不同的数据. 它与 OTAP 应用程序不同.

    B. 与 OLAP 应用程序不同, OLTP 应用程序包含大量相对简单的事务.

    C. OLAP 的特点在于事务量大, 但事务内容比较简单且重复率高.

    D. OLAP 是以数据仓库为基础的, 但其最终数据来源与 OLTP 一样均来自底层的数据库系统, 两者面对的用户是相同的.


    36. OLAM 技术一般简称为” 数据联机分析挖掘”, 下面说法正确的是:(D)

    A. OLAP 和 OLAM 都基于客户机 / 服务器模式, 只有后者有与用户的交互性;

    B. 由于 OLAM 的立方体和用于 OLAP 的立方体有本质的区别.

    C. 基于 WEB 的 OLAM 是 WEB 技术与 OLAM 技术的结合.

    D. OLAM 服务器通过用户图形借口接收用户的分析指令, 在元数据的知道下, 对超级立方体作一定的操作.


    37. 关于 OLAP 和 OLTP 的说法, 下列不正确的是:(A)

    A. OLAP 事务量大, 但事务内容比较简单且重复率高.

    B. OLAP 的最终数据来源与 OLTP 不一样.

    C. OLTP 面对的是决策人员和高层管理人员.

    D. OLTP 以应用为核心, 是应用驱动的.


    38. 设 X={1,2,3} 是频繁项集,则可由 X 产生__(C)__个关联规则。

    A、4

    B、5

    C、6

    D、7


    40. 概念分层图是__(B)__图。

    A、无向无环

    B、有向无环

    C、有向有环

    D、无向有环


    41. 频繁项集、频繁闭项集、最大频繁项集之间的关系是: (C)

    A、频繁项集 频繁闭项集 = 最大频繁项集

    B、频繁项集 = 频繁闭项集 最大频繁项集

    C、频繁项集 频繁闭项集 最大频繁项集

    D、频繁项集 = 频繁闭项集 = 最大频繁项集


    42. 考虑下面的频繁 3 - 项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5} 假定数据集中只有 5 个项,采用 合并策略,由候选产生过程得到 4 - 项集不包含(C)

    A、1,2,3,4

    B、1,2,3,5

    C、1,2,4,5

    D、1,3,4,5


    43. 下面选项中 t 不是 s 的子序列的是 (C)

    A、s=<{2,4},{3,5,6},{8}> t=<{2},{3,6},{8}>

    B、s=<{2,4},{3,5,6},{8}> t=<{2},{8}>

    C、s=<{1,2},{3,4}> t=<{1},{2}>

    D、s=<{2,4},{2,4}> t=<{2},{4}>


    44. 在图集合中发现一组公共子结构,这样的任务称为 (B)

    A、频繁子集挖掘

    B、频繁子图挖掘

    C、频繁数据项挖掘

    D、频繁模式挖掘


    45. 下列度量不具有反演性的是 (D)

    A、系数

    B、几率

    C、Cohen 度量

    D、兴趣因子


    46. 下列__(A)__不是将主观信息加入到模式发现任务中的方法。

    A、与同一时期其他数据对比

    B、可视化

    C、基于模板的方法

    D、主观兴趣度量


    47. 下面购物篮能够提取的 3 - 项集的最大数量是多少(C)

    ID 购买项

    1 牛奶,啤酒,尿布

    2 面包,黄油,牛奶

    3 牛奶,尿布,饼干

    4 面包,黄油,饼干

    5 啤酒,饼干,尿布

    6 牛奶,尿布,面包,黄油

    7 面包,黄油,尿布

    8 啤酒,尿布

    9 牛奶,尿布,面包,黄油

    10 啤酒,饼干

    A、1

    B、2

    C、3

    D、4


    48. 以下哪些算法是分类算法,(B)

    A. DBSCAN

    B. C4.5

    C. K-Mean

    D. EM


    49. 以下哪些分类方法可以较好地避免样本的不平衡问题, (A)

    A,KNN

    B,SVM

    C,Bayes

    D,神经网络


    50. 决策树中不包含一下哪种结点, (C)

    A, 根结点(root node)

    B, 内部结点(internal node)

    C, 外部结点(external node)

    D, 叶结点(leaf node)


    51. 不纯性度量中 Gini 计算公式为(其中 c 是类的个数) (A)

    A,

    B,

    C,

    D, 


    53. 以下哪项关于决策树的说法是错误的 (C)

    A. 冗余属性不会对决策树的准确率造成不利的影响

    B. 子树可能在决策树中重复多次

    C. 决策树算法对于噪声的干扰非常敏感

    D. 寻找最佳决策树是 NP 完全问题


    54. 在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每一个测试记录都是由覆盖它的 “最好的” 规格来分类,这种方案称为 (B)

    A. 基于类的排序方案

    B. 基于规则的排序方案

    C. 基于度量的排序方案

    D. 基于规格的排序方案。


    55. 以下哪些算法是基于规则的分类器 (A)

    A. C4.5

    B. KNN

    C. Naive Bayes

    D. ANN


    56. 如果规则集 R 中不存在两条规则被同一条记录触发,则称规则集 R 中的规则为(C);

    A. 无序规则

    B. 穷举规则

    C. 互斥规则

    D.有序规则


    57. 如果对属性值的任一组合,R 中都存在一条规则加以覆盖,则称规则集 R 中的规则为 (B)

    A. 无序规则

    B. 穷举规则

    C. 互斥规则

    D. 有序规则


    58. 如果规则集中的规则按照优先级降序排列,则称规则集是 (D)

    A, 无序规则

    B,穷举规则

    C, 互斥规则

    D,有序规则


    59. 如果允许一条记录触发多条分类规则,把每条被触发规则的后件看作是对相应类的一次投票,然后计票确定测试记录的类标号,称为(A)

    A. 无序规则

    B. 穷举规则

    C. 互斥规则

    D. 有序规则


    60. 考虑两队之间的足球比赛:队 0 和队 1。假设 65% 的比赛队 0 胜出,剩余的比赛队 1 获胜。队 0 获胜的比赛中只有 30% 是在队 1 的主场,而队 1 取胜的比赛中 75% 是主场获胜。如果下一场比赛在队 1 的主场进行队 1 获胜的概率为 (C)

    A. 0.75

    B. 0.35

    C,0.4678

    D, 0.5738


    61. 以下关于人工神经网络(ANN)的描述错误的有 (A)

    A,神经网络对训练数据中的噪声非常鲁棒

    B,可以处理冗余特征

    C,训练 ANN 是一个很耗时的过程

    D,至少含有一个隐藏层的多层神经网络


    62. 通过聚集多个分类器的预测来提高分类准确率的技术称为 (A)

    A, 组合 (ensemble)

    B, 聚集 (aggregate)

    C,合并 (combination)

    D,投票 (voting)


    63. 简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( B )

    A、层次聚类

    B、划分聚类

    C、非互斥聚类

    D、模糊聚类


    64. 在基本 K 均值算法里,当邻近度函数采用( A )的时候,合适的质心是簇中各点的中位数。

    A、曼哈顿距离

    B、平方欧几里德距离

    C、余弦距离

    D、Bregman 散度


    65.( C )是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。

    A、边界点

    B、质心

    C、离群点

    D、核心点


    66. BIRCH 是一种( B )。

    A、分类器

    B、聚类算法

    C、关联分析算法

    D、特征选择算法


    67. 检测一元正态分布中的离群点,属于异常检测中的基于( A )的离群点检测。

    A、统计方法

    B、邻近度

    C、密度

    D、聚类技术


    68.( C )将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。

    A、MIN(单链)

    B、MAX(全链)

    C、组平均

    D、Ward 方法


    69.( D )将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量,它是一种凝聚层次聚类技术。

    A、MIN(单链)

    B、MAX(全链)

    C、组平均

    D、Ward 方法


    70. DBSCAN 在最坏情况下的时间复杂度是( B )。

    A、O(m)

    B、O(m2)

    C、O(log m)

    D、O(m*log m)


    71. 在基于图的簇评估度量表里面,如果簇度量为 proximity(Ci , C),簇权值为 mi ,那么它的类型是( C )。

    A、基于图的凝聚度

    B、基于原型的凝聚度

    C、基于原型的分离度

    D、基于图的凝聚度和分离度


    72. 关于 K 均值和 DBSCAN 的比较,以下说法不正确的是( A )。

    A、K 均值丢弃被它识别为噪声的对象,而 DBSCAN 一般聚类所有对象。

    B、K 均值使用簇的基于原型的概念,而 DBSCAN 使用基于密度的概念。

    C、K 均值很难处理非球形的簇和不同大小的簇,DBSCAN 可以处理不同大小和不同形状的簇。

    D、K 均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是 DBSCAN 会合并有重叠的簇。


    73. 以下是哪一个聚类算法的算法流程:①构造 k-最近邻图。②使用多层图划分算法划分图。③repeat:合并关于相对互连性和相对接近性而言,最好地保持簇的自相似性的簇。④until:不再有可以合并的簇。( C )。

    A、MST

    B、OPOSSUM

    C、Chameleon

    D、Jarvis-Patrick(JP)


    74. 考虑这么一种情况:一个对象碰巧与另一个对象相对接近,但属于不同的类,因为这两个对象一般不会共享许多近邻,所以应该选择( D )的相似度计算方法。

    A、平方欧几里德距离

    B、余弦距离

    C、直接相似度

    D、共享最近邻


    75. 以下属于可伸缩聚类算法的是( A )。

    A、CURE

    B、DENCLUE

    C、CLIQUE

    D、OPOSSUM


    76. 以下哪个聚类算法不是属于基于原型的聚类( D )。

    A、模糊 c 均值

    B、EM 算法

    C、SOM

    D、CLIQUE


    77. 关于混合模型聚类算法的优缺点,下面说法正确的是( B )。

    A、当簇只包含少量数据点,或者数据点近似协线性时,混合模型也能很好地处理。

    B、混合模型比 K 均值或模糊 c 均值更一般,因为它可以使用各种类型的分布。

    C、混合模型很难发现不同大小和椭球形状的簇。

    D、混合模型在有噪声和离群点时不会存在问题。


    78. 以下哪个聚类算法不属于基于网格的聚类算法( D )。

    A、STING

    B、WaveCluster

    C、MAFIA

    D、BIRCH


    79. 一个对象的离群点得分是该对象周围密度的逆。这是基于( C )的离群点定义。

    A.概率

    B、邻近度

    C、密度

    D、聚类


    80. 下面关于 Jarvis-Patrick(JP)聚类算法的说法不正确的是( D )。

    A、JP 聚类擅长处理噪声和离群点,并且能够处理不同大小、形状和密度的簇。

    B、JP 算法对高维数据效果良好,尤其擅长发现强相关对象的紧致簇。

    C、JP 聚类是基于 SNN 相似度的概念。

    D、JP 聚类的基本时间复杂度为 O(m)。

     

    多选题

    1. 通过数据挖掘过程所推倒出的关系和摘要经常被称为:(A B)

    A. 模型

    B. 模式

    C. 模范

    D. 模具


    2 寻找数据集中的关系是为了寻找精确、方便并且有价值地总结了数据的某一特征的表示,这个过程包括了以下哪些步骤? (A B C D)

    A. 决定要使用的表示的特征和结构

    B. 决定如何量化和比较不同表示拟合数据的好坏

    C. 选择一个算法过程使评分函数最优

    D. 决定用什么样的数据管理原则以高效地实现算法。


    3. 数据挖掘的预测建模任务主要包括哪几大类问题? (A B)

    A. 分类

    B. 回归

    C. 模式发现

    D. 模式匹配


    4. 数据挖掘算法的组件包括:(A B C D)

    A. 模型或模型结构

    B. 评分函数

    C. 优化和搜索方法

    D. 数据管理策略


    5. 以下哪些学科和数据挖掘有密切联系?(A D)

    A. 统计

    B. 计算机组成原理

    C. 矿产挖掘

    D. 人工智能


    6. 在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法有: (ABCDE)

    A 忽略元组

    B 使用属性的平均值填充空缺值

    C 使用一个全局常量填充空缺值

    D 使用与给定元组属同一类的所有样本的平均值

    E 使用最可能的值填充空缺值


    7. 下面哪些属于可视化高维数据技术 (ABCE)

    A 矩阵

    B 平行坐标系

    C 星形坐标

    D 散布图

    E Chernoff 脸


    8. 对于数据挖掘中的原始数据,存在的问题有: (ABCDE)

    A 不一致

    B 重复

    C 不完整

    D 含噪声

    E 维度高


    9. 下列属于不同的有序数据的有:(ABCE)

    A 时序数据

    B 序列数据

    C 时间序列数据

    D 事务数据

    E 空间数据


    10. 下面属于数据集的一般特性的有:(B C D)

    A 连续性

    B 维度

    C 稀疏性

    D 分辨率

    E 相异性


    11. 下面属于维归约常用的线性代数技术的有: (A C)

    A 主成分分析

    B 特征提取

    C 奇异值分解

    D 特征加权

    E 离散化


    12. 下面列出的条目中,哪些是数据仓库的基本特征: (ACD)

    A. 数据仓库是面向主题的

    B. 数据仓库的数据是集成的

    C. 数据仓库的数据是相对稳定的

    D. 数据仓库的数据是反映历史变化的

    E. 数据仓库是面向事务的


    13. 以下各项均是针对数据仓库的不同说法,你认为正确的有(BCDE )。

    A.数据仓库就是数据库

    B.数据仓库是一切商业智能系统的基础

    C.数据仓库是面向业务的,支持联机事务处理(OLTP)

    D.数据仓库支持决策而非事务处理

    E.数据仓库的主要目标就是帮助分析,做长期性的战略制定


    14. 数据仓库在技术上的工作过程是: (ABCD)

    A. 数据的抽取

    B. 存储和管理

    C. 数据的表现

    D. 数据仓库设计

    E. 数据的表现


    15. 联机分析处理包括以下哪些基本分析功能? (BCD)

    A. 聚类

    B. 切片

    C. 转轴

    D. 切块

    E. 分类


    16. 利用 Apriori 算法计算频繁项集可以有效降低计算频繁集的时间复杂度。在以下的购物篮中产生支持度不小于 3 的候选 3 - 项集,在候选 2 - 项集中需要剪枝的是(BD)

    ID 项集

    1 面包、牛奶

    2 面包、尿布、啤酒、鸡蛋

    3 牛奶、尿布、啤酒、可乐

    4 面包、牛奶、尿布、啤酒

    5 面包、牛奶、尿布、可乐

    A、啤酒、尿布

    B、啤酒、面包

    C、面包、尿布

    D、啤酒、牛奶


    17. 下表是一个购物篮,假定支持度阈值为 40%,其中(A D)是频繁闭项集。

    TID 项

    1 abc

    2 abcd

    3 bce

    4 acde

    5 de

    A、abc

    B、ad

    C、cd

    D、de


    18. Apriori 算法的计算复杂度受(ABCD)影响。

    A、支持度阀值

    B、项数(维度)

    C、事务数

    D、事务平均宽度


    19. 非频繁模式__(AD)__

    A、其支持度小于阈值

    B、都是不让人感兴趣的

    C、包含负模式和负相关模式

    D、对异常数据项敏感


    20. 以下属于分类器评价或比较尺度的有: (ACD)

    A, 预测准确度

    B, 召回率

    C, 模型描述的简洁度

    D, 计算复杂度


    21. 在评价不平衡类问题分类的度量方法有如下几种,(ABCD)

    A. F1 度量

    B. 召回率(recall)

    C. 精度(precision)

    D. 真正率(ture positive rate,TPR)


    22. 贝叶斯信念网络 (BBN) 有如下哪些特点, (AB)

    A, 构造网络费时费力

    B, 对模型的过分问题非常鲁棒

    C, 贝叶斯网络不适合处理不完整的数据

    D, 网络结构确定后,添加变量相当麻烦


    23. 如下哪些不是最近邻分类器的特点, (C)

    A, 它使用具体的训练实例进行预测,不必维护源自数据的模型

    B, 分类一个测试样例开销很大

    C, 最近邻分类器基于全局信息进行预测

    D, 可以生产任意形状的决策边界


    24. 如下那些不是基于规则分类器的特点,(AC)

    A, 规则集的表达能力远不如决策树好

    B, 基于规则的分类器都对属性空间进行直线划分,并将类指派到每个划分

    C, 无法被用来产生更易于解释的描述性模型

    D, 非常适合处理类分布不平衡的数据集


    25. 以下属于聚类算法的是( ABD )。

    A、K 均值

    B、DBSCAN

    C、Apriori

    D、Jarvis-Patrick(JP)


    26.( CD )都属于簇有效性的监督度量。

    A、轮廓系数

    B、共性分类相关系数

    C、熵

    D、F 度量


    27. 簇有效性的面向相似性的度量包括( BC )。

    A、精度

    B、Rand 统计量

    C、Jaccard 系数

    D、召回率


    28.( ABCD )这些数据特性都是对聚类分析具有很强影响的。

    A、高维性

    B、规模

    C、稀疏性

    D、噪声和离群点


    29. 在聚类分析当中,( AD )等技术可以处理任意形状的簇。

    A、MIN(单链)

    B、MAX(全链)

    C、组平均

    D、Chameleon


    30. ( AB )都属于分裂的层次聚类算法。

    A、二分 K 均值

    B、MST

    C、Chameleon

    D、组平均

     

    判断题

    1. 数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。 (对)

    2. 数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。(对)3. 图挖掘技术在社会网络分析中扮演了重要的角色。(对)

    4. 模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。(错)

    5. 寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。(错)

    6. 离群点可以是合法的数据对象或者值。    (对)

    7. 离散属性总是具有有限个值。        (错)

    8. 噪声和伪像是数据错误这一相同表述的两种叫法。     (错)

    9. 用于分类的离散化方法之间的根本区别在于是否使用类信息。   (对)

    10. 特征提取技术并不依赖于特定的领域。      (错)

    11. 序列数据没有时间戳。      (对)

    12. 定量属性可以是整数值或者是连续值。     (对)

    13. 可视化技术对于分析的数据类型通常不是专用性的。    (错)

    14. DSS 主要是基于数据仓库. 联机数据分析和数据挖掘技术的应用。(对)

    15. OLAP 技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继数据库技术发展之后迅猛发展起来的一种新技术。 (对)

    16. 商业智能系统与一般交易系统之间在系统设计上的主要区别在于:后者把结构强加于商务之上,一旦系统设计完毕,其程序和规则不会轻易改变;而前者则是一个学习型系统,能自动适应商务不断变化的要求。 (对)

    17. 数据仓库中间层 OLAP 服务器只能采用关系型 OLAP (错)

    18.数据仓库系统的组成部分包括数据仓库,仓库管理,数据抽取,分析工具等四个部分. (错)

    19. Web 数据挖掘是通过数据库仲的一些属性来预测另一个属性, 它在验证用户提出的假设过程中提取信息. (错)

    21. 关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。(错)

    22. 利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数(对)。

    23. 先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。(错)

    24. 如果规则 不满足置信度阈值,则形如 的规则一定也不满足置信度阈值,其中 是 X 的子集。(对)

    25. 具有较高的支持度的项集具有较高的置信度。(错)

    26. 聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型 (或函数),以便能够使用模型预测类标记未知的对象类。 (错)

    27. 分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。(对)

    28. 对于 SVM 分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。 (对)

    29. Bayes 法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。 (错)

    30. 分类模型的误差大致分为两种:训练误差(training error)和泛化误差(generalization error). (对)

    31. 在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。 (错)

    32. SVM 是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifier) (错)

    33. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。(错)

    34. 聚类分析可以看作是一种非监督的分类。(对)

    35. K 均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。(错)

    36. 给定由两次运行 K 均值产生的两个不同的簇集,误差的平方和最大的那个应该被视为较优。(错)

    37. 基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。(对)

    38. 如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。(对)

    39. 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。(错)40. DBSCAN 是相对抗噪声的,并且能够处理任意形状和大小的簇。(对)

    展开全文
  • 数据挖掘

    千次阅读 多人点赞 2019-04-16 16:26:36
    数据挖掘其实是一种深层次的数据分析方法。数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。 应用的技术...
  • 在大数据领域里,经常会看到例如数据挖掘、OLAP、数据分析、数据可视化等等的专业词汇。如果仅仅从字面上,我们很难说清楚每个词汇的意义和区别。今天,我们就来通过一些大数据在高校应用的例子,来为大家说明白—...
  • 数据挖掘与数据分析

    万次阅读 多人点赞 2018-05-28 13:58:14
    一、数据挖掘和数据分析概述 数据挖掘和数据分析都是从数据中提取一些有价值的信息,二者有很多联系,但是二者的侧重点和实现手法有所区分。 数据挖掘和数据分析的不同之处: 1、在应用工具上,数据挖掘一般要通过...
  • python数据挖掘-文本挖掘(词频统计)

    千次阅读 2019-05-11 21:06:21
    有些无用却频繁出现的分词,像“的”、“得”、“地”、“是”等,我们并不希望这些分词也被进行词频统计,因为统计这些分词没有什么意义,所以事先建立一个停分词文件,等会代码中利用这些停分词进行数据清洗 ...
  • 数据挖掘统计工作

    千次阅读 2004-10-22 23:50:00
    台湾辅仁大学教授谢绑昌先生作的“数据挖掘统计工作”报告原文http://www.bjstats.gov.cn/zwxx/wzxw/zzwz/200207020115.htm
  • 互联网点击数据、传感数据、日志文件、具有丰富地理空间信息的移动数据和涉及网络的各类评论,成为了海量信息的多种形式。当数据以成百上千TB不断增长的时候,我们在内部交易系统的历史信息之外,需要一种基于大数据...
  • 数据仓库、OLAP和 数据挖掘统计分析的关系和区别分析 一、什么是数据挖掘  数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、...
  • 数据挖掘:描述性统计分析

    千次阅读 2019-06-10 18:33:12
    数据分析的基础是统计学,统计学又分描述性统计和推断性统计,其中描述性统计又是统计学的基础,也是推断性统计的前导。其百度百科定义是这样的:描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据...
  • 关于数据挖掘的作用,Berry and Linoff的定义尽管有些言过其实,但清晰的描述了数据挖掘的作用。“分析报告给你后见之明 (hindsight);统计分析给你先机 (foresight);数据挖掘给你洞察力 (insight)”。  举个例子...
  • 数据挖掘的第一步数据探索,包括汇总统计和可视化,介绍了相关概念,并结合鸢尾花数据展示了如何用Python进行汇总统计量的计算以及常用的可视化来帮助我们分析数据的性质。
  • 著名统计学者谢邦昌数据挖掘访谈

    千次阅读 2014-01-07 18:03:26
    著名统计学者谢邦昌数据挖掘访谈 1.记者:Data Mining包含哪些主要功能? 谢邦昌:Data Mining实际应用功能可分为三大类六分项来说明:Classification和Clustering属于分类区隔类;Regression和Time-series属于...
  • python 数据挖掘篇 二 词云统计

    千次阅读 2018-01-22 11:55:33
    python 数据挖掘篇 二 词云统计 python 数据挖掘篇 三 gensim 使用 python 数据挖掘篇四 小说数据挖掘实例 第二章 词云统计 这是一个非常有意思的功能,数据可视化,我...
  • 统计分析和数据挖掘的应用

    千次阅读 2014-12-01 23:07:22
    统计分析和数据挖掘的应用范围极为广泛,可以广泛应用于各行各业企业的质量管理、财务管理、生产优化、风险管理、市场调查、预测等等方面。以下举一些简单的应用例子。    1 可以用于新药,新产品的研究,尤其是...
  • 一、什么是数据挖掘  数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,...
  • 数据挖掘十大算法之Apriori详解

    万次阅读 多人点赞 2016-12-06 11:59:59
    在2006年12月召开的 IEEE 数据挖掘国际会议上,与会的各位专家选出了当时的十大数据挖掘算法( top 10 data mining algorithms ),在本系列已经发布的文章中我们已经讨论了其中的七个。本文主要介绍Apriori算法,它...
  • 数据挖掘统计方法有哪些?

    千次阅读 2013-07-04 10:00:47
    数据挖掘中常用的统计方法一共有以下几种:传统的统计方法包括回归分析、主成分分析、聚类分析;非机器学习方法:模糊集、粗糙集、支持向量机  数据堂免费提供数据挖掘数据集下载:www.datatang.com  数据...
  • 数据挖掘】之 数据挖掘 绪论

    万次阅读 2020-04-28 23:35:42
    1.什么是数据挖掘 数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库,发现先前未知的有用模式。数据挖掘还可以预测未来观测结果。 并非所有的信息发现任务都被视为数据...
  • 数据挖掘概述

    千次阅读 2014-12-05 16:39:16
    学习数据挖掘也非常偶然,首先毕竟本人一直在做的是数据方面的工作,数据挖掘相当于是对数据处理后的下一步操作,学习一下数据挖掘的基本知识,了解了解常用的一些数据挖掘算法,对我来说也是一件不错的事。
  • 天津大学《数据分析与数据挖掘》公开课–学习笔记 1.1 数据分析与数据挖掘 数据分析是指采用适当的统计分析方法对收集到的数据进行分析、概括和总结,对数据进行恰当的描述,提取出有用的信息的过程。对决策进行辅助...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 110,599
精华内容 44,239
关键字:

统计数据挖掘