精华内容
下载资源
问答
  • 数据挖掘中统计方法应用及其分析.pdf
  • 数据挖掘统计方法.pdf
  • 浅析数据统计中数据挖掘方法及应用意义.pdf
  • 数据挖掘中所需的概率论与数理统计知识

    万次阅读 多人点赞 2012-12-17 19:24:47
    数据挖掘中所需的概率论与数理统计知识  (关键词:微积分、概率分布、期望、方差、协方差、数理统计简史、大数定律、中心极限定理、正态分布)   导言:本文从微积分相关概念,梳理到概率论与数理统计中的...

    数据挖掘中所需的概率论与数理统计知识

      (关键词:微积分、概率分布、期望、方差、协方差、数理统计简史、大数定律、中心极限定理、正态分布)

     

    导言:本文从微积分相关概念,梳理到概率论与数理统计中的相关知识,但本文之压轴戏在本文第4节彻底颠覆以前读书时大学课本灌输给你的观念,一探正态分布之神秘芳踪,知晓其前后发明历史由来),相信,每一个学过概率论与数理统计的朋友都有必要了解数理统计学简史,因为,只有了解各个定理.公式的发明历史,演进历程.相关联系,才能更好的理解你眼前所见到的知识,才能更好的运用之。

    PS:《机器学习中的数学班》:https://www.julyedu.com/category/index/12。专为复习、巩固机器学习中所需的数学基础,包括微积分、概率统计、线性代数、凸优化

     

     

    前言

        一个月余前,在微博上感慨道,不知日后是否有无机会搞DM,微博上的朋友“只看不发的围脖”评论道:算法研究领域,那里要的是数学,你可以深入学习数学,将算法普及当兴趣。想想,甚合我意。自此,便从rickjin写的“正态分布的前世今生”开始研习数学。

        如之前微博上所说,“今年5月接触DM,循序学习决策树.贝叶斯,SVM.KNN,感数学功底不足,遂补数学,从‘正态分布的前后今生’中感到数学史有趣,故买本微积分概念发展史读,在叹服前人伟大的创造之余,感微积分概念模糊,复习高等数学上册,完后学概率论与数理统计,感概道:微积分是概数统计基础,概数统计则是DM&ML之必修课。”包括读者相信也已经感觉到,我在写这个Top 10 Algorithms in Data Mining系列的时候,其中涉及到诸多的数学概念与基础知识(例如此篇SVM文章内诸多max.s.t.对偶.KKT条件.拉格朗日.松弛因子等问题则皆属于数学内一分支:最优化理论与算法范畴内),特别是概率论与数理统计部分。更进一步,在写上一篇文章的时候,看到机器学习中那么多距离度量的表示法,发现连最起码的期望,方差,标准差等基本概念都甚感模糊,于此,便深感数学之重要性。

        很快,我便买了一本高等教育出版社出版的概率论与数理统计一书,此书“从0-1分布、到二项分布、正态分布,概率密度函数,从期望到方差、标准差、协方差,中心极限定理,样本和抽样,从最大似然估计量到各种置信区间,从方差分析到回归分析,bootstrap方法,最后到马尔可夫链,以前在学校没开概率论与数理统计这门课,现在有的学有的看了”。且人类发明计算机,是为了辅助人类解决现实生活中遇到的问题,然计算机科学毕竟只发展了数十年,可在数学.统计学中,诸多现实生活问题已经思考了数百年甚至上千年,故,计算机若想更好的服务人类解决问题,须有效借鉴或参考数学.统计学。世间万事万物,究其本质乃数学,于变化莫测中寻其规律谓之统计学。

        话休絮烦。本文结合高等数学上下册、微积分概念发展史,概率论与数理统计、数理统计学简史等书,及rickjin写的“正态分布的前世今生”系列(此文亦可看作读书笔记或读后感)与wikipedia整理而成,对数据挖掘中所需的概率论与数理统计相关知识概念作个总结梳理,方便你我随时查看复习相关概念,而欲深入学习研究的课后还需参看相关专业书籍.资料。同时,本文篇幅会比较长,简单来说:

    1. 第一节、介绍微积分中极限、导数,微分、积分等相关概念;
    2. 第二节、介绍随机变量及其分布;
    3. 第三节、介绍数学期望.方差.协方差.相关系数.中心极限定理等概念;
    4. 第四节、依据数理统计学简史介绍正态分布的前后由来;
    5. 第五节、论道正态,介绍正态分布的4大数学推导。

        这五个部分起承转合,彼此依托,层层递进。且在本文中,会出现诸多并不友好的大量各种公式,但基本的概念.定理是任何复杂问题的根基,所以,你我都有必要硬着头皮好好细细阅读。最后,本文若有任何问题或错误,恳请广大读者朋友们不吝批评指正,谢谢。

     

    第一节、微积分的基本概念

        开头前言说,微积分是概数统计基础,概数统计则是DM&ML之必修课”,是有一定根据的,包括后续数理统计当中,如正态分布的概率密度函数中用到了相关定积分的知识,包括最小二乘法问题的相关探讨求证都用到了求偏导数的等概念,这些都是跟微积分相关的知识。故咱们第一节先复习下微积分的相关基本概念。

        事实上,古代数学中,单单无穷小、无穷大的概念就讨论了近200年,而后才由无限发展到极限的概念。

    1.1、极限

        极限又分为两部分:数列的极限和函数的极限。

    1.1.1、数列的极限

        定义  如果数列{xn}与常a 有下列关系:对于任意给定的正数e (不论它多么小), 总存在正整数N , 使得对于n >N 时的一切xn, 不等式 |xn-a |<e都成立, 则称常数a 是数列{xn}的极限, 或者称数列{xn}收敛于a , 记为

        也就是说,

    1.1.2、函数的极限

        设函数f(x)在点x0的某一去心邻域内有定义. 如果存在常数A, 对于任意给定的正数e (不论它多么小), 总存在正数d, 使得当x满足不等式0<|x-x0|<d 时, 对应的函数值f(x)都满足不等式     |f(x)-A|<e , 那么常数A就叫做函数f(x)时的极限, 记为

        也就是说,

        几乎没有一门新的数学分支是某个人单独的成果,如笛卡儿和费马的解析几何不仅仅是他们两人研究的成果,而是若干数学思潮在16世纪和17世纪汇合的产物,是由许许多多的学者共同努力而成。

        甚至微积分的发展也不是牛顿与莱布尼茨两人之功。在17世纪下半叶,数学史上出现了无穷小的概念,而后才发展到极限,到后来的微积分的提出。然就算牛顿和莱布尼茨提出了微积分,但微积分的概念尚模糊不清,在牛顿和莱布尼茨之后,后续经过一个多世纪的发展,诸多学者的努力,才真正清晰了微积分的概念。

        也就是说,从无穷小到极限,再到微积分定义的真正确立,经历了几代人几个世纪的努力,而课本上所呈现的永远只是冰山一角。

    1.2、导数

        设有定义域和取值都在实数域中的函数。若在点的某个邻域内有定义,则当自变量处取得增量(点仍在该邻域内)时,相应地函数取得增量;如果之比当时的极限存在,则称函数在点处可导,并称这个极限为函数在点处的导数,记为

        即:

        也可记为:

    1.3、微分

        设函数在某区间内有定义。对于内一点,当变动到附近的也在此区间内)时。如果函数的增量可表示为(其中是不依赖于的常数),而是比高阶的无穷小,那么称函数在点是可微的,且称作函数在点相应于自变量增量的微分,记作,即的线性主部。通常把自变量的增量称为自变量的微分,记作,即。 

        实际上,前面讲了导数,而微积分则是在导数的基础上加个后缀,即为:

     

    1.4、积分 

        积分是微积分学与数学分析里的一个核心概念。通常分为定积分和不定积分两种。

    不定积分的定义

        一个函数的不定积分,也称为原函数或反导数,是一个导数等于的函数,即

        不定积分的有换元积分法,分部积分法等求法。

    定积分的定义

        直观地说,对于一个给定的正实值函数,在一个实数区间上的定积分:

        定积分与不定积分区别在于不定积分便是不给定区间,也就是说,上式子中,积分符号没有a、b。下面,介绍定积分中值定理。

        如果函数f(x)在闭区间[a,b]上连续, 则在积分区间[a,b]上至少存在一个点,使下式成立:

        这个公式便叫积分中值公式。

    牛顿-莱布尼茨公式

        接下来,咱们讲介绍微积分学中最重要的一个公式:牛顿-莱布尼茨公式。

         如果函数F (x)是连续函数f(x)在区间[a, b]上的一个原函数, 则

        此公式称为牛顿-莱布尼茨公式, 也称为微积分基本公式。这个公式由此便打通了原函数与定积分之间的联系,它表明:一个连续函数在区间[a, b]上的定积分等于它的任一个原函数在区间[a, b]上的增量,如此,便给定积分提供了一个有效而极为简单的计算方法,大大简化了定积分的计算手续。

        下面,举个例子说明如何通过原函数求取定积分。

        如要计算,由于的一个原函数,所以

    1.5、偏导数

        对于二元函数z = f(x,y) 如果只有自变量x 变化,而自变量y固定 这时它就是x的一元函数,这函数对x的导数,就称为二元函数z = f(x,y)对于x的偏导数。
        定义  设函数z = f(x,y)在点(x0,y0)的某一邻域内有定义,当y固定在y0而x在x0处有增量时,相应地函数有增量

        如果极限

        存在,则称此极限为函数z = f(x,y)在点(x0,y0)处对 x 的偏导数,记作:

        例如。类似的,二元函数对y求偏导,则把x当做常量。

        此外,上述内容只讲了一阶偏导,而有一阶偏导就有二阶偏导,这里只做个简要介绍,具体应用具体分析,或参看高等数学上下册相关内容。接下来,进入本文的主题,从第二节开始。

     

     

    第二节、离散.连续.多维随机变量及其分布

    2.1、几个基本概念点

    (一)样本空间

             定义:随机试验E的所有结果构成的集合称为E的 样本空间,记为S={e},
            称S中的元素e为样本点,一个元素的单点集称为基本事件.

    (二)条件概率

    1. 条件概率就是事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在B条件下A的概率”。
    2. 联合概率表示两个事件共同发生的概率。A与B的联合概率表示为或者
    3. 边缘概率是某个事件发生的概率。边缘概率是这样得到的:在联合概率中,把最终结果中不需要的那些事件合并成其事件的全概率而消失(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率)。这称为边缘化(marginalization)。A的边缘概率表示为P(A),B的边缘概率表示为P(B)。 

     在同一个样本空间Ω中的事件或者子集A与B,如果随机从Ω中选出的一个元素属于B,那么这个随机选择的元素还属于A的概率就定义为在B的前提下A的条件概率。从这个定义中,我们可以得出P(A|B) = |A∩B|/|B|分子、分母都除以|Ω|得到

        有时候也称为后验概率。

        同时,P(A|B)与P(B|A)的关系如下所示:

        。 

    (三)全概率公式和贝叶斯公式

        1、全概率公式

        假设{ Bn : n = 1, 2, 3, ... } 是一个概率空间的有限或者可数无限的分割,且每个集合Bn是一个可测集合,则对任意事件A有全概率公式:

     

        又因为

     

        所以,此处Pr(A | B)是B发生后A的条件概率,所以全概率公式又可写作:

     

         在离散情况下,上述公式等于下面这个公式:。但后者在连续情况下仍然成立:此处N是任意随机变量。这个公式还可以表达为:"A的先验概率等于A的后验概率的先验期望值。 

        2、贝叶斯公式

        贝叶斯定理(Bayes' theorem),是概率论中的一个结果,它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解说中,贝叶斯定理(贝叶斯更新)能够告知我们如何利用新证据修改已有的看法。
        通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯定理就是这种关系的陈述。

        如此篇blog第二部分所述“据维基百科上的介绍,贝叶斯定理实际上是关于随机事件A和B的条件概率和边缘概率的一则定理。

       如上所示,其中P(A|B)是在B发生的情况下A发生的可能性。在贝叶斯定理中,每个名词都有约定俗成的名称:

    • P(A)是A的先验概率或边缘概率。之所以称为"先验"是因為它不考虑任何B方面的因素。
    • P(A|B)是已知B发生后A的条件概率(直白来讲,就是先有B而后=>才有A),也由于得自B的取值而被称作A的后验概率。
    • P(B|A)是已知A发生后B的条件概率(直白来讲,就是先有A而后=>才有B),也由于得自A的取值而被称作B的后验概率。
    • P(B)是B的先验概率或边缘概率,也作标准化常量(normalized constant)。

        按这些术语,Bayes定理可表述为:后验概率 = (相似度*先验概率)/标准化常量,也就是說,后验概率与先验概率和相似度的乘积成正比。另外,比例P(B|A)/P(B)也有时被称作标准相似度(standardised likelihood),Bayes定理可表述为:后验概率 = 标准相似度*先验概率。”    综上,自此便有了一个问题,如何从从条件概率推导贝叶斯定理呢?

         根据条件概率的定义,在事件B发生的条件下事件A发生的概率是

     

        同样地,在事件A发生的条件下事件B发生的概率

     

         整理与合并这两个方程式,我们可以找到

     

         这个引理有时称作概率乘法规则。上式两边同除以P(B),若P(B)是非零的,我们可以得到贝叶斯定理

    2.2、随机变量及其分布

    2.2.1、何谓随机变量

        何谓随机变量?即给定样本空间,其上的实值函数称为(实值)随机变量。

        如果随机变量的取值是有限的或者是可数无穷尽的值,则称为离散随机变量(用白话说,此类随机变量是间断的)。

        如果由全部实数或者由一部分区间组成,则称为连续随机变量,连续随机变量的值是不可数及无穷尽的(用白话说,此类随机变量是连续的,不间断的):

     

        也就是说,随机变量分为离散型随机变量,和连续型随机变量,当要求随机变量的概率分布的时候,要分别处理之,如:

    • 针对离散型随机变量而言,一般以加法的形式处理其概率和;
    • 而针对连续型随机变量而言,一般以积分形式求其概率和。

        再换言之,对离散随机变量用求和得全概率,对连续随机变量用积分得全概率。这点包括在第4节中相关期望.方差.协方差等概念会反复用到,望读者注意之。

    2.2.2、离散型随机变量的定义

        定义:取值至多可数的随机变量为离散型的随机变量。概率分布(分布律)为

        且

    (一)(0-1)分布

         若X的分布律为:

         同时,p+q=1,p>0,q>0,则则称X服从参数为p的0-1分布,或两点分布。

        此外,(0-1)分布的分布律还可表示为:

        或

        

        我们常说的抛硬币实验便符合此(0-1)分布。

    (二)、二项分布

        二项分布是n个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。举个例子就是,独立重复地抛n次硬币,每次只有两个可能的结果:正面,反面,概率各占1/2。

        设A在n重贝努利试验中发生X次,则

        并称X服从参数为p的二项分布,记为:

        与此同时,

    (三)、泊松分布(Poisson分布)

            Poisson分布(法语:loi de Poisson,英语:Poisson distribution),即泊松分布,是一种统计与概率学里常见到的离散概率分布,由法国数学家西莫恩·德尼·泊松(Siméon-Denis Poisson)在1838年时发表。

        若随机变量X的概率分布律为

        称X服从参数为λ的泊松分布,记为:

        有一点提前说一下,泊松分布中,其数学期望与方差相等,都为参数λ。 

    泊松分布的来源

        在二项分布的伯努力试验中,如果试验次数n很大,二项分布的概率p很小,且乘积λ= n p比较适中,则事件出现的次数的概率可以用泊松分布来逼近。事实上,二项分布可以看作泊松分布在离散时间上的对应物。证明如下。

        首先,回顾e的定义:

        二项分布的定义:

        如果令趋于无穷时的极限:

        上述过程表明:Poisson(λ) 分布可以看成是二项分布 B(n,p) 在 np=λ,n→∞ 条件下的极限分布。

    最大似然估计

        给定n个样本值ki,希望得到从中推测出总体的泊松分布参数λ的估计。为计算最大似然估计值, 列出对数似然函数:

        对函数L取相对于λ的导数并令其等于零:

        解得λ从而得到一个驻点(stationary point):

        检查函数L的二阶导数,发现对所有的λ 与ki大于零的情况二阶导数都为负。因此求得的驻点是对数似然函数L的极大值点:

        证毕。OK,上面内容都是针对的离散型随机变量,那如何求连续型随机变量的分布律呢?请接着看以下内容。

     

    2.2.3、随机变量分布函数定义的引出

        实际中,如上2.2.2节所述,

    • 对于离散型随机变量而言,其所有可能的取值可以一一列举出来,
    • 可对于非离散型随机变量,即连续型随机变量X而言,其所有可能的值则无法一一列举出来,

        故连续型随机变量也就不能像离散型随机变量那般可以用分布律来描述它,那怎么办呢(事实上,只有因为连续,所以才可导,所以才可积分,这些东西都是相通的。当然了,连续不一定可导,但可导一定连续)?

        既然无法研究其全部,那么我们可以转而去研究连续型随机变量所取的值在一个区间(x1,x2] 的概率:P{x1 < X <=x2 },同时注意P{x1 < X <=x2 } = P{X <=x2} - P{X <=x1},故要求P{x1 < X <=x2 } ,我们只需求出P{X <=x2} 和 P{X <=x1} 即可。

        针对随机变量X,对应变量x,则P(X<=x) 应为x的函数。如此,便引出了分布函数的定义。

        定义:随机变量X,对任意实数x,称函数F(x) = P(X <=x ) 为X 的概率分布函数,简称分布函数。

        F(x)的几何意义如下图所示:

        且对于任意实数x1,x2(x1<x2),有P{x1<X<=x2} = P{X <=x2} - P{X <= x1} = F(x2) - F(x1)。

        同时,F(X)有以下几点性质:

     

    2.2.4、连续型随机变量及其概率密度

        定义:对于随机变量X的分布函数F(x),若存在非负的函数f(x),使对于任意实数x,有:

         则称X为连续型随机变量,其中f(x)称为X的概率密度函数,简称概率密度。连续型随机变量的概率密度f(x)有如下性质:

    (针对上述第3点性质,我重点说明下:

      1. 在上文第1.4节中,有此牛顿-莱布尼茨公式:如果函数F (x)是连续函数f(x)在区间[a, b]上的一个原函数, 则
      2. 在上文2.2.3节,连续随机变量X 而言,对于任意实数a,b(a<b),有P{a<X<=b} = P{X <=b} - P{X <= a} = F(b) - F(a);

    故结合上述两点,便可得出上述性质3)

        且如果概率密度函数在一点上连续,那么累积分布函数可导,并且它的导数:。如下图所示:

        接下来,介绍三种连续型随机变量的分布,由于均匀分布及指数分布比较简单,所以,一图以概之,下文会重点介绍正态分布。

    (一)、均匀分布

        若连续型随机变量X具有概率密度

        则称X 在区间(a,b)上服从均匀分布,记为X~U(a,b)。

        易知,f(x) >= 0,且其期望值为(a + b)/ 2。

    (二)、指数分布

        若连续型随机变量X 的概率密度为

      

        其中λ>0为常数,则称X服从参数为λ的指数分布。记为

    (三)、正态分布

         在各种公式纷至沓来之前,我先说一句:正态分布没有你想的那么神秘,它无非是研究误差分布的一个理论,因为实践过程中,测量值和真实值总是存在一定的差异,这个不可避免的差异即误差,而误差的出现或者分布是有规律的,而正态分布不过就是研究误差的分布规律的一个理论。

        OK,若随机变量服从一个位置参数为、尺度参数为的概率分布,记为: 

        则其概率密度函数为

        我们便称这样的分布为正态分布或高斯分布,记为:

        正态分布的数学期望值或期望值等于位置参数,决定了分布的位置;其方差的开平方,即标准差等于尺度参数,决定了分布的幅度。正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线。它有以下几点性质,如下图所示:

        正态分布的概率密度曲线则如下图所示:

     

        当固定尺度参数,改变位置参数的大小时,f(x)图形的形状不变,只是沿着x轴作平移变换,如下图所示:

        而当固定位置参数,改变尺度参数的大小时,f(x)图形的对称轴不变,形状在改变,越小,图形越高越瘦,越大,图形越矮越胖。如下图所示:

        故有咱们上面的结论,在正态分布中,称μ为位置参数(决定对称轴位置),而 σ为尺度参数(决定曲线分散性)。同时,在自然现象和社会现象中,大量随机变量服从或近似服从正态分布。

        而我们通常所说的标准正态分布是位置参数, 尺度参数的正态分布,记为:

        相关内容如下两图总结所示(来源:大嘴巴漫谈数据挖掘):

    2.2.5、各种分布的比较

        上文中,从离散型随机变量的分布:(0-1)分布、泊松分布、二项分布,讲到了连续型随机变量的分布:均匀分布、指数分布、正态分布,那这么多分布,其各自的期望.方差(期望方差的概念下文将予以介绍)都是多少呢?虽说,还有不少分布上文尚未介绍,不过在此,提前总结下,如下两图所示(摘自盛骤版的概率论与数理统计一书后的附录中):

        本文中,二维.多维随机变量及其分布不再论述。

     

     

     

    第三节、从数学期望、方差、协方差到中心极限定理

    3.1、数学期望、方差、协方差

    3.1.1、数学期望

         如果X是在概率空间(Ω, P)中的一个随机变量,那么它的期望值E[X]的定义是:

         并不是每一个随机变量都有期望值的,因为有的时候这个积分不存在。如果两个随机变量的分布相同,则它们的期望值也相同。

        在概率论和统计学中,数学期望分两种(依照上文第二节相关内容也可以得出),一种为离散型随机变量的期望值,一种为连续型随机变量的期望值。

    • 一个离散性随机变量的期望值(或数学期望、或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。换句话说,期望值是随机试验在同样的机会下重复多次的结果计算出的等同“期望”的平均值。

        例如,掷一枚六面骰子,得到每一面的概率都为1/6,故其的期望值是3.5,计算如下:

        承上,如果X 是一个离散的随机变量,输出值为x1, x2, ..., 和输出值相应的概率为p1, p2, ...(概率和为1),若级数绝对收敛,那么期望值E[X]是一个无限数列的和:

        上面掷骰子的例子就是用这种方法求出期望值的。 

    • 而对于一个连续型随机变量来说,如果X的概率分布存在一个相应的概率密度函数f(x),若积分绝对收敛,那么X 的期望值可以计算为: 

        

        实际上,此连续随机型变量的期望值的求法与离散随机变量的期望值的算法同出一辙,由于输出值是连续的,只不过是把求和改成了积分。

    3.1.2、方差与标准差

    方差    

        在概率论和统计学中,一个随机变量的方差(Variance)描述的是它的离散程度,也就是该变量离其期望值的距离。一个实随机变量的方差也称为它的二阶矩或二阶中心动差,恰巧也是它的二阶累积量。方差的算术平方根称为该随机变量的标准差。

        其定义为:如果是随机变量X的期望值(平均数) 设为服从分布的随机变量,则称为随机变量或者分布的方差:

        其中,μ为平均数,N为样本总数。 

        分别针对离散型随机变量和连续型随机变量而言,方差的分布律和概率密度如下图所示:

    标准差

        标准差(Standard Deviation),在概率统计中最常使用作为统计分布程度(statistical dispersion)上的测量。标准差定义为方差的算术平方根,反映组内个体间的离散程度。

        简单来说,标准差是一组数值自平均值分散开来的程度的一种测量观念。一个较大的标准差,代表大部分的数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。例如,两组数的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是 7 ,但第二个集合具有较小的标准差。

        前面说过,方差的算术平方根称为该随机变量的标准差,故一随机变量的标准差定义为:

        须注意并非所有随机变量都具有标准差,因为有些随机变量不存在期望值。 如果随机变量具有相同概率,则可用上述公式计算标准差。 

        上述方差.标准差等相关内容,可用下图总结之:

    样本标准差

        在真实世界中,除非在某些特殊情况下,找到一个总体的真实的标准差是不现实的。大多数情况下,总体标准差是通过随机抽取一定量的样本并计算样本标准差估计的。说白了,就是数据海量,想计算总体海量数据的标准差无异于大海捞针,那咋办呢?抽取其中一些样本作为抽样代表呗。

        而从一大组数值当中取出一样本数值组合,进而,我们可以定义其样本标准差为:

        样本方差是对总体方差的无偏估计。  中分母为 n-1 是因为的自由度为n-1(且慢,何谓自由度?简单说来,即指样本中的n个数都是相互独立的,从其中抽出任何一个数都不影响其他数据,所以自由度就是估计总体参数时独立数据的数目,而平均数是根据n个独立数据来估计的,因此自由度为n),这是由于存在约束条件。 

    3.1.3、协方差与相关系数

    协方差

        下图即可说明何谓协方差,同时,引出相关系数的定义:

     

    相关系数 

        如上篇kd树blog所述相关系数 ( Correlation coefficient )的定义是:

    (其中,E为数学期望或均值,D为方差,D开根号为标准差,E{ [X-E(X)] [Y-E(Y)]}称为随机变量X与Y的协方差,记为Cov(X,Y),即Cov(X,Y) = E{ [X-E(X)] [Y-E(Y)]},而两个变量之间的协方差和标准差的商则称为随机变量X与Y的相关系数,记为)
        相关系数衡量随机变量X与Y相关程度的一种方法,相关系数的取值范围是[-1,1]。相关系数的绝对值越大,则表明X与Y相关度越高。当X与Y线性相关时,相关系数取值为1(正线性相关)或-1(负线性相关)。
        具体的,如果有两个变量:X、Y,最终计算出的相关系数的含义可以有如下理解:

    1. 当相关系数为0时,X和Y两变量无关系。
    2. 当X的值增大(减小),Y值增大(减小),两个变量为正相关,相关系数在0.00与1.00之间。
    3. 当X的值增大(减小),Y值减小(增大),两个变量为负相关,相关系数在-1.00与0.00之间。

       根据相关系数,相关距离可以定义为:

        这里只对相关系数做个简要介绍,欲了解机器学习中更多相似性距离度量表示法,可以参看上篇kd树blog第一部分内容。

        自此,已经介绍完期望方差协方差等基本概念,但一下子要读者接受那么多概念,怕是有难为读者之嫌,不如再上几幅图巩固下上述相关概念吧(来源:大嘴巴满谈数据挖掘):

    3.1.4、协方差矩阵与主成成分分析

    协方差矩阵

        由上,我们已经知道:协方差是衡量两个随机变量的相关程度。且随机变量 之间的协方差可以表示为

                                                             

         故根据已知的样本值可以得到协方差的估计值如下:

                                                   

        可以进一步地简化为:

                                                                 

        如此,便引出了所谓的协方差矩阵: 

    主成成分分析

        尽管从上面看来,协方差矩阵貌似很简单,可它却是很多领域里的非常有力的工具。它能导出一个变换矩阵,这个矩阵能使数据完全去相关(decorrelation)。从不同的角度看,也就是说能够找出一组最佳的基以紧凑的方式来表达数据。这个方法在统计学中被称为主成分分析(principal components analysis,简称PCA),在图像处理中称为Karhunen-Loève 变换(KL-变换)。

        根据wikipedia上的介绍,主成分分析PCA由卡尔·皮尔逊于1901年发明,用于分析数据及建立数理模型。其方法主要是通过对协方差矩阵进行特征分解,以得出数据的主成分(即特征矢量)与它们的权值(即特征值)。PCA是最简单的以特征量分析多元统计分布的方法。其结果可以理解为对原数据中的方差做出解释:哪一个方向上的数据值对方差的影响最大。

        然为何要使得变换后的数据有着最大的方差呢?我们知道,方差的大小描述的是一个变量的信息量,我们在讲一个东西的稳定性的时候,往往说要减小方差,如果一个模型的方差很大,那就说明模型不稳定了。但是对于我们用于机器学习的数据(主要是训练数据),方差大才有意义,不然输入的数据都是同一个点,那方差就为0了,这样输入的多个数据就等同于一个数据了。

        简而言之,主成分分析PCA,留下主成分,剔除噪音,是一种降维方法,限高斯分布,n维眏射到k维,

     

    1. 减均值,
    2. 求特征协方差矩阵,
    3. 求协方差的特征值和特征向量,
    4. 取最大的k个特征值所对应的特征向量组成特征向量矩阵,
    5. 投影数据=原始样本矩阵x特征向量矩阵。其依据为最大方差,最小平方误差或坐标轴相关度理论,及矩阵奇异值分解SVD(即SVD给PCA提供了另一种解释)。

        也就是说,高斯是0均值,其方差定义了信噪比,所以PCA是在对角化低维表示的协方差矩阵,故某一个角度而言,只需要理解方差、均值和协方差的物理意义,PCA就很清晰了。

     

     

        再换言之,PCA提供了一种降低数据维度的有效办法;如果分析者在原数据中除掉最小的特征值所对应的成分,那么所得的低维度数据必定是最优化的(也即,这样降低维度必定是失去讯息最少的方法)。主成分分析在分析复杂数据时尤为有用,比如人脸识别。

    3.2、中心极限定理

        本节先给出现在一般的概率论与数理统计教材上所介绍的2个定理,然后简要介绍下中心极限定理的相关历史。

    3.2.1、独立同分布的中心极限定理

        独立中心极限定理如下两图所示:

    3.2.2、棣莫弗-拉普拉斯中心极限定理

     

        此外,据wikipedia上的介绍,包括上面介绍的棣莫弗-拉普拉斯定理在内,历史上前后发展了三个相关的中心极限定理,它们得出的结论及内容分别是:

    • 棣莫弗-拉普拉斯(de Movire - Laplace)定理是中心极限定理的最初版本,讨论了服从二项分布的随机变量序列。
     其内容为:若 是n次伯努利实验中事件A出现的次数, ,则对任意有限区间
    (i)当 时,一致地有

    (ii)当 时,一致地有, 

    ,其中

             它指出,参数为n, p的二项分布以np为均值、np(1-p)为方差的正态分布为极限。    

    • 林德伯格-列维(Lindeberg-Levy)定理,是棣莫佛-拉普拉斯定理的扩展,讨论独立同分布随机变量序列的中心极限定理。
     其内容为:设随机变量 独立同分布, 且具有有限的数学期望和方差

    ,则,其中是标准正态分布的分布函数。 

        它表明,独立同分布、且数学期望和方差有限的随机变量序列的标准化和以标准正态分布为极限。

    • 林德伯格-费勒定理,是中心极限定理的高级形式,是对林德伯格-列维定理的扩展,讨论独立,但不同分布的情况下的随机变量和。
        其内容为:记随机变量序列 独立但不一定同分布, 且有有限方差)部分和为
        记
        如果对每个 ,序列满足
        则称它满足林德伯格(Lindeberg)条件。
        满足此条件的序列趋向于正态分布,即
        与之相关的是李雅普诺夫(Lyapunov)条件:
        满足李雅普诺夫条件的序列必满足林德伯格条件。 

        它表明,满足一定条件时,独立,但不同分布的随机变量序列的标准化和依然以标准正态分布为极限。

    3.2.3、历史

        1776年,拉普拉斯开始考虑一个天文学中的彗星轨道的倾角的计算问题,最终的问题涉及独立随机变量求和的概率计算,也就是计算如下的概率值
        令 Sn=X1+X2+⋯+Xn, 那么

        在这个问题的处理上,拉普拉斯充分展示了其深厚的数学分析功底和高超的概率计算技巧,他首次引入了特征函数(也就是对概率密度函数做傅立叶变换)来处理概率分布的神妙方法,而这一方法经过几代概率学家的发展,在现代概率论里面占有极其重要的位置。基于这一分析方法,拉普拉斯通过近似计算,在他的1812年的名著《概率分析理论》中给出了中心极限定理的一般描述:

        [定理Laplace,1812]设 ei(i=1,⋯n)为独立同分布的测量误差,具有均值μ和方差σ2。如果λ1,⋯,λn为常数,a>0,则有

        这已经是比棣莫弗-拉普拉斯中心极限定理更加深刻的一个结论了,在现在大学本科的教材上,包括包括本文主要参考之一盛骤版的概率论与数理统计上,通常给出的是中心极限定理的一般形式: 

        [Lindeberg-Levy中心极限定理] 设X1,⋯,Xn独立同分布,且具有有限的均值μ和方差σ2,则在n→∞时,有


        多么奇妙的性质,随意的一个概率分布中生成的随机变量,在序列和(或者等价的求算术平均)的操作之下,表现出如此一致的行为,统一的规约到正态分布。

        概率学家们进一步的研究结果更加令人惊讶,序列求和最终要导出正态分布的条件并不需要这么苛刻,即便X1,⋯,Xn并不独立,也不具有相同的概率分布形式,很多时候他们求和的最终归宿仍然是正态分布。

        在正态分布、中心极限定理的确立之下,20世纪之后,统计学三大分布χ2分布、t分布、F分布也逐步登上历史舞台:

        如上所述,中心极限定理的历史可大致概括为:

    1. 中心极限定理理的第一版被法国数学家棣莫弗发现,他在1733年发表的卓越论文中使用正态分布去估计大量抛掷硬币出现正面次数的分布;
    2. 1812年,法国数学家拉普拉斯在其巨著 Théorie Analytique des Probabilités中扩展了棣莫弗的理论,指出二项分布可用正态分布逼近;
    3. 1901年,俄国数学家李雅普诺夫用更普通的随机变量定义中心极限定理并在数学上进行了精确的证明。

        如今,中心极限定理被认为是(非正式地)概率论中的首席定理。

     

     

    第四节、从数理统计简史中看正态分布的历史由来

     

        本节将结合《数理统计学简史》一书,从早期概率论的发展、棣莫弗的二项概率逼近讲到贝叶斯方法、最小二乘法、误差与正态分布等问题,有详有略,其中,重点阐述正态分布的历史由来。

     

        相信,你我可以想象得到,我们现在眼前所看到的正态分布曲线虽然看上去很美,但数学史上任何一个定理的发明几乎都不可能一蹴而就,很多往往经历了几代人的持续努力。因为在科研上诸多观念的革新和突破是有着很多的不易的,或许某个定理在某个时期由某个人点破了,现在的我们看来一切都是理所当然,但在一切没有发现之前,可能许许多多的顶级学者毕其功于一役,耗尽一生,努力了几十年最终也是无功而返。

         如上文前三节所见,现在概率论与数理统计的教材上,一上来介绍正态分布,然后便给出其概率密度分布函数,却从来没有说明这个分布函数是通过什么原理推导出来的。如此,可能会导致你我在内的很多人一直搞不明白数学家当年是怎么找到这个概率分布曲线的,又是怎么发现随机误差服从这个奇妙的分布的。我们在实践中大量的使用正态分布,却对这个分布的来龙去脉知之甚少。

        本文接下来的第四节将结合陈希儒院士的《数理统计学简史》及“正态分布的前世今生”为你揭开正态分布的神秘面纱。

     

    4.1、正态分布的定义

        上文中已经给出了正态分布的相关定义,咱们先再来回顾下。如下两图所示(来源:大嘴巴漫谈数据挖掘):

        相信,经过上文诸多繁杂公式的轰炸,读者或有些许不耐其烦,咱们接下来讲点有趣的内容:历史。下面,咱们来结合数理统计简史一书,及正态分布的前世今生系列,从古至今论述正态分布的历史由来。

     

    4.2、早期概率论:从萌芽到推测术

    4.2.1、惠更新的三个关于期望的定理

    (一)惠更新的论赌博的计算

        所谓概率,即指一个事件发生,一种情况出现的可能性大小的数量指标,介于0和1之间,这个概念最初形成于16世纪,说来可能令你意想不到,凡事无绝对,早期很多概率论中的探讨却与掷骰子等当今看来是违法犯罪的赌博活动有着不可分割的联系,可以说,这些赌博活动反而推动了概率论的早期发展。

        历史是纷繁多杂的,咱们从惠更斯的机遇的规律一书入手,此人指导过微积分的奠基者之一的莱布尼兹学习数学,与牛顿等人也有交往,终生未婚。如诸多历史上有名的人物一般,他们之所以被后世的人们记住,是因为他们在某一个领域的杰出贡献,这个贡献可能是提出了某一个定理或者公式,换句话来说,就是现今人们口中所说的代表作,一个意思。

        而惠更新为当代人们所熟知的应该是他在《摆式时钟或用于时钟上的摆的运动的几何证明》、《摆钟》等论文中提出了物理学史上钟摆摆动周期的公式:。 

    (二)创立数学期望

        与此同时,惠更斯1657年发表了《论赌博中的计算》,被认为是概率论诞生的标志。同时对二次曲线、复杂曲线、悬链线、曳物线、对数螺线等平面曲线都有所研究。

        《论赌博中的计算》中,惠更斯先从关于公平赌博值的一条公理出发,推导出有关数学期望的三个基本定理,如下述内容所示:

    • 公理:每个公平博弈的参与者愿意拿出经过计算的公平赌注冒险而不愿拿出更多的数量。即赌徒愿意押的赌注不大于其获得赌金的数学期望数。

        对这一公理至今仍有争议。所谓公平赌注的数额并不清楚,它受许多因素的影响。但惠更斯由此所得关于数学期望的3 个命题具有重要意义。这是数学期望第一次被提出,由于当时概率的概念还不明确,后被拉普拉斯( Laplace ,1749 —1827) 用数学期望来定义古典概率。在概率论的现代表述中,概率是基本概念,数学期望则是二级概念,但在历史发展过程中却顺序相反。
    关于数学期望的三个命题为:

    • 命题1  若某人在赌博中以等概率1/2获得赌金a元、b元,则其数学期望值为:a*1/2+b*1/2,即为( a + b)/2;
    • 命题2  若某人在赌博中以等概率1/3获得赌金a 、b 元和c元 ,则其数学期望值为( a + b + c)/3元;
    • 命题3  若某人在赌博中以概率p 和q ( p ≥0 , q ≥0 , p + q = 1) 获得赌金a元、b元 ,则获得赌金的数学期望值为p*a + q*b 元。

        这些今天看来都可作为数学期望定义,不准确的说,数学期望来源于取平均值。同时,根据上述惠更斯的3个命题不难证明:若某人在赌博中分别以概率p1...,pk(p1+..+pk=1)分别赢得a1,..ak元,那么其期望为p1*a1+...+pk*ak,这与本文第一节中关于离散型随机变量的期望的定义完全一致(各值与各值概率乘积之和)。

        但惠更新关于概率论的讨论局限于赌博中,而把概率论由局限于对赌博机遇的讨论扩展出去的则得益于伯努利,他在惠更新的论赌博中的计算一书出版的56年,即1733年出版了划时代的著作:推测术。伯努利在此书中,不仅对惠更斯的关于掷骰子等赌博活动中出现的额各种情况的概率进行了计算,而且还提出了著名的“大数定律”,这个定律在历史上甚至到今天,影响深远,后续诸多的统计方法和理论都是建立在大数定律的基础上。

    (三) 伯努利的大数定律及其如何而来

        同样,咱们在读中学的时候,之所以记住了伯努利这个人,恐怕是因为物理课上,老师所讲的伯努利方程C,(C为常量)。

        当然,伯努利的贡献不仅在此,而在于他的大数定律。那何谓伯努利大数定律呢?

        设在n次独立重复试验中,事件X发生的次数为。事件X在每次试验中发生的概率为P。则对任意正数,下式成立:

        定理表明事件发生的频率依概率收敛于事件的概率。定理以严格的数学形式表达了频率的稳定性。就是说当n很大时,事件发生的频率于概率有较大偏差的可能性很小。 

        这个定理如何而来的呢?

        咱们来看一个简单的袋中抽球的模型,袋中有a个白球,b个黑球,则从袋中取出白球的概率为p=a/(a+b),有放回的充袋中抽球N次(每次抽取时保证袋中a+b个球的每一个都有同等机会被抽出),记得抽到的白球的次数为X然后以X/N 这个值去估计p,这个估计方法至今仍是数理统计学中最基本的方法之一。

        伯努利试图证明的是:用X/N 估计p 可以达到事实上的确定性,即:任意给定两个数ε>0和η>0,取足够大的抽取次数N,使得事件的概率不超过η,这意思是,表面估计误差未达到制定的接近程度η。

        换句话说,我们需要证明的是当N充分无限大时,X/N 无限逼近于p,用公式表达即为:

        (N趋于无穷大)

        尽管现在我们看来,上述这个结论毫无疑问是理所当然的,但直到1909年才有波莱尔证明。此外,此伯努利大数定律是我们今天所熟知的契比雪夫不等式的简单推论,但须注意的是在伯努利那个时代,并无“方差”这个概念,更不用说从这个不等式而推论出伯努利大数定律了。

        此外,常用的大数定律除了伯努利大数定律之外,还有辛钦大数定律、柯尔莫哥洛夫强大数定律和重对数定律等定律。这里稍微提下辛钦大数定律,如下图所示。

        在1733年,棣莫弗发展了用正态分布逼近二项分布的方法,这对于当时而言,是一实质性的深远改进。

     

    4.3、棣莫弗的二项概率逼近

        同上文中的惠更新,伯努利一样,人们熟悉棣莫弗,想必是因为著名的棣莫弗公式,如下:

        据数理统计学简史一书上的说明,棣莫弗之所以投身到二项概率的研究,非因伯努利之故,而又是赌博问题(赌博贡献很大丫哈)。有一天一个哥们,也许是个赌徒,向棣莫弗提了一个和赌博相关的一个问题:A,B两人在赌场里赌博,A,B各自的获胜概率是p和q=1−p,赌n局,若A赢的局数X>np,则A付给赌场X−np元,否则B付给赌场np−X元。问赌场挣钱的期望值是多少?按定义可知,此期望值为:

        上式的b(N,平,i)为二项概率,棣莫弗最终在Np为整数的条件下得到:

        

        当m=N/2时,N趋于无穷,

        也就是说上述问题的本质上是上文第一节中所讲的一个二项分布。虽然从上述公式可以集结此问题,但在N很大时,计算不易,故棣莫弗想找到一个更方便于计算的近似公式。

        棣莫弗后来虽然做了一些计算并得到了一些近似结果,但是还不够,随后有人讲棣莫弗的研究工作告诉给了斯特林,于是,便直接催生了在数学分析中必学的一个重要公式斯特林公式(斯特林公式最初发表于1730年,而后棣莫弗改进了斯特林公式):

    (其中,m= N/2)

        1733年,棣莫弗有了一个决定性意义的举动,他证明了当N趋于去穷时,有下列式子成立:

        不要小瞧了这个公式。当它与上面给出的这个公式结合后,便有了:

        根据上面式子,近似地以定积分代替和,得到下式:

        不知道,当读者读到这里的时候,是否从上式看出了些许端倪,此式可隐藏了一个我们习以为常却极其重要的概念。OK,或许其形式不够明朗,借用rickjin的式子转化下:

      

        没错,正态分布的概率密度(函数)在上述的积分公式中出现了!于此,我们得到了一个结论,原来二项分布的极限分布便是正态分布。与此同时,还引出了统计学史上占据重要地位的中心极限定理。

        「棣莫弗-拉普拉斯定理」:设随机变量Xn(n=1,2...)服从参数为p的二项分布,则对任意的x,恒有下式成立:

        我们便称此定理为中心极限定理。而且还透露着一个极为重要的信息:1730年,棣莫弗用二项分布逼近竟然得到了正太密度函数,并首次提出了中心极限定理。

        还没完,随后,在1744年,拉普拉斯证明了:

        最终,1780年,拉普拉斯建立了中心极限定理的一般形式(也就是上文3.2节中所讲的中心极限定理的一般形式):

       「Lindeberg-Levy中心极限定理」设X1,⋯,Xn独立同分布,且具有有限的均值μ和方差σ2,则在n→∞时,有


        棣莫弗的工作对数理统计学有着很大的影响,棣莫弗40年之后,拉普拉斯建立中心极限定理的一般形式,20世纪30年代最终完成独立和中心极限定理最一般的形式,在中心极限定理的基础之上,统计学家们发现当样本量趋于无穷时,一系列重要统计量的极限分布如二项分布,都有正态分布的形式,也就是说,这也构成了数理统计学中大样本方法的基础。

        此外,从上面的棣莫弗-拉普拉斯定理,你或许还没有看出什么蹊跷。但我们可以这样理解:若取c充分大,则对足够大的N,事件|的概率可任意接近于1,由于,故对于任意给定的ε>0, 有下式成立:

        而这就是上文中所讲的伯努利大数定律(注:上面讨论的是对称情况,即p=1/2的情况)。

        我之所以不厌其烦的要论述这个棣莫弗的二项概率逼近的相关过程,是想说明一点:各个定理.公式彼此之前是有着紧密联系的,要善于发现其中的各种联系。

        同时,还有一个问题,相信读者已经意识到了,如本文第一节内容所述,咱们的概率论与数理统计教材讲正态分布的时候,一上来便给出正态分布的概率密度(函数),然后告诉我们说,符合这个概率密度(函数)的称为正态分布,紧接着阐述和证明相关性质,最后说了一句:”在自然现象和社会现象中,大量随机变量都服从或近似服从正态分布,如人的身高,某零件长度的误差,海洋波浪的高度“,然后呢?然后什么也没说了。连正态分布中最基本的两个参数为、和的的意义都不告诉我们(位置参数即为数学期望,尺度参数为即为方差,换句话说,有了期望和方差,即可确定正态分布)。

        随后,教材上便开始讲数学期望,方差等概念,最后才讲到中心极限定理。或许在读者阅读本文之后,这些定理的先后发明顺序才得以知晓。殊不知:正态分布的概率密度(函数)形式首次发现于棣莫弗-拉普拉斯中心极限定理中,即先有中心极限定理,而后才有正态分布(通过阅读下文4.6节你将知道,高斯引入正太误差理论,才成就了正态分布,反过来,拉普拉斯在高斯的工作之上用中心极限定理论证了正态分布)。

        如rickjin所言:’‘学家研究数学问题的进程很少是按照我们数学课本的安排顺序推进的,现代的数学课本都是按照数学内在的逻辑进行组织编排的,虽然逻辑结构上严谨优美,却把数学问题研究的历史痕迹抹得一干二净。DNA双螺旋结构的发现者之一James Waston在他的名著《DNA双螺旋》序言中说:‘科学的发现很少会像门外汉所想象的一样,按照直接了当合乎逻辑的方式进行的。’ ’‘

     

    4.4、贝叶斯方法

        前面,介绍了惠更斯、伯努利和棣莫弗等人的重大成果,无疑在这些重要发明中,二项分布都占据着举重轻重的地位。这在早期的概率统计史当中,也是唯一一个研究程度很深的分布。但除了伯努利的大数定律及棣莫弗的二项逼近的研究成果外,在18世纪中叶,为了解决二项分布概率的估计问题,出现了一个影响极为广泛的贝叶斯方法,贝叶斯方法经过长足的发展,如今已经成为数理统计学中的两个主要学派之一:贝叶斯学派,牢牢占据数理统计学领域的半壁江山。

        据数理统计学简史一书,托马斯.贝叶斯,此人在18世纪上半叶的欧洲学术界,并不算得上很知名,在提出贝叶斯定理之前,也未发表过片纸只字的科学论著,套用当今的话来说,他便是活生生一个民间学术屌丝。

        未发表过任何科学著作,但一个人如果热爱研究,喜好学术的话,必找人交流。于此,诸多重大发明定理都出现在学者之间的一些书信交流中。奇怪的是,贝叶斯这方面的书信材料也不多。或许读者读到此处,已知我意,会说这一切在他提出贝叶斯定理之后有了改变,但读者朋友只猜对了一半。

        贝叶斯的确发表了一篇题为An essay towards solving a problem in the doctrine of chances(机遇理论中一个问题的解)的遗作,此文在他发表后很长一段时间起,在学术界没有引起什么反响,直到20世纪以来,突然受到人们的重视,此文也因此成为贝叶斯学派最初的奠基石(又一个梵高式的人物)。

        有人说贝叶斯发表此文的动机是为了解决伯努利和棣莫弗未能解决的二项分布概率P的“逆概率”问题。所谓逆概率,顾名思义,就是求概率问题的逆问题:已知时间的概率为P,可由之计算某种观察结果的概率如何;反过来,给定了观察结果,问由之可以对概率P作何推断。也就是说,正概率是由原因推结果,称之为概率论;而逆概率是结果推原因,称之为数理统计。

        由于本文中,重点不在贝叶斯定理,而本文第一节之2.1小节已对其做简要介绍,再者,此文从决策树学习谈到贝叶斯分类算法、EM、HMM第二部分也详细介绍过了贝叶斯方法,故为本文篇幅所限,不再做过多描述。

     

    4.5、最小二乘法,数据分析的瑞士军刀

        事实上,在成百上千的各式各样的攻击方法中,取算术平均恐怕是最广为人知使用也最为广泛的方法,因为可能一个小学生都知道使用算术平均来计算自己每天平均花了多少零花钱而以此作为向爸妈讨要零花钱的依据。而我们大多数成年人也经常把“平均说来”挂在嘴边。故此节要讲的最小二乘法其实并不高深,它的本质思想即是来源于此算术平均的方法。

        不太精确的说,一部数理统计学的历史,就是从纵横两个方向对算术平均进行不断深入研究的历史,

    • 纵的方面指平均值本身,诸如伯努利及其后众多的大数定律,棣莫弗-拉普拉斯中心极限定理,高斯的正太误差理论,这些在很大程度上都可以视为对算术平均的研究成果,甚至到方差,标准差等概念也是由平均值发展而来;
    • 横的方面中最为典型的就是此最小二乘法。

        而算术平均也是解释最小二乘法的最简单的例子。使误差平方和达到最小以寻求估计值的方法,则称为最小二乘估计(当然,取平方和作为目标函数知识众多可取的方法之一,例如也可以取误差4次方或绝对值和,取平方和是人类千百年实践中被证实行之有效的方法,因此被普遍采用)。

         何谓最小二乘法?实践中,常需寻找两变量之间的函数关系,比如测定一个刀具的磨损速度,也就是说,随着使用刀具的次数越多,刀具本身的厚度会逐渐减少,故刀具厚度与使用时间将成线性关系,假设符合f(t)=at + b(t代表时间,f(t)代表刀具本身厚度),a,b是待确定的常数,那么a、b如何确定呢?

        最理想的情形就是选取这样的a、b,能使直线y = at + b 所得到的值与实际中测量到的刀具厚度完全符合,但实际上这是不可能的,因为误差总是存在难以避免的。故因误差的存在,使得理论值与真实值存在偏差,为使偏差最小通过偏差的平方和最小确定系数a、b,从而确定两变量之间的函数关系f(t)= at + b。

        这种通过偏差的平方和为最小的条件来确定常数a、b的方法,即为最小二乘法。最小二乘法的一般形式可表述为:

        在此,说点后话,最小二乘法是与统计学有着密切联系的,因为观测值有随机误差,所以它同正态分布一样与误差论有着密切联系(说实话,最小二乘法试图解决的是误差最小的问题,而正态分布则是试图寻找误差分布规律的问题,无论是最小二乘法,还是正态分布的研究工作,至始至终都围绕着误差进行)。

        那么,最小二乘法是如何发明的呢?据史料记载,最小二乘法最初是由法国数学家勒让德于1805年发明的。那勒让德发明它的动机来源于哪呢?

        18世纪中叶,包括勒让德、欧拉、拉普拉斯、高斯在内的许多天文学家和数学家都对天文学上诸多问题的研究产生了浓厚的兴趣。比如以下问题:

    • 土星和木星是太阳系中的大行星,由于相互吸引对各自的运动轨道产生了影响,许多大数学家,包括欧拉和拉普拉斯都在基于长期积累的天文观测数据计算土星和木星的运行轨道。
    • 勒让德承担了一个政府给的重要任务,测量通过巴黎的子午线的长度。
    • 海上航行经纬度的定位。主要是通过对恒星和月面上的一些定点的观测来确定经纬度。

        这些问题都可以用如下数学模型描述:我们想估计的量是β0,⋯,βp,另有若干个可以测量的量x1,⋯,xp,y,这些量之间有线性关系

        如何通过多组观测数据求解出参数β0,⋯,βp呢?欧拉和拉普拉斯采用的都是求解线性方程组的方法。

        但是面临的一个问题是,有n组观测数据,p+1个变量,如果n>p+1,则得到的线性矛盾方程组,无法直接求解。所以欧拉和拉普拉斯采用的方法都是通过一定的对数据的观察,把n个线性方程分为p+1组,然后把每个组内的方程线性求和后归并为一个方程,从而就把n个方程的方程组化为p+1个方程的方程组,进一步解方程求解参数。这些方法初看有一些道理,但是都过于经验化,无法形成统一处理这一类问题的一个通用解决框架。
        以上求解线性矛盾方程的问题在现在的本科生看来都不困难,就是统计学中的线性回归问题,直接用最小二乘法就解决了,可是即便如欧拉、拉普拉斯这些数学大牛,当时也未能对这些问题提出有效的解决方案。可见在科学研究中,要想在观念上有所突破并不容易。有效的最小二乘法是勒让德在1805年发表的,基本思想就是认为测量中有误差,所以所有方程的累积误差为:

        我们求解出导致累积误差最小的参数即可。

        上面我们已经看到,是勒让德最初发明的最小二乘法,那为何历史上人们常常把最小二乘法的发明与高斯的名字联系起来呢?(:勒让德时期的最小二乘法还只是作为一个处理测量数据的代数方法来讨论的,实际上与统计学并无多大关联,只有建立在了测量误差分布的概率理论之后,这个方法才足以成为一个统计学方法。尽管拉普拉斯用他的中心极限定理定理也可以推导出最小二乘法,但无论是之前的棣莫弗,还是当时的勒让德,还是拉普拉斯,此时他们这些研究成果都还只是一个数学表达式而非概率分布)。

        因为1829年,高斯提供了最小二乘法的优化效果强于其他方法的证明,即为高斯-马尔可夫定理。也就是说勒让德最初提出了最小二乘法,而却是高斯让最小二乘法得以巩固而影响至今。且高斯对最小二乘法的最大贡献在于他是建立在正太误差分布的理论基础之上的(后续更是导出了误差服从正态分布的结论),最后,1837年,统计学家们正式确立误差服从正态分布,自此,人们方才真正确信:观测值与理论值的误差服从正态分布。

     

    4.6、误差分布曲线的建立

        十八世纪,天文学的发展积累了大量的天文学数据需要分析计算,应该如何来处理数据中的观测误差成为一个很棘手的问题。我们在数据处理中经常使用平均的常识性法则,千百年来的数据使用经验说明算术平均能够消除误差,提高精度。平均有如此的魅力,道理何在,之前没有人做过理论上的证明。算术平均的合理性问题在天文学的数据分析工作中被提出来讨论:测量中的随机误差应该服从怎样的概率分布?算术平均的优良性和误差的分布有怎样的密切联系?

        伽利略在他著名的《关于两个主要世界系统的对话》中,对误差的分布做过一些定性的描述,主要包括:

    • 误差是对称分布的分布在0的两侧;
    • 大的误差出现频率低,小的误差出现频率高。

        用数学的语言描述,也就是说误差分布函数f(x)关于0对称分布,概率密度随|x|增加而减小,这两个定性的描述都很符合常识。

    4.6.1、辛普森的工作

        许多天文学家和数学家开始了寻找误差分布曲线的尝试。托马斯•辛普森(Thomas Simpson,1710-1761)先走出了有意义的一步。

    • 设真值为θ,而为n次测量值,现在用测量值去估计真值,那么每次测量的误差为
    • 但若用算术平均去估计θ呢,则其误差为

        Simpson证明了,对于如下的一个概率分布,

    Simpson的误差态分布曲线

        有这样的估计:

        也就是说,相比于取小值的机会更大。辛普森的这个工作很粗糙,但是这是第一次在一个特定情况下,从概率论的角度严格证明了算术平均的优良性。

    4.6.2、拉普拉斯的工作

        在1772-1774年间,拉普拉斯也加入到了寻找误差分布函数的队伍中。与辛普森不同,拉普拉斯不是先假定一种误差分后去设法证明平均值的优良性,而是直接射向应该去怎么的分布为误差分布,以及在确定了误差分布之后,如何根据观测值去估计真值

        拉普拉斯假定误差密度函数f(x)满足如下性质:

        m>0,且为常数,上述方程解出,C>0且为常数,由于,得。故当x<0,结合概率密度的性质之一(参看上文2.2.4节):,解得c=m/2。

        由此,最终1772年,拉普拉斯求得的分布密度函数为:

        这个概率密度函数现在被称为拉普拉斯分布:

        以这个函数作为误差密度,拉普拉斯开始考虑如何基于测量的结果去估计未知参数的值,即用什么方法通过观测值去估计真值呢?要知道咱们现今所熟知的所谓点估计方法、矩估计方法,包括所谓的极大似然估计法之类的,当时可是都还没有发明。

        拉普拉斯可以算是一个贝叶斯主义者,他的参数估计的原则和现代贝叶斯方法非常相似:假设先验分布是均匀的,计算出参数的后验分布后,取后验分布的中值点,即1/2分位点,作为参数估计值。可是基于这个误差分布函数做了一些计算之后,拉普拉斯发现计算过于复杂,最终没能给出什么有用的结果,故拉普拉斯最终还是没能搞定误差分布的问题。

        至此,整个18世纪,可以说,寻找误差分布的问题,依旧进展甚微,下面,便将轮到高斯出场了,历史总是出人意料,高斯以及其简单的手法,给了这个误差分布的问题一个圆满的解决,其结果也就成为了数理统计发展史上的一块重要的里程碑。

    4.6.3、高斯导出误差正态分布

        事实上,棣莫弗早在1730年~1733年间便已从二项分布逼近的途径得到了正态密度函数的形式,到了1780年后,拉普拉斯也推出了中心极限定理的一般形式,但无论是棣莫弗,还是拉普拉斯,此时他们这些研究成果都还只是一个数学表达式而非概率分布,也就是压根就还没往误差概率分布的角度上去思索,而只有到了1809年,高斯提出“正太误差”的理论之后,它正太理论才得以“概率分布“的身份进入科学殿堂,从而引起人们的重视。

       追本溯源,正态分布理论这条大河的源头归根结底是测量误差理论。那高斯到底在正态分布的确立做了哪些贡献呢?请看下文。

        1801年1月,天文学家Giuseppe Piazzi发现了一颗从未见过的光度8等的星在移动,这颗现在被称作谷神星(Ceres)的小行星在夜空中出现6个星期,扫过八度角后在就在太阳的光芒下没了踪影,无法观测。而留下的观测数据有限,难以计算出他的轨道,天文学家也因此无法确定这颗新星是彗星还是行星,这个问题很快成了学术界关注的焦点。高斯当时已经是很有名望的年轻数学家了,这个问题也引起了他的兴趣。高斯一个小时之内就计算出了行星的轨道,并预言了它在夜空中出现的时间和位置。1801年12月31日夜,德国天文爱好者奥伯斯(Heinrich Olbers)在高斯预言的时间里,用望远镜对准了这片天空。果然不出所料,谷神星出现了!

        高斯为此名声大震,但是高斯当时拒绝透露计算轨道的方法直到1809年高斯系统地完善了相关的数学理论后,才将他的方法公布于众,而其中使用的数据分析方法,就是以正态误差分布为基础的最小二乘法。那高斯是如何推导出误差分布为正态分布的呢?请看下文。
        跟上面一样,还是设真值为,而为n次独立测量值,每次测量的误差为,假设误差ei的密度函数为f(e),则测量值的联合概率为n个误差的联合概率,记为

        到此为止,高斯的作法实际上与拉普拉斯相同,但在继续往下进行时,高斯提出了两个创新的想法。

        第一个创新的想法便是:高斯并没有像前面的拉普拉斯那样采用贝叶斯的推理方式,而是直接取L(θ)达到最小值的作为的估计值,这也恰恰是他解决此问题采用的创新方法,即

         现在我们把L(θ)称为样本的似然函数,而得到的估计值θˆ称为极大似然估计。高斯首次给出了极大似然的思想,这个思想后来被统计学家R.A.Fisher系统地发展成为参数估计中的极大似然估计理论。
        高斯的第二点创新的想法是:他把整个问题的思考模式倒过来,既然千百年来大家都认为算术平均是一个好的估计,那么就直接先承认算术平均就是极大似然估计(换言之,极大似然估计导出的就应该是算术平均),所以高斯猜测:

        然后高斯再去寻找相应的误差密度函数以迎合这一点。即寻找这样的概率分布函数,使得极大似然估计正好是算术平均。通过应用数学技巧求解这个函数f,高斯证明了所有的概率密度函数中,唯一满足这个性质的就是(记为(11)式):

       

        而这恰巧是我们所熟知的正态分布的密度函数,就这样,误差的正态分布就被高斯给推导出来了!

        但,高斯是如何证明的呢?也就是说,高斯是如何一下子就把上面(11)式所述的概率密度函数给找出来的呢?如下图所示(摘自数理统计学简史第127页注2,图中开头所说的高斯的第2原则就是上面所讲的高斯的第二点创新的想法,而下图最后所说的(11)式就是上面推导出来的概率密度函数):

        进一步,高斯基于这个误差分布函数对最小二乘法给出了一个很漂亮的解释。对于最小二乘公式中涉及的每个误差ei,有,则结合高斯的第一个创新方法:极大似然估计及上述的概率密度,(e1,⋯,en)的联合概率分布为

        要使得这个概率最大,必须使得取最小值,这正好就是最小二乘法的要求。

        高斯的这项工作对后世的影响极大,它使正态分布同时有了”高斯分布“的名称,不止如此,后世甚至也把最小二乘法的发明权也归功于他,由于他的这一系列突出贡献,人们    采取了各种形式纪念他,如现今德国10马克的钞票上便印有这高斯头像及正态分布的密度曲线,借此表明在高斯的一切科学贡献中,尤以此”正太分布“的确立对人类文明的进程影响最大。

        至此,咱们来总结下:

    1. 如你所见,相比于勒让德1805给出的最小二乘法描述,高斯基于误差正态分布的最小二乘理论显然更高一筹,高斯的工作中既提出了极大似然估计的思想,又解决了误差的概率密度分布的问题,由此我们可以对误差大小的影响进行统计度量了。
    2. 但事情就完了么?没有。高斯设定了准则“最大似然估计应该导出优良的算术平均”,并导出了误差服从正态分布,推导的形式上非常简洁优美。但是高斯给的准则在逻辑上并不足以让人完全信服,因为算术平均的优良性当时更多的是一个经验直觉,缺乏严格的理论支持。高斯的推导存在循环论证的味道:因为算术平均是优良的,推出误差必须服从正态分布;反过来,又基于正态分布推导出最小二乘和算术平均,来说明最小二乘法和算术平均的优良性,故其中无论正反论点都必须借助另一方论点作为其出发点,可是算术平均到并没有自行成立的理由。

        也就是上面说到的高斯的第二点创新的想法“他把整个问题的思考模式倒过来:既然千百年来大家都认为算术平均是一个好的估计,那么就直接先承认算术平均就是极大似然估计(换言之,极大似然估计导出的就应该是算术平均)”存在着隐患,而这一隐患的消除又还得靠咱们的老朋友拉普拉斯解决了。

        受高斯启发,拉普拉斯将误差的正态分布理论和中心极限定理联系起来,提出了元误差解释。他指出如果误差可以看成许多微小量的叠加,则根据他的中心极限定理,随机误差理应当有高斯分布(换言之,按中心极限定理来说,正态分布是由大量的但每一个作用较小的因素的作用导致而成)。而20世纪中心极限定理的进一步发展,也给这个解释提供了更多的理论支持。

        至此,误差分布曲线的寻找尘埃落定,正态分布在误差分析中确立了自己的地位。在整个正态分布被发现与应用的历史中,棣莫弗、拉普拉斯、高斯各有贡献,拉普拉斯从中心极限定理的角度解释它,高斯把它应用在误差分析中,殊途同归。不过因为高斯在数学家中的名气实在是太大,正态分布的桂冠还是更多的被戴在了高斯的脑门上,目前数学界通行的用语是正态分布、高斯分布,两者并用。

    4.6.4、正态分布的时间简史

        至此,正态分布从首次出现到最终确立,其时间简史为:

    1. 1705年,伯努力的著作推测术问世,提出伯努利大数定律;
    2. 1730-1733年,棣莫弗从二项分布逼近得到正态密度函数,首次提出中心极限定理;
    3. 1780年,拉普拉斯建立中心极限定理的一般形成;
    4. 1805年,勒让德发明最小二乘法;
    5. 1809年,高斯引入正态误差理论,不但补充了最小二乘法,而且首次导出正态分布;
    6. 1811年,拉普拉斯利用中心极限定理论证正态分布;
    7. 1837年,海根提出元误差学说,自此之后,逐步正式确立误差服从正态分布。

        如上所见,是先有的中心极限定理,而后才有的正态分布(当然,最后拉普拉斯用中心极限定理论证了正态分布),能了解这些历史,想想,都觉得是一件无比激动的事情。所以,我们切勿以为概率论与数理统计的教材上是先讲的正态分布,而后才讲的中心极限定理,而颠倒原有历史的发明演进过程。

     

     

    第五节、论道正态,正态分布的4大数学推导

        如本blog内之前所说:凡是涉及到要证明的东西.理论,便一般不是怎么好惹的东西。绝大部分时候,看懂一个东西不难,但证明一个东西则需要点数学功底,进一步,证明一个东西也不是特别难,难的是从零开始发明创造这个东西的时候,则更显艰难(因为任何时代,大部分人的研究所得都不过是基于前人的研究成果,前人所做的是开创性工作,而这往往是最艰难最有价值的,他们被称为真正的先驱。牛顿也曾说过,他不过是站在巨人的肩上。你,我则更是如此)。

         上述第4节已经介绍了正态分布的历史由来,但尚未涉及数学推导或证明,下面,参考概率论沉思录,引用“正态分布的前世今生”等相关内容,介绍推导正太分布的4种方法,曲径通幽,4条小径,殊途同归,进一步领略正态分布的美妙。

        「注:本节主要整编自rickjin写的"正态分布的前后今生"系列」

    5.1、 高斯的推导(1809)

        第一条小径是高斯找到的,高斯以如下准则作为小径的出发点

    误差分布导出的极大似然估计 = 算术平均值

        设真值为,而次独立测量值,每次测量的误差为,假设误差的密度函数为,则测量值的联合概率为n个误差的联合概率,记为

        为求极大似然估计,令

        整理后可以得到

        令,由上式可以得到

        由于高斯假设极大似然估计的解就是算术平均,把解带入上式,可以得到

        在上式中取,有

        由于此时有,并且是任意的,由此得到:.再在(6)式中取,并且要求,且,则有,并且

        所以得到而满足上式的唯一的连续函数就是,从而进一步可以求解出

        由于是概率分布函数,把正规化一下就得到正态分布密度函数

    5.2、Herschel(1850)和麦克斯韦(1860)的推导

        第二条小径是天文学家John Hershcel和物理学家麦克斯韦(Maxwell)发现的。1850年,天文学家Herschel在对星星的位置进行测量的时候,需要考虑二维的误差分布,为了推导这个误差的概率密度分布f(x,y),Herschel设置了两个准则:

    1. x轴和y轴的误差是相互独立的,即误差的概率在正交的方向上相互独立;
    2. 误差的概率分布在空间上具有旋转对称性,即误差的概率分布和角度没有关系。

        这两个准则对于Herschel考虑的实际测量问题看起来都很合理。由准则1,可以得到应该具有如下形式

        把这个函数转换为极坐标,在极坐标下的概率密度函数设为,有

        由准则2,具有旋转对称性,也就是应该和无关,所以,综合以上,我们可以得到

        取,得到,所以上式可以转换为

        令,则有

        从这个函数方程中可以解出,从而可以得到的一般形式如下

        而就是正态分布,而就是标准二维正态分布函数。

     

        1860年,我们伟大的物理学家麦克斯韦在考虑气体分子的运动速度分布的时候,在三维空间中基于类似的准则推导出了气体分子运动的分布是正态分布。这就是著名的麦克斯韦分子速率分布定律。大家还记得我们在普通物理中学过的麦克斯韦-波尔兹曼气体速率分布定律吗?

        所以这个分布其实是三个正态分布的乘积。你的物理老师是否告诉过你其实这个分布就是三维正态分布?反正我是一直不知道,直到今年才明白。
        Herschel-Maxwell推导的神妙之处在于,没有利用任何概率论的知识,只是基于空间几何的不变性,就推导出了正态分布。美国诺贝尔物理学奖得主费曼(Feymann)每次看到一个有的数学公式的时候,就会问:圆在哪里?这个推导中使用到了,也就是告诉我们正态分布密度公式中有个,其根源来在于二维正态分布中的等高线恰好是个圆。

    5.3、Landon的推导(1941)

        第三条道是一位电气工程师,Vernon D. Landon 给出的。1941年,Landon 研究通信电路中的噪声电压,通过分析经验数据他发现噪声电压的分布模式很相似,不同的是分布的层级,而这个层级可以使用方差来刻画。因此他推理认为噪声电压的分布函数形式是。现在假设有一个相对于而言很微小的误差扰动,且的分布函数是,那么新的噪声电压是。Landon提出了如下的准则

    1. 随机噪声具有稳定的分布模式
    2. 累加一个微小的随机噪声,不改变其稳定的分布模式,只改变分布的层级(用方差度量)

        用数学的语言描述:如果

        则有.现在我们来推导函数应该长成啥样。按照两个随机变量和的分布的计算方式,的分布函数将是的分布函数和的分布函数的卷积,即有

        把在x′处做泰勒级数展开(为了方便,展开后把自变量由x′替换为x),上式可以展开为

    ,则有

        对于微小的随机扰动,我们认为他取正值或者负值是对称的,所以。所以有

    (8)

        对于新的噪声电压是x′=x+e,方差由增加为,所以按照Landon的分布函数模式不变的假设,新的噪声电压的分布函数应该为。把处做泰勒级数展开,得到

    (9)

        比较(8)和(9)这两个式子,可以得到如下偏微分方程

        而这个方程就是物理上著名的扩散方程(diffusion equation),求解该方程就得到

     

        又一次,我们推导出了正态分布!
        概率论沉思录作者E.T.Jaynes对于这个推导的评价很高,认为Landon的推导本质上给出了自然界的噪音形成的过程。他指出这个推导基本上就是中心极限定理的增量式版本,相比于中心极限定理来说,是一次性累加所有的因素,Landon的推导是每次在原有的分布上去累加一个微小的扰动。而在这个推导中,我们看到,正态分布具有相当好的稳定性;只要数据中正态的模式已经形成,他就容易继续保持正态分布,无论外部累加的随机噪声是什么分布,正态分布就像一个黑洞一样把这个累加噪声吃掉。

    5.4、正态分布和最大熵

        还有一条小径是基于最大熵原理的,物理学家E.T.Jaynes在最大熵原理上有非常重要的贡献,他在《概率论沉思录》里面对这个方法有描述和证明,没有提到发现者,不过难以确认这条道的发现者是否是Jaynes本人。
        熵在物理学中由来已久,信息论的创始人香农(Claude Elwood Shannon)把这个概念引入了信息论,读者中很多人可能都知道目前机器学习中有一个非常好用的分类算法叫最大熵分类器。要想把熵和最大熵的来龙去脉说清楚可不容易,不过这条道的风景是相当独特的,E.T.Jaynes对这条道也是偏爱有加。
        对于一个概率分布,我们定义它的熵为

        如果给定一个分布函数的均值和方差(给定均值和方差这个条件,也可以描述为给定一阶原点矩和二阶原点矩,这两个条件是等价的)则在所有满足这两个限制的概率分布中,熵最大的概率分布就是正态分布
        这个结论的推导数学上稍微有点复杂,不过如果已经猜到了给定限制条件下最大熵的分布是正态分布,要证明这个猜测却是很简单的,证明的思路如下。
        考虑两个概率分布,使用不等式,得

        于是

          (读者注意:经好友白石指正,上述等式,右边的第一项p(x)之后,1/p(x) 之前少画了个log符号)

        所以

     

        熟悉信息论的读者都知道,这个式子是信息论中的很著名的结论:一个概率分布的熵总是小于相对熵。上式要取等号只有取
        对于,在给定的均值和方差下,我们取,则可以得到

        由于的均值方差有如下限制:,于是

        而当的时候,上式可以取到等号,这就证明了结论。


        E.T.Jaynes显然对正态分布具有这样的性质极为赞赏,因为这从信息论的角度证明了正态分布的优良性。而我们可以看到,正态分布熵的大小,取决于方差的大小。这也容易理解,因为正态分布的均值和密度函数的形状无关,正态分布的形状是由其方差决定的,而熵的大小反应概率分布中的信息量,显然和密度函数的形状相关。

       所谓横看成岭侧成峰,远近高低各不同,正态分布给人们提供了多种欣赏角度和想象空间。法国菩萨级别的大数学家庞加莱对正态分布说过一段有意思的话,引用来作为这个小节的结束:
        Physicists believe that the Gaussian law has been proved in mathematics while mathematicians think that it was experimentally established in physics.
    —Henri Poincaré

        OK,虽然上文已经花了如此多的篇幅讲了那么多的概念,然事实上,在概率论与数理统计中,上文所讲的概念尚不到1/3,限于篇幅,还有诸多概念没有阐述完毕,如下图所示:

        So,如上,之前微博上http://weibo.com/1580904460/z9htU9VzT 说要写的概率论与数理统计的科普blog已经初步整理完成(当然,后续一个星期之内会继续修补完善)。从前天晚上开始,连续写了两天,花了半身力气,文章若有任何问题,欢迎指正,尤能给出批评修订意见,则倍感荣幸,谢谢。.同时,但所有以上这些绝大部分都只是概率论与数理统计的基础知识,因此本文只能作个科普之效,若要深入学习,还是烦请读者朋友们阅读相关书籍,或加以动手实践。

     

    参考文献及推荐阅读

    1. 高等数学第六版上下册,同济大学数学系编;
    2. 微积分概念发展史,[美] 卡尔·B·波耶 著,唐生 译;
    3. 概率论与数理统计,高教版,盛骤等编;
    4. 浙大版概率论与数理统计电子PPT课件;
    5. 数理统计学简史,陈希孺院士著;
      (极力推荐上书,相信每一个学概率统计的朋友都有必要看一看,同时,此书也是正态分布的前后今生这一系列的主要参考)
    6. rickjin,正态分布的前后今生:http://t.cn/zlH3Ygc
    7. 正态分布的前后今生系列集成版上:http://t.cn/zjJStYq,下:http://t.cn/zjoAtUQ
    8. 大嘴巴漫谈数据挖掘:http://vdisk.weibo.com/s/bUbzJ
    9. 误差论与最小平方法 & 数学传播,蔡聪明;
    10. 正态分布进入统计学的历史演化,吴江霞;
    11. Probability Theory & The Logic of Science (概率论沉思录),E.T. Jaynes 著; 
    12. 手写数学公式编辑器:http://webdemo.visionobjects.com/equation.html?locale=zh_CN
    13. wikipedia上标准差:http://zh.wikipedia.org/wiki/%E6%A0%87%E5%87%86%E5%B7%AE
    14. 泊松分布与概率分布:http://zh.wikipedia.org/wiki/%E6%B3%8A%E6%9D%BE%E5%88%86%E4%BD%88
    15. wikipedia上一堆概念;
    16. ....

     

    后记

        本文之后,待写的几篇文章罗列如下,具体完成时间全部待定:

    1. 机器学习中相关的降维方法,如PCA/LDA等等;
    2. 神经网络入门学习导论;
    3. 程序员编程艺术第二十八章~第二十九章  (2013年3月已经写好,点击左边链接查看);
    4. ..

        在写完数据挖掘十大算法系列之后,还将写一系列机器学习的相关笔记。此外,这是本文的微博地址:http://weibo.com/1580904460/zarZW2Jye,欢迎大家推荐转发。最后,有一点必须说明的是,本文大部内容或参考或引用自上文所列的相关参考文献中,自己只是做了个总结和梳理,附带自己的一些理解,若有任何问题,欢迎读者随时交流 & 批评指正,谢谢大家。July、二零一二年十二月十九日。

     

    PS:《机器学习中的数学班》:https://www.julyedu.com/category/index/12。专为复习、巩固机器学习中所需的数学基础,包括微积分、概率统计、线性代数、凸优化

    展开全文
  • 基于统计的特异数据挖掘方法.pdf
  • 基于数据挖掘统计技术的卷烟材料成本分析方法与应用.pdf
  • 统计方法数据挖掘技术在耕地非农化分析的对比研究.pdf
  • 统计数据挖掘方法与应用的探究.pdf
  • 浅谈统计数据挖掘方法及应用.pdf
  • 篮球技术动作常用统计方法数据挖掘分析.pdf
  • 基于SAS的多元统计方法实现芯片数据挖掘.pdf
  • 统计分析在农业银行审计方法体系的运用——跨境业务的数据挖掘方法建模.pdf
  • 浅谈统计数据挖掘方法及应用 (1).pdf
  • 数据挖掘(DataMining),又称为数据库的知识发现(KnowledgeDiscoveryinDatabase,KDD),就是从大量数据获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据提取或...
  • 针对数据挖掘中亟需考虑的数据缺失、数据被污染等两类数据质量问题进行了相关分析,提出分别用于处理这些问题的统计方法
  • 1数据分析是一个大的概念理论上任何对数据进行计算处理从而得出一些有意义的结论的过程都叫数据分析从数据本身的复杂程度以及对数据进行处理的复杂度和深度来看可以把数据分析分为43个层次分别是数据统计OLAP数据...
  • 统计数据挖掘

    千次阅读 2010-03-31 22:45:00
    统计数据挖掘技术统计:借助于数学模型...u 统计数据挖掘技术:l 数据的聚集和度量技术聚集函数,count(),sum(),avg(),max(),min()等,这些函数在数据挖掘中发挥着重要的统计作用。count()用于统计对象的个数,su

    统计类数据挖掘技术

    统计:借助于数学模型手段,对数据进行那个归纳推断预测,寻找数据间的模式。统计研究中的抽样推断方法相关与回归分析方法统计推算与预测统计假设检验等方法。

    u  统计类数据挖掘技术:

    l  数据的聚集和度量技术

    聚集函数,count(),sum(),avg(),max(),min()等,这些函数在数据挖掘中发挥着重要的统计作用。count()用于统计对象的个数,sum()用于统计对象的总值,avg()用于统计对象的平均值,max()用于统计对象的最大值,min()用于统计对象的最小值。

    为数据进行中心趋势的度量,可以采用算术平均值,这就是一般数据库中的avg()函数。在大部分的数据立方体的预计算中都保存了count()sum()函数。此时,算术平均值就可以使用sum()/count()来导出。

    如果数据对象的值与某个权重有关,即值得大小需要考虑值的意义,重要性或频率, 就不能简单地用算术平均值来度量数据对象的中心趋势,而需要采用加权算术平均值。

    在数据对象是倾斜的情况下,数据中心的度量最好采用中位数。如果数据对象已经排好序,当数据对象的个数为奇数时,中位数就是有序数列的中间值,如果数据对象的个数为偶数时,中位数就是中间两个数的平均值。

    l  柱状图数据挖掘技术

    总结数据的最好方法是提供数据的柱状图。在一个简单的样本数据库中,通过计算数据库中信用评价的不同发生次数,就可以创建信用评价的一个柱状图。对于只有10个记录的简单客户信用数据库,这相当容易做到;对于一个有许多条记录的数据库,例如,对于一个超过100万数据记录的数据库,柱状图将是一个非常有用的方法,可以获得对数据库中数据的更高层次理解。

    l  线性回归数据挖掘技术

    回归是研究自变量与因变量之间关系的分析方法。其目的在于根据已知自变量来估计和预测因变量的总平均值。在统计中有许多不同类型的回归,但是它们的基本思想都是创建模型能够匹配预测属性中的值,这样做预测时就会犯很少的错误,回归最简单的形式是仅包含

    一个预测目标和一个预测属性的见到那线性回归。在经过数据所画的许多曲线中,曲线和数据点距离最小的那条曲线被选泽为预测模型。

    线性回归是最简单的回归形式,双变量回归将一个随机变量Y(称做响应变量)看做是另一个随机变量x(称为预测变量)的线性函数,即

    其中,假定 的方差为常数, 是回归系数 ,分别表示直线在Y轴的截距和直线的斜率。这些系数可用最小二乘法求解。这使得实际数据与该直线的估计之间误差很小。给定s个样本或形如( ,y1)  (x2,y2) …. (xs,ys)的数据点,回归系数 可用公式

    =

    =

    其中, , ,…, 的平均值,而 , ,… 的平均值。系数 通常给出在其它情况下复杂回归方程的较好的近似。

    l  非线性回归数据挖掘技术

    当判定变量间的关系大致是一条直线时,可以拟合成一条直线反映其变动关系。然而很多情况下,变量间的关系城曲线形式,即非线性的,这时就应拟合一条曲线来反映变量间的关系。例如,给定的响应变量和预测变量间的关系可用多项式函数表示。通过对基本模型添加多项式项,多项式回归可以用于建模。通过对变量进行变换,可将非线性模型转换成线性的,然后用最小二乘法求解。

    非线性回归主要有以下7种模型。

    1.       双曲线模型

    2.       二次曲线模型

    3.       对数模型

    4.       三角函数模型

    5.       指数模型

    6.       幂函数模型

    7.       修正指数增长曲线

                       根据非线性回归模型线型化的不同性质上述模型一般可细分成如下3种类型。

    n  1类:直接换元法。这类非线性回归模型通过简单的变量换元,可以直接划为线性回归模型,如双曲线模型二次曲线模型对数模型三角函数模型。由于这类模型因变量没有变形,可以直接采用最小平方法估计回归系数并且进行检验和预测

    n  2类:间接代换法。这类非线性回归模型经常通过对数变形的代换间接地化为线性回归模型,如指数模型幂函数模型。由于这类模型在对数变形代换过程中改变了因变量的形态,使得变形后模型的最小平方估计失去了原模型残差平方和为最小的意义,从而估计不到原模型的最佳回归系数。造成回归模型和原数列之间的较大偏差。

    n  3类:非线性。这类非线性回归模型属于不可线性化的非线性回归模型,如修正指数增长曲线。

    l  聚类数据挖掘技术

    聚类(clustering)是将数据对象分组多个类或簇(cluster)的数据挖掘技术。聚类分析方法作为统计学分支,在其多年的研究中主要集中在距离的聚类分析上。这些方法已经在许多统计软件包中得到应用,例如,SPSSSAS统计软件包中均有聚类方法。在数据挖掘中,聚类分析主要集中聚类方法的可伸缩性,对聚类复杂形状类型的数据有效性,高维聚类分析技术以及针对大型数据库中混合数值分类数据的聚类方法上。

    *  聚类分析原理

    在进行聚类分析时,必须用到n维“空间”。该空间用来定义聚类中必须解决的计量距离问题。例如,某房产开发商对其客户数据进行聚类分析时发现,如果按照数据中的“年龄”和“收入”两个字段值进行聚类处理,客户群可以分成三个主要的类别:类别1是中低收入但是已经退休的老年人、类别2是较高收入的中年人,类别3是高收入的年轻人。除此以外,还有一部分数据散落在这三个类以外;高收入的中年人和低收入的年轻人。

    这些散落在外,不能归并到任一类中的数据称为“孤立点”或“奇异点”。“孤立点”的数据与数据库中其他部分数据不同或不一致,在这些“孤立点”数据中就可能隐藏着一些重要的信息。例如在“欺诈分析”中,这些“孤立点”可能意味着有欺诈行为的存在。在市场分析中则可用来分析极低或极高收入客户的消费行为。“孤立点”的确定需要通过“孤立点”与类别中心距离来判断。凡是落入半径范围以内的点都归属于该类。否则就是孤立点。

    n维空间中应用聚类数据挖掘时,需要对数据之间的距离进行测量,这种距离的测量可以采用“欧几里德距离”、“曼哈顿距离”和“明考斯距离

    面前,聚类方法主要有分层聚类划分聚类密度聚类网格聚类模型聚类

    *  分层聚类

    分层聚类主要有创建一个层次的聚类和另外一些部分层次的聚类两种类型。分层聚类技术是从小到大创建一个聚类的层次。分层聚类的好处是它们允许最终用户从许多簇或某些簇中做出选择。聚类的目的就是发现数据库中有用的模式并且概括它。

    分层聚类通常被看成一棵树,其中最小的簇合并在一起创建下一个较高层次的簇。这一层次的簇再合并在一起,就创建了再下一层次的簇。

    *  划分聚类

    划分聚类方法是给定一个n个对象或元组的数据库构建k个划分的方法每个划分为一个聚簇,并且k n。该方法将数据划分分为k个组,每个组至少有一个对象,每个对象必须属于而且只能属于一个组(在有的模糊划分技术中对此要求不很严格)。该方法的划分采用给定的k个划分要求,先给出一个初始的划分,再用迭代重定位技术,通过对象在划分之间的移动来改进划分。

    为达到划分的全局最优,划分的聚类可能穷举所有可能的划分。但实际操作中,采用比较流行的k-平均算法k-中心点算法。前者,每个簇用该簇中对象的平均值表示。后者,每个簇用接近聚类中心的一个对象表示。划分的最后认可,要求同一类中对象之间尽可能接近或相关,而不同类之间尽可能远离或不同

    *  密度聚类

    密度聚类的思想基于距离的划分方法只能发现球状的簇,而不能发现其他形状的簇。密度聚类则只要邻近区域的密度对象或数据点的数目超过某个阀值,就继续聚类。也就是说,对给定类中的每个数据点,在一个给定范围的区域中必须至少包含某个数目的点。这样,密度聚类方法就可用于过滤“噪声”孤立点数据,发现任意形状的簇。

    *  网格聚类

    网格聚类方法是将对象空间量化为有限数目的单元形成一个网格结构。所有的聚类都在这个网格结构(即量化的空间)上进行。这种方法的优点是它的处理速度很快,其处理时间独立于数据对象的数目,只与量化空间中每一维的单元数目有关

    *  模型聚类

    基于模型的聚类方法为每个簇假定一个模型寻找数据对给定模型的最佳拟合。一个基于模型的算法,可能通过构建反映数据点空间分布的密度函数来定位聚类,它也是基于标准的统计数字自动决定聚类的数目,考虑“噪声”数据或孤立点,从而产生健壮的聚类方法。

    l  最近邻数据挖掘技术

    最近邻数据挖掘工具是数据挖掘技术中最容易理解的技术之一。因为它用与人们思维方式相似的方法进行分析——检测最接近的匹配样本。例如,在预测某些柔嫩的收入时,常需了解他目前出于什么阶层或获得什么学位。因为人们的收入高低往往与其所处的人群、与他的文化程度有关,因此需要检测与其最相邻的人群。

    用最近邻方法进行预测的基本概念是相互之间“接近”的对象具有相似的预测值。

    如果知道其中的一个对象的预测值后,可以预测其最近的邻居对象。这种最近邻的概念往往和人们能将对象进行合理排序的能力有关。

    k近邻方法,如果k个最近邻的预测值是二元的逻辑值,就按照k个记录的多数取值,如果k个最近邻预测值是多元的分类值,就可以取它们的平均值作为未分类记录的预测值

    u  统计分析类工具

    l  统计类数据挖掘工具与商业业务员

    使统计分析工具开始为商业分析人员所采纳和应用。这些商业分析员是其业务领域的专家,但却不是程序员或统计员。他们要从数据仓库中选择恰当的数据,将它抽取出来并且进行分析。商业分析员不可能将其有限的时间和精力投入学习如恶化编写计算机程序、操作数据库,而构造形式化的统计分析方法策略可能更适合他们的决策分析。

    l  统计类数据挖掘工具的功能

    *  可视化的功能

    *  探索功能

    *  统计和操作的功能

    *  数据管理功能

    *  显示功能

    *  挖掘结果描述功能

    *  开发功能

    *  可接收的响应时间

    l  统计类数据挖掘工具——SPSS(Statistical Program for Social Sciences)

    *  基本统计分析工具

    SPSS的基本统计分析工具由Analyze菜单下的报告分析(Report描述性统计分析(Descriptive Statistics)两项功能组成。利用基本统计分析,可以了解所分析数据对象的许多统计学指标,例如均数方差标准差标准误差最大值最小值范围偏差峰值以及标准误差等,并且能对数据进行正态分析独立性检验,分析单变量数据的特性多变量数据的相互关系

    报告分析通过命令“Analyze->Report,可以启动连机分析处理(OLAP Cubes)、观察值摘要分析(Cases Summary)、行式摘要报告(Report Summaries in Rows)和列式摘要报告(Report Summaries in Columns)等分析。

    描述性统计分析可以通过“Analyze->Descriptive Statics,启动频数分析(Frequencies)、描述性统计量(Descriptives)、探索分析(Explore)和多维频数分布列联表(Crosstabs)

    *  回归分析

    SPSS中可以完成线性回归分析(Linear)、曲线回归分析(Curve Estimation)、二维logistic回归分析(Binary Logistic)、多维logistic回归分析(Multinomial Logistic)Ordinal回归分析(Ordinal)、概率单位回归分析(Proibit)和非线性回归分析(Nonlinear)等统计分析。这些回归分析Analyze->Regression菜单项下启动。

    *  相关分析

    SPSS中的相关分析包括相关分析(Bivariate)、偏相关分析(Partial)和距离分析(Distances)等数据分析功能。相关分析主要通过数据变量之间的密切程度根据样本资料推断总体是否相关。这些相关分析的启动需要使用命令“Analyze->”Correlate”

    *  分类分析

    SPSS中的分类分析主要有快速样本聚类(K-Means Cluster)、层次聚类(Hierararchical Cluster)和判别分类(Discriminant)。这些分类方法均在命令”Analyze”->”Classify”下。

    *  因子分析

    SPSS中的因子分析主要用于研究若干个变量(因素)中每个变量对某些响应的作用。对这些因素的研究可以是单因素也可以是多因素的。在SPSS中用“Analyze->”Data Reduction”->”Factor”命令进行因子分析。因子分析目的是用少数几个因子去描述许多指标或因素之间的联系,即将相互关系比较密切的几个变量归纳在同一个类别中,每个类别就成为一个因子,就可以用少数几个因子反映数据中的大部分信息。

    *  非参数分析

    u  统计分析类工具的用途

    在数据挖掘过程中,有时需要对时序数据库序列数据库进行数据挖掘。统计类数据挖掘工具可以在时序数据和序列数据的挖掘过程中发挥重要作用,主要是趋势分析相似性搜索与时间有关数据的序列模式挖掘周期性模式的挖掘

    l  趋势分析

    发生时序变化的数据通常可能出现长期的趋势变化循环变化季节变化以及随机变化的趋向。

    *  趋势变化的数据序列可以反映一般的变化方向,它的时序图是一种较长时间间隔上的数据变化。这种变化反映一种趋势,确定这种趋势的方法可以采用加权平均最小二乘法

    *  循环变化数据的趋势线在一个较长的时间内呈现一种摆动变化迹象。这种摆动可能是一种完全周期性的,也可能不是周期性的,即在时间间隔之间循环不按同样的模式演变

    *  季节变化数据反映每年都重复出现的事件,例如,春节前,各种商品的销售量会有一个较大幅度的增长。这种时序变化是以同一或类似同一模式,在连续几年的有关月份中重复出现。

    l  时序分析

    时序分析是指在时序数据中应用所谓的相似搜索,找出与给定查询序列最接近数据序列,主要找出与给定序列相似的所有数据序列的子序列匹配或找出彼此间相似的整体序列匹配,这些相似搜索可以用于对市场数据的分析中。时序的相似搜索需要经过数据变换,将时序数据时间域转换到频率域,转换方法主要采用傅立叶变换(DFT)离散小波变换(DWT),一旦数据完成变换,就可提交系统,由系统根据索引检索出与查询序列保持最小距离的数据序列。

    为提高相似搜索效率,在数据转换以后需要建立一些索引,这些索引主要有R-树、R*-树以及后缀树。

    l  周期分析

    周期分析是针对周期模式的挖掘,即在所时序数据库中找出重复出现的模式。周期模式挖掘可以看成一组分片序列为持续时间序列模式挖掘。例如,在每年春节销售这一事件出现前后的每一天销售等。

    周期模式的挖掘问题可以分成挖掘全周期模式挖掘部分周期模式挖掘周期关联关则3种。挖掘全周期模式是指在周期中的每一时间点都影响时序上的循环行为,例如一周中的每一天销售量都会对一周中的销售量发挥作用。

    挖掘部分周期模式是一种比较松散的全周期模式,这种模式在现实中是常见的,他主要描述部分时间点的时序周期。

    挖掘周期关联规则是指周期性出现的事件的关联规则。即在某个周期中,某个事件发生以后,将会导致另一事件的发生。

    u  统计分析类工具应用中的问题

    l  统计类数据挖掘的预处理问题

    *  空缺值处理:如果数据库中许多元组的一些属性值没有记录只,可以采用以下的方法为该属性添上空缺的值。

    ü  忽略元组:该方法应用时,要求元组有多个属性缺少值。

    ü  人工填写空缺值:该方法很费时,且当数据量很大、缺少很多值时,该方法可能行不通。

    ü  使用一个全局变量来填充空缺值:将空缺的值用同一个常数替换

    ü  使用属性的平均值填充空缺值:使用与给定元组属同一类的所有样本的平均值。

    ü  使用最可能的值填充空缺值:使用回归、基于推导的使用贝叶斯形式化方法的工具或判定树归纳确定最有可能的值,将其填充到空缺值中。

    *  噪声数据处理:噪声是一个测量变量中的随机错误或偏差。给定一个数值属性的噪声,可以将其平滑或剔除掉噪声。

    ü  分箱:分箱方法用来平滑噪声,该方法主要通过考察“邻居”(即周围的值),平滑存储数据的值,存储值被分布到一些“桶”或箱中。由于分箱方法参考相邻的值,因此它进行局部平滑。箱平均值平滑,箱边界平滑。一般而言,宽度越大,平滑效果越大。

    ü  聚类:数据中的孤立点噪声可用聚类检测出来。聚类将类似的值组织成群或“聚类”。直观地看,落在聚类集合之外的值被视为孤立点。孤立点值作为噪声值处理,将其删除或用“聚类”中心代替。

    ü  计算机和人工检查结合

    可以通过计算机和人工检查相结合的方法来识别孤立点。

    ü  回归:可以通过让数据适合一个函数(如回归函数)来平滑噪声数据。线性回归涉及找出适合两个变量的“最佳”直线,使得一个变量能够预测另一个。多线性回归是线性回归的扩展,它涉及多于两个变量。适合多维面数据。使得回归找出适合数据的数学方程式,能够帮助消除噪声。

    *  不一致数据处理

    对于有些事务,所记录的数据可能存在不一致性。有些数据不一致可以使用其他材料人工加以更正,

    l  统计分析遵循的基本原则

    *  与定性分析相结合的原则

    统计分析是一种定量分析,但不是抽象的量,而是具有一定质的量。

    *  连贯和类推原则

    这是进行模拟外推分析所要遵循的两条重要原则。连贯性指的是过去和现在的状况将会依某种规律延续到将来。它有两方面的含义:一是时间的连贯性,而是结构的连贯性。类推原则指客观事物的结构和变化都有一定模式。同一性质,同一类型的饰物,其结构变化应该有同一模式。这种模式可由数学模型模拟,将过去的情况类推到将来,类推原则是建立统计模型的理论基础。

    *  统计资料的可靠性和分析公式的适应性原则

    必须保证统计资料的准确、可靠和合理。对于同一目的、同一批数据的分析问题来说,可以有不同的分析模型和分析方法,建立最合适的分析公式。

    l  统计分析的步骤

    *  确定分析目标:分析对象是什么,解决什么问题,达到什么要求以及分析的时间、范围等。

    *  收集、审核及分析统计资料

    *  确定分析模型、选择分析方法

    *  进行分析

    根据选定的模型,用选定的分析方法计算出参数后,就有了据以分析的公式,根据分析公式对数据进行分析。

    *  误差分析

    l  统计类数据挖掘的性能问题

    许多人认为统计方法是数据挖掘最准确的形式。事实上许多数据挖掘技术都用存在已久的统计技术。一种很流行的决策树方法CHAID卡方度量关联算法使用了支持度和置信度聚类技术使用了K均值算法之类的统计尺度;贝叶斯网使用了1763年就在的统计技术“贝叶斯概率理论

    展开全文
  • 数据挖掘中常用的数据清洗方法

    万次阅读 多人点赞 2016-06-29 14:08:09
    对于数据挖掘来说,80%的工作都花在数据准备上面,而数据准备,80%的时间又花在数据清洗上,而数据清洗的工作,80%又花在选择若干种适当高效的方法上。用不同方法清洗的数据,对后续挖掘的分析工作会带来重大影响。

    对于数据挖掘来说,80%的工作都花在数据准备上面,而数据准备,80%的时间又花在数据清洗上,而数据清洗的工作,80%又花在选择若干种适当高效的方法上。用不同方法清洗的数据,对后续挖掘的分析工作会带来重大影响。

    1、数值化
    由于原始数据往往存在各种不同格式的数据形式,比如如果你要处理的数据是数值型,但是原始数据也许有字符型或者其他,那就要对其进行标准化操作。处理的方式可以很简单也可以很复杂,我采取过的一个方法是:对字符串取值,按照ANSI码值求和得到字符串的值,如果值太大,可以取一个适当的质数对其求模,本质上就是映射到一个区间了。然后就得到数值型的数据了。

    2、标准化 normalization
    由于原始数据各个维度之间的数值往往相差很大,比如一个维度的最小值是0.01,另一个维度最小值却是1000,那么也许在数据分析的时候,计算相关性或者方差啥的指标,后者会掩盖了前者的作用。因此有必要对整体数据进行归一化工作,也就是将它们都映射到一个指定的数值区间,这样就不会对后续的数据分析产生重大影响。我采取过的一个做法是:min-max标准化。

    3、降维
    由于原始数据往往含有很多维度,也就是咱们所说的列数。比如对于银行数据,它往往就含有几十个指标。这些维度之间往往不是独立的,也就是说也许其中之间若干的维度之间存在关联,也许有他就可以没有我,因此咱们可以使用数据的相关性分析来降低数据维度。我使用过的一个方法是:主成分分析法。

    4、完整性:

    解决思路:数据缺失,那么补上就好了。
    补数据有什么方法?

    - 通过其他信息补全,例如使用身份证件号码推算性别、籍贯、出生日期、年龄等
    - 通过前后数据补全,例如时间序列缺数据了,可以使用前后的均值,缺的多了,可以使用平滑等处理,记得Matlab还是什么工具可以自动补全
    
    - 实在补不全的,虽然很可惜,但也必须要剔除。但是不要删掉,没准以后可以用得上
    
    - 解决数据的唯一性问题
    

    解题思路:去除重复记录,只保留一条。
    去重的方法有:

    - 按主键去重,用sql或者excel“去除重复记录”即可,
    - 按规则去重,编写一系列的规则,对重复情况复杂的数据进行去重。例如不同渠道来的客户数据,可以通过相同的关键信息进行匹配,合并去重。
    
    - 解决数据的权威性问题
    

    解题思路:用最权威的那个渠道的数据
    方法:
    对不同渠道设定权威级别,例如:在家里,首先得相信媳妇说的。。。

    - 解决数据的合法性问题
    

    解题思路:设定判定规则

    - 设定强制合法规则,凡是不在此规则范围内的,强制设为最大值,或者判为无效,剔除
    
    - 字段类型合法规则:日期字段格式为“2010-10-10”
    - 字段内容合法规则:性别 in (男、女、未知);出生日期<=今天
    
    • 设定警告规则,凡是不在此规则范围内的,进行警告,然后人工处理

      - 警告规则:年龄》110
      
    • 离群值人工特殊处理,使用分箱、聚类、回归、等方式发现离群值

      • 解决数据的一致性问题

    解题思路:建立数据体系,包含但不限于:

    - 指标体系(度量)
    - 维度(分组、统计口径)
    - 单位
    - 频度
    - 数据
    
    展开全文
  • 数据仓库、OLAP和 数据挖掘统计分析的关系和区别分析 一、什么是数据挖掘  数据挖掘(Data Mining),又称为数据库的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据获取有效的、新颖的、...

    数据仓库、OLAP和 数据挖掘、统计分析的关系和区别分析

    一、什么是数据挖掘

      数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。 

     二、数据挖掘相关的10个问题

       NO.1 Data Mining和统计分析有什么不同?

      硬要去区分Data MiningStatistics的差异其实是没有太大意义的。一般将之定义为Data Mining技术的CARTCHAID或模糊计算等等理论方法,也都是由统计学者根据统计理论所发展衍生,换另一个角度看,Data Mining有相当大的比重是由高等统计学中的多变量分析所支撑。在我看来统计分析应是数据挖掘的一脉祖先,因为数据挖掘的许多基本思想和方法都来源于传统统计理论。最典型的就是时间序列分析,你可以在这两个领域里找到大量时序分析的论述,并且数据挖掘中时序分析的方法与统计里的时序分析方法相同,比如一元回归等。但是,统计分析中的时序分析并不仅限于此,还有其他一些相关的方法。另外,数据挖掘里的决策树方法等人工智能方法在传统统计理论中是不存在的。最后可以得出结论,那就是数据挖掘的一些基本方法来源于统计分析,针对性更强(比如挖掘中的时序分析针对趋势预测),通过与人工智能等其他技术相结合,产生更灵活有效的分析方式。

       但是为什么Data Mining的出现会引发各领域的广泛注意呢?主要原因在相较于传统统计分析而言,Data Mining有下列几项特性:

      1.处理大量实际数据更强势,且无须太专业的统计背景去使用Data Mining的工具;

      2.数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件,Data Mining的工具更符合企业需求;

      3. 纯就理论的基础点来看,Data Mining和统计分析有应用上的差别,毕竟Data Mining目的是方便企业终端用户使用而非给统计学家检测用的。

         NO.2 Data Warehousing Data Mining的关系为何? 

      若将Data Warehousing(数据仓库)比喻作矿坑,Data Mining就是深入矿坑采矿的工作。毕竟Data Mining不是一种无中生有的魔术,也不是点石成金的炼金术,若没有够丰富完整的数据,是很难期待Data Mining能挖掘出什么有意义的信息的。

      要将庞大的数据转换成为有用的信息,必须先有效率地收集信息。随着科技的进步,功能完善的数据库系统就成了最好的收集数据的工具。数据仓库,简单地说,就是搜集来自其它系统的有用数据,存放在一整合的储存区内。所以其实就是一个经过处理整合,且容量特别大的关系型数据库,用以储存决策支持系统(Design Support System)所需的数据,供决策支持或数据分析使用。从信息技术的角度来看,数据仓库的目标是在组织中,在正确的时间,将正确的数据交给正确的人。

      许多人对于Data WarehousingData Mining时常混淆,不知如何分辨。其实,数据仓库是数据库技术的一个新主题,利用计算机系统帮助我们操作、计算和思考,让作业方式改变,决策方式也跟着改变。

      数据仓库本身是一个非常大的数据库,它储存着由组织作业数据库中整合而来的数据,特别是指事务处理系统OLTPOn-Line Transactional Processing)所得来的数据。将这些整合过的数据置放于数据昂哭中,而公司的决策者则利用这些数据作决策;但是,这个转换及整合数据的过程,是建立一个数据仓库最大的挑战。因为将作业中的数据转换成有用的的策略性信息是整个数据仓库的重点。综上所述,数据仓库应该具有这些数据:整合性数据(integrated data)、详细和汇总性的数据(detailed and summarized data)、历史数据、解释数据的数据。从数据仓库挖掘出对决策有用的信息与知识,是建立数据仓库与使用Data Mining的最大目的,两者的本质与过程是两回事。换句话说,数据仓库应先行建立完成,Data mining才能有效率的进行,因为数据仓库本身所含数据是干净(不会有错误的数据参杂其中)、完备,且经过整合的。因此两者关系或许可解读为Data Mining是从巨大数据仓库中找出有用信息的一种过程与技术。

      NO.3 OLAP能不能代替 Data Mining

      所谓OLAPOnline Analytical Process)意指由数据库所连结出来的在线分析处理程序。有些人会说:「我已经有OLAP的工具了,所以我不需要Data Mining。」事实上两者间是截然不同的,主要差异在于Data Mining用在产生假设,OLAP则用于查证假设。简单来说,OLAP是由使用者所主导,使用者先有一些假设,然后利用OLAP来查证假设是否成立;而Data Mining则是用来帮助使用者产生假设。所以在使用OLAP或其它Query的工具时,使用者是自己在做探索(Exploration),但Data Mining是用工具在帮助做探索。

      举个例子来看,一市场分析师在为超市规划货品架柜摆设时,可能会先假设婴儿尿布和婴儿奶粉会是常被一起购买的产品,接着便可利用OLAP的工具去验证此假设是否为真,又成立的证据有多明显;但Data Mining则不然,执行Data Mining的人将庞大的结帐数据整理后,并不需要假设或期待可能的结果,透过Mining技术可找出存在于数据中的潜在规则,于是我们可能得到例如尿布和啤酒常被同时购买的意料外之发现,这是OLAP所做不到的。

      Data Mining常能挖掘出超越归纳范围的关系,但OLAP仅能利用人工查询及可视化的报表来确认某些关系,是以Data Mining此种自动找出甚至不会被怀疑过的数据模型与关系的特性,事实上已超越了我们经验、教育、想象力的限制,OLAP可以和Data Mining互补,但这项特性是Data Mining无法被OLAP取代的。

      NO.4完整的Data Mining包含哪些步骤?

      以下提供一个Data Mining的进行步骤以为参考:

      1. 理解业务与理解数据;

      2. 获取相关技术与知识;

      3. 整合与查询数据;

      4. 去除错误或不一致及不完整的数据;

      5. 由数据选取样本先行试验;

      6. 建立数据模型

      7. 实际Data Mining的分析工作;

      8. 测试与检验;

      9. 找出假设并提出解释;

      10. 持续应用于企业流程中。

      由上述步骤可看出,Data Mining牵涉了大量的准备工作与规划过程,事实上许多专家皆认为整套Data Mining的进行有80﹪的时间精力是花费在数据前置作业阶段,其中包含数据的净化与格式转换甚或表格的连结。由此可知Data Mining只是信息挖掘过程中的一个步骤而已,在进行此步骤前还有许多的工作要先完成。

      NO.5 Data Mining运用了哪些理论与技术?

      Data Mining是近年来数据库应用技术中相当热门的议题,看似神奇、听来时髦,实际上却也不是什么新东西,因其所用之诸如预测模型、数据分割,连结分析(Link Analysis)、偏差侦测(Deviation Detection)等,美国早在二次世界大战前就已应用运用在人口普查及军事等方面。

      随着信息科技超乎想象的进展,许多新的计算机分析工具问世,例如关系型数据库、模糊计算理论、基因算法则以及类神经网络等,使得从数据中发掘宝藏成为一种系统性且可实行的程序。

      一般而言,Data Mining的理论技术可分为传统技术与改良技术两支。

       传统技术以统计分析为代表,统计学内所含序列统计、概率论、回归分析、类别数据分析等都属于传统数据挖掘技术,尤其 Data Mining对象多为变量繁多且样本数庞大的数据,是以高等统计学里所含括之多变量分析中用来精简变量的因素分析(Factor Analysis)、用来分类的判别分析(Discriminant Analysis),以及用来区隔群体的分群分析(Cluster Analysis)等,在Data Mining过程中特别常用。

      在改良技术方面,应用较普遍的有决策树理论(Decision Trees)、类神经网络(Neural Network)以及规则归纳法(Rules Induction)等。决策树是一种用树枝状展现数据受各变量的影响情形之预测模型,根据对目标变量产生之效应的不同而建构分类的规则,一般多运用在对客户数据的分析上,例如针对有回函与未回含的邮寄对象找出影响其分类结果的变量组合,常用分类方法为CARTClassification and Regression Trees)及CHAIDChi-Square Automatic Interaction Detector)两种。

      类神经网络是一种仿真人脑思考结构的数据分析模式,由输入之变量与数值中自我学习并根据学习经验所得之知识不断调整参数以期建构数据的型样(patterns)。类神经网络为非线性的设计,与传统回归分析相比,好处是在进行分析时无须限定模式,特别当数据变量间存有交互效应时可自动侦测出;缺点则在于其分析过程为一黑盒子,故常无法以可读之模型格式展现,每阶段的加权与转换亦不明确,是故类神经网络多利用于数据属于高度非线性且带有相当程度的变量交感效应时。

      规则归纳法是知识发掘的领域中最常用的格式,这是一种由一连串的「如果…/则…(If / Then)」之逻辑规则对数据进行细分的技术,在实际运用时如何界定规则为有效是最大的问题,通常需先将数据中发生数太少的项目先剔除,以避免产生无意义的逻辑规则。

      NO.6 Data Mining包含哪些主要功能?

      Data Mining实际应用功能可分为三大类六分项来说明:ClassificationClustering属于分类区隔类;RegressionTime-series属于推算预测类;AssociationSequence则属于序列规则类。

      Classification是根据一些变量的数值做计算,再依照结果作分类。(计算的结果最后会被分类为几个少数的离散数值,例如将一组数据分为 "可能会响应"或是 "可能不会响应"两类)。Classification常被用来处理如前所述之邮寄对象筛选的问题。我们会用一些根据历史经验已经分类好的数据来研究它们的特征,然后再根据这些特征对其他未经分类或是新的数据做预测。这些我们用来寻找特征的已分类数据可能是来自我们的现有的客户数据,或是将一个完整数据库做部份取样,再经由实际的运作来测试;譬如利用一个大型邮寄对象数据库的部份取样来建立一个Classification Model,再利用这个Model来对数据库的其它数据或是新的数据作分类预测。

      Clustering用在将数据分群,其目的在于将群间的差异找出来,同时也将群内成员的相似性找出来。ClusteringClassification不同的是,在分析前并不知道会以何种方式或根据来分类。所以必须要配合专业领域知识来解读这些分群的意义。

      Regression是使用一系列的现有数值来预测一个连续数值的可能值。若将范围扩大亦可利用Logistic Regression来预测类别变量,特别在广泛运用现代分析技术如类神经网络或决策树理论等分析工具,推估预测的模式已不在止于传统线性的局限,在预测的功能上大大增加了选择工具的弹性与应用范围的广度。

      Time-Series ForecastingRegression功能类似,只是它是用现有的数值来预测未来的数值。两者最大差异在于Time-Series所分析的数值都与时间有关。Time-Series Forecasting的工具可以处理有关时间的一些特性,譬如时间的周期性、阶层性、季节性以及其它的一些特别因素(如过去与未来的关连性)。

      Association是要找出在某一事件或是数据中会同时出现的东西。举例而言,如果A是某一事件的一种选择,则B也出现在该事件中的机率有多少。(例如:如果顾客买了火腿和柳橙汁,那么这个顾客同时也会买牛奶的机率是85%。)

      Sequence DiscoveryAssociation关系很密切,所不同的是Sequence Discovery中事件的相关是以时间因素来作区隔(例如:如果A股票在某一天上涨12%,而且当天股市加权指数下降,则B股票在两天之内上涨的机率是 68%)。

     

      NO.7 Data Mining在各领域的应用情形为何?

      Data Mining在各领域的应用非常广泛,只要该产业拥有具分析价值与需求的数据仓储或数据库,皆可利用Mining工具进行有目的的挖掘分析。一般较常见的应用案例多发生在零售业、直效行销界、制造业、财务金融保险、通讯业以及医疗服务等。

      于销售数据中发掘顾客的消费习性,并可藉由交易纪录找出顾客偏好的产品组合,其它包括找出流失顾客的特征与推出新产品的时机点等等都是零售业常见的实例;直效行销强调的分众概念与数据库行销方式在导入Data Mining的技术后,使直效行销的发展性更为强大,例如利用Data Mining分析顾客群之消费行为与交易纪录,结合基本数据,并依其对品牌价值等级的高低来区隔顾客,进而达到差异化行销的目的;制造业对Data Mining的需求多运用在品质控管方面,由制造过程中找出影响产品品质最重要的因素,以期提高作业流程的效率。

      近来电话公司、信用卡公司、保险公司以及股票交易商对于诈欺行为的侦测(Fraud Detection)都很有兴趣,这些行业每年因为诈欺行为而造成的损失都非常可观,Data Mining可以从一些信用不良的客户数据中找出相似特征并预测可能的诈欺交易,达到减少损失的目的。财务金融业可以利用 Data Mining来分析市场动向,并预测个别公司的营运以及股价走向。Data Mining的另一个独特的用法是在医疗业,用来预测手术、用药、诊断、或是流程控制的效率。

       NO.8 Web MiningData Mining有什么不同?

      如果将Web视为CRM的一个新的Channel,则Web Mining便可单纯看做Data Mining应用在网络数据的泛称。

      该如何测量一个网站是否成功?哪些内容、优惠、广告是人气最旺的?主要访客是哪些人?什么原因吸引他们前来?如何从堆积如山之大量由网络所得数据中找出让网站运作更有效率的操作因素?以上种种皆属Web Mining分析之范畴。Web Mining不仅只限于一般较为人所知的log file分析,除了计算网页浏览率以及访客人次外,举凡网络上的零售、财务服务、通讯服务、政府机关、医疗咨询、远距教学等等,只要由网络连结出的数据库够大够完整,所有Off-Line可进行的分析,Web Mining都可以做,甚或更可整合Off-LineOn-Line的数据库,实施更大规模的模型预测与推估,毕竟凭借网际网络的便利性与渗透力再配合网络行为的可追踪性与高互动特质,一对一行销的理念是最有机会在网络世界里完全落实的。

      整体而言,Web Mining具有以下特性:1.数据收集容易且不引人注意,所谓凡走过必留下痕迹,当访客进入网站后的一切浏览行为与历程都是可以立即被纪录的;2.以交互式个人化服务为终极目标,除了因应不同访客呈现专属设计的网页之外,不同的访客也会有不同的服务;3.可整合外部来源数据让分析功能发挥地更深更广,除了log filecookies、会员填表数据、线上调查数据、线上交易数据等由网络直接取得的资源外,结合实体世界累积时间更久、范围更广的资源,将使分析的结果更准确也更深入。

      利用Data Mining技术建立更深入的访客数据剖析,并赖以架构精准的预测模式,以期呈现真正智能型个人化的网络服务,是Web Mining努力的方向。

      NO.9 Data Mining CRM中扮演的角色为何?

      CRMCustomer Relationship Management)是近来引起热烈讨论与高度关切的议题,尤其在直效行销的崛起与网络的快速发展带动下,跟不上CRM的脚步如同跟不上时代。事实上CRM并不算新发明,奥美直效行销推动十数年的COCustomer Ownership)就是现在大家谈的CRM—客户关系管理。

      Data Mining应用在CRM的主要方式可对应在Gap Analysis之三个部分:

      针对Acquisition Gap,可利用Customer Profiling找出客户的一些共同的特征,希望能藉此深入了解客户,藉由Cluster Analysis对客户进行分群后再透过Pattern Analysis预测哪些人可能成为我们的客户,以帮助行销人员找到正确的行销对象,进而降低成本,也提高行销的成功率。

      针对Sales Gap,可利用Basket Analysis帮助了解客户的产品消费模式,找出哪些产品客户最容易一起购买,或是利用Sequence Discovery预测客户在买了某一样产品之后,在多久之内会买另一样产品等等。利用 Data Mining可以更有效的决定产品组合、产品推荐、进货量或库存量,甚或是在店里要如何摆设货品等,同时也可以用来评估促销活动的成效。

      针对Retention Gap,可以由原客户后来却转成竞争对手的客户群中,分析其特征,再根据分析结果到现有客户数据中找出可能转向的客户,然后设计一些方法预防客户流失;更有系统的做法是藉由Neural Network根据客户的消费行为与交易纪录对客户忠诚度进行Scoring的排序,如此则可区隔流失率的等级进而配合不同的策略。

      CRM不是设一个(080)客服专线就算了,更不仅只是把一堆客户基本数据输入计算机就够,完整的CRM运作机制在相关的硬软件系统能健全的支持之前,有太多的数据准备工作与分析需要推动。企业透过Data Mining可以分别针对策略、目标定位、操作效能与测量评估等四个切面之相关问题,有效率地从市场与顾客所搜集累积之大量数据中挖掘出对消费者而言最关键、最重要的答案,并赖以建立真正由客户需求点出发的客户关系管理。

      NO.10目前业界有哪些常用的Data Mining分析工具?

      Data Mining工具市场大致可分为三类:

      1. 一般分析目的用的软件包

      SAS Enterprise Miner

      IBM Intelligent Miner

      SPSS Clementine

           Unica PRW

        SGI MineSet

        Oracle Darwin

      Angoss KnowledgeSeeker

      2. 针对特定功能或产业而研发的软件

      KD1(针对零售业)

      Options & Choices(针对保险业)

      HNC(针对信用卡诈欺或呆帐侦测)

      Unica Model 1(针对行销业)

      3. 整合DSSDecision Support Systems/OLAP/Data Mining的大型分析系统

      Cognos Scenario and Business Objects

     

        上文参考自:http://blog.sina.com.cn/s/blog_4b62a6270100cc6r.html

    展开全文
  • 数据挖掘中的数据预处理方法总结

    万次阅读 2016-12-11 10:37:16
    应该是从原始数据选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码;去除惟一属性;去除重复性;去除可忽略字段;合理选择关联字段。...
  • 数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的、随机的数据提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 数据挖掘对象 根据信息存储格式,用于挖掘的对象有关系数据库...
  • 互联网点击数据、传感数据、日志文件、具有丰富地理空间信息的移动数据和涉及网络的各类评论,成为了海量信息的多种形式。当数据以成百上千TB不断增长的时候,我们在内部交易系统的历史信息之外,需要一种基于大数据...
  • 数据挖掘中的可视化方法

    千次阅读 2017-09-20 17:46:26
    数据可视化 数据可视化,是关于数据...主要指的是技术上较为高级的技术方法,而这些技术方法允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化
  • 又称为数据库的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据提取或“挖掘”知识。...
  • 《基于r的统计分析与数据挖掘》聚焦当今备受国内外数据分析师和数据应用者关注的r语言,关注如何借助r实现统计分析和数据挖掘。它既不是仅侧重理论讲解的统计分析和数据挖掘教科书,也不是仅侧重r编程操作的使用手册...
  • 数据挖掘常见分析方法

    千次阅读 2010-02-27 19:34:00
    数据挖掘常见分析方法一、回归分析目的:设法找出变量间的依存(数量)关系, 用函数关系式表达出来。所谓回归分析法,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称...
  • 图书馆数据挖掘方法 二具与梟例分析 大纲 口数据挖掘概述 口数据挖掘的过程 口数据挖掘方法与工具 口图书馆数据挖掘案例分析 口图书馆数据挖掘实践 数据挖掘的发展动力 需要是发明之母 口信息技术的发展使得数据的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 80,486
精华内容 32,194
关键字:

数据挖掘中的统计方法