精华内容
下载资源
问答
  • 学习理论-PAC理论

    千次阅读 2018-09-17 22:49:41
    学习理论 1、基本概念 2、PAC理论 3、VC维 4、极大似然,最大后验概率,贝叶斯估计 5、模型评估与评价指标 6、模型诊断调参 二、PAC理论 ​ 概率近似正确(PAC)理论是从概率的角度来衡量模型的正确率,给出了PAC可...

    学习理论

    1、基本概念
    2、PAC理论
    3、VC维
    4、极大似然,最大后验概率,贝叶斯估计
    5、模型评估与评价指标
    6、模型诊断调参

    二、PAC理论

    ​ 概率近似正确(PAC)理论是从概率的角度来衡量模型的正确率,给出了PAC可辨识,样本复杂度界,误差上界。

    偏差/方差

    ​ 偏差和方差是机器学习中很重要的两个概念,在分析模型时对应于欠拟合和过拟合问题。

    以回归问题为例,上图中左边为一个线性拟合,可以看出,拟合的程度不够(欠拟合),与真实样本的偏差较大,右边的图类似于插值曲线,基本上每个点都拟合的过好(过拟合),然而我们的训练集只是样本数真实分布的一个子集,并不代表所有的样本(测试集)都能拟合的很好,一般而言,由于右图模型复杂度较高,往往泛化能力不如简单的模型。而中间的图拟合的程度和模型的复杂度都不错,因此,机器学习中更倾向于中间的模型最优。

    经验风险最小

    经验风险最小一直以来都是我们构建目标函数的一个准则,以二分类为例,经验风险最小就是使得误判的样本数最少,对于数据集:
    S={x(i),y(i)},0im,y{0,1} S=\{x^{(i)},y^{(i)}\},0\leq i \leq m ,y\in \{0,1\}
    其中,样本点(x(i),y(i))(x^{(i)},y^{(i)})独立同分布。

    假设,我们学习一个模型来进行分类:
    hθ(x)=g(θTx)g(z)=I{z0},g{0,1} h_{\theta}(x)=g(\theta^Tx)\\ g(z)=I\{z\geq 0\},g \in \{0,1\}
    其中hh是一个线性函数,gg是一个指示函数,这样我们就有了一个二分类器。

    那么,训练误差即为:
    ϵ^(hθ)=ϵ^S(hθ)=1mi=1mI{hθ(x(i))y(i)} \hat{\epsilon}(h_{\theta})=\hat{\epsilon}_{S}(h_{\theta})=\frac{1}{m}\sum_{i=1}^{m}I\{h_{\theta}(x^{(i)})\neq y^{(i)}\}
    经验风险最小化准则就是最小化训练误差:
    θ^=argminθϵ^S(hθ) \hat{\theta}=arg\min_{\theta}\hat{\epsilon}_{S}(h_{\theta})
    然而,我们发现如上目标函数非凸,一般无法直接优化,而且这样定义目标函数得到最好的模型在真实数据上并不一定测试误差就最小。为了解决优化的问题,采用对数损失,指数损失,Higne损失,线性损失来代替0​​10\!-\!1损失。

    也就是说我们根据最小化经验损失,从hθh_{\theta}的假设空间HH中学习我们的目标空间:
    h^=argminhHϵ^(h) \hat{h}=arg\min_{h\in H} \hat{\epsilon}(h)
    上式,只是我们在训练集上的最小损失,泛化到测试集:
    ϵ(h)=Px,yD(h(x)y) \epsilon(h)=P_{x,y \sim D}(h(x)\neq y)
    也就是说ϵ^\hat{\epsilon}为训练集上的损失,ϵ\epsilon为泛化到测试集上的损失。当然,我们希望不学习测试数据就能学到测试集上泛化误差最小的hh^{*}是最好的(不切实际)。

    Hoeffding不等式,联合上界,一致收敛

    假设{x(1),x(2),..,x(i),..,x(m)}\{x^{(1)},x^{(2)},..,x^{(i)},..,x^{(m)}\}独立同分布,服从伯努利分布:
    P(x(i)=1)=ϕ,P(x(i)=0)=1ϕ P(x^{(i)}=1)=\phi,P(x^{(i)}=0)=1-\phi
    从伯努利分布角度看,当样本趋于无限大时,所有点的均值为ϕ\phi。从样本统计来看,由于它们之间独立同分布,所以有均值为:
    ϕ^=1mi=1mx(i) \hat{\phi}=\frac{1}{m}\sum_{i=1}^{m}x^{(i)}
    Hoeffding不等式的定义为对任意固定值γ>0\gamma>0,存在:
    P(ϕ^ϕ>γ)<2exp(2γ2m) P(|\hat{\phi}-\phi|>\gamma) <2exp(-2\gamma^{2}m)
    该引理表示一个随机变量其偏离期望大于γ\gamma的概率有上限。可以从高斯分布出发其到均值距离大于γ\gamma的概率有上限(切比雪夫不等式)。 注意,上述不等式是针对一维的情况。

    联合上界,假设有n个随机变量{x1,x2,..,xj,..,xn}\{x_{1},x_{2},..,x_{j},..,x_{n}\},这nn个随机变量可以相互独立也可以不独立,我们有:
    P(x1,x2,..,xn)P(x1)+P(x2)+,..,+P(xn) P(x_{1},x_{2},..,x_{n})\leq P(x_{1})+P(x_{2})+,..,+P(x_{n})
    该不等式很容易理解,即所有事件并集发生的概率小于所有事件发生的概率之和,当且仅当nn个事件互斥,等号成立。现在,我们将ϕj^ϕj>γj|\hat{\phi_{j}}-\phi_{j}|>\gamma_{j} 记为事件xjx_{j},那么有P(xj)2exp(2γj2m)P(x_{j})\leq 2exp(-2\gamma_{j}^2m),使用联合上界将其推广到nn维,我们有:
    j=1nP(ϕj^ϕj>γj)i=1n2exp(2γj2m) \sum_{j=1}^{n}P(|\hat{\phi_{j}}-\phi_{j}|>\gamma_{j}) \leq\sum_{i=1}^{n}2exp(-2\gamma_{j}^{2}m)
    假设γj\gamma_{j}取统一值γ\gamma,那么有:
    P(ϕ^ϕ>γ)2nexp(2γ2m) P(|\hat{\phi}-\phi|>\gamma) \leq 2n exp(-2\gamma^{2}m)
    上式的意义在于,说明当样本数目mm增大时,我们对参数的估计就越逼近真实值。

    一致收敛,定义模型的假设空间为:
    H={h1,h2,.hk.,hN} H=\{h_{1},h_{2},.h_{k}.,h_{N}\}
    首先,我们假设对于所有的hh来说,存在训练误差为ϵ^(hk)=1mi=1mI(hk(x(i))y(i))\hat{\epsilon}(h_{k})=\frac{1}{m}\sum_{i=1}^{m}I(h_{k}(x^{(i)})\neq y^{(i)})ϵ\epsilon是定义在测试集上的泛化误差,然后我们证明对于任意一个hkh_{k}泛化误差ϵ\epsilon存在上限。

    对于hkh_{k},泛化误差ϵ(hk)\epsilon(h_{k})是一个以ϵ^(hk)\hat{\epsilon}(h_{k})为均值服从伯努利分布(分类问题)的随机变量(向量)。由Hoeffding不等式在nn维的推广,我们有:
    P(ϵ(hk)ϵ^(hk)>γ)2Nexp(2γ2m),k=1,2..N P(\forall|\epsilon(h_{k})-\hat{\epsilon} (h_{k})|>\gamma)\leq 2N exp(-2\gamma^2m) ,k=1,2..N
    也就是说对于假设空间中任意一个模型hkh_{k}都满足上式,也就表明不存在一个模型的误差离训练误差的偏差大于一个上限:
    P(ϵ(hk)ϵ^(hk)>γ)12Nexp(2γ2m),k=1,2..NP(ϵ(hk)ϵ^(hk)γ)12Nexp(2γ2m),k=1,2..Np(ϵ(hk)ϵ^(hk)γ)1σ P( -\exists|\epsilon(h_{k})-\hat{\epsilon} (h_{k})|>\gamma)\geq 1-2Nexp(-2\gamma^2m) ,k=1,2..N\\ P( |\epsilon(h_{k})-\hat{\epsilon} (h_{k})|\leq \gamma)\geq 1-2N exp(-2\gamma^2m) ,k=1,2..N\\ p(|\epsilon(h_{k})-\hat{\epsilon} (h_{k})|\leq \gamma) \geq 1-\sigma
    上式表示,任意一个假设空间下的模型hkh_{k}的泛化误差都存在上界,这个上界就是定义在偏差上的方差内。由此导出PAC可辨识,即从假设空间学习到的模型的误差ϵ^(hi)\hat{\epsilon}(h_{i})泛化到测试集上的误差ϵ(hi)\epsilon(h_{i})的偏差在γ\gamma以内的概率大于1σ1-\sigma

    样本复杂度界

    ​ 由P(ϵ(hk)ϵ^(hk)γ)12Nexp(2γ2m)P( |\epsilon(h_{k})-\hat{\epsilon} (h_{k})|\leq \gamma)\geq 1-2N exp(-2\gamma^2m),为了保证概率大于1σ1-\sigma,我们可以分析出至少需要多少样本:
    12Nexp(2γ2m)1σm12γ2log2Nσγ12mlog2Nσ 1-2Nexp(-2\gamma^2m)\geq 1-\sigma\\ \Rightarrow m\geq \frac{1}{2\gamma^2}log\frac{2N}{\sigma}\\ \Rightarrow \gamma \geq \sqrt{\frac{1}{2m}log\frac{2N}{\sigma}}
    由此,我们我们分析出了模型需要达到一定的准确率,需要的样本数目称为样本复杂度。同时我们分析出了在给定mm,σ\sigma时,模型hih_{i}的泛化误差与mm成反比,与nn成正比,其中mm为样本数目,nn表示模型的复杂度。也就是说负杂的模型泛化误差界越大。注意:由于界的条件很宽,所以得出的界具备参考的价值不大,更多时候是直观的理解,需要样本数的大小与复杂度成正比,与误差范围成反比。

    误差上界

    ​ 上面我们分析的是同一个模型h^=hk=argminhHϵ^(h)\hat{h}=h_{k}=arg\min_{h\in H} \hat{\epsilon}(h)的训练误差和泛化误差的关系。但是我们更关心的是训练集上最好模型的泛化误差ϵ(h^)\epsilon(\hat{h})与测试集上最好模型的泛化误差ϵ(h)\epsilon(h^{*})的关系。因为,我们的终极目标是ϵ(h)\epsilon(h^{*}),但是ϵ(h)\epsilon(h^{*})是永远未知的,我们最优模型还是ϵ(h^)\epsilon(\hat{h}),所以我们需要用ϵ(h)\epsilon(h^{*})来定义训练最优模型h^\hat{h}的上界。
    h^=argminhHD^min(ϵ^(h))h=argminhHDmin(ϵ(h)) \hat{h}=arg\min_{h\in H \sim \hat{D}}min(\hat{\epsilon}(h))\\ h^{*}=arg\min_{h\in H \sim D}min(\epsilon(h))\\
    其中ϵ^(h^)\hat{\epsilon}(\hat{h})表示训练数据集上最好的训练误差,ϵ(h)\epsilon(h^{*})表示测试集上最好的泛化误差。
    KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ \epsilon(\hat{…
    第一个不等式:对于在训练误差最小的假设类h^\hat{h},其泛化误差小于训练误差加γ\gamma,由一致收敛定理。

    第二个不等式:h^\hat{h}为训练集上误差最小的模型,那么必然有ϵ^(h^)ϵ^(h)\hat{\epsilon}(\hat{h})\leq \hat{\epsilon}(h^{*})

    第三个不等式,对于在测试误差最小的假设类hh^{*},其训练误差小于泛化误差加γ\gamma,由一致收敛定理。

    所以我们学习的最好模型的误差ϵ^(h^)\hat{\epsilon}(\hat{h})距离我们在测试集上最好模型的误差存在上界:
    KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ \epsilon(\hat{…
    上式表明,我们学习的目标模型的误差服从一个偏差为ϵ(h)\epsilon(h^{*}),方差为212mlog2Nσ2 \sqrt{\frac{1}{2m}log\frac{2N}{\sigma}}的分布。当我们采用复杂的假设空间来拟合数据时,偏差也许会小,但是使得第二项大。这就指导了我们在选择模型时既要考虑偏差,也要照顾到方差。一般而言,训练误差与测试误差存在如下趋势:

    展开全文
  • 30分钟了解PAC学习理论——计算学习理论第一讲

    万次阅读 多人点赞 2017-02-26 14:42:41
    PAC理论是计算学习理论很重要的一部分,它解释了机器学习的学习机理。了解此理论可以更深入的了解机器学习,解释模型的泛化效果。如果深入研究更能帮助我们针对不同问题选择不同模型。  本文旨在让机器学习刚...

    马瘦毛长蹄子肥,
    搞机器学习的谁也不服谁,
    自从二狗学了PAC,
    见谁都拿拳往别人小胸胸上捶。
    啪!今天给大家说一段PAC理论

     先放PAC学习相关理论的一个总结:同等条件下,模型越复杂泛化误差越大。同一模型在样本满足一定条件的情况下,其数量越大,模型泛化误差越小,因此还可以说模型越复杂越吃样本。本文旨在让大家快速了解这句话的含义。您只需要提前了解假设空间、泛化误差、经验误差的概念(不明白的百度20分钟)及任何一本概率论教材前两章内容就能看懂这篇文章。

    为什么要学习PAC学习理论?

     此理论可以帮助我们更深入的了解机器学习的学习机制。
     已经入门或者从事过一段时间机器学习相关工作的你有没有想过为什么在训练样本上学习了一个假设(函数?模型?下文统一叫假设)就能保证这个假设在训练样本之外的数据上有效?看完这篇文章你就会明白有效性是有严谨的理论保证的。
     几千条样本数据就敢用CNN/RNN?你心也够大的。如果你非要这么做,老司机会语重心长的教育你:“数据太少,会导致过拟合”。看完这篇文章就会明白为什么了。
     如果看完这篇文章后你能回答这两个问题,那么恭喜你,你已经对PAC学习理论有了大致的了解了。

    什么是PAC学习理论?

     先说一下机器学习。机器学习有两个元素:模型与数据。其中模型又包含两部分:优化算法与假设空间。所谓机器学习就是用优化算法从假设空间中选择一个假设,使此假设能符合给定的数据描述。因此优化算法通俗的讲就是假设选择算法。
     而PAC学习理论不关心假设选择算法,他关心的是能否从假设空间中学习一个好的假设h。看到能否二字了没?此理论不关心怎样在假设空间中寻找好的假设,只关心能不能找得到。现在我们在来看一下什么叫“好假设”?只要满足两个条件(PAC辨识条件)即可

    • 近似正确:泛化误差E(h)足够小

      E(h)越小越好,最好泛化误差能能于0,但一般是不可能的。那我们就把E(h)限定在一个很小的数ϵ之内,即只要假设h满足E(h)ϵ,我们就认为h是正确的。

    • 可能正确

      不指望选择的假设h百分之百是近似正确的(按上段所述,即E(h)ϵ),只要很可能是近似正确的就可以,即我们给定一个值δ,假设h满足P(h)1δ

     综上两点,就得到了PAC(可能近似正确,probably approximate correct)可学习的定义。简单的讲就是模型在短时间内利用少量的(多项式级别)样本能够找到一个假设h,使其满足P(E(h)ϵ)1δ0<ϵ,δ<1

    什么条件能满足PAC可学习?

     先介绍下Hoeffding不等式

    Hoeffding不等式:给定m个取值[0,1]之间的独立随机变量x1,x2,,xn,对任意ϵ>0有如下等式成立:
    P(|1mi=1mxi1mi=1mE(xi)|ϵ)2e2mϵ2

     由泛化误差E(h)与经验误差Ê (h)的定义易知E(Ê (h))=E(h),因此可推出公式(1):

    hP(|E(h)Ê (h)|ϵ)2e2mϵ2(1)

     根据不等式(1)可推出公式(2):
    hP(|E(h)Ê (h)|ϵ)12||e2mϵ2(2)

    证明过程如下(看不懂也没关系,不会影响你对理论的理解,直觉比证明过程更重要):

    P(h:|E(h)Ê (h)|ϵ)=1P(h:|E(h)Ê (h)|ϵ)=1P((|E(h1)Ê (h1)|ϵ)(|E(h2)Ê (h2)|ϵ)(|E(h||)Ê (h||)|ϵ))1i=1||P(|E(hi)Ê (hi)|ϵ)12||e2mϵ2

     公式(2)说明了什么?说明了对于任意ϵ,只要样本数量m足够大,|E(h)Ê (h)|ϵ发生的可能性就非常大,此时我们可以用经验误差近似泛化误差。回到一开始我们提出的那两个问题:
     1. 为什么在训练样本上学习得到的假设会在真实样本上有效?公式(2)很好的说明了这一问题。只要样本数量m足够大或者假设空间的大小||足够小,公式(2)就能保证学到的假设h的泛化误差E(h)与经验误差Ê (h)足够接近。h在训练样本上的表现与在真实样本上一致。
     2. 为什么少量样本能用CNN/RNN等复杂模型会导致过拟合?还是看公式(2)。样本数量m太小的话|E(h)Ê (h)|ϵ发生的可能性变小。即学到的h在训练样本上的表现与在真实样本上不一致,这是过拟合直接的表现形式。

    对以上两点的解释没有考虑||为无穷大情况,但不影响大家理解。实际上如果||为无穷大,下一节的VC维照样可以给出类似解释。

     现在开始解决我们本小节提出的问题。什么条件才能满足PAC可学习?还是看公式(2),另δ=2||e2mϵ2,即:

    m=M=ln2||δ2ϵ2(3)

     本小节结论:只要样本数量m大于公式(3)中的M,就能保证模型在当前条件下是PAC可学习的。

    VC维理论:更紧的条件

    先说一下什么是。简单的讲,紧的意思就是恰好满足条件。

     为了保证PAC可学习,根据公式(3),需要样本数量大于等于MM此值越小,PAC条件越有可能达到。那么有没有比M更紧也就是更小的值呢?这就引出了VC维理论。
     欲知VC维理论为何物,且听下篇文章分解。

    展开全文
  • 计算学习理论、统计学习基础理论

    千次阅读 2016-12-21 23:06:25
    支持向量机是建立在统计学习理论 VC 维理论和结构风险最小化原理基础上的机器学习方法。 1. VC 维理论 2. 结构风险最小化

    computational learning theory:计算学习理论;

    支持向量机是建立在统计学习理论 VC 维理论结构风险最小化原理基础上的机器学习方法。

    • 统计学习的基础就是统计推理(statistical inference),统计推理简单来说,就是估计参数(模型的参数)
      • 比如对于 MLE:argmaxifi(xi|θ)θ 即为其参数),MLE 是一种 metric,

    0. PAC

    PAC(probably approximately correct,概率近似正确) learning model:

    P(|f(x)y|ϵ)1δ

    这是 Valiant(2010 年获得图灵奖) 于 1984 年提出的理论;

    1. VC 维理论

    2. 结构风险最小化

    展开全文
  • 统计学习理论

    千次阅读 2016-07-29 08:25:18
    万普尼克(Vapnik)建立的一套机器学习理论,使用统计的方法,因此有别于归纳学习等其它机器学习方法。由这套理论所引出的支持向量机对机器学习的理论界以及各个应用领域都有极大的贡献,一般情况下弗拉基米尔-万普...

    万普尼克(Vapnik)建立的一套机器学习理论,使用统计的方法,因此有别于归纳学习等其它机器学习方法。由这套理论所引出的支持向量机机器学习的理论界以及各个应用领域都有极大的贡献,一般情况下弗拉基米尔-万普尼克理论是香农实验室奠基资料和自身的数学背景,他是俄罗斯的数学家和统计学家,与同事一起发明了支持向量机理论,著作有  1.基于经验数据的依赖性估计(Estimation of Dependences Based on Empirical Data), 1982

    2.统计学习理论的本质(The Nature of Statistical Learning Theory), 1995
    3.统计学习理论(Statistical Learning Theory), 1998
    4.基于经验数据的依赖性估计(第二版)(Estimation of Dependences Based on Empirical Data, 2nd Edition), 2006

    我们通常应该选择的学习的方向,由于他也是统计学派可以和迈克尔-乔丹教授的机器学习理论归为一个学派学习。研究一个问题需要一个骨架和实体才能将理论加以说明,结合经济学原理来研究损失函数,我们可以简单的理解损失函数为将一个样本空间中的的一个元素映射到其他一仲表达事件的实数上的一种函数。计算损失和错误程度的函数,这种损失是一种弱连接。它需要用描述不同参数的值来计算系统,首先这种映射必须是通过介质函数可以映射的。《《特点:改善持续减少的目标值变异,并非只是仅仅追求符合逻辑的过程也叫代价函数,训练数据属性,模型空间,损失函数三方面研究,对标准的线性二分类来说,训练数据是一些已知的含有标签的并满足独立同分布的条件的样本,假设空间是所有一次函数的集合,一次函数的几何解释为超平面(线性分类器),损失函数主要描述错分的代价,当样本分类正确后,损失函数的值定义为0,当样本分类错误是,损失函数的值定义为1,线性分类的目的:所有的一次函数中求得总体平均错误率最低的线性分类器。

        目前理论分析方面有间隔(Margin)和损失()函数两种观点。1992年到2004年期间,V-Vapnik研究处于间隔时代,在L-Valiant提出的概率近似正确理论(Probably Approximately Correct,PCA),基于VC维(Vapnik-Chervonekis)的模型泛化能力的概率近似正确的上界,1998年肖—泰勒(Shawe -taylor)发现了量化模型泛化能力的间隔界限,此时基于间隔的算法得到了认可,学习所获得间隔越大泛化能力也就越强。间隔是泛化能力的指标,通常的间隔是有实际物理意义,一般认为是几何间隔和几何距离,线性可分的情况下是样本Margin是该点到分类平面的欧式距离,样本集合叫分类器,指样本点间隔中的最小者。

    SVM(support Vector Machine)是建立在集合基础上的第一个学习型算法,体系分为三个部分。线性可分情况下的最大间隔距离算法(前提是线性可分),线性情形下软间隔算法,非线性情况下的核算法,(主要区别在于假设空间上,且是所有假设空间经验为0的线性分类器),


    详细资料参考《统计机器学习-损失函数与优化求解》    孙正雅,陶卿;中科自动化所,中国人民解放军炮兵学院;

    可以从损失函数-VC维-统计规律与概率-算法的收敛特性与速度特性(离散数学)-模式分类、回归分析、概率密度估计,研究如何从一些样本出发得出目前不能通过原理分析得到的规律,利用这些规律去分析客观对象,对未来数据或无法观测的数据进行预测。统计学中关于估计的一致性、无偏性和估计方差的界等,以及分类错误率等渐近性特征是实际应用中往往无法得不到满足,而这种问题在高维空间时尤其如此。这实际上是包含模式识别和神经网络等在内的现有的机器学习理论和方法中的一个根本问题。在解决模式识别问题中往往区域保守,且数学上比较艰难,而直到90年代以前并没有提出能够将其理论付诸实现的较好方法。神经网络等较新兴的机器学习方法的研究则遇到了一些重要的困难,比如如何确定网络结构的问题、过学习与欠学习的难题、局部极小点的问题等。

    罗纳德·费希尔 Ronald Fisher(1890~1962),全名Ronald Aylmer Fisher,生于伦敦,卒于 Adleaide(澳洲)。英国统计与遗传学家,现代统计科学的奠基人之一,并对达尔文进化论作了基础澄清的工作。他建立了以生物统计为基础的遗传学,发明了方差分析、实验设计法、最大似然法,并发展出充分性、辅助统计、费希尔线性判别与费希尔信息量等统计概念。丹麦统计学家安德斯·哈尔德称他是"一位几乎独自建立现代统计科学的天才",英国著名演化生物学家、动物行为学家和科普作家理查·道金斯则认为他是"达尔文最伟大的继承者"。

    当时流行的优生学思想,也是费希尔所关注的议题。他更将社会上的人口问题,视为包含遗传学与统计学在内的科学。1911年,他与当时的一些名人,如经济学家凯恩斯、遗传学家庞尼特(R. C. Punnett),以及工程师霍勒斯·达尔文(Horace Darwin,查尔斯·达尔文之子),一起建立了剑桥大学优生学学会(Eugenics Society)。这是一个活跃的团体,他们每个月开一次会,并在其他主流优生学组织发表演说。例如法兰西斯·高尔登(Francis Galton)在1909年建立的优生学教育学会(Eugenics Education Society)。

    1918年战争结束之后,原本皮尔森邀请他进入当时著名的高尔登实验室(Galton Laboratory),但是由于费希尔认为自己与皮尔森之间的竞争关系是一种职业障碍,因此放弃了这个机会。1919年他任职于 Rothamsted 农业实验场(Rothamsted Experimental Station)。这间农业试验所,位在英格兰赫特福德郡(Hertfordshire)的哈平登(Harpenden)。费希尔除了在其中担任一名统计员之外,所长约翰·罗素(John Russell)也让他设立了一个统计实验室。之后费希尔便开始对多年来所收集的大量资料进行深入研究,并且将成果写成一系列题为《收成变异之研究》(Studies in Crop Variation)的论文。他的全盛时期也在这时候开始。

    在这里,他一直钻研基本统计理论并取得了丰硕的成果。他关于寻找从少量数据中推断出最可靠结论的方法,他在统计学中有突出的贡献,内容涉及估计理论、假设检验和实验设计等领域。

    他负责的主要工作是植物播殖实验的设计,希望透过尽量少的时间、成本与工作量,得到尽量多的有用资讯;另外是要整理该实验场60年来累积的实验资料。Fisher 在这里发展他的变异数分析理论,研究假说测试,并且提出实验设计的随机化原则,使得科学试验可以同时进行多参数之检测,并减少样本偏差。(现代统计奠基人)

    他在1925所著《研究工作者的统计方法》(Statistical Methods for Research Workers)影响力超过半世纪,遍及全世界。而他在 Rothamsted 的工作结晶,同时也表现在为达尔文演化论澄清迷雾的巨著《天择的遗传理论》(The Genetical Theory of Natural Selection)(1930)中,说明孟德尔的遗传定律与达尔文的理论并不像当时部份学者认为的互相矛盾,而是相辅相成的。并且认为演化的驱力主要来自选择的因素远重於突变的因素。这本著作将统计分析的方法带入演化论的研究。为解释现代生物学的核心理论打下坚实的基础。也因这本著作,Fisher 1933年获得伦敦大学的职位,从事 RH 血型的研究。

    1943至1957年他回剑桥大学任教,1952年受封爵士,被后人誉为:现代统计学之父。1956年出版《统计方法与科学推断》(Statistical methods and scientific inference),最后三年,则在澳洲为国协科技研究组织 (CSTRO) 工作,并卒于任上。


    著作

    《研究工作者的统计方法》Statistical Methods for Research Workers

    1914年,第一次世界大战爆发。费希尔和许多英国青年一样,也希望能够加入军队、投入沙场。不过因为他严重的视力问题,即使一试再试,依然无法通过健康检查。由于从军不成,接下来6年他便在伦敦市担任统计员,同时也在几所公立学校里教授物理和数学。例如伯克夏(Berkshire)的布莱德菲尔德学院(Bradfield College)。此外,他也曾经搭上英国海军的教学舰艇"渥彻斯特号"(HMS Worcester)。


    在英军里担任少校的里奥纳德·达尔文(Leonard Darwin,查尔斯·达尔文另一子)与另一位被费希尔称做古德鲁那(Gudruna)的朋友,是他在这个时期的重要支柱,他们的支持使他得以度过困境。古德鲁那的姊妹艾琳·盖尼斯(Eileen Guinness),经由古德鲁那的介绍与费希尔相识。1917年,艾琳与费希尔结婚,当时她只有17岁。此外费希尔也受到自家姊妹们的帮助,建立并经营了一所称为布莱德菲尔德庄园的农场,在那里他们种植花圃与饲养动物。由于这座庄园的生计,他们在战争时期能够不需要领取政府的食物配给。


    《天择的遗传理论》The Genetical Theory of Natural Selection
    《实验的设计》The Design of Experiments
    《统计学用表》Statistical tables for biological, (1938, 与Frank Yates合著)
    《育种理论》The theory of inbreeding

    《统计方法与科学推断》Statistical methods and scientific inference



    展开全文
  • 计算学习理论基础

    千次阅读 2017-07-19 10:12:21
    计算学习理论基础
  • [机器学习]计算学习理论

    千次阅读 2018-01-14 18:01:09
    本文档记录了《机器学习》第 12 章计算学习理论相关内容
  • 直观的解释:http://www.dataguru.cn/article-11253-1.html 基础知识计算学习理论(computational learning theory)是通过“计算”来研究机器“学习“的理论,其目的是分析学习任务的困难本质。例如:在什么条件下...
  • 理解PAC学习理论

    千次阅读 2018-02-05 11:48:27
    PAC学习相关理论的一个重要总结:同等条件下,模型越复杂泛化误差越大。同一模型在样本满足一定条件的情况下,其数量越大,模型泛化误差越小,因此还可以说...为什么要学习PAC学习理论?  此理论可以帮助我们更
  • 机器学习(六)统计学习理论

    千次阅读 2018-03-09 21:19:01
    统计学习理论的意义 统计学习理论提供了机器学习的一个理论基础。通过理论推导,从本质上说明了机器学习为什么会出现过拟合现象,以及过拟合与模型选择、训练数据之间有什么关系。 数学推导 设训练集S={(xi,yi)...
  • 机器学习笔记(十二)计算学习理论

    千次阅读 2017-04-25 13:16:45
    12.计算学习理论 12.1基础知识 计算学习理论(computationallearning theory)研究的是关于通过计算来进行学习的理论,即关于机器学习的理论基础,其目的是分析学习任务的困难本质,为学习算法提供理论保证,并...
  • 深度学习理论

    千次阅读 2012-05-05 12:42:20
    深度学习理论及其在语音信号处理的可能应用 已有 428 次阅读 2011-9-4 10:39|系统分类:科研笔记  深度学习(Deep Learning)理论是对深度信念网络的基础上总结发展起来的一门新兴学科,该理论在视觉、声音、...
  • 统计机器学习理论

    千次阅读 2016-07-11 15:47:33
    按照Jordan的说法是统计机器学习属于频率主义,而图模型属于贝叶斯主义),对于每一个做统计机器学习的研究者来说,他们大致可以分为两类:一类做统计学习理论相关工作,如泛化界、约简或一致性;一类做优化算法,如...
  • PAC learning 到底在做什么? 30分钟了解PAC学习理论——计算学习理论第一讲
  • 对于其经典就不多说了,对我目前而言,重点在于其讲述的学习理论。 机器学习作为学习理论的一个具化来理解,更立体的角度来观察学习机器学习理论。 《统计学习理论的本质》 ValadimirN.VapnikValadimir N. ...
  • 第一章 强化学习及OpenAI Gym介绍-强化学习理论学习与代码实现(强化学习导论第二版) 第二章 马尔科夫决策过程和贝尔曼等式-强化学习理论学习与代码实现(强化学习导论第二版) 第三章 动态规划-基于模型的RL-强化...
  • 谈一谈PAC学习理论

    千次阅读 2018-03-14 06:40:44
    这个系列的博客, 我将整理一下关于PAC 学习理论的知识。目的是用相对数学的角度,对PAC 理论的数学给出框架,再从通俗易懂的角度,给与相对直白的理解。 机器学习作为一个当下十分火热的话题,引来了无数学者的...
  • 第一章 强化学习及OpenAI Gym介绍-强化学习理论学习与代码实现(强化学习导论第二版) 第二章 马尔科夫决策过程和贝尔曼等式-强化学习理论学习与代码实现(强化学习导论第二版) 第三章 动态规划-基于模型的RL-强化...
  • 在线阅读:深度学习理论与实战:提高篇 序言 16年9月的时候我在CSDN发了一些深度学习的文章,主要是面向没有太多经验的开发者。达文读了后觉得我的文章比较通俗易懂,邀请我写一本书,当时头脑一热就答应下来。虽然...
  • 计算学习理论PAC模型

    千次阅读 2013-09-08 12:29:44
    计算学习理论 计算学习理论主要研究关于机器学习的一般化概念,比如什么样的问题才能被学习,什么样条件下学习才可能成功,怎么样评价一个学习的成功与否主要研究了两个机器学习的一般性框架,可能近似正确(PAC,...
  • 机器学习理论

    2019-08-20 13:22:35
    机器学习 基础知识 机器学习 线性回归 机器学习 过度拟合 机器学习实战(MachineLearinginAction) 第一章 机器学习实战(MachineLearinginAction) 第二章 k-近邻算法 机器学习实战(MachineLearinginAction) 第三章 ...
  • 第一章 强化学习及OpenAI Gym介绍-强化学习理论学习与代码实现(强化学习导论第二版) 第二章 马尔科夫决策过程和贝尔曼等式-强化学习理论学习与代码实现(强化学习导论第二版) 第三章 动态规划-基于模型的RL-强化...
  • 第十二章计算学习理论的知识点
  • 机器学习理论测试

    万次阅读 2020-09-28 16:06:10
    Q1在回归模型中,下列哪一项在权衡欠拟合(under-fitting)和过拟合(over-fitting)中影响最大? A. 多项式阶数 B.... C....解析:选择合适的多项式阶数非常重要。如果阶数过大,模型就会更加复杂,容易发生过拟合;...
  • 统计学习理论简介

    千次阅读 2011-05-02 19:43:00
     统计学习理论是一种研究训练样本有限情况下的机器学习规律的学科。它可以看作是基于数据的机器学习问题的一个特例,即有限样本情况下的特例。统计学习理论从一些观测(训练)样本出发,从而试图得到一些目前...
  • 第一章 强化学习及OpenAI Gym介绍-强化学习理论学习与代码实现(强化学习导论第二版) 第二章 马尔科夫决策过程和贝尔曼等式-强化学习理论学习与代码实现(强化学习导论第二版) 第三章 动态规划-基于模型的RL-强化...
  • 上篇主要介绍了常用的特征选择方法及稀疏学习。分别介绍了子集搜索与评价、过滤式、包裹式以及嵌入式四种类型的特征选择方法:子集搜索与评价是一种...本篇将讨论一种为机器学习提供理论保证的学习方法--计算学习理论
  • 看到12章,题目叫计算学习理论,当时一萌,这是干什么用的呢?前面的章节中基本都是讲述了一些机器学习的一些常用方法。看到这个标题我的第一反应应该是理论方面的研究,那是否对计算与学习这两方面的理论研究呢?...
  • 建构主义学习理论

    千次阅读 2008-12-23 12:52:00
    建构主义学习理论准确的说不是一种流派,而是一种思想。虽然说它是学习理论从联结派到认知派之后进一步发展的产物,但是实际上,它似乎一直都在那个地方,似乎是我们回过头去的时候意外发现的,在我们吃了一惊的同时...
  • 第一章 强化学习及OpenAI Gym介绍-强化学习理论学习与代码实现(强化学习导论第二版) 第二章 马尔科夫决策过程和贝尔曼等式-强化学习理论学习与代码实现(强化学习导论第二版) 第三章 动态规划-基于模型的RL-强化...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 65,210
精华内容 26,084
关键字:

学习理论