精华内容
下载资源
问答
  • 今天汇报的时候,被师兄dis了。一句话说的我牙口无言:你是在给我讲科普啊?...但,就研究生阶段而言,学术研究大于技术学习。因为:技术层是给别人打工的,而理论层是指挥别人工作的。 你讲的理论,...

    今天汇报的时候,被师兄dis了。一句话说的我牙口无言:你是在给我讲科普啊?这一课,让我明白了什么叫作:技术-理论汇报。


    技术层面

    看技术性网站、贴吧、论坛。

    理论层面

    看学术论文。

    回首一望那些年,果然是一直停留在技术层面学习,而没有进入理论研究。哪个更总要?哪个都重要。但,就研究生阶段而言,学术研究大于技术学习。因为:技术层是给别人打工的,而理论层是指挥别人工作的。

    你讲的理论,大咖们早就知晓了。只要你汇报的内容是有支撑的,他们更注重听的是:你可能会遇到的技术难关,打算怎么解决。更他们更愿意提问的两点是:

    • 为什么选择这种方法解决这个难题?
    • 你这的参数是怎么确定的?

    相信我,如果你没看够相关领域的10篇论文,第一个问题你答不完整;如果不是亲手做的实验,第二个问题你回答不上来。

     

    展开全文
  • 理论探讨的是模型在training set上的error 与 generation error的关系。 训练模型时,需要多少个样本,达到什么精度,都是由理论依据的。 理论点: ... 经验风险最小化(Empiried risk mi...

     

    该理论探讨的是模型在training set上的error 与 generation error的关系。 训练模型时,需要多少个样本,达到什么精度,都是由理论依据的。

    理论点:

    • 偏差方差权衡(Bias/variance tradeoff)
    • 训练误差和一般误差(Training error & generation error)
    • 经验风险最小化(Empiried risk minization,ERM)
    • 联合界引理和Hoeffding不等式(Union bound & Hoeffding inequality)
    • Uniform Convergence(一致收敛)
    • 有限与无限假设类的讨论(Discuss on finite and infinite hypothesis class)

    一、偏差方差权衡

    1. 偏差与方差

         回顾之前在讨论线性回归问题时,通常存在以下三种情况:

    • 图1,用一条直线拟合一个呈现二次结构的散点,无论训练样本怎样增多,一次函数都无法准确地表示出二次函数。我们认为它具有高偏差(high bias),表现出欠拟合(underfit)
    • 图3,用一条五次多项式函数来拟合数据,对于数据的结果,得到的仍然不是一个好的模型,算法拟合出了数据中的一些奇怪规律。我们认为它具有高方差(high variance),表现出过拟合(overfit)
    • 图2,用一条二次函数来拟合数据,很显然能够匹配数据集合的一般规律。

         偏差与方差之间存在某种平衡。如果模型过于简单且参数较少,它可能有高偏差(低方差);相反,如果模型过于复杂且参数众多,它可能有高方差(低偏差)。它们之间究竟存在怎样的关系呢?为了说明这个问题,先要提出一个更为一般的机器学习模型——经验风险最小化,在正式介绍该模型之前,需要对两个引理有所了解来帮助理解。

     

    2. 两个引理

       为了解释偏差方差权衡现象,需要引出两个引理:联合界引理和Hoeffding不等式。

     (1)联合界引理

      

        这个引理常作为概率论的公理,k个事件中任意事件发生的概率最多为每个事件独立发生的概率之和。其中,事件可能发生,也可能不发生。

     (2)Hoeffding不等式 (霍夫丁不等式)

       

         这个引理在学习理论中也称为Chernoff边界(Chernoff bound),给出了一种估计伯努利随机变量均值时,错误概率的上界。关于这个上界有个很有意思的结论:随着样本数目m增大,高斯分布的凸性会随之收缩,也就是高斯分布的尾部会变小,中间隆起。举个例子,当你投掷一枚两面的硬币,人像面朝上的概率为Φ,在投掷m次(m足够大)后,计算人像面朝上的次数是一种很好的估计Φ值的方法(用频率去估计概率)。

     

    3. 两个误差

        介绍两个学习理论中十分重要的概念:训练误差与一般误差。

     (1)训练误差

        考虑二元分类y∈{0,1},给定训练集合S={(x(i),y(i));i=1,2,...,m},各个训练样本服从独立同分布D,对于一个假设模型 h,我们定义训练误差(Training error),也叫作经验风险(empirical risk)或经验误差(empirical error):

       

      (2)一般误差

       一般误差(Generation error)定义为:

     

       它表示当从服从分布D的样本集合中取出一个样本(x,y),假设模型h将该样本分类错误的概率

     

    4. 经验风险最小化

       以线性分类器为例,它的假设函数可以写成:

       

       拟合参数θ的一个方法是求解目标函数使训练误差最小。

      

       这个过程被称作经验风险最小化(ERM-empirical risk minimization),它是简化的机器学习模型,逻辑回归和支持向量机可以看作为这个非凸优化问题的凸性近似。

     

    二、假设类

    1. 假设类的定义

         假设类(hypothesis class)为学习算法建立的所有分类器的集合。如线性分类器中,假设类H是输入范围X上所有分类器的集合;在神经网络中,假设类H是由一些神经网络结构表示的所有分类器的集合。

         线性分类器的假设类H为:(a set of Linear classfifier that your learning alg choosing from)

         

         经验风险最小化要做的是给定训练集合,从这k个函数(模型)中选取一个使得训练误差最小:

       

     

    2. 有限假设类情形

        首先考虑有限假设类的情况,H={h1,...,hk}为有k个假设函数的假设类,也就是由k个从X映射到{0,1}的函数组成。接下来,要证明一般误差与最小误差之间是有上界的,简单地说,当训练误差很小时,一般误差也不会很大。

        证明策略:

    • 训练误差是一般误差很好的估计,即两者接近;
    • EMR输出假设的一般误差存在上界。

        证明过程:

    (1)一致收敛概率界:

         a. 固定假设成立

    • 前提条件:考虑一个假设类H中的任意一个假设,hi∈H。

      定义服从伯努利分布D的随机变量:
      Z = 1{hi(x)≠y},表示第i个假设函数对样本错误分类的指示函数的值,其中Zj=1{hi(x(j))≠y(j)}。

      那么P(Zj=1)=ε(hi),表示由分布D产生一个训练样本,hi对该样本错误分类的概率,也就是hi的一般误差。故Zj为一个伯努利随机变量,均值为ε(hi), 为随机变量Z(或Zj)的期望值。

      另外, 训练误差为m个独立同分布伯努利随机变量Zj的平均值。

          

    • 利用Hoeffding不等式可以得到(用频率去估计概率):

          

           上式说明,给定一个假设hi,训练误差与一般误差之间差异大于γ的概率有上界,即训练误差将会以很大的概率接近于一般误差。    当m很大时,训练误差与一般误差之间的差异就很小。  但是到目前为止,只证明了针对某个固定假设,两种误差之间的差异存在上界。由于最终我们要证明训练误差是一般误差很好的估计,故还需要证明在整个假设类H上任意一个h都满足这个条件。

          b. 任意假设成立

           假设Ai表示的事件,已经证明对于任意的Ai,

           利用联合界引理可以得到:(k为假设类H中的所有模型的个数)

           

          同时用1减去两边得到:

         

          上式说明,在不小于概率的情况下,对于假设类H中的所有hi,两个误差之间的差异将会在γ之内,这就是一致收敛(uniform convergence)。当m很大时,所有的训练误差将收敛于一般误差,即所有训练误差与一般误差都十分接近。

     

    (2)样本复杂度界:

          给定γ和δ,m的值是多少?

          

          求解m的值得:

           

          只要样本数目m大于上式,对于任意的假设h,就能保证训练误差与一般误差之间的差异都在γ之内的概率至少是1-δ,称为样本复杂度界(Sample complexity bound)

          m与logk呈正比,而logk增长的十分缓慢,随着k的不断增大,样本数目不会有太大的提高。

     

    (3)误差界:

           固定m和δ,求解γ的值。至少在1-δ的概率下,对于所有假设类中的假设有:

          

          γ的值为不等式右边的值

     

         

         假设一致收敛成立,所有h∈H,都满足:

                                     -----------------------------(1)

         接下来要推导出H中具有最小训练误差的假设 的一般误差。并定义h*:H中具有最小一般误差的假设。

         

         h*是最理想的情况,学习算法就算再好也不会比h*好,因此将学习算法与之比较是有意义的。

         根据上面的(1)式:

         

         定理:令H为有限的假设类,|H|=k,令m和δ固定,至少在1-δ的概率下,我们有:

        

         设γ的值为,由一致收敛结果,至少在1-δ的概率下,ε(h)至少比ε(h*)要高2γ。这个结论可以很好地帮助我们量化偏差方差权衡的问题。

         如果选择更复杂的目标函数或更多特征的类H’,例如,将线性假设类换成二次假设类,假设类中最好的假设只可能更好,不等式右边的第一项(偏差bias)会减小,但代价是k会增加,从而第二项(方差variance)增加,这就是偏差方差权衡,可以用下图更具体的描述。

        

          随着模型复杂度(如多项式的次数、假设类的大小等)的增长,训练误差逐渐降低,而一般误差先降低到最低点再重新增长。训练误差降低,是因为模型越复杂,对于训练集合的拟合就越好。对于一般误差,最左边的端点表示欠拟合(高偏差),最右边的端点表示过拟合(高方差),最小化一般误差时,一般倾向于选取中间的模型复杂度,最小一般误差的区域。

     

         最后介绍上述定理的Corollary推论

         令假设类含有k个假设,|H|=k,给定γ和δ,为了保证:

        

         至少在1-δ的概率下,满足条件:

         

     

    3. 无限假设类情形

        根据Corollary推论,定义了为满足误差率所需的样本数目的界,与样本复杂度有关的结论。接下来要把它推广到无限假设类的情形。

        H以d个实数为参数,例如使用逻辑回归,解决包含n个特征的问题,d应该为n+1,所以逻辑回归会找到一个线性决策边界,以n+1个实数为参数。    在计算机中用双精度浮点数64bit表示一个实数,那么此时有64d个bit来表示这64个参数,具有64d个状态,,为了满足这个条件,m符合:

       

     

     (1)分散的定义

        给定d个样本的集合S={x(1),...,x(d)},假设类H可以分散S,那么对于S的任意一种标记方式都可以从H中找到一个假设h能够对S的d个样本进行完美分类。

    • H={二维上的线性分类器} , VC(H)=2,即H中至少包含下面四个线性分类器。

        

    • H={三维上的线性分类器},VC(H)=3,即H中至少包含下面8个线性分类器。

     

      (2)VC维

           给定一个假设类H,定义VC维(Vapnik-Chervonenkis dimension),记作VC(H),表示能够被H分散最大集合的大小。如果一个假设类可以分散任意大的集合,那么它的VC维维无穷大。

           若H是所有二维线性分类器构成的假设类,VC(H)=3。即使也有几个特例例外,不过这并不影响整体。

       

           推广到一般情形,对于任意维度,线性分类器是n维的,也就是n维假设类对应的VC维度为n+1。

     

           定理:(学习领域最出名)

           给定一个假设类H,令VC(H)=d,至少在1-δ的概率下,对于任意h∈H有如下结论:

          

            至少在1-δ的概率下,以下结论也成立:

          

          第一个结论说明一般误差与训练误差之间的差异存在上界,由不等式右边的式子O()限定。第二个结论说明,若一般误差与训练误差相差不大的情况下,那么选择的假设的一般误差与最好的一般误差之间的差异最多是O()。

         

        Corollary为了保证对于所有的h∈H有,也就是,至少在1-δ的概率下,要满足: 

          也就是为了保证一般误差与训练误差的差异足够小,假设类的VC维需要与m的阶相同。对于EMR来说,需要训练的样本数目大概和假设类的VC维呈线性关系,样本复杂度的上界由VC维给定,最坏的情况下,样本复杂度的上下界均由VC维确定。对于大多数合理的假设类,VC维总是与模型的参数成正比。而事实上,样本数目与模型参数数量也成线性关系。

          在SVM中,核函数将特征映射到无限维的特征空间,看似VC维度是无穷大的,因为它是n+1,而n为无穷大。事实证明:具有较大间隔的线性分类器假设类都有比较低的VC维。

          若,则

          仅包含较大间隔线性分类器假设类的VC维是有上界的,且上界并不依赖于x的维度。SVM会自动找到一个具有较小VC维的假设类,不会出现过拟合。

     

          最后,结合上述内容解释ERM与之前学习过的学习算法之间的联系。

         

     

          最理想的分类器是一个指示函数(阶梯函数),不是一个凸函数,事实证明线性分类器使训练误差最小是一个NP难问题。逻辑回归与支持向量机都可以看作是这个问题(ERM)的凸性近似。逻辑回归一般采用极大似然性,如果加入负号就可以得到图中的曲线,实际上是近似地在最小化训练误差,它是ERM的一种近似。同时,支持向量机也可以看作是ERM的一种近似,不同的是它尝试用两段不同的线性函数近似,看似是铰链的形状。

     

    Ref:

    https://www.cnblogs.com/wallacup/p/6071515.html

    吴恩达斯坦福大学《机器学习》公开课, 资料 https://pan.baidu.com/s/1lSTJTudmH9V1kbB1UDUdqw

    展开全文
  • 今天去baidu 知道上看到一个问题:工作经验重要还是理论学习重要。  有时候,一个简单的道理,却足以给人意味深长的人生启示。   这个故事似乎刚好合适:  古时,甲、有两个饥饿的人得到了一位长者的恩赐,...

      今天去baidu 知道上看到一个问题:工作经验重要还是理论学习重要。

      有时候,一个简单的道理,却足以给人意味深长的人生启示。 

      这个故事似乎刚好合适:


      古时,甲、有两个饥饿的人得到了一位长者的恩赐,长者拿出一把鱼竿和一篓新鲜大鱼给两个饥饿的人,说:你们拿去活命吧。两个饥饿的人并每有领会长者的意思,当场一个人要了一篓鱼,另一个人要了一把鱼竿,于是他们就分道扬镳了。得到鱼的人走出不远就用干柴搭起篝火,煮起鱼来,他狼吞虎咽,还没有品出鲜鱼的香味,转眼间,连鱼带汤就被他吃了个精光,不久,他便饿死在空空的鱼篓旁。另一个人则提着鱼竿继续忍饥挨饿,步步艰难地向大海方向走去,可他已经看到不远处那片蔚蓝色的大海时,他浑身的最后一点力气也使完了,他也只能眼巴巴地带着无尽的遗憾撒手而去了。


    乙、又有两个饥饿的人,他们同样得到长者恩赐的一把鱼竿和一篓新鲜大鱼,他们并没有各奔东西,而是商定共同去寻找大海,他俩每次只煮一条鱼,他们经过长途跋涉,终于来到了大海边,从此,两人开始了捕鱼为生的日子,几年后,他们盖起了房子,有了各自的家庭、子女,有了自己建造的鱼船,过上了幸福安康的生活。


      这里鱼就是经验,可以饱你一时之需,但如果需要更多的鱼必须要自己去钓鱼,钓鱼的本领来自理论学习。鱼与鱼竿要兼得,方可有美好的未来。

    展开全文
  • 学习理论-PAC理论

    千次阅读 2018-09-17 22:49:41
    学习理论 1、基本概念 2、PAC理论 3、VC维 4、极大似然,最大后验概率,贝叶斯估计 5、模型评估与评价指标 6、模型诊断调参 二、PAC理论 ​ 概率近似正确(PAC)理论是从概率的角度来衡量模型的正确率,给出了PAC可...

    学习理论

    1、基本概念
    2、PAC理论
    3、VC维
    4、极大似然,最大后验概率,贝叶斯估计
    5、模型评估与评价指标
    6、模型诊断调参

    二、PAC理论

    ​ 概率近似正确(PAC)理论是从概率的角度来衡量模型的正确率,给出了PAC可辨识,样本复杂度界,误差上界。

    偏差/方差

    ​ 偏差和方差是机器学习中很重要的两个概念,在分析模型时对应于欠拟合和过拟合问题。

    以回归问题为例,上图中左边为一个线性拟合,可以看出,拟合的程度不够(欠拟合),与真实样本的偏差较大,右边的图类似于插值曲线,基本上每个点都拟合的过好(过拟合),然而我们的训练集只是样本数真实分布的一个子集,并不代表所有的样本(测试集)都能拟合的很好,一般而言,由于右图模型复杂度较高,往往泛化能力不如简单的模型。而中间的图拟合的程度和模型的复杂度都不错,因此,机器学习中更倾向于中间的模型最优。

    经验风险最小

    经验风险最小一直以来都是我们构建目标函数的一个准则,以二分类为例,经验风险最小就是使得误判的样本数最少,对于数据集:
    S = { x ( i ) , y ( i ) } , 0 ≤ i ≤ m , y ∈ { 0 , 1 } S=\{x^{(i)},y^{(i)}\},0\leq i \leq m ,y\in \{0,1\} S={x(i),y(i)},0im,y{0,1}
    其中,样本点 ( x ( i ) , y ( i ) ) (x^{(i)},y^{(i)}) (x(i),y(i))独立同分布。

    假设,我们学习一个模型来进行分类:
    h θ ( x ) = g ( θ T x ) g ( z ) = I { z ≥ 0 } , g ∈ { 0 , 1 } h_{\theta}(x)=g(\theta^Tx)\\ g(z)=I\{z\geq 0\},g \in \{0,1\} hθ(x)=g(θTx)g(z)=I{z0},g{0,1}
    其中 h h h是一个线性函数, g g g是一个指示函数,这样我们就有了一个二分类器。

    那么,训练误差即为:
    ϵ ^ ( h θ ) = ϵ ^ S ( h θ ) = 1 m ∑ i = 1 m I { h θ ( x ( i ) ) ≠ y ( i ) } \hat{\epsilon}(h_{\theta})=\hat{\epsilon}_{S}(h_{\theta})=\frac{1}{m}\sum_{i=1}^{m}I\{h_{\theta}(x^{(i)})\neq y^{(i)}\} ϵ^(hθ)=ϵ^S(hθ)=m1i=1mI{hθ(x(i))̸=y(i)}
    经验风险最小化准则就是最小化训练误差:
    θ ^ = a r g min ⁡ θ ϵ ^ S ( h θ ) \hat{\theta}=arg\min_{\theta}\hat{\epsilon}_{S}(h_{\theta}) θ^=argθminϵ^S(hθ)
    然而,我们发现如上目标函数非凸,一般无法直接优化,而且这样定义目标函数得到最好的模型在真实数据上并不一定测试误差就最小。为了解决优化的问题,采用对数损失,指数损失,Higne损失,线性损失来代替 0 ​ − ​ 1 0\!-\!1 01损失。

    也就是说我们根据最小化经验损失,从 h θ h_{\theta} hθ的假设空间 H H H中学习我们的目标空间:
    h ^ = a r g min ⁡ h ∈ H ϵ ^ ( h ) \hat{h}=arg\min_{h\in H} \hat{\epsilon}(h) h^=arghHminϵ^(h)
    上式,只是我们在训练集上的最小损失,泛化到测试集:
    ϵ ( h ) = P x , y ∼ D ( h ( x ) ≠ y ) \epsilon(h)=P_{x,y \sim D}(h(x)\neq y) ϵ(h)=Px,yD(h(x)̸=y)
    也就是说 ϵ ^ \hat{\epsilon} ϵ^为训练集上的损失, ϵ \epsilon ϵ为泛化到测试集上的损失。当然,我们希望不学习测试数据就能学到测试集上泛化误差最小的 h ∗ h^{*} h是最好的(不切实际)。

    Hoeffding不等式,联合上界,一致收敛

    假设 { x ( 1 ) , x ( 2 ) , . . , x ( i ) , . . , x ( m ) } \{x^{(1)},x^{(2)},..,x^{(i)},..,x^{(m)}\} {x(1),x(2),..,x(i),..,x(m)}独立同分布,服从伯努利分布:
    P ( x ( i ) = 1 ) = ϕ , P ( x ( i ) = 0 ) = 1 − ϕ P(x^{(i)}=1)=\phi,P(x^{(i)}=0)=1-\phi P(x(i)=1)=ϕ,P(x(i)=0)=1ϕ
    从伯努利分布角度看,当样本趋于无限大时,所有点的均值为 ϕ \phi ϕ。从样本统计来看,由于它们之间独立同分布,所以有均值为:
    ϕ ^ = 1 m ∑ i = 1 m x ( i ) \hat{\phi}=\frac{1}{m}\sum_{i=1}^{m}x^{(i)} ϕ^=m1i=1mx(i)
    Hoeffding不等式的定义为对任意固定值 γ > 0 \gamma>0 γ>0,存在:
    P ( ∣ ϕ ^ − ϕ ∣ &gt; γ ) &lt; 2 e x p ( − 2 γ 2 m ) P(|\hat{\phi}-\phi|&gt;\gamma) &lt;2exp(-2\gamma^{2}m) P(ϕ^ϕ>γ)<2exp(2γ2m)
    该引理表示一个随机变量其偏离期望大于 γ \gamma γ的概率有上限。可以从高斯分布出发其到均值距离大于 γ \gamma γ的概率有上限(切比雪夫不等式)。 注意,上述不等式是针对一维的情况。

    联合上界,假设有n个随机变量 { x 1 , x 2 , . . , x j , . . , x n } \{x_{1},x_{2},..,x_{j},..,x_{n}\} {x1,x2,..,xj,..,xn},这 n n n个随机变量可以相互独立也可以不独立,我们有:
    P ( x 1 , x 2 , . . , x n ) ≤ P ( x 1 ) + P ( x 2 ) + , . . , + P ( x n ) P(x_{1},x_{2},..,x_{n})\leq P(x_{1})+P(x_{2})+,..,+P(x_{n}) P(x1,x2,..,xn)P(x1)+P(x2)+,..,+P(xn)
    该不等式很容易理解,即所有事件并集发生的概率小于所有事件发生的概率之和,当且仅当 n n n个事件互斥,等号成立。现在,我们将 ∣ ϕ j ^ − ϕ j ∣ &gt; γ j |\hat{\phi_{j}}-\phi_{j}|&gt;\gamma_{j} ϕj^ϕj>γj 记为事件 x j x_{j} xj,那么有 P ( x j ) ≤ 2 e x p ( − 2 γ j 2 m ) P(x_{j})\leq 2exp(-2\gamma_{j}^2m) P(xj)2exp(2γj2m),使用联合上界将其推广到 n n n维,我们有:
    ∑ j = 1 n P ( ∣ ϕ j ^ − ϕ j ∣ &gt; γ j ) ≤ ∑ i = 1 n 2 e x p ( − 2 γ j 2 m ) \sum_{j=1}^{n}P(|\hat{\phi_{j}}-\phi_{j}|&gt;\gamma_{j}) \leq\sum_{i=1}^{n}2exp(-2\gamma_{j}^{2}m) j=1nP(ϕj^ϕj>γj)i=1n2exp(2γj2m)
    假设 γ j \gamma_{j} γj取统一值 γ \gamma γ,那么有:
    P ( ∣ ϕ ^ − ϕ ∣ &gt; γ ) ≤ 2 n e x p ( − 2 γ 2 m ) P(|\hat{\phi}-\phi|&gt;\gamma) \leq 2n exp(-2\gamma^{2}m) P(ϕ^ϕ>γ)2nexp(2γ2m)
    上式的意义在于,说明当样本数目 m m m增大时,我们对参数的估计就越逼近真实值。

    一致收敛,定义模型的假设空间为:
    H = { h 1 , h 2 , . h k . , h N } H=\{h_{1},h_{2},.h_{k}.,h_{N}\} H={h1,h2,.hk.,hN}
    首先,我们假设对于所有的 h h h来说,存在训练误差为 ϵ ^ ( h k ) = 1 m ∑ i = 1 m I ( h k ( x ( i ) ) ≠ y ( i ) ) \hat{\epsilon}(h_{k})=\frac{1}{m}\sum_{i=1}^{m}I(h_{k}(x^{(i)})\neq y^{(i)}) ϵ^(hk)=m1i=1mI(hk(x(i))̸=y(i)) ϵ \epsilon ϵ是定义在测试集上的泛化误差,然后我们证明对于任意一个 h k h_{k} hk泛化误差 ϵ \epsilon ϵ存在上限。

    对于 h k h_{k} hk,泛化误差 ϵ ( h k ) \epsilon(h_{k}) ϵ(hk)是一个以 ϵ ^ ( h k ) \hat{\epsilon}(h_{k}) ϵ^(hk)为均值服从伯努利分布(分类问题)的随机变量(向量)。由Hoeffding不等式在 n n n维的推广,我们有:
    P ( ∀ ∣ ϵ ( h k ) − ϵ ^ ( h k ) ∣ &gt; γ ) ≤ 2 N e x p ( − 2 γ 2 m ) , k = 1 , 2.. N P(\forall|\epsilon(h_{k})-\hat{\epsilon} (h_{k})|&gt;\gamma)\leq 2N exp(-2\gamma^2m) ,k=1,2..N P(ϵ(hk)ϵ^(hk)>γ)2Nexp(2γ2m),k=1,2..N
    也就是说对于假设空间中任意一个模型 h k h_{k} hk都满足上式,也就表明不存在一个模型的误差离训练误差的偏差大于一个上限:
    P ( − ∃ ∣ ϵ ( h k ) − ϵ ^ ( h k ) ∣ &gt; γ ) ≥ 1 − 2 N e x p ( − 2 γ 2 m ) , k = 1 , 2.. N P ( ∣ ϵ ( h k ) − ϵ ^ ( h k ) ∣ ≤ γ ) ≥ 1 − 2 N e x p ( − 2 γ 2 m ) , k = 1 , 2.. N p ( ∣ ϵ ( h k ) − ϵ ^ ( h k ) ∣ ≤ γ ) ≥ 1 − σ P( -\exists|\epsilon(h_{k})-\hat{\epsilon} (h_{k})|&gt;\gamma)\geq 1-2Nexp(-2\gamma^2m) ,k=1,2..N\\ P( |\epsilon(h_{k})-\hat{\epsilon} (h_{k})|\leq \gamma)\geq 1-2N exp(-2\gamma^2m) ,k=1,2..N\\ p(|\epsilon(h_{k})-\hat{\epsilon} (h_{k})|\leq \gamma) \geq 1-\sigma P(ϵ(hk)ϵ^(hk)>γ)12Nexp(2γ2m),k=1,2..NP(ϵ(hk)ϵ^(hk)γ)12Nexp(2γ2m),k=1,2..Np(ϵ(hk)ϵ^(hk)γ)1σ
    上式表示,任意一个假设空间下的模型 h k h_{k} hk的泛化误差都存在上界,这个上界就是定义在偏差上的方差内。由此导出PAC可辨识,即从假设空间学习到的模型的误差 ϵ ^ ( h i ) \hat{\epsilon}(h_{i}) ϵ^(hi)泛化到测试集上的误差 ϵ ( h i ) \epsilon(h_{i}) ϵ(hi)的偏差在 γ \gamma γ以内的概率大于 1 − σ 1-\sigma 1σ

    样本复杂度界

    ​ 由 P ( ∣ ϵ ( h k ) − ϵ ^ ( h k ) ∣ ≤ γ ) ≥ 1 − 2 N e x p ( − 2 γ 2 m ) P( |\epsilon(h_{k})-\hat{\epsilon} (h_{k})|\leq \gamma)\geq 1-2N exp(-2\gamma^2m) P(ϵ(hk)ϵ^(hk)γ)12Nexp(2γ2m),为了保证概率大于 1 − σ 1-\sigma 1σ,我们可以分析出至少需要多少样本:
    1 − 2 N e x p ( − 2 γ 2 m ) ≥ 1 − σ ⇒ m ≥ 1 2 γ 2 l o g 2 N σ ⇒ γ ≥ 1 2 m l o g 2 N σ 1-2Nexp(-2\gamma^2m)\geq 1-\sigma\\ \Rightarrow m\geq \frac{1}{2\gamma^2}log\frac{2N}{\sigma}\\ \Rightarrow \gamma \geq \sqrt{\frac{1}{2m}log\frac{2N}{\sigma}} 12Nexp(2γ2m)1σm2γ21logσ2Nγ2m1logσ2N
    由此,我们我们分析出了模型需要达到一定的准确率,需要的样本数目称为样本复杂度。同时我们分析出了在给定 m m m, σ \sigma σ时,模型 h i h_{i} hi的泛化误差与 m m m成反比,与 n n n成正比,其中 m m m为样本数目, n n n表示模型的复杂度。也就是说负杂的模型泛化误差界越大。注意:由于界的条件很宽,所以得出的界具备参考的价值不大,更多时候是直观的理解,需要样本数的大小与复杂度成正比,与误差范围成反比。

    误差上界

    ​ 上面我们分析的是同一个模型 h ^ = h k = a r g min ⁡ h ∈ H ϵ ^ ( h ) \hat{h}=h_{k}=arg\min_{h\in H} \hat{\epsilon}(h) h^=hk=argminhHϵ^(h)的训练误差和泛化误差的关系。但是我们更关心的是训练集上最好模型的泛化误差 ϵ ( h ^ ) \epsilon(\hat{h}) ϵ(h^)与测试集上最好模型的泛化误差 ϵ ( h ∗ ) \epsilon(h^{*}) ϵ(h)的关系。因为,我们的终极目标是 ϵ ( h ∗ ) \epsilon(h^{*}) ϵ(h),但是 ϵ ( h ∗ ) \epsilon(h^{*}) ϵ(h)是永远未知的,我们最优模型还是 ϵ ( h ^ ) \epsilon(\hat{h}) ϵ(h^),所以我们需要用 ϵ ( h ∗ ) \epsilon(h^{*}) ϵ(h)来定义训练最优模型 h ^ \hat{h} h^的上界。
    h ^ = a r g min ⁡ h ∈ H ∼ D ^ m i n ( ϵ ^ ( h ) ) h ∗ = a r g min ⁡ h ∈ H ∼ D m i n ( ϵ ( h ) ) \hat{h}=arg\min_{h\in H \sim \hat{D}}min(\hat{\epsilon}(h))\\ h^{*}=arg\min_{h\in H \sim D}min(\epsilon(h))\\ h^=arghHD^minmin(ϵ^(h))h=arghHDminmin(ϵ(h))
    其中 ϵ ^ ( h ^ ) \hat{\epsilon}(\hat{h}) ϵ^(h^)表示训练数据集上最好的训练误差, ϵ ( h ∗ ) \epsilon(h^{*}) ϵ(h)表示测试集上最好的泛化误差。
    KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ \epsilon(\hat{…
    第一个不等式:对于在训练误差最小的假设类 h ^ \hat{h} h^,其泛化误差小于训练误差加 γ \gamma γ,由一致收敛定理。

    第二个不等式: h ^ \hat{h} h^为训练集上误差最小的模型,那么必然有 ϵ ^ ( h ^ ) ≤ ϵ ^ ( h ∗ ) \hat{\epsilon}(\hat{h})\leq \hat{\epsilon}(h^{*}) ϵ^(h^)ϵ^(h)

    第三个不等式,对于在测试误差最小的假设类 h ∗ h^{*} h,其训练误差小于泛化误差加 γ \gamma γ,由一致收敛定理。

    所以我们学习的最好模型的误差 ϵ ^ ( h ^ ) \hat{\epsilon}(\hat{h}) ϵ^(h^)距离我们在测试集上最好模型的误差存在上界:
    KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ \epsilon(\hat{…
    上式表明,我们学习的目标模型的误差服从一个偏差为 ϵ ( h ∗ ) \epsilon(h^{*}) ϵ(h),方差为 2 1 2 m l o g 2 N σ 2 \sqrt{\frac{1}{2m}log\frac{2N}{\sigma}} 22m1logσ2N 的分布。当我们采用复杂的假设空间来拟合数据时,偏差也许会小,但是使得第二项大。这就指导了我们在选择模型时既要考虑偏差,也要照顾到方差。一般而言,训练误差与测试误差存在如下趋势:

    展开全文
  • 特征模理论

    千次阅读 2020-05-23 10:09:48
    本人主要研究的是特征模理论及其在天线方面的一些应用,首先从特征模理论整理开始。 特征模理论背景 现在的天线设计,随着设计指标要求的增多使得天线的结构越来越复杂,单纯依赖传统的解析方法已经很难对天线进行...
  • 30分钟了解PAC学习理论——计算学习理论第一讲

    万次阅读 多人点赞 2017-02-26 14:42:41
    PAC理论是计算学习理论很重要的一部分,它解释了机器学习的学习机理。了解此理论可以更深入的了解机器学习,解释模型的泛化效果。如果深入研究更能帮助我们针对不同问题选择不同模型。  本文旨在让机器学习刚...
  • 约束理论

    千次阅读 2017-12-12 15:49:34
    约束理论概述  约束理论(Theory of Constraints, TOC)是以色列物理学家、企业管理顾问戈德拉特博士(Dr.Eliyahu M.Goldratt)在他开创的优化生产技术(Optimized Production Technology,OPT)基础上发展...
  • 现代控制理论(机器人方向)习题与实践补充资料和复习说明(2019版) 现代控制理论正确打开方式是怎样的? 机器人/控制/学习/人工智能(OpenAI)课程已经接近尾声(2学分-32学时),现代控制系统理论内容分为: ...
  • 常见的各种人提出的理论

    千次阅读 2012-11-19 09:38:19
    1、威廉·大内的Z理论(1981)   Z理论( Theory Z)是由美国日裔学者威廉·大内(一译乌契,William Ouchi)...他从1973年开始专问研究日本企业管理,经过调查比较日美两国管理的经验,提出Z理论。如今,他是加
  • TOC瓶颈管理理论/约束理论

    万次阅读 2012-02-29 10:45:50
     约束理论(制约法) 指约束管理/ 约束理论 (theory of constraints ,TOC)。  简单的讲,约束理论是关于企业应作哪些变化以及如何最好地实现这些变化的理论。具体一些,约束理论是这样一套管理原则
  • PAC理论

    千次阅读 2017-09-13 17:18:02
    基础 1、假设空间:模型会将输入有一个对应的输出映射,映射集为假设空间 2、泛化误差:真实情况下模型的误差,与真实情况的偏离 就是泛化误差 ...6、训练误差/经验误差(training error):学习器在训练
  • 测试理论面试题

    千次阅读 2019-11-06 09:13:26
    没有做过项目的直接介绍下v模型(老师上课肯定有讲过),有经验的直接从接到项目/单子后讲自己如何一步步实施测试的。 例如你可以回答这样的流程: 1.软件开发完成以后,就会把需求规格说明书、软件程序和软件源...
  • Faster-RCNN代码+理论——1

    万次阅读 多人点赞 2017-12-17 12:23:52
    由于之前没有什么经验,采用了在RGB图像上表现不错的Faster-RCNN,但是比赛过程表明:效果不是很好。所以这里把我对Faster-RCNN的原理及代码(https://github.com/yhenon/keras-frcnn)结合起来,分析一下,以厘清...
  • 测试理论

    万次阅读 2017-04-04 10:31:58
    顺序的开发流程,使得开发中的经验教训 不能反馈 到该项目的开发中去;不能反映出软件开发过程的 反复与迭代性 ;没有包含类型的风险评估;开发中出现的问题直到开发 后期才暴露(测试在后期阶段) ,因此失去及早...
  • 【最全】软件测试基础理论选择题(含答案)

    万次阅读 多人点赞 2020-03-05 19:17:40
    B、设计阶段 C、编程阶段 D、发布运行阶段 【答案】D 28、经验表明,在程序测试中,某模块与其他模块相比,若该模块已发现并改正的错误较多,则该模块中残存的错误数目与其他模块相比,通常应该( ) A、较少 B、较...
  • 社会交换理论

    千次阅读 2015-08-19 14:39:40
    二、五种社会交换理论      虽然“社会交换理论”意指关于社会交换的单一理论,实际上对社会交换存在着五种不同的观点:霍曼斯的操作心理学观点、布劳的经济学观点、蒂博特和凯利的相互依赖说、 E ·...
  • SVM理论

    万次阅读 2011-11-15 23:08:29
    支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳...
  • 贝叶斯决策理论

    千次阅读 2016-10-21 14:20:26
    贝叶斯决策理论对于模式识别的方法,大体可以分为基于知识和基于数据的两类。所谓基于知识的方法,主要以专家系统为代表,一般归于人工智能的范畴;而基于数据的方法,则可归于基于数据的机器学习。基于数据的方法,...
  • 新古典管理理论 一些管理学家和心理学家也意识到社会化大生产的发展需要有与之相适应的新的管理理论。于是,一些学者开始从心理学、社会学等方面出发研究企业中有关人的一些问题。如人的工作动机、情绪、行为与公司...
  • 第三章——Lyapunov理论基础

    万次阅读 多人点赞 2019-10-06 10:08:17
    文章目录3.1 非线性系统和平衡点非线性系统自治与非自治系统平衡点常规...理论全局稳定性的Lyapunov理论不变集理论局部不变集理论全局不变集理论3.5 基于Lyapunov直接法的系统分析LTI系统的Lyapunov分析克拉索夫斯...
  • 另外,即使分布式系统各个节点之间的网络通信能够正常进行,其延时也会大于单机操作。通常我们认为现代计算机体系结构中,单机内存访问的延时在纳秒数量级(通常是10ns),而正常的一次网络通信的延迟在0.1~1ms左右...
  • 密码学及相关理论

    千次阅读 2009-10-06 21:50:00
    [密码学实践][现代密码学理论与实践][刘氏...任意大于1而又不是素数的整数称为合数,每个合数都可唯一分解出素数因子,素数也称为质数。2.如果生成所以小于100万德素数,也要使用2000年前的一个算法,由阿基米德的朋友Er
  • 聚类分析入门(理论

    千次阅读 2020-04-07 14:07:25
    一,聚类分数是什么? 聚类分析是通过建立一种分类的方法,将一批样本数据(或者变量),按照他们在性质上的亲疏程度在没有前提假设的情况下自动进行分类。...1,选择聚类的变量:依靠理论经验选择变量 ...
  • 剖析了该曲线特征,阐述了新型水驱特征曲线先减后增主要是由含水率对含水饱和度导数的多值性造成的,并且通过理论证明应该在含水率大于50%以后寻找水驱特征曲线的直线段,与传统经验认识相一致,同时提出如何合理选取...
  • 这里面又是一个经验考虑(或者你认为它是哲学考虑也行)。丢包时一个激进的猜测,而乱序则是一个保守的猜测,TCP作为一种公平反馈协议,只有在协作大于对抗的情形下才能表现得共同良好,不然就是同归于尽,所以说天平...
  • 论文将污水视为液—固两相流体,依据相似理论,结合现有液 -固、气 -固两相流动管道阻力计算的经验公式,提出了更为准确地计算污水在管道内流动阻力的方法和公式。根据典型的生活污水水质资料,用该方法分析计算后可得出...
  • 机器学习中非常有名的理论或定理你知道几个?

    千次阅读 多人点赞 2019-08-27 00:50:04
    转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 ...公众号:搜索与推荐Wiki ... 在机器学习中,有一些非常有名的理论或定理,对理解机器学习的内在特性非常有帮助。 PCA学...
  • 协方差大于0表示x和y若一个增,另一个也增;小于0表示一个增,一个减。如果x和y是统计独立的,那么二者之间的协方差就是0;但是协方差是0,并不能说明x和y是独立的。协方差绝对值越大,两者对彼此的影响越大,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 47,063
精华内容 18,825
关键字:

经验大于理论