精华内容
下载资源
问答
  • yc-问题 该Webapp反复浏览了一些常见的VC面试问题。 使用按钮(或回车和空格键)控制问题和计时器。 在问题清单,从采购由麦克·布彻科技紧缩的文章。 !
  • 支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上。 置信风险: 分类器对 未知样本进行分类,得到的误差。 经验风险: 训练好的分类器,对训练样本重新分类得到的误差。即样本误差...

    支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上。

    置信风险: 分类器对 未知样本进行分类,得到的误差。
    经验风险: 训练好的分类器,对训练样本重新分类得到的误差。即样本误差
    结构风险:置信风险 + 经验风险
    结构风险最小化就是为了防止过拟合而提出来的策略,贝叶斯估计中最大后验概率估计就是结构风险最小化的一个例子。当模型的条件概率分布、损失函数是对数损失函数、模型复杂度由模型先验概率表示时,结构风险最小化等价于最大后验概率估计。监督学习问题变成经验风险或结构风险函数的最优化问题,这时经验风险或结构风险函数是最优化的目标函数。

    SVM在小样本训练集上能够得到比其它算法好很多的结果。支持向量机之所以成为目前最常用,效果最好的分类器之一,在于其优秀的泛化能力,这是是因为其本身的优化目标是结构化风险最小,而不是经验风险最小,因此,通过margin的概念,得到对数据分布的结构化描述,因此减低了对数据规模和数据分布的要求。SVM也并不是在任何场景都比其他算法好,对于每种应用,最好尝试多种算法,然后评估结果。如SVM在邮件分类上,还不如逻辑回归、KNN、bayes的效果好。

    VC维:将N个点进行分类,如分成两类,那么可以有2^N种分法,即可以理解成有2^N个学习问题。若存在一个假设H,能准确无误地将2^N种问题进行分类。那么这些点的数量N,就是H的VC维。 这个定义真生硬,只能先记住。一个实例就平面上3个点的线性划分的VC维是3. 而平面上 VC维不是4,是因为不存在4个样本点,能被划分成2^4 = 16种划分法,因为对角的两对点不能被线性划分为两类。更一般地,在r 维空间中,线性决策面的VC维为r+1。
    置信风险的影响因素有: 训练样本数目和分类函数的VC维。训练样本数目,即样本越多,置信风险就可以比较小;VC维越大,问题的解的种类就越多,推广能力就越差,置信风险也就越大。因此,增加样本数,降低VC维,才能降低置信风险。而一般的分类函数,需要提高VC维,即样本的特征数据量,来降低经验风险,如多项式分类函数。如此就会导致置信风险变高,结构风险也相应变高。过度学习即overfit,就是置信风险变高的缘故。
    结构风险最小化SRM(structured risk minimize)就是同时考虑经验风险与结构风险。在小样本情况下,取得比较好的分类效果。 保证分类精度(经验风险)的同时,降低学习机器的 VC 维,可以使学习机器在整个样本集上的期望风险得到控制,这应该就是SRM的原则。
    当训练样本给定时,分类间隔越大,则对应的分类超平面集合的 VC 维就越小。(分类间隔的要求,对VC维的影响)
    根据结构风险最小化原则,前者是保证经验风险(经验风险和期望风险依赖于学习机器函数族的选择)最小,而后者使分类间隔最大,导致 VC 维最小,实际上就是使推广性的界中的置信范围最小,从而达到使真实风险最小。
    训练样本在线性可分的情况下,全部样本能被正确地分类(咦这个不就是传说中的yi*(w*xi+b))>=1的条件吗),即经验风险Remp 为 0 的前提下,通过对分类间隔最大化(咦,这个就是Φ(w)=(1/2)*w*w嘛),使分类器获得最好的推广性能。

    下面再添加一些相关内容:
    正则化:regularization
    归一化:normalization

    李航博士在其统计学习方法中写道统计学习的三要素由模型、策略和算法组成。在监督学习中模型即是要学习的概率分布函数或决策函数,因此模型的假设空间便包括所有可能的概率分布或决策函数。

    模型的假设空间有了之后,下面的问题就是如何选择最优的模型,选择的准则又是什么。这就引入了损失函数和风险函数的概念。

    损失函数度量一次预测的好坏。

    风险函数度量平均意义下模型的好好。

    在监督学习中我们从假设空间中选择f作为我们的决策函数,那么给一个输入X,我们会产生一个输出f(X)[分类回归均可],模型f产生的输出f(X)和实际输出y会有一定的差距。我们用损失函数(loss function)或代价函数(cost function)来衡量预测错误的程度。损失函数有很多种,例如平方损失函数(例如回归问题用的),绝对损失函数,对数损失函数(例如logistic regression用的)

    可见损失函数值越小,模型预测的就越好。

    当然现实世界中我们并不知道输入输出的概率分布是啥,不然也用不着我们去预测了。我们只拥有的是一些训练数据用做训练集,在这个训练集上,模型得到的平均损失称为经验风险(empirical risk)或经验损失(empirical loss)。
    如果样本的数量足够大,根据大数定理,经验风险应该接近期望风险。因此我们可以用经验风险来估计期望风险。因此经验风险最小化(empirical risk minimization,ERM)的的原则就是说使经验风险最小的模型就是最优的模型。为了使经验风险最小,可以说无所不用其极,这样就有可能导致训练出的模型经验风险小,但模型复杂,导致模型泛化能力差,即在新数据上表型性能差,奥,对,专业名词叫过拟合(overfitting)。避免过拟合的问题可以用减少features的方法,也可以用结构风险最小化(structural risk minimization, SRM)。结构风险最小化等价于正则化(regularization),即在经验风险的后面加上与模型复杂度相符的正则化项(regularizer)或惩罚项(penalty term)
     
    lambda表示对模型复杂的惩罚。值越大,惩罚越大。在实际操作中需要权衡。

    lambda=0,即不进行正则化,出现过拟合,以机器学习公开课logistic regression的图为例:
     


     
     
    让lambda=1,对模型复杂度进行惩罚,分类效果与泛化能力还不错:
     

     惩罚过火的话,比如lambda=100,出现欠拟合(underfitting)的问题:
     


    展开全文
  • 结构化风险最小、VC维到SVM的理解

    万次阅读 2014-12-08 00:59:09
    结构化风险最小、VC维到SVM的理解 ,理解SVM背后的数学原理!

    支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上。

    置信风险: 分类器对 未知样本进行分类,得到的误差。
    经验风险: 训练好的分类器,对训练样本重新分类得到的误差。即样本误差
    结构风险:置信风险 + 经验风险
    结构风险最小化就是为了防止过拟合而提出来的策略,贝叶斯估计中最大后验概率估计就是结构风险最小化的一个例子。当模型的条件概率分布、损失函数是对数损失函数、模型复杂度由模型先验概率表示时,结构风险最小化等价于最大后验概率估计。监督学习问题变成经验风险或结构风险函数的最优化问题,这时经验风险或结构风险函数是最优化的目标函数。

    SVM在小样本训练集上能够得到比其它算法好很多的结果。支持向量机之所以成为目前最常用,效果最好的分类器之一,在于其优秀的泛化能力,这是是因为其本身的优化目标是结构化风险最小,而不是经验风险最小,因此,通过margin的概念,得到对数据分布的结构化描述,因此减低了对数据规模和数据分布的要求。 SVM也并不是在任何场景都比其他算法好,对于每种应用,最好尝试多种算法,然后评估结果。如SVM在邮件分类上,还不如逻辑回归、KNN、bayes的效果好。

    VC维:将N个点进行分类,如分成两类,那么可以有2^N种分法,即可以理解成有2^N个学习问题。若存在一个假设H,能准确无误地将2^N种问题进行分类。那么这些点的数量N,就是H的VC维。 这个定义真生硬,只能先记住。一个实例就平面上3个点的线性划分的VC维是3. 而平面上 VC维不是4,是因为不存在4个样本点,能被划分成2^4 = 16种划分法,因为对角的两对点不能被线性划分为两类。更一般地,在r 维空间中,线性决策面的VC维为r+1。
    置信风险的影响因素有: 训练样本数目和分类函数的VC维。训练样本数目,即样本越多,置信风险就可以比较小;VC维越大,问题的解的种类就越多,推广能力就越差,置信风险也就越大。因此,增加样本数,降低VC维,才能降低置信风险。而一般的分类函数,需要提高VC维,即样本的特征数据量,来降低经验风险,如多项式分类函数。如此就会导致置信风险变高,结构风险也相应变高。过度学习即overfit,就是置信风险变高的缘故。
    结构风险最小化SRM(structured risk minimize)就是同时考虑经验风险与结构风险。在小样本情况下,取得比较好的分类效果。保证分类精度(经验风险)的同时,降低学习机器的 VC 维,可以使学习机器在整个样本集上的期望风险得到控制,这应该就是SRM的原则。
    当训练样本给定时,分类间隔越大,则对应的分类超平面集合的 VC 维就越小。(分类间隔的要求,对VC维的影响)
    根据结构风险最小化原则,前者是保证经验风险(经验风险和期望风险依赖于学习机器函数族的选择)最小,而后者使分类间隔最大,导致 VC 维最小,实际上就是使推广性的界中的置信范围最小,从而达到使真实风险最小。
    训练样本在线性可分的情况下,全部样本能被正确地分类(咦这个不就是传说中的yi*(w*xi+b))>=1的条件吗),即经验风险Remp 为 0 的前提下,通过对分类间隔最大化(咦,这个就是Φ(w)=(1/2)*w*w嘛),使分类器获得最好的推广性能。

    对于线性不可分的状况,可以允许错分。即对于离群点降低分类间隔。将距离原来的分类面越远,离群就越严重,这个距离,可以用一个值--松弛变量来表示,只有离群点才有松弛变量。当然,要对这个值加以限制,即在最小化函数里,加入一个惩罚项,里面还有一个可以人为设定的惩罚项C。当C无限的大,那么就退化为硬间隔问题,不允许有离群点,问题可能无解。若C=0,无视离群点。有时C值需要多次尝试,获取一个较好的值。 




    展开全文
  • 支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上。 置信风险: 分类器对 未知样本进行分类,得到的误差。 经验风险: 训练好的分类器,对训练样本重新分类得到的误差。即样本误差 结构风险...

    支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上。

    置信风险: 分类器对 未知样本进行分类,得到的误差。
    经验风险: 训练好的分类器,对训练样本重新分类得到的误差。即样本误差
    结构风险:置信风险 + 经验风险
    结构风险最小化就是为了防止过拟合而提出来的策略,贝叶斯估计中最大后验概率估计就是结构风险最小化的一个例子。当模型的条件概率分布、损失函数是对数损失函数、模型复杂度由模型先验概率表示时,结构风险最小化等价于最大后验概率估计。监督学习问题变成经验风险或结构风险函数的最优化问题,这时经验风险或结构风险函数是最优化的目标函数。

    置信风险因素:

    样本数量,给定的样本数量越大,学习结果越有可能正确,此时置信风险越小;
    分类函数的VC维,显然VC维越大,推广能力越差,置信风险会变大。
    提高样本数量,降低VC维,降低置信风险。

    以前机器学习的目标是降低经验风险,要降低经验风险,就要提高分类函数的复杂度,导致VC维很高,VC维高,置信风险就高,所以,结构风险也高。---- 这是SVM比其他机器学习具有优势的地方。
    SVM在小样本训练集上能够得到比其它算法好很多的结果。支持向量机之所以成为目前最常用,效果最好的分类器之一,在于其优秀的泛化能力,这是是因为其本身的优化目标是结构化风险最小,而不是经验风险最小,因此,通过margin的概念,得到对数据分布的结构化描述,因此减低了对数据规模和数据分布的要求。SVM也并不是在任何场景都比其他算法好,对于每种应用,最好尝试多种算法,然后评估结果。如SVM在邮件分类上,还不如逻辑回归、KNN、bayes的效果好。

    VC维:

    将N个点进行分类,如分成两类,那么可以有2N种分法,即可以理解成有2N个学习问题。若存在一个假设H,能准确无误地将2^N种问题进行分类。那么这些点的数量N,就是H的VC维。 这个定义真生硬,只能先记住。一个实例就平面上3个点的线性划分的VC维是3. 而平面上 VC维不是4,是因为不存在4个样本点,能被划分成2^4 = 16种划分法,因为对角的两对点不能被线性划分为两类。更一般地,在r 维空间中,线性决策面的VC维为r+1。
    置信风险的影响因素有: 训练样本数目和分类函数的VC维。训练样本数目,即样本越多,置信风险就可以比较小;VC维越大,问题的解的种类就越多,推广能力就越差,置信风险也就越大。因此,增加样本数,降低VC维,才能降低置信风险。而一般的分类函数,需要提高VC维,即样本的特征数据量,来降低经验风险,如多项式分类函数。如此就会导致置信风险变高,结构风险也相应变高。过度学习即overfit,就是置信风险变高的缘故。

    结构风险最小化srm

    SRM(structured risk minimize)就是同时考虑经验风险与结构风险。在小样本情况下,取得比较好的分类效果。保证分类精度(经验风险)的同时,降低学习机器的 VC 维,可以使学习机器在整个样本集上的期望风险得到控制,这应该就是SRM的原则。
    当训练样本给定时,分类间隔越大,则对应的分类超平面集合的 VC 维就越小。(分类间隔的要求,对VC维的影响)
    根据结构风险最小化原则,前者是保证经验风险(经验风险和期望风险依赖于学习机器函数族的选择)最小,而后者使分类间隔最大,导致 VC 维最小,实际上就是使推广性的界中的置信范围最小,从而达到使真实风险最小。
    训练样本在线性可分的情况下,全部样本能被正确地分类(咦这个不就是传说中的yi(wxi+b))>=1的条件吗),即经验风险Remp 为 0 的前提下,通过对分类间隔最大化(咦,这个就是Φ(w)=(1/2)ww嘛),使分类器获得最好的推广性能。

    下面再添加一些相关内容:

    正则化

    regularization归一化:normalization李航博士在其统计学习方法中写道统计学习的三要素由模型、策略和算法组成。在监督学习中模型即是要学习的概率分布函数或决策函数,因此模型的假设空间便包括所有可能的概率分布或决策函数。模型的假设空间有了之后,下面的问题就是如何选择最优的模型,选择的准则又是什么。这就引入了损失函数和风险函数的概念。损失函数度量一次预测的好坏。风险函数度量平均意义下模型的好好。在监督学习中我们从假设空间中选择f作为我们的决策函数,那么给一个输入X,我们会产生一个输出f(X)[分类回归均可],模型f产生的输出f(X)和实际输出y会有一定的差距。我们用损失函数(loss function)或代价函数(cost function)来衡量预测错误的程度。损失函数有很多种,例如平方损失函数(例如回归问题用的),绝对损失函数,对数损失函数(例如logistic regression用的)可见损失函数值越小,模型预测的就越好。
    当然现实世界中我们并不知道输入输出的概率分布是啥,不然也用不着我们去预测了。我们只拥有的是一些训练数据用做训练集,在这个训练集上,模型得到的平均损失称为经验风险(empirical risk)或经验损失(empirical loss)。如果样本的数量足够大,根据大数定理,经验风险应该接近期望风险。因此我们可以用经验风险来估计期望风险。因此经验风险最小化(empirical risk minimization,ERM)的的原则就是说使经验风险最小的模型就是最优的模型。为了使经验风险最小,可以说无所不用其极,这样就有可能导致训练出的模型经验风险小,但模型复杂,导致模型泛化能力差,即在新数据上表型性能差,奥,对,专业名词叫过拟合(overfitting)。避免过拟合的问题可以用减少features的方法,也可以用结构风险最小化(structural risk minimization, SRM)。结构风险最小化等价于正则化(regularization),即在经验风险的后面加上与模型复杂度相符的正则化项(regularizer)或惩罚项(penalty term)
    lambda表示对模型复杂的惩罚。值越大,惩罚越大。在实际操作中需要权衡。lambda=0,即不进行正则化,出现过拟合,以机器学习公开课logistic regression的图为例:
    让lambda=1,对模型复杂度进行惩罚,分类效果与泛化能力还不错:

    惩罚过火的话,比如lambda=100,出现欠拟合(underfitting)的问题:

    展开全文
  •  所谓的结构风险最小化就是在保证分类精度(经验风险)的同时,降低学习机器的 VC 维,可以使学习机器在整个样本集上的期望风险得到控制。  经验风险和实际风险之间的关系,注意引入这个原因是
            VC维在有限的训练样本情况下,当样本数 n 固定时,此时学习机器的 VC 维越高学习机器的复杂性越高。VC 维反映了函数集的学习能力,VC 维越大则学习机器越复杂(容量越大)。
            所谓的结构风险最小化就是在保证分类精度(经验风险)的同时,降低学习机器的 VC 维,可以使学习机器在整个样本集上的期望风险得到控制。

            经验风险和实际风险之间的关系,注意引入这个原因是什么?

            因为训练误差再小也就是在这个训练集合上,实际的推广能力不行就会引起过拟合问题。所以说要引入置信范围也就是经验误差和实际期望误差之间的关系

            期望误差R(ω) ≤ Remp (ω)+ Φ(n/h)

            注意Remp (ω)是经验误差也就是训练误差(线性中使得所有的都训练正确)。

            Φ(n/h)是置信范围,它是和样本数和VC维有关的。

            上式中置信范围Φ 随n/h增加,单调下降。

            即当n/h较小时,置信范围Φ 较大,用经验风险近似实际风险就存在较大的误差,因此,用采用经验风险最小化准则,取得的最优解可能具有较差的推广性;

            如果样本数较多,n/h较大,则置信范围就会很小,采用经验风险最小化准则,求得的最优解就接近实际的最优解。

            可知:影响期望风险上界的因子有两个方面:

            首先是训练集的规模 n,其次是 VC 维 h。

            可见,在保证分类精度(经验风险)的同时,降低学习机器的 VC 维,可以使学习机器在整个样本集上的期望风险得到控制,这就是结构风险最小化(Structure Risk Minimization,简称 SRM)的由来。

            在有限的训练样本情况下,当样本数 n 固定时,此时学习机器的 VC 维越高(学习机器的复杂性越高),则置信范围就越大,此时,真实风险与经验风险之间的差别就越大,这就是为什么会出现过学习现象的原因。

            机器学习过程不但要使经验风险最小,还要使其 VC 维尽量小,以缩小置信范围,才能取得较小的实际风险,即对未来样本有较好的推广性,它与学习机器的 VC 维及训练样本数有关。

    展开全文
  • 风险投资-VC

    2019-09-11 21:48:25
    什么是风险投资 风险投资(Venture Capital Investment)是指具备资金实力的投资家对具有专门技术并具备良好市场发展前景,但缺乏启动资金的创业家进行资助,帮助其圆创业梦,并承担创业阶段投资失败的风险的...
  • (3)控制变量较少、单一控制变量实验 (4)稳健性检验 python文件:/实证/OLS_test.py import numpy as np import pandas as pd import statsmodels.api as sm from sklearn import preprocessing dataset =..
  • 风险投资(Venture Capital)简称是VC,在中国是一个约定俗成的具有特定内涵的概念,其实把它翻译成创业投资更为妥当。广义的风险投资泛指一切具有高风险、高潜在收益的投资;狭义的风险投资是指以高新技术为基础,...
  •  所谓的结构风险最小化就是在保证分类精度(经验风险)的同时,降低学习机器的 VC 维,可以使学习机器在整个样本集上的期望风险得到控制。  推广的界(经验风险和实际风险之间的关系,注意引入这个原因是什么?...
  • VC维的来龙去脉

    2017-11-29 18:07:50
    说说历史Hoeffding不等式Connection to Learning学习可行的两个核心条件Effective Number of HypothesesGrowth FunctionBreak Point与ShatterVC BoundVC dimension深度学习与VC维小结参考文献 VC维在机器学习领域...
  • 网络:简述传统CPE向VCPE的演进

    千次阅读 2019-07-19 13:54:03
    网络:简述传统CPE向VCPE的演进 一、前言 通信服务提供商通过在客户端安装一个或多个网络设备来向企业客户提供广域网服务(WAN),例如路由、防火墙、VPN以及其他增值服务。 虽然现有的CPE服务交付模式多年来一直在...
  • 解释一下vc维的本质和结构风险最小化...所谓的结构风险最小化就是在保证分类精度(经验风险)的同时,降低学习机器的 VC 维,可以使学习机器在整个样本集上的期望风险得到控制。 推广的界(经验风险和实际风险之间的
  • VC、PE和天使投资的解释与区别?

    万次阅读 2016-05-11 10:18:08
     VC风险投资  1) VC概念及运作机制风险投资VC(Venture Capital)又称“创业投资”是指由职业金融家投入到新兴的、迅速发展的、有巨大竞争力的企业中的一种权益资本,是以高科技与知识为基础,生产与经营技术...
  • 【机器学习】VC

    千次阅读 2019-04-06 14:41:11
    VC维的直观定义 对一个指示函数集,如果存在h个样本能够被函数集中的函数按所有可能的2^h种形式分开,则称函数集能够把h个样本打散。 函数集的VC维就是它能打散的最大样本数目h。 若对任意数目的样本都有函数能将...
  • 海外资深投资人David Cummings简单扼要的对天使投资(Angel)、风险投资(VC)、私募股权投资(PE),以及一个初创企业所处的几个主要阶段进行阐述...
  • 最近在学习支持向量机,对经验风险最小化与结构风险最小化不是很了解,仔细研究后发现原来真的很简单。首先要了解一下几个概念。 置信风险: 分类器对 未知样本进行分类,得到的误差。 经验风险: 训练好的分类器...
  • vc维的来龙去脉

    千次阅读 2016-09-28 18:43:03
    原文链接:http://www.flickering.cn/machine_learning/2015/04/vc维的来龙去脉/ 目录: 说说历史Hoeffding不等式Connection to Learning学习可行的两个核心条件Effective Number of HypothesesGrowth ...
  • DAOVC本身不是新鲜事物,在DeFi领域,DAOVC有另外一个称呼——DeVC(去中心化VC)。随着NFT市场的成熟以及GameFi被推向巅峰,DAO概念开始升温,YGG(YieldGu...
  • VC,照常升起!

    2019-09-03 08:30:00
    VC风险投资)在这段时间里经历了从快速成长到井喷式爆发,在巅峰时期的2015年,多家基金管理人在新三板相继完成了资产证券化,顺利融到了不少钱;股权融到的钱是极其稀缺的,因为它没有时间的约束。 不过从2018年...
  • 【ML】VC dimension

    千次阅读 2017-12-10 11:04:19
    VC维(Vapnik-Chervonenkis Dimension)的概念是为了研究学习过程一致收敛的速度和推广性,由统计学习理论定义的有关函数集学习性能的一个重要指标。 传统的定义是:对一个指标函数集,如果存在H 个样本能够被...
  • 结构风险和经验风险

    千次阅读 2017-04-14 11:08:58
    结构风险最小化(Structural Risk Minimization)是指把函数集构造为一个函数子集序列,使各个子集按照VC维的 大小排列;在每个子集中寻找最小经验风险,在子集间折衷考虑经验风险和置信范围,取得实际风险的最小化。 ...
  • VC维学习

    2017-02-06 17:15:31
    说说历史Hoeffding不等式Connection to Learning学习可行的两个核心条件Effective Number of HypothesesGrowth FunctionBreak Point与ShatterVC BoundVC dimension深度学习与VC维小结参考文献 VC维在机器学习领域是...
  • VC维与DNN的Boundary

    千次阅读 2015-04-23 23:19:34
    原文链接:解读机器学习基础概念:VC维来去    作者:vincentyao 目录: 说说历史 Hoeffding不等式 Connection to Learning 学习可行的两个核心条件 Effective Number of Hypotheses Growth Function ...
  • CDC解决方案 EDA tool提供特定场景下的CDC处理单元,Synopsys的Building Block IP...VC Spyglass CDC将Single-bit归为control path,Mulit-bit归为data path Single-bit Single-bit分为level 类型和event 类型。 ...
  • 在银行评估贷款申请人的授信请求前,会进行风险评估。符合申请则通过,反之驳回。长时间的数据和申请使得银行从中找到了一些规律并开始learning,所以风险评估就是一个learning的过程,流程图如下: 机器学习...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 5,897
精华内容 2,358
关键字:

vc风险控制