例子 方差 机器学习_机器学习中的无监督学习的身高与体重例子 - CSDN
  • 机器学习方差

    2018-12-27 11:04:44
      2018-12-24 11:09:56   统计学中偏离基准的方差和偏差的定义: ...方差是什么? 电子表格( spreadsheet)的大小为我们显示一列。...在机器学习方差中,我们可以确定单个列的记录是否分散,或者换句话说,是...

    https://www.toutiao.com/a6638391632871817732/

     

    2018-12-24 11:09:56

    机器学习的方差

     

    统计学中偏离基准的方差和偏差的定义:

    方差是什么? 电子表格( spreadsheet)的大小为我们显示一列。

    标准偏差是什么?每个数据与均值之间的距离是与标准的偏差。

    在机器学习方差中,我们可以确定单个列的记录是否分散,或者换句话说,是否与数据集的含义的距离。

    机器学习的方差

    方差计算公式

    机器学习的方差

    计算标准偏差的公式

    σ在希腊被称为Sigma

    通过示例计算方差和与标准偏差

    让我们用一个例子来看一下。

    在这个例子中,已经引入了几只狗并且他们想要采用差异来测量狗的状况。

    机器学习的方差

     

    每只狗到肩膀(胫骨)的高度分别为600mm,470mm,170mm,430mm,300mm。我们的任务是获得方差和标准偏差以及平均值。

    平均值 =(600 + 470 +170 +430 + 300)/ 5 =>

    平均值 = 1970/5 =>

    平均值= 395

    所以上图中的平均值如下:

    机器学习的方差

    平均视图(绿线是平均值)

    现在用平均值计算每只狗的高度差,如下:

    机器学习的方差

    每条狗的高度与平均值的差异

    现在我们要计算它们之间的差异:

    机器学习的方差

    计算方差的方法

    现在,如果我们取方差的根,我们将标准偏差:

    机器学习的方差

    计算标准偏差

    现在我们可以更新我们的形状:

    机器学习的方差

    计算狗之间的标准差

    现在我们可以轻松确定哪种标准适合我们。左边的狗不是我们的标准,它们已经高于标准,中间的犬是最矮的狗,也不在我们这个数据集的标准中。

    注意:关键是当方差很小并且接近于零时,这意味着列的记录非常接近平均值并且彼此非常接近。高方差告诉我们,有多少记录是平均值的支柱,彼此之间相差甚远。

    学习机器的方差概念:

    这是方差和标准偏差的最简单定义。但这种外观只是一种统计外观,而不是数据科学家。作为数据科学家,您需要了解方差对机器学习的影响。

    所以我们有两个概念:

    低差异:告诉您数据集中的最小变化会导致结果在目标函数中发生变化。

    高差异:告诉您必须发生重大变化,以使目标函数在其估计值中发生变化。

    机器学习中的低方差的示例包括线性回归,线性分析,线性逻辑回归和逻辑回归。

    机器学习中的高方差的示例包括决策树,K邻近邻居(K-Nearby Neighbor)和支持向量机。

    最后,在计算方差和标准偏差时,可能会遇到样本和总体两个概念:

    在谈论我们的样本和总体时,我们实际上想在我最初为您提供的公式中讨论N. 让我们看一下与一组狗相同的例子。如果我们的整个数据集具有相同数量的狗,我们将方差除以该集合的列中的记录总数,其中五个(总共五只狗)。如果这个狗的数量是一个更大的数据集的一个例子,我们应该在公式中加入N-1,而不是n.所以:

    什么是总体?我们计算总体数据集列的总记录。

    什么是样本?要从示例数据集计算列的多个记录。

    样本中的是不需要统计数据的,需要的是计算整个数据集。模式的唯一索引为我们提供了最多的信息。但是也要考虑使用样本会失去在数据集中的准确度,但是却减少了很多时间。

    最后,这里有;两种偏离公式的算法:

    机器学习的方差

    两种显示偏离公式的方法

    展开全文
  • 一、理解偏差、方差 偏差:描述的是预测值的期望与真实值之间的差距,偏差...如上图,我们假设一次射击就是一个机器学习模型对一个样本进行预测,射中红色靶心位置代表预测准确,偏离靶心越远代表预测误差越大。偏...

    在机器学习的面试中,能不能讲清楚偏差方差,经常被用来考察面试者的理论基础,本文就机器学习中偏差和方差进行了详细总结,供参考


    一、理解偏差、方差

    偏差:描述的是预测值的期望与真实值之间的差距,偏差越大,越偏离真实数据
    方差:预测值的方差,描述的是预测值的变化范围,离散程度,也就是离预测值期望值的距离,方差越大,数据的分布越分散,概念上理解比较抽象,下面我们通过下面一个例子来理解一下偏差和方差
    在这里插入图片描述

    如上图,我们假设一次射击就是一个机器学习模型对一个样本进行预测,射中红色靶心位置代表预测准确,偏离靶心越远代表预测误差越大。偏差则是衡量射击的蓝点离红圈的远近,射击位置即蓝点离红色靶心越近则偏差越小,蓝点离红色靶心越远则偏差越大;方差衡量的是射击时手是否稳即射击的位置蓝点是否聚集,蓝点越集中则方差越小,蓝点越分散则方差越大。



    二、偏差、方差与模型范化能力

    先给出结论:模型的泛化能力(泛化误差)是由偏差、方差与数据噪声之和,如下式:

    Err(x)= bias2(x)+var(x)+ ε2 \text{Err}\left( x \right) = \ \text{bias}^{2}\left( x \right) + var\left( x \right) + \ \varepsilon^{2}

    偏差度量的是学习算法预测误差和真实误差的偏离程度,即刻画学习算法本身的学习能力,方差度量同样大小的训练数据的变动所导致的学习性能的变化,即刻画数据扰动所造成的影响,噪声则表达了当前任务上任何学习算法所能到达的期望预测误差的下界,即刻画了学习问题本身的难度,因此泛化误差是由学习算法的能力、数据的充分性以及问题本身难度决定

    学习算法刚训练时,训练不足欠拟合,此时偏差较大;当训练程度加深之后,训练数据的扰动也被算法学习到了,此时算法过拟合,方差过大,训练数据轻微扰动都会使得学习模型发生显著变化,因此我们得出结论:模型欠拟合时偏差过大,模型过拟合时方差过大。我们通过下面的例子来更形象的理解一下上面的描述的结论,看下图
    在这里插入图片描述

    例如现在我们选择机器学习模型对图中数据做拟合,上左图使用直线对数据进行拟合,直线不能很好的分割数据,预测值将有大量分错,如红色的叉分到了蓝色的圈一类,此时模型偏差过大,模型欠拟合;再看上右图,模型过度拟合数据,将数据中的噪音点也都学到,此时数据的轻微波动将会导致预测结果的波动,方差过大,模型过拟合;自然上中图是我们认为比较好的拟合。

    如上左图模型便是高偏差,但是方差小;上右图模型是高方差,但完全分割训练样本中所有数据因此偏差小;上中图便是比较理想的方差和偏差都比较小;那么有没有想像一下高方差同时又高偏差的模型是什么样子?如下图红色线展示的模型便是高方差同时高偏差
    在这里插入图片描述

    上面给出了泛化误差和偏差、方差与数据噪声的公式,下面给出繁琐的推导公式,当然对公式不敏感的可以跳过此段公式推导继续看下文

    Err(x)= bias2(x)+var(x)+ ε2 \text{Err}\left( x \right) = \ \text{bias}^{2}\left( x \right) + var\left( x \right) + \ \varepsilon^{2}

    先给出各个符号的含义

    x:测试样本集

    D:训练数据集

    yD:测试数据集x的标记

    y:测试数据集x的真实标记

    f:由训练集D学习到的模型

    f(x,D):模型f对x的预测输出

    f(x):模型f对x预测输出的均值,即期望预测输出

    首先期望预测输出是由预测输出f(x,D)的均值得到:

    f(x)=E(f(x,D)) \overset{\overline{}}{f}\left( x \right) = E(f(x,D))

    根据上面的量我们便可以表示出偏差、方差和噪声,首先偏差是期望输出与真是标记y的误差,方便直接取平方:

    bias2(x)= (f(x)y)2 \text{bias}^{2}\left( x \right) = \ \left( \overset{\overline{}}{f}\left( x \right) - y \right)^{2}

    方差是针对预测输出上进行计算:

    var(x)= E[f(x,D) f(x)]2 \text{var}\left( x \right) = \ {E\left\lbrack f\left( x,D \right) - \ \overset{\overline{}}{f}\left( x \right) \right\rbrack}^{2}

    噪声是真实标签和数据中的标签的差值,这里方便预算以平方计算:

    ε2=E[(yDy)2] \varepsilon^{2} = E\left\lbrack \left( y_{D} - y \right)^{2} \right\rbrack

    为了下面推导方便我们假设噪声的均值为0:

    E[yDy]=0 E\left\lbrack y_{D} - y \right\rbrack = 0

    接下来我们以回归任务为例,学习算法的平方差泛化误差损失:
    在这里插入图片描述
    上图推导中红色部分公式为0,因此省略掉,这里解释一下为什么红色公式为0,因为有:

    E[f(x,D) f(x)]=0 E\left\lbrack f\left( x,D \right) - \ \overset{\overline{}}{f}\left( x \right) \right\rbrack = 0

    E[yDy]=0 E\left\lbrack y_{D} - y \right\rbrack = 0

    因此有:

    ED(2(f(x,D)f(x))(f(x)yD))=0 E_{D}\left( 2\left( f\left( x,D \right) - \overset{\overline{}}{f}\left( x \right) \right)\left( \overset{\overline{}}{f}\left( x \right) - y_{D} \right) \right) = 0

    ED((f(x)y)(yyD))=0 E_{D}\left( (\overset{\overline{}}{f}\left( x \right) - y)\left( y - y_{D} \right) \right) = 0

    这样经过推导得出:
    在这里插入图片描述
    所有存在模型的泛化能力(泛化误差)是由偏差、方差与数据噪声之和:

    Err(x)= bias2(x)+var(x)+ ε2 \text{Err}\left( x \right) = \ \text{bias}^{2}\left( x \right) + var\left( x \right) + \ \varepsilon^{2}



    三、模型偏差高 or 方差高

    在实际的应用中,如果一个模型对于测试集的预测不理想,那如何判断是由于高偏差导致还是高方差导致呢,这个判断对于后续模型优化至关重要。

    参考方法:通过训练集误差和测试集误差来看高偏差 or 高方差

    我们以猫狗分类模型为背景来看具体如何判断,对于猫狗分类首先我们有一个前提假设就是该数据本身能够达到很高的正确率,例如99%的正确率,看下面四种情况:

    (1)训练集错误率:1%、测试集错误率:11% 低偏差高方差

    (2)训练集错误率:15%、测试集错误率:16% 高偏差低方差

    (3)训练集错误率:15%、测试集错误率:30% 高偏差高方差

    (4)训练集错误率:0.5%、测试集错误率:1% 低偏差低方差

    因此在实际工程中我们便可以通过比较训练集误差和测试集误差来看模型是由何种原因导致,然后采取相应的错误,下一节介绍如何优化模型



    四、高偏差高方差时优化模型


    1、高偏差(模型欠拟合)时模型优化方法

    (1)添加特征数
    当特征不足或者选取的特征与标签之间相关性不强时,模型容易出现欠拟合,通过挖掘上下文特征、ID类特征、组合特征等新特征,往往可以达到防止欠拟合的效果,在深度学习中,有很多模型可以帮助完成特征工程,如因子分解机、梯度提升决策树、Deep-crossing等都可以称为丰富特征的方法

    (2)增加模型复杂度
    模型过于简单则学习能力会差,通过增加模型的复杂度可以使得模型拥有更强的你和能力,例如在线性模型中添加高此项,在神经网络模型中增加隐层层数或增加隐层神经元个数

    (3)延长训练时间
    在决策树、神经网络中,通过增加训练时间可以增强模型的泛化能力,使得模型有足够的时间学习到数据的特征,可达到更好的效果

    (4)减小正则化系数
    正则化是用来方式过拟合的,但当模型出现欠拟合时则需要有针对的较小正则化系数,如xgboost算法

    (5)集成学习方法Boosting
    Boosting算法是将多个弱分类串联在一起,如Boosting算法训练过程中,我们计算弱分类器的错误和残差,作为下一个分类器的输入,这个过程本身就在不断减小损失函数,减小模型的偏差

    (6)选用更合适的模型
    有时候欠拟合的原因是因为模型选的不对,如非线性数据使用线性模型,拟合效果肯定不够好,因此有时需要考虑是否是模型使用的不合适

    2、高方差(模型过拟合)时模型优化方法

    (1)增加数据集
    增加数据集是解决过拟合问题最有效的手段,因为更多的数据能够让模型学到更多更有效的特征,减小噪声的影响度。当然数据是很宝贵的,有时候并没有那么多数据可用或者获取代价太高,但我们也可以通过一定的规则来扩充训练数据,比如在图像分类问题上,可以通过图像的平移,旋转,缩放、模糊以及添加噪音等方式扩充数据集,在我的这篇文章中有介绍,更一步,可使用生成式对抗网络来合成大量的新数据

    (2)降低模型的复杂度
    数据集少时,模型复杂是过拟合的主要因素,适当降低模型复杂度可以避免模型拟合过多的采样噪音,例如在决策树算法中降低树深度、进行剪枝;在深度网络中减少网络层数、神经元个数等

    (3)正则化防止过拟合
    正则化思想:由于模型过拟合很大可能是因为训练模型过于复杂,因此在训练时,在对损失函数进行最小化的同时,我们要限定模型参数的数量,即加入正则项,即不是以为的去减小损失函数,同时还考虑模型的复杂程度

    未加入正则项的模型损失函数:

    C(x)= 12i=1n(f(x)yi)2 C\left( x \right) = \ \frac{1}{2}\sum_{i = 1}^{n}{(f\left( x \right) - y_{i})}^{2}

    加入正则项L后损失函数:

    C(x)= 12i=1n(f(x)yi)2+ λL C\left( x \right) = \ \frac{1}{2}\sum_{i = 1}^{n}{{(f\left( x \right) - y_{i})}^{2} + \ \lambda L}

    其中λ是正则项系数,是用来权衡正则项和损失函数之间权重,正则化有以下两种:

    <1> L1正则化(L1范数):权重向量w的绝对值之和

    L1= i=1kwi1 L_{1} = \ \sum_{i = 1}^{k}{||w_{i}||}_{1}

    <2> L2正则化(L2范数):权重向量w的平方和,欧几里得范数

    L2= i=1kwi22 L_{2} = \ \sum_{i = 1}^{k}{||w_{i}||}_{2}^{2}

    其中w代表模型的参数,k则代表了模型参数的个数

    (4)集成学习方法Bagging
    集成学习Bagging是把多个模型集成在一起,来降低单一模型的过拟合风险

    (5)选用更合适的模型
    在上诉方法都没有达到很好的效果时可以考虑选择使用其他模型处理数据



    五、谈偏差和Boosting、方差和Bagging

    上文在提到高偏差和高方差优化时使用集成学习方法,这小节再深入介绍一下为什么Bagging降低了模型方差,Boosting降低了模型的偏差

    1、Bagging和方差

    Bagging算法对数据重采样,然后在每个样本集训练出来的模型上取平均值
    假设有n个随机变量,方差记为σ2,两两变量之间的相关性是ρ,则n个随机变量的均值的方差为:

    var= n2γ2δ2ρ+mγ2δ2(1ρ) var = \ n^{2}*\gamma^{2}*\delta^{2}*\rho + m*\gamma^{2}*\delta^{2}*(1 - \rho)

           =n21n2δ2ρ+m1n2δ2(1ρ) \ \ \ \ \ \ \ = n^{2}*\frac{1}{n^{2}}*\delta^{2}*\rho + m*\frac{1}{n^{2}}*\delta^{2}*(1 - \rho)

    =ρδ2+(1ρ)δ2n                             = \rho*\delta^{2} + \left( 1 - \rho \right)*\frac{\delta^{2}}{n}\text{\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ }

    在随机变量完全独立的情况下,n个随机变量的方差是原来的1/n

    Bagging算法对n个独立不相关的模型的预测结果取平均,方差是原来单个模型1/n,上述描述不严谨因为在实际问题中,模型不可能完全独立,但为了追求模型的独立性,Bagging的方法做了不同的改进,比如随机森林算法中,每次选取节点分裂属性时,会随机抽取一个属性子集,而不是从所有的属性中选最有属性,这就为了避免弱分类器之间过强的关联性,通过训练集的重采样也能够带来弱分类器之间的一定独立性,这样多个模型学习数据,不会因为一个模型学习到数据某个特殊特性而造成方差过高

    2、Boosting和偏差

    Boosting算法训练过程中,我们计算弱分类器的错误和残差,作为下一个分类器的输入,这个过程本身就在不断减小损失函数,其bias自然逐步下降。但由于是采取这种sequential、adaptive的策略,各子模型之间是强相关的,于是子模型之和并不能显著降低variance。所以说boosting主要还是靠降低bias来提升预测精度



    六、偏差方差平衡(Bias-Variance Tradeoff)

    在实际的问题中噪音是数据自带的,没有办法优化,因此为了优化模型,降低模型的泛化误差,我们便从降低偏差和方差入手,但是方差和偏差存在权衡问题,即在优化一个时便会导致另一个升高,下图给出了泛化误差和偏差、方差的变化关系:
    在这里插入图片描述
    在训练不足时,模型的拟合能力不强,此时偏差主导着总体误差(泛化误差),随着训练程度的加深,模型的拟合能力已经很强,训练数据发生的噪音扰动也被模型学到,方差逐渐主导总体误差。因此我们在实际工程中需要找到一个合适的方式来权衡模型的偏差和方差?

    1、偏差方差权衡之经验风险最小化模型

    从上面的分析中,我们知道偏差方差权衡既是要同时降低测试误差和训练误差,即如果模型满足下式便是一个好模型:

    Errortrain=Errortest \text{Error}_{\text{train}} = \text{Error}_{\text{test}}

    Errortrain   0 \text{Error}_{\text{train}}\ \approx \ \ 0

    为了说明如何得到上述模型,先要提出一个更为一般的机器学习模型,经验风险最小化,这里给出两个引理:

    (1)联合界引理
    时间A1,A2,…,Ak表示k个不同的事件,k个事件之间不是相互独立的,可能是有关联的:

    P(A1..Ak)P(A1)+P(A2)++P(Ak) P\left( A_{1}\bigcup..\bigcup A_{k} \right) \leq P\left( A_{1} \right) + P\left( A_{2} \right) + \ldots + P(A_{k})

    (2)Hoeffding不等式
    Z1,Z2,…,Zm是m个独立同分布的随机变量,他们服从均值为φ的伯努利分布(0-1分布),即表示P(Zi=1)=φ,所有对m个独立同分布的随机变量,其均值为φ,给定λ > 0

    下面式子成立:

    P(ϕϕ^&gt;γ)2exp(2γ2m) P\left( \left| \phi - \hat{\phi} \right| &gt; \gamma \right) \leq 2exp( - 2\gamma^{2}m)

    不等式含义是:估计的值φ与真实值φ之间的差异,不会超过不等式右侧的这个上界

    经验风险最小化ERM算法证明了:当数据集m足够大时,一般误差与最小误差之间是有上界的,简单地说,当训练误差很小时,一般误差也不会很大,具体证明请参考博文:
    https://blog.csdn.net/zb123455445/article/details/78538361

    2、偏差方差权衡之交叉验证

    (1) Hold-out cross validation 保留交叉验证
    训练子集70%、保留交叉验证子集30%,通常对于保留交叉验证70%、30%是合理的划分,先用训练子集训练模型,然后在剩下的保留交叉验证子集中测试模型,选测试误差小的模型

    保留交叉验证存在两个问题:
    第一: 最终模型和参数的选取将极大程度上依赖于对于训练数据和测试数据的划分
    第二:部分数据用于训练,不能很好的利用数据集

    有些数据获取十分珍贵,上述方法没有很好的利用数据集进行模型训练,下面提出交叉验证的变种,更好的利用数据集进行模型训练

    (2)留1交叉验证
    这种计算量更大,仅仅针对于样本量很少的情况,如样本数15
    如果数据集有n个,留1交叉验证总共要训练n次,每次选择一个数据作为测试集,其他n-1个数据作为验证集

    (3)K重交叉验证
    通常情况下k取5份或10份,若k=10,每次留其中一份作为数据测试,用剩下9份做模型训练,优点是很好的利用数据,缺点是要进行多次训练,计算量大,算是上面两种方式的综合,当K值大的时候,我们会有更少的Bias(偏差), 更多的Variance。,当K值小的时候,我们会有更多的Bias(偏差),更少的Variance,因此选择k对于优化结果也有十分重要的影响,一般工程中选择k=5、10较多

    注意事项1:上面提到的保留交叉验证70%,30%是针对小数据量时划分,当百万数据及以上时,我们需要对数据划分训练集、验证集、测试集,验证集目的:在多个算法中选出最有效的算法;测试集目的:正确评估分类器的性能,;例如100万,我们可能只需要10000个作为验证集,10000作为测试集,划分比例(98%,1%,1%),当数据量很大时,有时候训练集可高大99.5%

    注意事项2:训练数据和验证,测试数据分布不匹配的问题,例如:训练集是非常高清标准的图片,测试集是用户随意拍照上传的不清楚模糊的图片,建议:保证验证集和测试集是来自同一个分布,有的时候验证集和测试集被看成同一概念

    展开全文
  • 机器学习-方差

    2017-11-16 14:38:34
    1.什么是方差 2.方差的含义 3.数学期望(均值)和算术平均值(平均数)的关系(期望和平均数的关系) 4.离散型随机变量和连续型随机变量数学期望算法 5.数学期望的性质

    1.什么是方差



    2.方差的含义

    方差是衡量源数据和期望值相差的度量值。以《概率论与数理统计》中的例子来说:



    3.方差的性质




    展开全文
  • S为样本方差,样本方差除以n-1而不是n,是因为样本可能没有全部反映总体,除以n-1 比除以n 的值大一些,从而更准确的接近总体方差。 比如总体中有10个颜色的球,而取样本时可能只取了8种 如下图,果冻豆的例子


    S为样本方差,样本方差除以n-1而不是n,是因为样本可能没有全部反映总体,除以n-1 比除以n

    的值大一些,从而更准确的接近总体方差。


    比如总体中有10个颜色的球,而取样本时可能只取了8种

    如下图,果冻豆的例子



    展开全文
  • 我认为对偏差 - 方差之间的权衡判读对学习机器学习是非常重要的。那么为什么这么说呢?因为这个现象的背后是所有参数,性能和几乎所有机器学习模型的深层原因。如果你能很深刻的理解这个,我保证你能很好的理解机器...

    作者:chen_h
    微信号 & QQ:862251340
    微信公众号:coderpai


    我认为对偏差 - 方差之间的权衡判读对学习机器学习是非常重要的。那么为什么这么说呢?因为这个现象的背后是所有参数,性能和几乎所有机器学习模型的深层原因。如果你能很深刻的理解这个,我保证你能很好的理解机器学习的每一个模型。

    所以,我们就不浪费时间在无聊的介绍中,直接深入挖掘吧。理论讲解可能有一点枯燥,但我希望你能耐心看完本文。

    机器学习中的偏差 - 方差之间的权衡

    机器学习全部是关于给定输入数据(X)和给定输出数据(Y),然后去寻找一个最佳映射函数(F),这个映射函数通常也被叫做目标函数。

    任何机器学习算法的预测误差可以分解为三部分,即:偏差误差+方差误差+不可约的误差(对于给定的模型,我们不能进一步减少的误差)。在这个文章中,我们将重点来讨论机器学习中的前两个误差。我们按照如下目录来进行讲解:

    1)偏差误差;
    2)方差误差;
    3)偏差 - 方差之间的权衡;
    4)一些想法的总结;

    1. 偏差误差

    用简单的话来说,这个误差是由于简单的假设所造成的,因为我们的假设越简单,那么我们的模型更加容易去训练。

    一般而言,参数化算法具有较高的偏差,使得学习速度非常快,而且非常容易去理解,但是通常不太灵活。

    注意:对于参数化算法和非参数化算法之间的区别,简单来说,参数化算法对数据进行参数化,形成很多的特征,这种方法训练速度非常快,而且也不需要很多的数据,但是他不是很灵活。非参数化算法对目标函数做出很少或者根本不做任何假设,但是它需要更多的数据,训练速度非常慢,模型复杂度非常高,但是模型非常强大。

    低偏差:对目标函数提出更少的假设;
    高偏差:对目标函数提出更多的假设;
    低偏差模型例子:KNN 和 SVM;
    高偏差模型例子:线性回归和逻辑斯特回归;

    2. 方差误差

    1)如果我们使用不同的数据去训练同一个模型,那么最后我们得到的目标函数估计也是会改变的。
    2)目标函数是由机器学习的训练数据所估计得到的,所以我们期望训练数据拥有一定的方差。理想情况下,我们不希望目标函数从一个训练数据集到另一个训练数据集有太大的变化,也就是说我们的算法需要很好的从训练数据中找到一些映射的特征关系,这样可以保证不同训练集都有一个差不多的目标函数。

    低方差:随着训练数据集的变化,对目标函数估计值的变化非常小;
    高方差:随着训练数据集的变化,对目标函数估计值的变化非常大;

    一般而言,具有很大灵活性的非参数学习算法都具有很高的方差。

    高方差例子:KNN 和 SVM。

    3. 偏差 - 方差之间的权衡

    在上面的例子中我们可以看到一个趋势:参数或者线性的机器学习算法一般都会有一个很高的偏差和一个很低的方差。但是,非参数或者非线性的机器学习算法一般都有一个很低的偏差和一个很高的方差。所有,我们需要在这两者之间找到一个平衡点,来优化我们的算法。

    比如,KNN 算法有很低的偏差和很高的方差,但是我们可以通过调整 k 的值来改变偏差和方差之间的权衡关系,从而达到一个比较平衡的状态。

    因此,我们增加偏差会导致方差的减少,同理,我们增加方差会导致偏差的减少。但在实践中,我们无法去计算真正的偏差和方差值,因为我们不知道实际的目标函数。但是,作为一种方法,偏差和方差为我们提供了一种去判断机器学习算法性能的方法。

    4. 一些想法的总结

    1)机器学习是去找到一个映射函数(F),这个函数也经常被称之为目标函数;
    2)偏差是模型所做的简化假设,使得目标函数更加容易求解;
    3)方差是在给定不同训练数据集的情况下,目标函数估计值所改变的量;
    4)权衡是去调整一些参数使得偏差和方差之间相对平衡;


    来源:Quora

    展开全文
  • 一、理解偏差、方差 偏差(距离远近):描述的是预测值的期望与真实值之间的差距,偏差越大,越偏离...如上图,我们假设一次射击就是一个机器学习模型对一个样本进行预测,射中红色靶心位置代表预测准确,偏离靶心越...
  • 机器学习中有两个主要的误差来源:偏差和方差。理解它们将协助合理安排时间去执行策略来提升性能。 首先了解一下数据集的分类: 训练集(training set) 用于运行你的学习算法。 验证集(hold-out cross ...
  • 课堂上的出来的结论:样本方差的和总体方差是不等的,而是存在一个无偏估计的系数(N-1)/N先给出概念定义和公式:设样本均值为,样本方差为,总体均值(期望)为,总体方差为,那么样本方差有如下公式:样本方差用来...
  • 机器学习的面试中,能不能讲清楚偏差方差,经常被用来考察面试者的理论基础。偏差方差看似很简单,但真要彻底地说明白,却有一定难度。比如,为什么KNN算法在增大k时,偏差会变大,但RF增大树的数目时偏差却保持...
  • 在说明机器学习中的偏差与方差之前,我们先来看一下什么是模型对数据的欠拟合与过拟合。 欠拟合就是模型没有很好地捕捉到数据特征,不能够很好地拟合数据 过拟合就是模型把数据学习的太彻底,以至于把噪声数据的...
  •  前阵子看到一篇文章,学习了一段时间的机器学习算法后,再回头看机器学习问题,发现要想利用机器学习去很好的求解一个问题,其实是一件很难的事情。因为利用机器学习处理一个实际的问题就不仅仅是我们得学会怎么...
  • 小吴的《机器学习 周志华》学习笔记 第二章 2.4 比较检验、 2.5 偏差与方差 2.4 比较检验 上一周提到了实验的评价方法和性能量度,步骤简单可以看成:先使用某种实验评估方法测得学习器的某个性能量度的结果,然后...
  • 机器学习十大算法

    2018-08-18 09:26:05
    机器学习十大算法 ...   作者 James Le ,译者 尚剑 , 本文转载自infoQ 毫无疑问,机器学习/人工智能的子领域在过去...一些最常见的机器学习例子,比如Netflix的算法可以根据你以前看过的电影来进行电影推荐...
  • 训练机器学习模型时,我们希望得到一个泛化性能优异的模型。在上一篇博客回归模型中,当我们采用多项式回归,并不断增加多项式的次数时,模型越来越复杂,但是在测试集上的误差并没有逐步降低。 这表明一个复杂的...
  • 首先,我们先来理解一下偏差与方差的概念。举个高中数学里经常出现的例子,两个射击选手在射靶。甲射出的子弹很集中在某个区域,但是都偏离了靶心。我们说他的射击很稳定,但是不够准,准确性差。也就是说他的方差小...
  • 先占个坑吧!慢慢补!
  • 文章目录1 删除低方差的特征2 参考 # 多行输出 from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactivity = "all" 1 删除低方差的特征 代码下载
  • 版权声明: ...如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任。... 距离上次发文章,也快有半个月的时间了,这半个月的时间里又在学习机器学习的道路上摸索着前进,积累了一点
  • 这篇博客介绍机器学习中误差(error)的来源,知道我们的模型中产生的误差来自于哪一部分,才能更好地进行模型的调整。一般来说,误差的来源有两部分:偏差(bias)和方差(variance)。偏差和方差——用来衡量模型...
  • 一些人说超过60%到70%的时间都用于数据清理、数据处理及格式转化,以便于在之后应用机器学习模型。这篇文章的重点便在后者—— 应用机器学习模型(包括预处理的阶段)。此文讨论到的内容来源于我参加的过的数百次的...
1 2 3 4 5 ... 20
收藏数 18,085
精华内容 7,234
关键字:

例子 方差 机器学习