精华内容
下载资源
问答
  • 但是也一定要了解数据分析预测用哪一些常见的方法。  1、描述型分析  这是数据分析预测过程中比较常见。在业务中,这种方法向数据分析师提供了非常重要的一种指标,而且还具备业务衡量的作用。  2、诊断...

      数据分析预测也有多种不同的方法,特别是对于刚参与数据分析预测的人来说,也需要了解应该掌握什么样的能力和数据的价值。数据分析和预测是一项重要的内容,其中也将使用四维分析。但是也一定要了解数据分析预测用哪一些常见的方法。

     

      1、描述型分析

     

      这是数据分析预测过程中比较常见。在业务中,这种方法向数据分析师提供了非常重要的一种指标,而且还具备业务衡量的作用。

     

      2、诊断型分析

     

      在数据分析预测的过程中,也可以选择诊断型分析,描述性数据分析的下一步就是诊断型数据分析。通过描述型的一种数据,就能够让数据分析是了解到更多的数据可以渗透到数据的核心。

     

      如果再用上好用的BI工具,如此就能够更快的进入到分析数据的一种过程中,也可以了解所有的一切内容。

     

      3、预测型分析

     

      要说哪一种数据分析预测最为常见,肯定就是预测性分析,能够了解到事情在未来一段时间内发生的可能性,又或者是事情预估的几点,完全都可以通过预测模型去完成,也可以通过各种不一样的数据来达到实现预测的作用,最终和预测的结果紧密联系,在充满不确定的环境下,预测就能够帮助做出更好的决定。

     

      4、指令型分析

     

      指令型分析也是数据分析预测过程中非常重要的,主要就体现数据价值和复杂度的分析,比如了解发生什么为什么会发生,又可能会发生什么来帮助用户决定到底应该选择什么样的措施。通常情况下,指令型分析也并非是单独使用,而是把前面的这些方法完成之后,然后再进行分析方法操作,比如在交通规划分析过程中,了解每条线路行驶的速度是多少,每条路线之间相差多少的距离,那么最终也可以选择到最适合的一条路线,也可以方便于目前的交通管制,有着很好的作用。

     

      在企业中,不是方法越难越有价值,而是越能帮助到业务才越有价值。同样效果前提下,方法越简单越好。因此真正做工作的时候,往往是在时间、数据、业务需求限制下,选择最短平快的方法。

    展开全文
  • 米领通信总结了几种常见的呼叫中心话务预测方法,如下: 移动平均预测法 移动平均预测法仅对与预测时间内数据相关性最大的N个历史数据求平均值。 具体公式为:预测值=N个相关性较大的历史数...

    4ab904a618e4b0bbb7c15db2d887e74558870496

    呼叫中心话务量预测属时间序列预测范畴,预测方法从简至难,多种多样,但是需要根据实际企业呼叫中心的主要业务、规模、话务来电规律及需达到的服务水平目标进行合理选择。米领通信总结了几种常见的呼叫中心话务预测方法,如下:

    移动平均预测法

          移动平均预测法仅对与预测时间内数据相关性最大的N个历史数据求平均值。

    具体公式为:预测值=N个相关性较大的历史数据的平均值。

    平均值预测法

           平均值预测法广泛应用在业务单一、话务较稳定的呼叫中心。

    具体公式为:预测值=所有历史数据的平均值。

    指数平滑预测法

           指数平滑预测方法是对移动平均法的改进,是将不同大小权重赋予与目前时间段相关的N个历史数据。

           另外,除了以上的3种预测方式,还可以根据历史数据的收集及整理来做呼叫中心话务量预测。为什么,因为历史数据的处理是预测前最重要的一步,如果数据不处理干净,将直接影响预测的精准度。对于呼叫中心的话务情况而言,对原始话务来电量产生影响的情况主要归纳总结了以下几点:

    1、系统故障。如果某一天发生系统故障,需要按照发生故障的时间维度剔除当日发生系统故障的话务量,还原为原始呼入量。

    2、由于某种敏感短信或舆情造成客户的集中致电。

    3、如果某一天发送了某种敏感短信或者发生舆情,导致客户集中来电的情况,需要按照所影响时间维度剔除相应的话务量,还原为原始呼入量。

    4、人力不足,接通率较低的情况。

          如果不是由于以上情况,而是由于人力不足造成接通率较低,导致重复来电较多,当日呼入量数据不是原始客户需求的真实呼入量。我们需要按照当日重复来电的水平,将呼入量还原为原始呼入量。

           综上所述,以上为目前常见的呼叫中心话务量预测方法,当然,企业在实际过程中还需结合自身实际情况及自身经验来做偏精确的呼叫中心话务量预测。

    展开全文
  • 今天来说说深度学习中常见的损失函数(loss),覆盖分类,回归任务以及生成对抗网络,了目标才能去优化一个模型。 作者&编辑 | 言三 1 什么是损失函数 在机器学习中,损失函数(loss function)是用来...

    这是专栏《AI初识境》的第11篇文章。所谓初识,就是对相关技术有基本了解,掌握了基本的使用方法。

    今天来说说深度学习中常见的损失函数(loss),覆盖分类,回归任务以及生成对抗网络,有了目标才能去优化一个模型。

    作者&编辑 | 言有三

     

    1 什么是损失函数

    在机器学习中,损失函数(loss function)是用来估量模型的预测值f(x)与真实值Y的不一致程度,损失函数越小,一般就代表模型的鲁棒性越好,正是损失函数指导了模型的学习。

    机器学习的任务本质上是两大类,分类问题与回归问题,再加上综合了判别模型和生成模型后在各类图像任务中大展拳脚的生成对抗网络,这一次我们就重点讲述这些内容。

     

    2 分类任务损失

    2.1、0-1 loss

    0-1 loss是最原始的loss,它直接比较输出值与输入值是否相等,对于样本i,它的loss等于:

    当标签与预测类别相等时,loss为0,否则为1。可以看出,0-1 loss无法对x进行求导,这在依赖于反向传播的深度学习任务中,无法被使用,0-1 loss更多的是启发新的loss的产生。

    2.2、熵与交叉熵loss

    在物理学有一个概念,就是熵,它表示一个热力学系统的无序程度。为了解决对信息的量化度量问题,香农在1948年提出了“信息熵”的概念,它使用对数函数表示对不确定性的测量。熵越高,表示能传输的信息越多,熵越少,表示传输的信息越少,我们可以直接将熵理解为信息量

    按照香农的理论,熵背后的原理是任何信息都存在冗余,并且冗余大小与信息中每个符号(数字、字母或单词)的出现概率或者说不确定性有关。概率大,出现机会多,则不确定性小,这个关系就用对数函数来表征。

    为什么选择对数函数而不是其他函数呢?首先,不确定性必须是概率P的单调递降函数,假设一个系统中各个离散事件互不相关,要求其总的不确定性等于各自不确定性之和,对数函数是满足这个要求的。将不确定性f定义为log(1/p)=-log(p),其中p是概率。

    对于单个的信息源,信源的平均不确定性就是单个符号不确定性-logpi的统计平均值,信息熵的定义如下。

    假设有两个概率分布p(x)和q(x),其中p是已知的分布,q是未知的分布,则其交叉熵函数是两个分布的互信息,可以反应其相关程度。

    从这里,就引出了分类任务中最常用的loss,即log loss,又名交叉熵loss,后面我们统一称为交叉熵:

    n对应于样本数量,m是类别数量,yij 表示第i个样本属于分类j的标签,它是0或者1。对于单分类任务,只有一个分类的标签非零。f(xij) 表示的是样本i预测为j分类的概率。loss的大小完全取决于分类为正确标签那一类的概率,当所有的样本都分类正确时,loss=0,否则大于0。

    2.3、softmax loss及其变种

    假如log loss中的f(xij)的表现形式是softmax概率的形式,那么交叉熵loss就是我们熟知的softmax with cross-entropy loss,简称softmax loss,所以说softmax loss只是交叉熵的一个特例。

    softmax loss被广泛用于分类分割等任务,而且发展出了很多的变种,有针对不平衡样本问题的weighted softmax loss, focal loss,针对蒸馏学习的soft softmax loss,促进类内更加紧凑的L-softmax Loss等一系列改进,早在一年前就撰写过综述如下:

    【技术综述】一文道尽softmax loss及其变种

    2.4、KL散度

    Kullback和Leibler定义了KL散度用于估计两个分布的相似性,定义如下;

    Dkl是非负的,只有当p与q处处相等时,才会等于0。上面的式子也等价于

    其中l(p,p)是分布p的熵,而l(p,q)就是p和q的交叉熵。假如p是一个已知的分布,则熵是一个常数,此时dkl(p|q)与l(p,q)也就是交叉熵只有一个常数的差异,两者是等价的。

     

    同时值得注意的是,KL散度并不是一个对称的loss,即dkl(p|q) != dkl(q|p),KL散度常被用于生成式模型。

    2.5、Hinge loss

    Hinge loss主要用于支持向量机中,它的称呼来源于损失的形状,定义如下:

    如果分类正确,loss=0,如果错误则为1-f(x),所以它是一个分段不光滑的曲线。Hinge loss被用来解SVM问题中的间距最大化问题。

    2.6、Exponential loss与Logistic loss

    Exponential loss是一个指数形式的loss,它的特点就是梯度比较大,主要用于Adaboost集成学习算法中,定义如下:

    logistic loss取了Exponential loss的对数形式,它的定义如下:

    logistic loss 梯度相对变化更加平缓。

    此外还有sigmoid cross_entropy_loss,可以被用于多标签分类任务或者不需要创建类间竞争机制的分类任务,在Mask RCNN中就被用了。

    以上就涵盖了大部分常用的分类任务损失,多半都是对数的形式,这是由信息熵的定义,参数似然估计的本质决定的。

     

    3 回归任务损失

    在回归任务中,回归的结果是一些整数或者实数,并没有先验的概率密度分布,常使用的loss是L1 loss和L2 loss。

    3.1、L1 loss

    Mean absolute loss(MAE)也被称为L1 Loss,是以绝对误差作为距离:

    由于L1 loss具有稀疏性,为了惩罚较大的值,因此常常将其作为正则项添加到其他loss中作为约束。L1 loss的最大问题是梯度在零点不平滑,导致会跳过极小值。

    3.2、L2 loss

    Mean Squared Loss/ Quadratic Loss(MSE loss)也被称为L2 loss,或欧氏距离,它以误差的平方和作为距离:

    L2 loss也常常作为正则项。当预测值与目标值相差很大时, 梯度容易爆炸,因为梯度里包含了x−t。

    3.3、L1 loss与L2 loss的改进

    原始的L1 loss和L2 loss都有缺陷,比如L1 loss的最大问题是梯度不平滑,而L2 loss的最大问题是容易梯度爆炸,所以研究者们对其提出了很多的改进。

    在faster rcnn框架中,使用了smooth L1 loss来综合L1与L2 loss的优点,定义如下:

    在x比较小时,上式等价于L2 loss,保持平滑。在x比较大时,上式等价于L1 loss,可以限制数值的大小。

    为了增强L2 loss对噪声(离群点)的鲁棒性,研究者提出了Huber loss,定义如下:

    Huber对于离群点非常的有效,它同时结合了L1与L2的优点,不过多出来了一个delta参数需要进行训练。

    除此之外还有Log-Cosh Loss等损失,大家可以自己了解,也欢迎补充。

    从上面可以看出,L1/L2各有优劣,设计一个通用的框架同时满足L1/L2损失的优点是研究重点,我见过的最夸张的是这样的。

    3.4、perceptual loss

    对于图像风格化,图像超分辨率重建等任务来说,早期都使用了图像像素空间的L2 loss,但是L2 loss与人眼感知的图像质量并不匹配,恢复出来的图像往往细节表现不好。

    现在的研究中,L2 loss逐步被人眼感知loss所取代。人眼感知loss也被称为perceptual loss(感知损失),它与MSE采用图像像素进行求差的不同之处在于所计算的空间不再是图像空间。

    研究者们常使用VGG等网络的特征,令φ来表示损失网络,Cj表示网络的第j层,CjHjWj表示第j层的特征图的大小,感知损失的定义如下:

    可以看出,它有与L2 loss同样的形式,只是计算的空间被转换到了特征空间。

     

    4 生成对抗网络损失

    生成对抗网络即Generative Adversarial Networks,简称GAN,它是2014年以后兴起的无监督学习网络,现在有非常多的解读了,我们一年前也解读过,欢迎移步,适合初学者。

    【技术综述】有三说GANs(上)

    原始的用于生成图片的GAN的损失函数包括了生成式模型和判别式模型两部分,如今GAN被用于各类任务,其他的各种损失也加入了进来,不过我们这里还是专门针对GAN的基本损失进行讲述。

    4.1、GAN的基本损失

    GAN是在生成模型和判别模型的相互博弈中进行迭代优化,它的优化目标如下:

    从中可以看出,包括两个部分,Ex∼pdata(x)[logD(x)]和Ez∼pz(z)[log(1−D(G(z)))]要求最大化判别模型对真实样本的概率估计,最小化判别模型对生成的样本的概率估计,生成器则要求最大化D(G(z)),即最大化判别模型对生成样本的误判,这个loss是对数log的形式。

    原始的GAN的损失使用了JS散度,两个分布之间越接近,它们的JS散度越小,但实际上这并不适合衡量生成数据分布和真实数据分布的距离,相关的分析已经非常的多了,本文如果展开就太长了,因此直接给解决方案。

    4.2、-log D trick

    Ian Goodfellow提出了-log D trick,即把生成器loss改成如下,使得生成器的损失不依赖于生成器G

    这个等价最小化目标存在两个严重的问题。第一是它同时要最小化生成分布与真实分布的KL散度,却又要最大化两者的JS散度,这是矛盾的会导致梯度不稳定。第二,因为KL散度不是对称的,导致此时loss不对称,对于正确样本误分和错误样本误分的惩罚是不一样的。第一种错误对应的是“生成器没能生成真实的样本”,即多样性差,惩罚微小;第二种错误对应的是“生成器生成了不真实的样本”,即准确性低,惩罚巨大。这样造成生成器生成多样性很差的样本,出现了常说的模式崩塌(collapse mode)问题。

    4.3、Wasserstein GAN(简称wgan)等改进方案

    wgan采用了Earth-Mover距离(EM距离)作为loss,它是在最优路径规划下的最小消耗,计算的是在联合分布γ下,样本对距离的期望值:

    与原始的GAN的loss形式相比,其实wgan就是生成器和判别器的loss不取log。wessertein距离相比KL散度和JS散度的优势在于,即使两个分布的支撑集没有重叠或者重叠非常少,仍然能反映两个分布的远近。而JS散度在此情况下是常量,KL散度可能无意义。

    wgan有一些问题,wgan-gp改进了wgan连续性限制的条件,后面还有一些研究,大家可以自行跟进,我们后面也会讲述。

    4.4、LS-GAN

    LS-GAN即Least Squares Generative Adversarial Networks。它的原理部分可以一句话概括,即使用了最小二乘损失函数代替了GAN的损失函数,相当于最小化P和Q之间的Pearson卡方散度(divergence),这属于f-divergence的一种,有效地缓解了GAN训练不稳定和生成图像质量差多样性不足的问题。作者认为使用JS散度并不能拉近真实分布和生成分布之间的距离,使用最小二乘可以将图像的分布尽可能的接近决策边界,其损失函数定义如下:

    以交叉熵作为损失,它的特点是会使得生成器不会再优化那些被判别器识别为真实图片的生成图片,即使这些生成图片距离判别器的决策边界仍然很远,也就是距真实数据比较远,这意味着生成器的生成图片质量并不高。而要想最小二乘损失比较小,则在混淆判别器的前提下还得让生成器把距离决策边界比较远的生成图片拉向决策边界,这就是LS-GAN的优势。

    4.5、Loss-sensitive-GAN

    在原始的GAN的损失函数后添加了一个约束项来直接限定GAN的建模能力,它的损失函数如下:

    优化将通过最小化这个目标来得到一个“损失函数" (下文称之为L函数)。L函数在真实样本上越小越好,在生成的样本上越大越好。它是以真实样本x和生成样本的一个度量为各自L函数的目标间隔,把x和生成样本分开。好处是如果生成的样本和真实样本已经很接近,就不必要求他们的L函数有个固定间隔,因为生成的样本已经很好。这样就可以集中力量提高那些距离真实样本还很远,真实度不那么高的样本,能更合理地使用LS-GAN的建模能力,被称为“按需分配”。

    关于GAN的损失优化,这是一个不小的研究领域,下面是一个简单的汇总。

    如果你对GAN还有更多兴趣,那就看这个参考网址吧,https://hollobit.github.io/All-About-the-GAN/,不多不多,也就几千篇文章,我大概看了1000篇的摘要,等闲下来再跟大家搞GAN,是Generative Adversarial Networks噢。

    本文讲述了深度学习领域中常见的损失,学习灵活运用和设计损失本来不是初识境界的要求,不过还是让大家先有个基本感知吧。

    下一期预告:如何晋级为合格的初阶深度学习模型训练师。

     

    比如网络loss不正常,怎么调都不管用。

    比如训练好好的,测试就是结果不对。

    bug天天有,深度学习算法工程师遇到的特别多,如果你想交流更多,就来有三AI知识星球实时提问交流吧,大咖众多,总有能解决你问题的。

    初识境界到此基本就结束了,这一系列是为大家奠定扎实的深度学习基础,希望学习完后大家能有收获

    AI白身境系列完整阅读:

    第一期:【AI白身境】深度学习从弃用windows开始

    第二期:【AI白身境】Linux干活三板斧,shell、vim和git

    第三期:【AI白身境】学AI必备的python基础

    第四期:【AI白身境】深度学习必备图像基础

    第五期:【AI白身境】搞计算机视觉必备的OpenCV入门基础

    第六期:【AI白身境】只会用Python?g++,CMake和Makefile了解一下

    第七期:【AI白身境】学深度学习你不得不知的爬虫基础

    第八期: 【AI白身境】深度学习中的数据可视化

    第九期:【AI白身境】入行AI需要什么数学基础:左手矩阵论,右手微积分

    第十期:【AI白身境】一文览尽计算机视觉研究方向

    第十一期:【AI白身境】AI+,都加在哪些应用领域了

    第十二期:【AI白身境】究竟谁是paper之王,全球前10的计算机科学家

    AI初识境系列完整阅读

    第一期:【AI初识境】从3次人工智能潮起潮落说起

    第二期:【AI初识境】从头理解神经网络-内行与外行的分水岭

    第三期:【AI初识境】近20年深度学习在图像领域的重要进展节点

    第四期:【AI初识境】激活函数:从人工设计到自动搜索

    第五期:【AI初识境】什么是深度学习成功的开始?参数初始化

    第六期:【AI初识境】深度学习模型中的Normalization,你懂了多少?

    第七期:【AI初识境】为了围剿SGD大家这些年想过的那十几招

    第八期:【AI初识境】被Hinton,DeepMind和斯坦福嫌弃的池化,到底是什么?

    第九期:【AI初识境】如何增加深度学习模型的泛化能力

    第十期:【AI初识境】深度学习模型评估,从图像分类到生成模型

    第十一期:【AI初识境】深度学习中常用的损失函数有哪些?

    第十二期:【AI初识境】给深度学习新手开始项目时的10条建议

    感谢各位看官的耐心阅读,不足之处希望多多指教。后续内容将会不定期奉上,欢迎大家关注有三公众号 有三AI

    展开全文
  • 常见的回归技术

    万次阅读 2018-02-15 23:16:22
    线性回归和逻辑回归是我们做模型预测时,很常见的回归算法。 但事实上我们许多类型的回归方法可以去建模。每一个算法都其重要性,特殊性以及适用的场景。通过这边文章,总结下多种常用的回归算法,希望我们在...

          线性回归和逻辑回归是我们做模型预测时,很常见的回归算法。

          但事实上我们有许多类型的回归方法可以去建模。每一个算法都有其重要性,特殊性以及适用的场景。通过这边文章,总结下多种常用的回归算法,希望我们在做模型预测时能够有更多的选择,能找到最合适的回归模型。


    目录

    什么是回归分析?

    为什么要用回归分析?

    回归有哪些类型?

    1.线性回归

    2.逻辑回归

    3.多项式回归

    5.岭回归

    6.LASSO回归

    7.ElasticNet回归

    如何去选择回归模型


    什么是回归分析?

    回归分析是研究自变量和因变量之间关系的一种预测模型技术。用来预测时间序列模型和找到变量之间关系。例如可以通过回归去研究超速与交通事故发生次数的关系。


    为什么要用回归分析?

         这里有一些使用回归分析的好处:它指示出自变量与因变量之间的显著关系;它指示出多个自变量对因变量的影响。回归分析允许我们比较不同尺度的变量,例如:价格改变的影响和宣传活动的次数。这些好处可以帮助市场研究者/数据分析师去除和评价用于建立预测模型里面的变量。


    回归有哪些类型?

    我们有很多种回归方法用预测。这些技术可通过三种方法分类:自变量的个数、因变量的类型、回归线的形状。


    1.线性回归

           线性回归可谓是世界上最知名的建模方法之一。在模型中,因变量是连续型的,自变量可以是连续型或离散型的,回归线是线性的。

    线性回归用最适直线(回归线)去建立因变量Y和一个或多个自变量X之间的关系。可以用公式来表示:

    Y=a+b*X+e

    a为截距,b为回归线的斜率,e是误差项。

          简单线性回归与多元线性回归的差别在于:多元线性回归有多个(>1)自变量,而简单线性回归只有一个自变量。

          现在我们的问题就是:如何找到那条回归线?

          我们可以通过最小二乘法把这个问题解决。其实最小二乘法就是线性回归模型的损失函数,只要把损失函数做到最小时得出的参数,就是我们最需要的参数。

    我们一般用决定系数(R方)去评价模型的表现。

    重点

    1.自变量与因变量之间必须要有线性关系

    2.多重共线性、自相关异方差对多元线性回归的影响很大。

    3.线性回归对异常值非常敏感,其能严重影响回归线,最终影响预测值。

    4.在多元的自变量中,我们可以通过前进法,后退法逐步法去选择最显著的自变量。

    2.逻辑回归

    逻辑回归是用来找到事件成功或失败的概率。当我们的因变量是二分类(0/1,True/False,Yes/No)时我们应该使用逻辑回归。

    重点

    1.在分类问题中使用的非常多。

    2.逻辑回归因其应用非线性log转换方法,使得其不需要自变量与因变量之间有线性关系。

    3.为防止过拟合和欠拟合,我们应该确保每个变量是显著的。应该使用逐步回归方法去估计逻辑回归。

    4.逻辑回归需要大样本量,因为最大似然估计在低样本量的情况下表现不好。

    5.要求没有共线性。

    6.如果因变量是序数型的,则称为序数型逻辑回归。

    7.如果因变量有多个,则称为多项逻辑回归。

    3.多项式回归

    如果一个回归,它的自变量指数超过1,则称为多项式回归。可以用公式表示:

    y = a + b * x^2

    在这个回归技术中,最适的线不是一条直线,而是一条曲线。

    重点

    1.很多情况下,我们为了降低误差,经常会抵制不了使用多项式回归的诱惑,如果多项式最高次项比较大,模型就容易出现过拟合。所以要经常的把数据可视化,观察数据与模型的拟合程度。

    2.特别是要看曲线的结尾部分,看它的形状和趋势是否有意义。高的多项式往往会产生特别古怪的预测值。

    3.正则化是 一种常见的防止过拟合的方法,一般原理是在代价函数后面加上一个对参数的约束项,这个约束项被叫做正则化项(regularizer)。

     

    4.逐步回归

          当我们要处理多个自变量时,我们就需要这个回归方法。在这个方法中选择变量都是通过自动过程实现的,不需要人的干预。

          这个工程是通过观察统计值,比如判定系数,t值和最小信息准则等去筛选变量。逐步回归变量一般是基于特定的标准加入或移除变量来拟合回归模型。一些常用的逐步回归方法如下:

    1.标准逐步回归做两件事情。只要是需要每一步它都会添加或移除一些变量。

    2.前进法是开始于最显著的变量然后在模型中逐渐增加次显著变量。

    3.后退法是开始于所有变量,然后逐渐移除一些不显著变量。

    4.这个模型技术的目的是为了用最少的变量去最大化模型的预测能力。它也是一种降维技术。

    5.岭回归

          当碰到数据有多重共线性时,我们就会用到岭回归。所谓多重共线性,简单的说就是自变量之间有高度相关关系。在多重共线性中,即使是最小二乘法是无偏的,它们的方差也会很大。通过在回归中加入一些偏差,岭回归酒会就少标准误差。

         ‘岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。’ ---百度百科

          岭回归是通过岭参数λ去解决多重共线性的问题。看下面的公式:

         其中loss为损失函数,penalty为惩罚项。

    重点

    1.岭回归的假设与最小二乘法回归的假设相同,除了假设正态性。

    2.它把系数的值收缩了,但是不会为0.

    3.正则化方法为所有参数(不包括 θ0)的平方和,即L2正则.

    6.LASSO回归

           和岭回归类似,Lasso(least Absolute Shrinkage and Selection Operator)也是通过惩罚其回归系数的绝对值。看下面的公式:

           Lasso回归和岭回归不同的是,Lasso回归在惩罚方程中用的是绝对值,而不是平方。这就使得惩罚后的值可能会变成0.

    重点

    1.其假设与最小二乘回归相同除了正态性。

    2.其能把系数收缩到0,使得其能帮助特征选择。

    3.这个正则化方法为L1正则化。

    4.如果一组变量是高度相关的,lasso会选择其中的一个,然后把其他的都变为0.

    7.ElasticNet回归

          ElasticNet回归是Lasso回归和岭回归的组合。它会事先训练L1和L2作为惩罚项。当许多变量是相关的时候,Elastic-net是有用的。Lasso一般会随机选择其中一个,而Elastic-net则会选在两个。

          与Lasso和岭回归的利弊比较,一个实用的优点就是Elastic-Net会继承一些岭回归的稳定性。

    重点

    1.在选择变量的数量上没有限制

    2.双重收缩对其有影响

    3.除了这7个常用的回归技术,你也可以看看贝叶斯回归、生态学回归和鲁棒回归。

    如何去选择回归模型


          面对如此多的回归模型,最重要的是根据自变量因变量的类型、数据的维数和其他数据的重要特征去选择最合适的方法。以下是我们选择正确回归模型时要主要考虑的因素:

    1.数据探索是建立预测模型不可或缺的部分。它应该是在选择正确模型之前要做的。

    2.为了比较不同模型的拟合程度,我们可以分析不同的度量,比如统计显著性参数、R方、调整R方、最小信息标准、BIC和误差准则。另一个是Mallow‘s Cp准则。

    3.交叉验证是验证预测模型最好的方法。你把你的数据集分成两组:一组用于训练,一组用于验证。

    4.如果你的数据集有许多让你困惑的变量,你就不应该用自动模型选择方法,因为你不想把这些变量放在模型当中。

    5.不强大的模型往往容易建立,而强大的模型很难建立。

    6.回归正则方法在高维度和多重共线性的情况下表现的很好。

     

    参考

    https://www.analyticsvidhya.com/blog/2015/08/comprehensive-guide-regression/

    https://www.jianshu.com/p/15dd20f8d02c

    展开全文
  • 转自:三AI这是专栏《AI初识境》的第11篇文章。所谓初识,就是对相关技术...编辑 | 言三1 什么是损失函数在机器学习中,损失函数(loss function)是用来估量模型的预测值f(x)与真实值Y的不一致程度,损失函数越...
  • 这是专栏《AI初识境》的第11篇文章。所谓初识,就是对相关...编辑 | 言三 1 什么是损失函数在机器学习中,损失函数(loss function)是用来估量模型的预测值f(x)与真实值Y的不一致程度,损失函数越小,一般就代表...
  • 机器学习系统进行分类的方法有多种。最常见的方法之一是基于训练系统的方式和系统进行预测的方式进行分类。基于这种方法,机器学习系统可以分类如下: 监督学习 无监督学习 半监督学习 强化学习 批量学习 增量学习 ...
  • 常见的七种回归技术

    千次阅读 2016-10-31 23:16:17
    介绍  根据受欢迎程度,线性回归和逻辑回归经常是我们做预测模型时,且第一个学习算法。但是如果认为回归就两个算法,就...3.回归有哪些类型 ? 4.线性回归 5.逻辑回归 6.多项式回归 7.逐步回归 8.
  • 问题1:空间数据挖掘有哪些常用方法,举例说明一种方法原理及应用. 答:空间数据挖掘常用方法有:统计法,聚类方法,关联规则发掘方法,Rough集方法,神经网络方法,云理论,证据理论,模糊集理论,遗传算法等...
  • 这篇主要记录数据建模中的线性回归的学习如何...保险行业 (用户的保费 赔付金额)旅游行业 (用户的出行次数 度假时长)电商行业 (用户网页停留时间 购物车的商品数量)注意:回归分析虽然是最常见的分析方法,但...
  • (46) 面向对象设计方法与传统的的面向过程的方法有本质不同,它基本原理是(C) A. 模拟现实世界中不同事物之间联系 B. 强调模拟现实世界中算法而不强调概念 C. 使用现实世界概念抽象地思考问题从而自然地...
  • 常见的损失函数有哪些?(这里的损失函数严格来说是目标函数,一般都称呼为损失函数) 具体见: https://blog.csdn.net/iqqiqqiqqiqq/article/details/77413541 1)0-1损失函数 记录分类错误的次数。 2)绝对值...
  • 引言容器以及诸如Docker和Kubernetes之类的容器化技术已成为许多开发人员工具箱中越来越常见的组件。容器化的核心是提供一种更好的方法,以可预测且易于管理的方式在不同环境中创建、打包和部署应用。在本文中,我们...
  • 如何使用python来进行回归分析

    千次阅读 2020-04-16 10:18:44
    文章主要介绍两种常见的回归分析方法,以及其对应的Python实现操作。 目录: 什么是回归分析 为什么使用回归分析 回归分析技术有哪些 使用Python实现回归分析 什么是回归分析 在统计学中,回归分析(regression ...
  • 什么是回归分析为什么使用回归分析回归分析技术有哪些使用Python实现回归分析什么是回归分析在统计学中,回归分析(regression analysis)指是确定两种或两种以上变量间相互依赖定量关系一种统计分析方法。...
  • 什么是回归分析为什么使用回归分析回归分析技术有哪些使用Python实现回归分析什么是回归分析在统计学中,回归分析(regression analysis)指是确定两种或两种以上变量间相互依赖定量关系一种统计分析方法。...
  • 本文使用 Zhihu On VSCode 创作并发布线性回归是一类最简单常见的监督学习方法,它假设 是线性形式。线性回归可以回答以下7个问题:自变量 与 因变量 之间是否关系?自变量 与 因变量 之间的关系多强 ?哪些 对...
  • 线性回归是一类最简单常见的监督学习方法,它假设 fff 是线性形式。 线性回归可以回答以下7个问题: 自变量 XXX 与 因变量 YYY 之间是否关系? 自变量 XXX 与 因变量 YYY 之间的关系多强 ? 哪些 XiX_iXi​ 对...
  • 2.25.6 常见的核函数有哪些? 69 2.25.6 软间隔与正则化 73 2.25.7 SVM主要特点及缺点? 73 2.26 贝叶斯 74 2.26.1 图解极大似然估计 74 2.26.2 朴素贝叶斯分类器和一般的贝叶斯分类器有什么区别? 76 2.26.4 朴素与...
  • 方法有时候也可以为你带来高分。希望这篇文章里答题技巧能够帮助你在考试时候科学地多拿一些分数~ 重要事情先说三遍: 把最新考试大纲完整看5遍并勾重点! 把最新考试大纲完整看5遍并勾重点! 把最新考试大纲...
  • 深入理解计算机系统(中文版)

    热门讨论 2014-03-05 22:49:05
    10.11 C程序中常见的与存储器有关的错误 10.12扼要重述一些有关虚拟存储器的关键概念 10.13 小结 第11章 系统级I/O 11.1 Unix I/O 11.2 打开和关闭文件 11.3 读和写文件 11.4 用RIO包进行健壮地读和写 11.5 ...
  • 2019数据运营思维导图

    2019-03-29 21:34:09
    注意事项 次日留存一定程度上代表了用户对游戏的满意度 主要反映了游戏初期新手对游戏引导和玩法的适应性 关注用户流失率的同时,需要关注用户流失节点 实际运用 常见的7日连续登录礼包 第七天送大卡就是为了次日和...
  • 数据运营思维导图

    2018-04-26 14:24:22
    常见的7日连续登录礼包 第七天送大卡就是为了次日和7日留存的漂亮 次留很低,可能原因 新手阶段不友好、开场不吸引人、游戏上手难度大 程序bug太多,闪退,卡死,无法登陆等 功能引导太繁琐 次留不低,但是第3...
  • 11.2 定义:契约有哪些部分 11.3 定义:什么是系统操作 11.4 定义:后置条件 11.5 示例:enterItem后置条件 11.6 准则:是否应该更新领域模型 11.7 准则:契约在何时有效 11.8 准则:如何创建和编写契约 11.9...
  • 模型量化方法有哪些 双线性插值,量化对齐 Relu为什么比sigmod好 目标识别算法常用评测方式 IOU和mAP,AUC和ROC分别是什么 介绍下常见损失函数,softmax一般和哪个激活函数使用 介绍下Point...
  • 编辑推荐通过学习《Oracle Database 10g 性能调整与优化》,读者可以了解到如何选择最优化索引选项,有效地管理驱动器和磁盘阵列,对查询执行故障检修,以及可靠地预测将来性能。《Oracle Database 10g 性能调整...
  • (3)在经济上,推广使用铁农具和耕牛,改变以前“刀耕火种”和“火耕水耨”耕作方法,大量发展水稻、水果和畜牧业、渔业、制陶业、纺织业、造船业,并发展交通运输和商业外贸,促进了生产发展和社会进步,人民...

空空如也

空空如也

1 2
收藏数 28
精华内容 11
关键字:

常见的预测方法有哪些