精华内容
下载资源
问答
  • 线性回归模型的优缺点
    千次阅读
    2021-01-14 14:00:43

    线性回归是很基础的机器学习算法,本文将通俗易懂的介绍线性回归的基本概念,优缺点,8 种方法的速度评测,还有和逻辑回归的比较。

    什么是线性回归?

    线性回归的位置如上图所示,它属于机器学习 – 监督学习 – 回归 – 线性回归。

    扩展阅读:

    什么是回归?

    回归的目的是为了预测,比如预测明天的天气温度,预测股票的走势…

    回归之所以能预测是因为他通过历史数据,摸透了“套路”,然后通过这个套路来预测未来的结果。

    什么是线性?

    “越…,越…”符合这种说法的就可能是线性个关系:

    「房子」越大,「租金」就越高

    「汉堡」买的越多,花的「钱」就越多

    杯子里的「水」越多,「重量」就越大

    ……

    但是并非所有“越…,越…”都是线性的,比如“充电越久,电量越高”,他就类似下面的非线性曲线:

    线性关系不仅仅只能存在 2 个变量(二维平面)。3 个变量时(三维空间),线性关系就是一个平面,4 个变量时(四维空间),线性关系就是一个体。以此类推…

    什么是线性回归?

    线性回归本来是是统计学里的概念,现在经常被用在机器学习中。

    如果 2 个或者多个变量之间存在“线性关系”,那么我们就可以通过历史数据,摸清变量之间的“套路”,建立一个有效的模型,来预测未来的变量结果。

    线性回归的优缺点

    优点:建模速度快,不需要很复杂的计算,在数据量大的情况下依然运行速度很快。

    更多相关内容
  • 本文将会介绍五种常见的回归模型的概念及其优缺点,包括线性回归(Linear Regression), 多项式回归(Ploynomial Regression), 岭回归(Ridge Regression),Lasso回归和弹性回归网络(ElasticNet Regression). ...

    本文将会介绍五种常见的回归模型的概念及其优缺点,包括线性回归(Linear Regression), 多项式回归(Ploynomial Regression), 岭回归(Ridge Regression),Lasso回归和弹性回归网络(ElasticNet Regression).

    1.线性回归(Linear Regression)

    回归是在建模过程中用于分析变量之间的关系、以及变量是如何影响结果的一种技术。线性回归是指全部由线性变量组成的回归模型。例如,最简单的单变量线性回归(Single Variable Linear Regression)是用来描述单个变量和对应输出结果的关系,可以简单的表示成下面的式子:
     Y=aX+b   Y = a ∗ X + b
    因为在实际的建模过程中遇到的问题往往更加复杂,用单个变量不能满足描述输出便变量的关系,所以需要用到更多的变量来表示与输出之间的关系,也就是多变量线性回归(Multi Variable Linear Regression)。多变量线性回归模型如下:
     Y=a1X1+a1X2+a3X3+.....+anXn+b   Y = a 1 ∗ X 1 + a 1 ∗ X 2 + a 3 ∗ X 3 + . . . . . + a n ∗ X n + b
    其中a为系数,x是变量,b为偏置。因为这个函数只有线性关系,所以只适用于建模线性可分数据。我们只是使用系数权重来加权每个特征变量的重要性。我们使用随机梯度下降(SGD)来确定这些权重a和偏置b,过程如图所示:
    这里写图片描述
    线性回归的几个特点:
    1. 建模速度快,不需要很复杂的计算,在数据量大的情况下依然运行速度很快。
    2. 可以根据系数给出每个变量的理解和解释
    3. 对异常值很敏感

    2. 多项式回归(Polynomial Regression)

    线性回归适合于线性可分的数据,当我们处理非线性可分的数据时可以使用多项式回归。在这种回归中,我们是要找到一条曲线来拟合数据点,可以表示成下面的式子:
     Y=a1X1+a2X22+a3X33+...+anXnn+b   Y = a 1 ∗ X 1 + a 2 ∗ X 2 2 + a 3 ∗ X 3 3 + . . . + a n ∗ X n n + b
    选择每个变量的确切的质数需要当前数据集合与最终输出的一些先验知识。下面两个图描述了线性回归与多项式回归的比较:
    这里写图片描述
    这里写图片描述
    多项式回归的特点:
    1. 能够拟合非线性可分的数据,更加灵活的处理复杂的关系
    2. 因为需要设置变量的指数,所以它是完全控制要素变量的建模
    3. 需要一些数据的先验知识才能选择最佳指数
    4. 如果指数选择不当容易出现过拟合

    3.岭回归(Ridge Regression)

    分析岭回归之前首先要说的一个共线性(collinearity)的概念,共线性是自变量之间存在近似线性的关系,这种情况下就会对回归分析带来很大的影响。因为回归分析需要我们了解每个变量与输出之间的关系,高共线性就是说自变量间存在某种函数关系,如果两个自变量(X1和X2)之间存在函数关系,那么当X1改变一个单位时,X2也会相应的改变,这样就没办法固定其他条件来对单个变量对输出的影响进行分析了,因为所分析的X1总是混杂了X2的作用,这样就造成了分析误差,所以回归分析时需要排除高共线性的影响。
    高共线性的存在可以通过以下几个方式来确定:
    1. 尽管从理论上讲,该变量与Y高度相关,但是回归系数却不明显
    2. 添加或删除X特征变量时,回归系数会发生明显变化
    3. X特征变量具有较高的成对相关性(pairwise correlations)(检查相关矩阵)

    标准线性回归的优化函数如下:
     min||Xwy||2   m i n | | X w − y | | 2
    其中X表示特征变量,w表示权重,y表示真实情况。岭回归是针对模型中存在的共线性关系的为变量增加一个小的平方偏差因子(也就是正则项),可以表示成下面的式子:
     min||Xwy||2+z||w||2   m i n | | X w − y | | 2 + z | | w | | 2
    这样的平方偏差因子向模型中引入了少量偏差,但大大减少了方差。
    领回归的特点:
    1. 领回归的假设和最小平方回归相同,但是在最小平方回归的时候我们假设数据服从高斯分布使用的是极大似然估计(MLE),在领回归的时候由于添加了偏差因子,即w的先验信息,使用的是极大后验估计(MAP)来得到最终的参数
    2. 没有特征选择功能

    4.Lasso回归

    Lesso与岭回归非常相似,都是在回归优化函数中增加了一个偏置项以减少共线性的影响,从而减少模型方程。不同的是Lasso回归中使用了绝对值偏差作为正则化项,Lasso回归可以表示成下面的式子:
     min||Xwy||2+Z||w||   m i n | | X w − y | | 2 + Z | | w | |
    岭回归和Lasso回归之间的差异可以归结为L1正则和L2正则之间的差异:
    内置的特征选择(Built-in feature selection):这是L1范数很有用的一个属性,二L2范数不具有这种特性。因为L1范数倾向于产生系数系数。例如,模型中有100个系数,但其中只有10个系数是非零系数,也就是说只有这10个变量是有用的,其他90个都是没有用的。而L2范数产生非稀疏系数,所以没有这种属性。因此可以说Lasso回归做了一种参数选择形式,未被选中的特征变量对整体的权重为0。
    稀疏性:指矩阵或向量中只有极少个非零系数。L1范数具有产生具有零值或具有很少大系数的非常小值的许多系数的属性。
    计算效率:L1范数咩有解析解,但L2范数有。这使得L2范数的解可以通过计算得到。L1范数的解具有稀疏性,这使得它可以与稀疏算法一起使用,这使得在计算上更有效率。

    5.弹性网络回归(ElasticNet Regression)

    弹性回归网络是Lesso回归和岭回归技术的混合体。它使用了L1和L2正则化,也达到了两种技术共有的效果,弹性回归网络的表达式如下:
     min||Xwy||2+z1||w||+z2||w||2   m i n | | X w − y | | 2 + z 1 | | w | | + z 2 | | w | | 2
    在Lasso和岭回归之间进行权衡的一个实际是运行弹性网络在循环的情况下继承岭回归的一些稳定性。
    弹性回归网络的优点:
    1. 鼓励在高度相关变量的情况下的群体效应,而不像Lasso那样将其中一些置为0.当多个特征和另一个特征相关的时候弹性网络非常有用。Lasso倾向于随机选择其中一个,而弹性网络倾向于选择两个。
    2. 对所选变量的数量没有限制。

    Reference:原文链接:

    https://towardsdatascience.com/5-types-of-regression-and-their-properties-c5e1fa12d55e

    展开全文
  • 多元线性回归模型的推广.pptx
  • 1.什么是回归? 回归是监督学习的一个重要问题,回归用于预测输入变量和输出变量之间的关系,特别是当输入变量的值发生变化时,输出变量的值也随之发生变化。...线性回归模型 f(x)=WX + b 目的:找出W,使得f(x...

    1.什么是线性回归?

    回归是监督学习的一个重要问题,回归用于预测输入变量和输出变量之间的关系,特别是当输入变量的值发生变化时,输出变量的值也随之发生变化。回归模型正是表示从输入变量到输出变量之间映射的函数。线性回归几乎是最简单的模型了,它假设因变量和自变量之间是线性关系的,一条直线简单明了。

    2.适用场景

    自变量和因变量之间是线性关系

    适用于low dimension, 而且每一维之间都没有共线性。

    3.原理

    线性回归模型

    f(x)=WX + b

    目的:找出W,使得f(x1)尽可能的接近y1

    损失函数

    想要评价一个模型的优良,就需要一个度量标准。对于回归问题,最常用的度量标准就是均方差(MSE,Mean Squared Error),均方差是指预测值和实际值之间的平均方差。平均方差越小,说明测试值和实际值之间的差距越小,即模型性能更优。

    均方误差为损失函数。

    均方误差最小化目标函数的方法称为最小二乘法。原因:有十分好的几何意义,对应了常用的欧式距离。在线性回归中,就是找到一个直线,使得所有样本到直线的欧式距离最小。

    推导:

    包含了使用最小二乘法进行求解,还有最小二乘法和最大似然估计的联系:

    线性回归的优缺点

    优点

    • 直接。

    • 快速。

    • 可解释性好。

    缺点

    • 需要严格的假设。

    • 需处理异常值,对异常值很敏感,对输入数据差

    参考链接:

    1.多种回归方式讲解:https://www.jianshu.com/p/b628c90e1c1c

     

     

    展开全文
  • 多元线性回归模型是一种简单而且有效的数学模型,一直在各领域广泛使用。一个多元回归模型建好后,如何评价模型的优劣呢?1. F值检验因变量的总变异(数据与均值之差的平方和,记为SStotal)由回归平方和(因变量的变异...

    多元线性回归模型是一种简单而且有效的数学模型,一直在各领域广泛使用。一个多元回归模型建好后,如何评价模型的优劣呢?

    1. F值检验

    因变量的总变异(数据与均值之差的平方和,记为SStotal)由回归平方和(因变量的变异中可以由自变量解释的部分,记为SSR)与误差平方和(记为SSE)构成,如果自变量引起的变异大于随机误差引起的变异,则说明因变量与至少一个自变量存在线性关系。回归平方和与误差平方和的比值记为F,F值服从F分布,通过查F分布概率表可得F值对应的概率,从而判断是否存在统计学意义。F值越大越好。

    2. 偏回归系数检验

    通过了F检验只说明因变量至少和一个自变量存在线性关系,但不是所有x都跟y存在线性关系。对每个变量的回归系数分别作t检验,假设回归系数为0,得到的概率值越小越好,一般取0.05作为临界值。

    3. 标准化偏回归系数

    y和x均经过标准化,均值为0,标准差为1,此时的回归结果常数项为0.消除了量纲的影响,更能直观表示自变量对因变量的影响。如果某项回归系数接近0,则说明该自变量与因变量的不具有线性关系,应当剔除。

    4. 复相关系数R

    指的是因变量与因变量的估计值(回归后得出的值)之间的简单线性相关系数,范围在0-1之间,一般来说,R值应大于0.9,但在某些社会科学研究中只要求R大于0.4,这是因为在社会科学研究中存在大量对因变量有影响却无法进行量化的因数,无法纳入模型研究。值得注意的是,即使向模型增加的变量没有统计学意义,R值也会增加,所以R值只作为参考。

    5. 决定系数R2

    因变量总变异中由模型中自变量解释部分的比例。也是越大越好,但是存在与R同样的问题。

    R2=SSR/SStotal=1-SSE/SStotal

    6.校正的决定系数R2adj

    将自变量的个数纳入了考量范围,解决了R2 的局限性,不会随着自变量的增加而增加。当模型中增加的自变量缺乏统计学意义时,校正的决定系数会减小。该项系数越大越好。

    R2adj=1-(n-1)(1- R2)/(n-p-1) n表示样本量,p表示模型中自变量个数

    7.剩余标准差

    误差均方的算术平方根,该值应明显小于因变量的标准差,越小越好。说明在引入模型自变量后,因变量的变异明显减小。

    8. 赤池信息准则AIC

    包含两部分,一部分反映拟合精度,一部分反映模型繁简程度(自变量个数越少模型越简洁),该值越小越好。值得注意的是,用最小二乘法拟合模型与用最大似然估计拟合的模型,其AIC计算方法是不一样的,所以用AIC进行模型比较时应注意拟合的方法是相同的才行。

    最小二乘法拟合时:AIC=nln(SSE/n)+2p

    最大似然估计拟合时:AIC=-2ln(L)+2p L为模型的最大似然函数

    以上8种数据很多统计软件都能方便地输出。

    9.预测效果

    在数据量较大时,可留一部分数据用作预测,根据预测结果判断模型优劣。

    fba26983993d4c1cd47f9f05fa031dc7.png
    展开全文
  • 背景:最大似然法学习的简单的线性回归模型的第二个缺点—— 更正假设:对观测数据x进行非线性变换,使得满足如下(f[·]代表一个非线性变换)—— 重新建模、学习和推理: 最大似然方法: 建模: 构建关于...
  • 问题制作一元材积表,不懂林学的可能不知道,如图,也就是构造材积和胸径间的关系,这里采用了python的一元线性回归方法(本人用spss做了幂函数非线性回归,效果最好)。Python方差分析导入库和数据from sklearn ...
  • 07_线性回归缺点

    千次阅读 2019-08-19 20:20:39
    y = wx + b 这种单项式在数学模型中表示一根直线,但是生产环境中很多的数据例如股票,销售涨跌它都是曲线结构的,这就会导致单项式的线性回归预测率低 构建单项式回归 大家可以看到,单项式线性回归在可视化...
  • 今天小编就为大家分享一篇sklearn+python:线性回归案例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
  • 主要有两个意愿,一个是想买米10,希望各位帅哥美女支持一下,觉得不错就打赏下,另为一个是想将十大经典算法的推导以及思路清清楚楚的理下,希望这整期教程对大家有帮助,第一期咱们讲线性回归。这期不似之前的实践...
  • 总结常见的机器学习线性回归的方法,最小二乘法、局部加权法、岭回归、Lasso回归、多项式回归公式推导过程
  • 目录前言1 概述2 线性回归与机器学习3 线性回归的机器学习表示方法3.1 核心逻辑3.2 优化目标3.3 最小二乘法 1 概述 在正式进入到回归分析的相关算法讨论之前,我们需要对有监督学习算法中的回归问题进行进一步的分析...
  • 逻辑回归优缺点简单分析

    万次阅读 2018-03-03 21:27:19
    缺点:1)对模型中自变量多重共线性较为敏感,例如两个高度相关自变量同时放入模型,可能导致较弱的一个自变量回归符号不符合预期,符号被扭转。​需要利用因子分析或者变量聚类分析等手段来选择代表性的自变量,以...
  • 本文主要总结了解决非线性回归问题的机器学习方法,其中包括多项式线性模型、广义线性(GAM)模型、回归树模型、支持向量回归(SVR)模型,每个模型的方法都有其特点。 多项式线性模型和GAM模型侧重于经验风险误差最小...
  • 多元线性回归常见问题

    千次阅读 2020-12-24 23:35:15
    0.多元线性回归多元线性回归是统计学中经常用到回归方法,一般需满足一下六个条件:随机误差项是一个期望值或平均值为0的随机变量;对于解释变量的所有观测值,随机误差项有相同的方差;随机误差项彼此不相关;解释...
  • 线性回归模型的局限性和注意点

    千次阅读 2020-03-03 22:10:46
    回归分析是传统的研究变量关系很重要的一种方式,特别是在机器学习和深度... 线性回归分析在实际使用中,虽然简单有效,但是使用者往往很容易因为没有充分认识到线性回归模型的局限性和注意点而误用,导致得到很多...
  • 逻辑回归优缺点

    万次阅读 多人点赞 2020-01-08 22:19:42
    8. Logistic回归有哪些优缺点? 优点: (1)训练速度较快,分类的时候,计算量仅仅只和特征的数目相关; (2)简单易理解,模型的可解释性非常好,从特征的权重可以看到不同的特征对最后结果的影响; (3)适合二...
  • 5种五种回归模型及其优缺点

    万次阅读 2018-08-10 10:43:59
    线性回归 对异常值非常敏感   多项式拟合 如果指数选择不当,容易过拟合。   岭回归 标准线性或多项式回归在特征变量之间存在很高的共线性(high collinearity,比如变量x1与x2之间存在函数关系)的情况下...
  • 导读逻辑回归算法是最经典的几个机器学习算法之一,本文对它的优点,缺点进行总结。1. 逻辑回归算法逻辑回归属于判别式模型,同时伴有很多模型正则化的方法(L0, L1,L2,etc),而且你不必像在用朴素贝叶斯那样担心...
  • 多元线性回归分析(Stata)

    万次阅读 多人点赞 2022-01-14 10:12:47
    线性回归:因变量Y为连续性数值变量,例如GDP的增长率 0-1回归:因变量Y为0-1型变量,例如P2P公司研究借款人是否能按时还贷,那么Y可以设计为二值变量,Y=0时代表可以还贷,Y=1时代表不能还贷 定序回归:...
  • 广义线性模型、广义线性模型的数学形式、Logistic回归、sigmoid函数、softmax函数、Logistic多分类、Logistic与大数据、Logistic回归优缺点总结 目录 广义线性模型、广义线性模型的数学形式、Logistic回归、...
  • 线性回归模型详解(Linear Regression)

    万次阅读 多人点赞 2020-11-10 20:41:05
    线性回归和逻辑回归
  • 多元线性回归及案例(Python)

    千次阅读 2022-04-11 17:38:23
    目录 1 多元线性回归简介 ...利用多元线性回归模型可以根据多个因素来预测客户价值,当模型搭建完成后,便可对不同价值的客户采用不同的业务策略。 2.1 案例背景 这里以信用卡客户的客户价值为例来解..
  • 如何衡量多元线性回归模型优劣

    万次阅读 2014-11-13 17:11:57
    最近再做一些多元回归分析方面的分析,但对于得出的回归模型的好坏不知道如何才判断,于是查找了一下相关的教材书籍,找到了张文彤老师写的《SPSS统计分析高级教程》这本书,里面对于回归模型的优劣评价给出来了几点...
  • 线性回归过拟合 当线性回归模型过拟合时我们通常使用正则化的方法来进行优化,此时我们主要是对损失函数进行优化: 前半部分是我们在线性回归模型中的损失函数,也就是预测值和实际值的误差。后半部分是加入的正则...
  • 数学建模-线性回归

    2022-05-30 20:41:07
    多元线性回归 回归分析: 通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。 本次主要学习线性回归。(划分依据是因变量Y的类型) ps. 其他: 0-1回归,定序回归,计数回归...
  • 回归模型参考资料:https://mp.weixin.qq.com/s/mr83EK24S94b_UUlecyqlA对异常值非常敏感如果指数选择不当,容易过拟合。岭回归标准线性或多项式回归在特征变量之间存在很高的共线性(high collinearity,比如变量x1...
  • """# 利用 diabetes数据集来学习线性回归# diabetes 是一个关于糖尿病的数据集, 该数据集包括442个病人的生理数据及一年以后的病情发展情况。# 数据集中的特征值总共10项, 如下:# 年龄# 性别#体质指数#血压#s1,s2,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 34,013
精华内容 13,605
关键字:

线性回归模型的优缺点