精华内容
下载资源
问答
  • 线性回归模型缺点
    千次阅读
    2021-01-14 14:00:43

    线性回归是很基础的机器学习算法,本文将通俗易懂的介绍线性回归的基本概念,优缺点,8 种方法的速度评测,还有和逻辑回归的比较。

    什么是线性回归?

    线性回归的位置如上图所示,它属于机器学习 – 监督学习 – 回归 – 线性回归。

    扩展阅读:

    什么是回归?

    回归的目的是为了预测,比如预测明天的天气温度,预测股票的走势…

    回归之所以能预测是因为他通过历史数据,摸透了“套路”,然后通过这个套路来预测未来的结果。

    什么是线性?

    “越…,越…”符合这种说法的就可能是线性个关系:

    「房子」越大,「租金」就越高

    「汉堡」买的越多,花的「钱」就越多

    杯子里的「水」越多,「重量」就越大

    ……

    但是并非所有“越…,越…”都是线性的,比如“充电越久,电量越高”,他就类似下面的非线性曲线:

    线性关系不仅仅只能存在 2 个变量(二维平面)。3 个变量时(三维空间),线性关系就是一个平面,4 个变量时(四维空间),线性关系就是一个体。以此类推…

    什么是线性回归?

    线性回归本来是是统计学里的概念,现在经常被用在机器学习中。

    如果 2 个或者多个变量之间存在“线性关系”,那么我们就可以通过历史数据,摸清变量之间的“套路”,建立一个有效的模型,来预测未来的变量结果。

    线性回归的优缺点

    优点:建模速度快,不需要很复杂的计算,在数据量大的情况下依然运行速度很快。

    更多相关内容
  • 07_线性回归缺点

    千次阅读 2019-08-19 20:20:39
    y = wx + b 这种单项式在数学模型中表示一根直线,但是生产环境中很多的数据例如股票,销售涨跌它都是曲线结构的,这就会导致单项式的线性回归预测率低 构建单项式回归 大家可以看到,单项式线性回归在可视化...

    在这里插入图片描述


    博文配套视频课程:24小时实现从零到AI人工智能


    单项式缺点

    y = wx + b 这种单项式在数学模型中表示一根直线,但是生产环境中很多的数据例如股票,销售涨跌它都是曲线结构的,这就会导致单项式的线性回归预测率低

    构建单项式回归

    大家可以看到,单项式线性回归在可视化中生成的就是一条直线,直线的情况下预测曲线的真实数据是非常低的,因此一章节我们就来看如何采用多项式预测曲线数据

    import numpy as np
    import matplotlib.pyplot as plt
    # 在指定[-3,3]随机生成size个随机数(代表的特征值)
    x = np.random.uniform(-3,3,size=100)
    print(x,x.shape)
    # 模拟目标值(y) 与x并不是简单的线性关系
    y = 0.5 * x**2 + x + 2 + np.random.normal(0,1,size=100)
    plt.scatter(x,y)
    plt.show()
    

    在这里插入图片描述

    在这里插入图片描述

    展开全文
  • 多元线性回归模型的推广.pptx
  • 背景:最大似然法学习的简单的线性回归模型的第二个缺点—— 更正假设:对观测数据x进行非线性变换,使得满足如下(f[·]代表一个非线性变换)—— 重新建模、学习和推理: 最大似然方法: 建模: 构建关于...

    背景:最大似然法学习的简单的线性回归模型的第二个缺点——

     更正假设:对观测数据x进行非线性变换,使得满足如下(f[·]代表一个非线性变换)——

    重新建模、学习和推理: 

    最大似然方法:

    建模:

    构建关于全局状态的后验函数(似然函数)。 

    原始的模型:

     令Z←X,

     学习:

    最大化上述似然函数,令偏导等于0,求得参数关于已知数据的表达式。

    原模型的学习结果:

     令Z←X,

                                           ①

     推理:

    将新观测数据和预测分布代入已求得分布参数的模型中,计算关于预测分布的后验概率。

     贝叶斯方法:

    引入关于分布参数的先验,通过贝叶斯法则、应用正态分布乘积的自共轭性质,计算分布参数的后验,以分布参数的后验为权重对状态的后验进行加权求和,得到最终的状态概率。

    原模型的推理结果:

    Pr(w^*|x^*,X,w) \\ =Norm_w^*[\dfrac{\sigma_p^2}{\sigma^2}x^{*T}Xw-\dfrac{\sigma_p^2}{\sigma^2}x^{*T}X(X^TX+\dfrac{\sigma^2}{\sigma_p^2}\mathrm{I})^{-1}X^TXw, \\ \sigma_p^2x^{*T}x^*-\sigma_p^2x^{*T}X(X^TX+\dfrac{\sigma^2}{\sigma_p^2}\mathrm{I})^{-1}X^Tx^*+\sigma^2] , \qquad \sigma^2 \leftarrow \hat{\sigma}^2

      令Z←X,

                                                                                                               ②

     非线性变换的选择:

    选择一:

     选择二(通过径向基函数计算新向量z,这是一个高斯函数,用来表示任何球面对称函数,有两组参数,α是函数的中心,λ是控制宽度的缩放因子):

     选择三(通过反正切函数计算新向量z,同样有两组参数,α决定反正切函数的水平偏移值,λ控制函数变换的速度):

    z_i = \begin{bmatrix} 1 \\ arctan[\lambda x_i-\alpha_1] \\ arctan[\lambda x_i-\alpha_2] \\ arctan[\lambda x_i-\alpha_3] \\ arctan[\lambda x_i-\alpha_4] \\ arctan[\lambda x_i-\alpha_5] \\ arctan[\lambda x_i-\alpha_6] \\ \end{bmatrix}

    对原观测数据x的每一维经过上述非线性变换后得到一个新的向量z,再对向量z的每一维以向量φ为权重加权,接着求加权和,这个加权和作为状态的后验分布的均值(最大可能性位置),方差不变。

    线性与非线性变换的结果比较:

    不难发现,非线性的假设更符合实际,贝叶斯的方法比最大似然法置信度更低(前者的概率分布更扁平和即不确定性更高 )。


    提高计算效率的方法:

    核技巧:

            观察最大似然法的最终表达式①和贝叶斯方法的最终表达式②,均与计算内积项z^Tz有关,然而,当变换后的空间是高维空间,显示计算z=f[x]的乘积,成本太大了。

            因此,可以用核替换的方法,直接定义核函数k[·]=f[·]^T f[·],不再显示计算变换向量z,将数据投影到高危甚至无限维的空间中。

    三种有效核函数的例子(有效是利用Mercer定理定义的,是说核的参数在一个可测空间即非无限维吧时,核函数有效,并且核函数是半正定的):

    •  线性核:

    • p阶多项式核:

    •  径向基(RBF)或称高斯核:

    另外,有效核的和与积是半正定的,因此它们也是有效核。 

    高斯(核)过程回归:

    未使用核技巧的原表达式:

     使用高斯核的表达式(令 K[x,x]←z^T z):

             K[X,X]表示点积矩阵,k[x_i,x_j]是其元素。

    核函数的参数通过最大化边缘似然来求(高斯核只有一个参数λ要求,它决定宽度和平滑性):

     λ太大会太平滑,接近线性;λ太小,太过曲折,观测数据的状态太分散,新数据下模型无法成功在样本之间插值,距离样本均值太远的话,置信度太低;λ取值适中,则是最大似然的长度缩放参数的回归,不太平滑也不太分散。

     

    【注】这些学习笔记涉及到一些公式和图片,部分直接摘抄至 Dr Simon J D Prince著作的 Computer Vision Models Learning And Inference一书。

    展开全文
  • 线性回归模型的局限性和注意点

    千次阅读 2020-03-03 22:10:46
    回归分析是传统的研究变量关系很重要的一种方式,特别是在机器学习和深度... 线性回归分析在实际使用中,虽然简单有效,但是使用者往往很容易因为没有充分认识到线性回归模型的局限性和注意点而误用,导致得到很多...

           回归分析是传统的研究变量关系很重要的一种方式,特别是在机器学习和深度学习兴起之前,回归分析基本就是探究变量关系之间的主要方式。线性回归又是回归分析中很重要的一种方式,由于其模型的简单性和有效性,线性回归分析在回归分析中始终扮演极其重要的角色。

           线性回归分析在实际使用中,虽然简单有效,但是使用者往往很容易因为没有充分认识到线性回归模型的局限性和注意点而误用,导致得到很多不准确甚至相反的结论,因此本文将总结几点线性回归模型中的主要的局限性和注意点。

    1、线性模型,顾名思义,其只能捕捉变量之间的线性关系,对于一些非线性的特别是层级结构,其无能为力;因此,对于线性模型的使用,要预先对变量的特点有一个大概的了解,不能万事皆线性,数据一丢,回归一跑就完事,这是容易犯错的。通常情况下,线性模型可以捕捉到变量之间的线性关系,但是如果变量之间存在某种非线性函数关系,且预期函数是连续可微的,那么根据泰勒定理,该函数可以用多项式函数逼近,特别的,只要自变量变化够小,我们可以用线性模型去近似,这一点给我们对于线性模型的使用提供了一定的信心,特别是在高频交易领域,对于信号的建模,线性模型往往是更简单有效的。但是如果是对于一些自变量和因变量之间具有强烈的层级结构关系的情况,这时线性模型并不能较好的对其建模,这时使用机器学习中的其他方法建模往往具有更好的效果。所以,预先对变量的特点和变量之间的关系有大概的了解,然后选择合适的模型去建模估计参数是很重要的。

    2、我们建模的意义在于预测,在于对某种现象提供未来的参考意义,所以,一个模型在未来有效是建模的基本前提,不然模型将失去意义。那么在线性回归中,将如何保证,或者说在哪里体现出模型的未来有效性呢?一般在教科书中,对于时序数据,会要求变量的序列至少是平稳的,这里要求其平稳的意义就在于保证模型的未来有效性(在协整概念中,不要求序列平稳,但是应该存在协整关系,这里的协整关系也是一种对模型未来有效性的保证)。如果序列是平稳的,那么该模型就具有未来意义,可以保证当下估计的得到的模型,即当下得到的变量之间的关系在未来一定时间内是稳定的;如果序列不平稳,那么利用历史数据得到的模型就无法进行预测,因此,在建模时,我们总需要一些基本假设,默认这些假设在未来依然成立,那么模型得到的关系在未来才会成立,才能具有预测意义。但是在预期平稳性时,我们往往不会预期序列一直平稳,很多时候,有些变量序列会因为大环境的变化发生某种持久的改变,这时就需要进行重新估计模型,重新估计参数,所以我们一般只预期变量在未来一段时间平稳,模型只在未来一段有效,所以需要不断的调整模型,重新估计,调整参数。所以对于历史数据,当我们预期历史某些时点发生了一些可能改变变量特性的事件,也应该以该时点进行分化,进行分步回归,而不是放在一个回归之中。当然,有时如果我们可以预先知道变量系数和某些变量的关系,即使变量不平稳,那么我们也可以通过在模型中刻画这种具有时变性的特征进行估计,只不过这时模型严格来说不再是线性的,而是一种变形。总而言之,平稳性保证系数稳定,保证预测能力,时变形导致系数发生变化,可通过分步回归解决,或者使用新的具有时变特性的模型重新建模。

    3、R方是一个相对重要的衡量模型合适度的指标。R方是估计项的方差和真实项因变量方差的比值,R方越大,说明该模型越能解释因变量的变化,即该模型是越合适的。在不预先设定随机项分布的前提下,一般用最小二乘去估计模型的参数,在最小二乘方式下,如果自变量和其他解释变量数据不变,那么当新增一个解释变量后,R方几乎都是增加的,至少不会降低,这个从最小二乘的原理可以很容易的推导出来。所以通过R方直接对比不同模型的解释力是不合适的,如果直接通过R方对比,则应该控制变量个数,这也是在忽略数据层面的差异的前提下,对此,引出调整R方,其在定义误差项相变化比于总体因变量变化的比值时,考虑了自由度,考虑了变量个数,从而可以相对解决该问题,因此对于多元回归分析,在对比模型的解释力时,应该看调整R方,而不是R方。此外,只要自变量个数够多,那么R方总是可以够大,即因变量的变化总是可以通过增加解释变量的个数来被解释,但要注意的是,这种被解释只是在样本数据层面经由这种估计方法而呈现出来的一种数字结果,这是数学上的必然性结果;不断的增加自变量个数,相当于随机向量空间的维度不断增加,那么新增维度总是可以在生成新的估计向量时提供减小误差的帮助,最坏不过是该新增维度的系数为0,这样结果总是不会更差。所以盲目的新增解释变量,新增维度,会把随机项的维度也给部分覆盖掉,即把噪声也进行建模,这就造成了所谓的过拟合。过拟合的模型自然就是在样本内,因为数字游戏,使得因变量被解释的很好,R方很大,甚至接近1,但是在样本外,由于过拟合,造成模型不正确,具体的,变量个数和变量系数不正确,自然导致预测效果很差,即模型泛化能力很差,这样的模型是没有意义的。所以,这就引出了下一点,即应该如何避免过拟合,如何选择解释变量。

    4、一个模型的可靠性,不仅仅在于合理的建模方法,很大程度上还在于该模型背后的故事。线性回归得到的结果,单纯从统计意义上,只能得到相关关系,而统计上的相关关系如果要相对稳健的应用到现实中,我们往往要求解释变量和因变量之间具有严格逻辑支撑的因果关系。虽然统计上,也有类似Granger因果检验这种检验因果关系的方式,但是严格来说,这种检验也只是在时间先后上的一种相关性检验。如果不从哲学意义上论证因果关系的定义,只从传统以及现实应用的定义上,因果关系一定意味着时间上的先后性,但是这种时间尺度到底是多少是不确定的,到底是一个小时还是一天,甚至是一个月才会起作用?这背后还是需要严格分析的,所以在使用所谓的Granger因果检验时,还需要特别注意时间尺度的定义,比如,如果真实的因果关系需要在月的时间尺度上发挥作用,但是检验中的时间尺度定义是天,而且滞后项的选取不够长,那么该检验结果将是错误的。此外,即使检验出时间上的先后性,这只说明了因果关系的时间先后性,即该检验的结果是因果关系存在的必要条件,而不是充分条件,但是必要性的意义在于增加了因果关系存在的条件概率。最终的最终,模型的可靠性需要建立在因果关系上,而因果关系需要建立在逻辑分析上,这里的逻辑分析更具体的是指额外的基于逻辑而进行的分析和实证,并不是单纯停留在空想层面。所以,对于线性回归来说,更一般的做法是,根据潜在的逻辑关系去选择变量,而不是盲目加入变量,回归得到结果,这样很容易出现伪回归结果,即误把相关关系变量当做因果变量,从而造成模型的不稳健,不可靠。当然,也有一些非常规做法是通过data mining找到一些潜在有用的变量,但是最后还是要知道变量关系背后的逻辑,这步是不可缺少的,不然模型只是一个黑箱,容易出现意想不到的结果。当然,从统计意义上,这种黑箱还是具有一定的意义,只是模型不再那么稳健可靠,容易出现预料之外的结果,如果实在要使用这种黑箱,一定要明晰其局限性。

    5、模型的两大主要功能是变量分析和预测,前者一般在计量经济实证研究中比较常见,其研究的核心在于探究某个或者某几个变量对因变量的影响,所以着重点在于某个变量上,这种研究方式中,侧重对重点变量的系数估计的准确性,所以会涉及到变量遗漏的内生性问题分析,即围绕这个重点变量进行变量遗漏的内生性问题分析,查看是否有变量遗漏;对于预测来说,目的是预测因变量,所以是尽量找到可以解释因变量的潜在解释变量。对于这两点区别,在研究方式和侧重点上有所不同。前者强调对于重点变量对于因变量的影响,所以对其系数估计的准确性是核心,由于要准确估计其系数,那么可能影响系数估计的因素就需要排除,这类因素最需要注意的往往就是变量遗漏造成的内生性问题,这种内生变量具有的特点就是会因变量有影响同时和其他解释变量相关,那么这样的变量遗漏就会造成内生性问题,解决这类问题往往就是找全相应的遗漏变量,以满足外生性条件,或者找到工具变量。对于预测,则是找全潜在的解释变量,以更准确的进行预测,这时无论解释变量之间是否相关,都应尽可能补全;这种情况下,有时候由于数据量不足,同时存在解释变量之间高度相关,即多重共线性问题,就会造成变量系数估计不准确且方差过大,所以这会造成对预测的偏差较大,这时往往采取剔除其中之一的高度相关变量,然后再进行回归,这样虽然会造成系数估计不准确,但是由于剔除的变量和其中之一的解释变量高度相关,所以对因变量的预测并不会造成多大的影响。所以可以发现,对于两种不同的目的,侧重往往不一样。

    6、对于变量遗漏的内生性问题分析,没有行之有效的统计检验,直接检验出模型是否存在变量遗漏的内生性问题,对此,只能通过逻辑分析去判断是否存在可能的内生性问题,即是否存在和解释变量相关同时会影响因变量的变量。外生性条件是解释变量和随机项不相关,这是模型的一个基本假设,且无法从估计的结果进行检验,因为最小二乘估计方法得到的结果,就是通过解释变量和残差项正交得到的。这样一个基本假设的意义在于,保证了参数估计的无偏性和一致性,因此一旦存在内生性,参数估计的无偏性和一致性就得不到满足,就会存在误差。这个其实很好理解,如果存在变量遗漏,那么就相当于改变了解释变量空间,这样因变量到解释变量空间的最短距离造成的投影在各个解释变量上的分解肯定会发生变化,从而造成估计系数的变化。为了满足外生性条件(当然还有互为因果和测量误差也会造成内生性问题,但是测量误差对于不可重复的经济数据来说难以解决,互为因果可以通过滞后解决,而往往变量遗漏才是比较需要分析的地方),就需要尽量的多分析多思考,找全遗漏变量,或者找到合适的工具变量。如果找到了合适的工具变量,那么可以通过Hausman检验来判断原模型是否真的存在内生性问题,该检验的一个前提条件就是需要工具变量,而不是直接在原模型的基础上检验是否存在内生性问题,可是既然已经找到了合适的工具变量,说明内生性问题已经基本解决了,该检验也只在其他层面上具有一定的意义。

    展开全文
  • 多元线性回归常见问题

    千次阅读 2020-12-24 23:35:15
    0.多元线性回归多元线性回归是统计学中经常用到回归方法,一般需满足一下六个条件:随机误差项是一个期望值或平均值为0的随机变量;对于解释变量的所有观测值,随机误差项有相同的方差;随机误差项彼此不相关;解释...
  • 目录前言1 概述2 线性回归与机器学习3 线性回归的机器学习表示方法3.1 核心逻辑3.2 优化目标3.3 最小二乘法 1 概述 在正式进入到回归分析的相关算法讨论之前,我们需要对有监督学习算法中的回归问题进行进一步的分析...
  • 总结常见的机器学习线性回归的方法,最小二乘法、局部加权法、岭回归、Lasso回归、多项式回归公式推导过程
  • 今天小编就为大家分享一篇sklearn+python:线性回归案例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
  • 多元线性回归模型是一种简单而且有效的数学模型,一直在各领域广泛使用。一个多元回归模型建好后,如何评价模型的优劣呢?1. F值检验因变量的总变异(数据与均值之差的平方和,记为SStotal)由回归平方和(因变量的变异...
  • 主要有两个意愿,一个是想买米10,希望各位帅哥美女支持一下,觉得不错就打赏下,另为一个是想将十大经典算法的推导以及思路清清楚楚的理下,希望这整期教程对大家有帮助,第一期咱们讲线性回归。这期不似之前的实践...
  • 本文将会介绍五种常见的回归模型的概念及其优缺点,包括线性回归(Linear Regression), 多项式回归(Ploynomial Regression), 岭回归(Ridge Regression),Lasso回归和弹性回归网络(ElasticNet Regression). ...
  • 本文主要总结了解决非线性回归问题的机器学习方法,其中包括多项式线性模型、广义线性(GAM)模型、回归树模型、支持向量回归(SVR)模型,每个模型的方法都有其特点。 多项式线性模型和GAM模型侧重于经验风险误差最小...
  • 1.什么是回归? 回归是监督学习的一个重要问题,回归用于预测输入变量和输出变量之间的关系,特别是当输入变量的值发生变化时,输出变量的值也随之发生变化。...线性回归模型 f(x)=WX + b 目的:找出W,使得f(x...
  • 线性回归模型详解(Linear Regression)

    万次阅读 多人点赞 2020-11-10 20:41:05
    线性回归和逻辑回归
  • **线性回归(Linear Regression)**是一种通过属性的线性组合来进行预测的线性模型,其目的是找到一条直线或者一个平面或者更高维的超平面,使得预测值与真实值之间的误差最小化。 2.特点 优点:结果具有很好的可...
  • 多元线性回归模型常见问题及解决方法概要多元线性回归模型 基本假设 (1)随机扰动项ui数学期望(均值)为零。E(ui)=0 (2)随机扰动项ui的同方差性且无自相关Var(ui)=σ2 (3)解释变量X列线性无关。R(Xn×k)=K (4)随机扰动...
  • 线性回归模型算法原理及Python实现

    千次阅读 2021-01-24 18:17:55
    线性回归模型的一般表达式: 转换为向量表达形式为: 训练线性回归模型,主要是得到一组向量,使得均方误差MSE(成本函数)最小 参数求解方法一:标准方程 MSE为凸函数,有唯一最优解(最小值),为了求解...
  • 目录1、线性回归简介1.1 线性回归应用场景1.2 什么是线性回归1.2.1 定义与公式1.2.2 线性回归的特征与目标的关系分析2、线性回归api初步使用2.1 线性回归API2.2 举例2.2.1 步骤分析2.2.2 代码过程3、线性回归的损失...
  • 数学建模-线性回归

    2022-05-30 20:41:07
    多元线性回归 回归分析: 通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。 本次主要学习线性回归。(划分依据是因变量Y的类型) ps. 其他: 0-1回归,定序回归,计数回归...
  • ​使用线性回归模型前数据处理及注意;线性回归,针对线性数据,通过最小二乘法让损失函数(cost function)最小,求得方程系数,得到方程;多元线性回归求解cost function:正规方程法和梯度下降;准线性回归的延伸...
  • 机器学习线性回归模型Linear Regression is one of the fundamental supervised-machine learning algorithm. While it is relatively simple and might not seem fancy enough when compared to other Machine ...
  • 机器学习(线性回归模型预测)

    千次阅读 2021-11-13 13:40:53
    #线性回归模型缺点: #优点:快速;没有调节参数;可轻易解释;容易理解 #缺点:相比较于其他复杂模型,其准确率不高,因为它假设特征和响应之间存在确定的线性关系,这种假设对于非线性的关系,不能得到合适的...
  • 1.线性回归(Linear Regression) 1).介绍 线性回归是机器学习中最基础、最经典的算法之一,它利用线性函数对一个或多个自变量和因变量之间关系进行建模,建模过程就是使用数据点来寻找最佳拟合线。线性回归分为两...
  • 对于线性回归问题,通常有两种方法可以解决,即梯度下降法和标准方程法,两者各有优缺点 梯度下降法对于参数多的回归方程仍然适用,但并不是每次都能达到最优解,神经网络也需要梯度下降法来解决 标准方程法适用于...
  • 常用的线性回归模型小结

    千次阅读 2017-04-23 22:52:58
    先明确几个概念:方差指的是模型之间的差异,偏差指的是模型预测值和数据之间的差异。最小二乘法线性回归(Oridinary Least Squares, OLS)线性回归拟合具有系数w =(w_1,…,w_p)的线性模型,最小...线性回归模型
  • 结合现场实测数据,并对比线性回归模型和灰色理论模型预测结果,发现该模型的预测精度分别提高了2.46%和1.35%,数据拟合的相关系数也有一定程度的提高。实证结果表明,灰色线性回归组合模型可以更好地预测矿井瓦斯涌出量...
  • 线性回归是最流行和讨论最多的模型之一,它无疑是深入机器学习(ML)的入门之路。这种简单、直接的建模方法值得学习,...我们还将使用Python构建一个回归模型。 最后,我们将深入学习线性回归,学习共线性、假设检验、特
  • 岭回归是线性回归的正则化版本,即在原来的线性回归的cost function中添加正则项: 以达到在拟合数据的同时,使模型权重尽可能小的目的,岭回归代价函数: a=0:岭回归退化为线性回归 2.L...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 32,622
精华内容 13,048
关键字:

线性回归模型缺点