精华内容
下载资源
问答
  • 多元线性回归模型缺点
    千次阅读
    2021-01-14 14:00:43

    线性回归是很基础的机器学习算法,本文将通俗易懂的介绍线性回归的基本概念,优缺点,8 种方法的速度评测,还有和逻辑回归的比较。

    什么是线性回归?

    线性回归的位置如上图所示,它属于机器学习 – 监督学习 – 回归 – 线性回归。

    扩展阅读:

    什么是回归?

    回归的目的是为了预测,比如预测明天的天气温度,预测股票的走势…

    回归之所以能预测是因为他通过历史数据,摸透了“套路”,然后通过这个套路来预测未来的结果。

    什么是线性?

    “越…,越…”符合这种说法的就可能是线性个关系:

    「房子」越大,「租金」就越高

    「汉堡」买的越多,花的「钱」就越多

    杯子里的「水」越多,「重量」就越大

    ……

    但是并非所有“越…,越…”都是线性的,比如“充电越久,电量越高”,他就类似下面的非线性曲线:

    线性关系不仅仅只能存在 2 个变量(二维平面)。3 个变量时(三维空间),线性关系就是一个平面,4 个变量时(四维空间),线性关系就是一个体。以此类推…

    什么是线性回归?

    线性回归本来是是统计学里的概念,现在经常被用在机器学习中。

    如果 2 个或者多个变量之间存在“线性关系”,那么我们就可以通过历史数据,摸清变量之间的“套路”,建立一个有效的模型,来预测未来的变量结果。

    线性回归的优缺点

    优点:建模速度快,不需要很复杂的计算,在数据量大的情况下依然运行速度很快。

    更多相关内容
  • 多元线性回归模型的推广.pptx
  • 多元线性回归常见问题

    千次阅读 2020-12-24 23:35:15
    0.多元线性回归多元线性回归是统计学中经常用到回归方法,一般需满足一下六个条件:随机误差项是一个期望值或平均值为0的随机变量;对于解释变量的所有观测值,随机误差项有相同的方差;随机误差项彼此不相关;解释...

    0.多元线性回归

    多元线性回归是统计学中经常用到回归方法,一般需满足一下六个条件:

    随机误差项是一个期望值或平均值为0的随机变量;

    对于解释变量的所有观测值,随机误差项有相同的方差;

    随机误差项彼此不相关;

    解释变量是确定性变量,不是随机变量,与随机误差项彼此之间相互独立

    解释变量之间不存在精确的(完全的)线性关系

    随机误差项服从正态分布。

    但以上六个条件算是比较严格的条件,在实践中大部分情况下难以满足。由于无法满足假设条件,因此多元线性回归也经常遇到多重共线性、自相关、异方差等问题。下面就总结下这三个常见的问题。

    1.多重共线性

    多重共线性是解释变量存在线性关系或者近似的线性关系,多重共线性影响的模型一般为底层是线性的模型,例如:回归、SVM等

    如果变量间不存在多重共线性,则变量系数组成的矩阵应该是满秩的,且变量间不存在共线性不代表变量间不存在非线性关系

    产生变量相关性的原因有很多,一般为经济变量之间的相同变化趋势,模型中包含滞后变量和截面数据等等

    1.1多重共线性的检验

    计算相关系数,因为相关系数是对线性相关的度量

    对于线性回归来说,删除或者增加变量系数是不是有较大变化

    系数的正负号是否与现实相违背

    系数通不过显著性检验

    变量之间做回归,计算可决系数和VIF=1/(1-可决系数)来度量,也称为方差扩大因子法

    1.2多重共线性的影响后果

    共线性使最小二乘法预估的参数不确定且估计值方差较大,方差较大又会导致参数的置信区间增大

    回归显著但是回归系数通不过检验,甚至会出现回归系数的正负号的不到合理的解释

    但是如果遇到必须使用这些变量度量且为了预测Y,则可以对这些变量进行线性组合

    1.3多重共线性的处理方法

    删除变量--这个方法一般不推荐使用,因为删除变量会导致异方差增大,异方差后面会讲到

    增加样本容量--这个好像现实中也不是很好实现,毕竟能用的数据肯定都会用的,时效性不强的也没太大用

    变换模型--对数据求差分;计算相对指标;吧相关变量做线性组合,即小类合并成大类;----比较靠谱的做法

    逐步回归----常用方法,添加删除变量之后做可决系数、F检验和T检验来确定是否增加或者剔除变量,若果增加变量对这些指标的影响较小,也认为指标为多余的,如果增加指标引起R和F的变动且通不过T检验,说明存在共线性---常常使用的方法

    岭回归---但是岭回归的参数k不好选择,k的选择严重影响方差和偏倚程度

    2.异方差性

    什么是异方差呢,我们前面写线性回归的时候说过,做线性回归应假定随机扰动项满足l平均值和同方差,同方差表示的是所有变量对其均值的分散程度相同,由于u=0,所以也可以说是Y围绕回归线均值的分散程度,但是如果u对不同x呈现的离散程度不同,则称u具有异方差性,也就是被解释变量的观测值分散程度随着解释变量的变化而 变化,也可以说异方差是某个解释变量引起的

    2.1产生异方差的原因

    模型的设定(例如多重共线性变量的删除,但是变量与y具有相关性,也会产生异方差)

    测量误差和截面数据的影响

    2.3异方差的影响

    存在异方差将不能保证最小二乘法估计的方差最小,但是模型的拟合依然是无偏性和一致性,但不具有有效性,即不具有最小方差

    异方差会导致参数的方差增大,如果还是使用不存在异方差时的方法进行估计,则会低估参数方差

    破坏t检验和f检验的有效性

    image

    由于参数估计不满足方差最小,所以不是有效的,则对Y的预测也是无效的

    2.4异方差的检验

    相关图检验---观察随着x的增加y的离散程度是否增加,如果增加说明存在递增的异方差

    残差图分析

    image

    image

    image

    White检验

    基本思想是如果存在异方差,x与u存在相关关系,所以white检验不但可以检验异方差,还可以检验时哪个变量导致的异方差,但该方法要求大样本,但是解释变量过多又会导致丧失自由度,所以一般用u与预测值y和y的平方做回归,用F检验检验是否存在异方差,H0所有系数为0不存在异方差,否则存在异方差

    2.5异方差的处理

    加权最小二乘法

    方差越小,样本偏离均值的程度越小,越重视,权重越大,否则越小,一般权重使用1/x,1/x2,1/根号x

    模型对数变换,log之后缩小了异方差的范围

    3.自相关

    自相关即u存在自相关,即cov(u)不等于0,不满足线性回归的假定

    3.1自相关产生的原因

    经济活动滞后和经济系统的惯性

    3.2自相关的后果

    存在自相关将不能保证最小二乘法估计的方差最小,但是模型的拟合依然是无偏性和一致性,但不具有有效性,即不具有最小方差,所以估计的参数不是最佳线性无偏估计

    低估真实的方差会导致高估t检验的值,夸大参数显著性,本来不重要的变量会变为重要的变量,失去t检验的意义

    方差的变大导致预测变量的区间增加,降低了预测的精度

    3.3自相关的检验

    残差图---et与e(t-1)的相关图

    DW检验

    但是DW检验的前提条件较多,首先需要u为一阶自回归,而且回归必须存在常数项

    image

    image

    image

    image

    3.4自相关的处理

    差分法

    科克伦--奥克特迭代

    基本思想是对变量回归,求残差u,u=相关系数*u(t-1)+随机扰动项

    然后根据计算出来的相关系数做差分,yt-相关系数y(t-1)=yt

    用yt和xt做回归

    然后令最终计算的参数=上一步计算的参数/(1-上一步的相关系数)

    迭代直到两次相关系数相差很小时作为最佳的相关系数

    展开全文
  • 多元线性回归模型是一种简单而且有效的数学模型,一直在各领域广泛使用。一个多元回归模型建好后,如何评价模型的优劣呢?1. F值检验因变量的总变异(数据与均值之差的平方和,记为SStotal)由回归平方和(因变量的变异...

    多元线性回归模型是一种简单而且有效的数学模型,一直在各领域广泛使用。一个多元回归模型建好后,如何评价模型的优劣呢?

    1. F值检验

    因变量的总变异(数据与均值之差的平方和,记为SStotal)由回归平方和(因变量的变异中可以由自变量解释的部分,记为SSR)与误差平方和(记为SSE)构成,如果自变量引起的变异大于随机误差引起的变异,则说明因变量与至少一个自变量存在线性关系。回归平方和与误差平方和的比值记为F,F值服从F分布,通过查F分布概率表可得F值对应的概率,从而判断是否存在统计学意义。F值越大越好。

    2. 偏回归系数检验

    通过了F检验只说明因变量至少和一个自变量存在线性关系,但不是所有x都跟y存在线性关系。对每个变量的回归系数分别作t检验,假设回归系数为0,得到的概率值越小越好,一般取0.05作为临界值。

    3. 标准化偏回归系数

    y和x均经过标准化,均值为0,标准差为1,此时的回归结果常数项为0.消除了量纲的影响,更能直观表示自变量对因变量的影响。如果某项回归系数接近0,则说明该自变量与因变量的不具有线性关系,应当剔除。

    4. 复相关系数R

    指的是因变量与因变量的估计值(回归后得出的值)之间的简单线性相关系数,范围在0-1之间,一般来说,R值应大于0.9,但在某些社会科学研究中只要求R大于0.4,这是因为在社会科学研究中存在大量对因变量有影响却无法进行量化的因数,无法纳入模型研究。值得注意的是,即使向模型增加的变量没有统计学意义,R值也会增加,所以R值只作为参考。

    5. 决定系数R2

    因变量总变异中由模型中自变量解释部分的比例。也是越大越好,但是存在与R同样的问题。

    R2=SSR/SStotal=1-SSE/SStotal

    6.校正的决定系数R2adj

    将自变量的个数纳入了考量范围,解决了R2 的局限性,不会随着自变量的增加而增加。当模型中增加的自变量缺乏统计学意义时,校正的决定系数会减小。该项系数越大越好。

    R2adj=1-(n-1)(1- R2)/(n-p-1) n表示样本量,p表示模型中自变量个数

    7.剩余标准差

    误差均方的算术平方根,该值应明显小于因变量的标准差,越小越好。说明在引入模型自变量后,因变量的变异明显减小。

    8. 赤池信息准则AIC

    包含两部分,一部分反映拟合精度,一部分反映模型繁简程度(自变量个数越少模型越简洁),该值越小越好。值得注意的是,用最小二乘法拟合模型与用最大似然估计拟合的模型,其AIC计算方法是不一样的,所以用AIC进行模型比较时应注意拟合的方法是相同的才行。

    最小二乘法拟合时:AIC=nln(SSE/n)+2p

    最大似然估计拟合时:AIC=-2ln(L)+2p L为模型的最大似然函数

    以上8种数据很多统计软件都能方便地输出。

    9.预测效果

    在数据量较大时,可留一部分数据用作预测,根据预测结果判断模型优劣。

    fba26983993d4c1cd47f9f05fa031dc7.png
    展开全文
  • 多元线性回归模型常见问题及解决方法概要多元线性回归模型 基本假设 (1)随机扰动项ui数学期望(均值)为零。E(ui)=0 (2)随机扰动项ui的同方差性且无自相关Var(ui)=σ2 (3)解释变量X列线性无关。R(Xn×k)=K (4)随机扰动...

    多元线性回归模型常见问题及解决方法概要

    多元线性回归模型 基本假设 (1)随机扰动项ui数学期望(均值)为零。E(ui)=0 (2)随机扰动项ui的同方差性且无自相关Var(ui)=σ2 (3)解释变量X列线性无关。R(Xn×k)=K (4)随机扰动项ui与解释变量X不相关。cov(ui,X)=0 异方差性的定义 对于线性回归模型 同方差性假设为 如果出现 即对于不同的样本点,随机误差项的方差不再是常数,而是互不相同,则认为出现了异方差性(Heteroscedasticity)。 实际经济问题中的异方差性 (1)研究居民家庭的储蓄行为 Yi=β0+β1Xi+ui Y-储蓄额 X-可支配收入 ui的方差单调递增 (2)居民消费函数 Ci=β0+β1Yi+ui 将居民收入等距离分成n组,取组平均数作为样本观测值。 Y服从正态分布。人数多的组平均数误差小。 样本观测值的观测误差随解释变量观测值改变。 异方差性的检验 异方差性,即相对于不同的样本点,也就是相对于不同的解释变量观测值,随机误差项具有不同的方差。 检验异方差性,就是检验随机误差项的方差与解释变量观测值之间的相关性。 问题在于随机误差项的方差如何估计? 一般处理方法是先采用普通最小二乘法估计模型,得到随机误差项的估计量,用 表示,称为近似估计量。即 检验方法 (1)图示检验法—大概判断 (2)帕克检验与戈里瑟检验 (3)GQ检验 (4)怀特检验 怀特(White)检验 以两个解释变量的回归模型为例,说明怀特检验的基本思想与步骤。 设回归模型为 Yi=β0+β1X1i+β2X2i+μi 先对模型作普通最小二乘回归,得到 ,然后作辅助回归: 在同方差性假设下,辅助回归的可决系数R2与样本容量n的乘积,渐进地服从自由度为辅助回归方程中解释变量个数的χ2分布,即 nR2~χ2 在大样本下,对统计量nR2进行相应的χ2检验。 若存在异方差性,表明 与解释变量的某种组合有显著的相关性,这时往往有较大的可决系数R2,并且某一参数的t检验值较大。 加权最小二乘法(WLS) 加权最小二乘法(Weighted Least Squares, WLS)是对原模型加权,使之变成一个新的不存在异方差性的模型,然后采用普通最小二乘法估计其参数。 加权的基本思想:在采用普通最小二乘法时,对较小的残差平方赋予较大的权数,对较大的赋予较小的权数,从而对残差提供的信息的重要程度作校正,提高参数估计的精度。 加权最小二乘法就是对加了权重的残差平方和实施普通最小二乘法。 记wi为权数,则加了权重的残差平方和为 如在异方差检验过程中已知 即随机误差项的方差 与解释变量Xji之间存在相关性。 可以用 去除原模型,使之变为如下形式新模型: 在新模型中, 即满足同方差性,可用普通最小二乘法估计其参数,得到参数β0,β1,…,βk的无偏、有效估计量。 上述即为加权最小二乘法,其中权数为 。 普通最小二乘法只是加权最小二乘法中权数恒取1的一种特例,加权最小二乘法具有比普通最小二乘法更普遍的意义。 加权最小二乘法也称为广义最小二乘法(Generalized Least Squares, GLS)。 加权最小二乘法的关键是寻找适当的权,或者说是寻找随机误差项μ的方差与解释变量之间适当的函数形式。如发现 则加权最小二乘法中的权即为 。 序列相关性的定义 对于线性回归模型 在其他假设仍成立的条件下,随机误差项序列相关即Cov(μi,μj)=E(μiμj)≠0 序列相关性经常出现在以时间序列为样本的模型里。自相关现象是指一个变量前后期数值之间存在的相关关系。μt=ρμt-1+εt 序列相关性产生的原因 经济变量故有的惯性(物价指数,消费) 模型设定的偏误 数据的编造 (由已知数据生成) (一)经济变量故有的惯性 消费函数模型: 消费习惯没有包括在解释变量中,其对消费的影响包含在随机误差项中,产生序列相关性。 (二)模型设定的偏误 模型设定偏误指所设定的模型不正确,表现为遗漏了重要解释变量或模型函数形式有偏误。 如应估计模型 但将模型设定为 序列相关性的检验 序列相关性检验的思路:首先采用普通最小二乘法估计模型,以求得随机误差项的近似估计量,用 表示: 然后通过分析这些近似估计量之间的相关性,以达到判断随机误差项是否具有序列相关性的目的。 序列相关性的检验方法有:回归检验法、D.W.检验法、冯诺曼比检验法等。 回归检验法 以 为被解释变量,以各种可能的相关量,如

    展开全文
  • 多元线性回归

    2022-07-14 16:44:16
    在这里,我们依然使用房价数据,但是在前面的...在进行多元的梯度下降时,如果各个特征的取值范围比较相近,那么梯度下降的收敛速度会比较快。其实在[-1,1]之间也是可以的,例如不会超过3,或者不低于1/3都是可以的。.
  • 多元线性回归及案例(Python)

    千次阅读 2022-04-11 17:38:23
    目录 1 多元线性回归简介 ...利用多元线性回归模型可以根据多个因素来预测客户价值,当模型搭建完成后,便可对不同价值的客户采用不同的业务策略。 2.1 案例背景 这里以信用卡客户的客户价值为例来解..
  • 多元线性回归:这是一种线性回归的形式,当有两个或多个预测因子时使用。 我们将看到多个输入变量如何共同影响输出变量,同时还将了解计算与简单LR模型的不同之处。我们还将使用Python构建一个回归模型。 最后,我们...
  • 多元线性回归分析(Stata)

    万次阅读 多人点赞 2022-01-14 10:12:47
    线性回归:因变量Y为连续性数值变量,例如GDP的增长率 0-1回归:因变量Y为0-1型变量,例如P2P公司研究借款人是否能按时还贷,那么Y可以设计为二值变量,Y=0时代表可以还贷,Y=1时代表不能还贷 定序回归:...
  • 多元线性回归学习小结

    千次阅读 2020-05-21 08:00:25
    什么是多元线性回归– MLR? 多元线性回归(MLR),也简称为多元回归,是一种统计技术,它使用多个解释变量来预测响应变量的结果。 多元线性回归(MLR)的目标是为解释性(独立)变量与响应(因变量)之间的线性关系...
  • 最近忙于毕设的事情,有很长一段时间没有写笔记了,近段时间学习上需要用到一些回归模型的知识,此条笔记用来记录学习笔记,声明:参考视频来源于李进华博士,大家可以去搜他的视频,讲解深入浅出,非常到位。...
  • 多元线性回归三大问题§4.1 异方差性§4.2 序列相关性§4.3 多重共线性§4.4 随机解释变量问题 基本假定违背主要 包括: (1)随机误差项序列存在异方差性 (2)随机误差项序列存在序列相关性 (3)解释变量之间存在多重共...
  • 多元线性回归MLR

    2021-10-10 23:19:49
    多元线性回归(MLR) 文章目录多元线性回归(MLR)由极大似然估计(MLE, Maximum likelihood estimation)推导MSE简单导数知识推导解析解(θ=(XTX)−1XTY\theta = (X^TX)^{-1}X^TYθ=(XTX)−1XTY)来个例子试一试吧不用解析...
  • 1.数据集的导入以及自变量和因变量的选取作为机器学习的入门知识点和模型,网上有很多sklearn库实现线性回归的例子。不过在这里我会从最开始的模型训练到最后的模型调优,统一地进行一个练习,以便对线性回归有个更...
  • 今天小编就为大家分享一篇sklearn+python:线性回归案例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
  • 多元线性回归的基础理解

    万次阅读 多人点赞 2018-11-19 01:09:28
    多元线性回归  Multivarate Linear Regression Multiple Feature 前面我们学习了一元线性回归,也动手亲自从底层编写了梯度下降算法来实现一元线性回归。相信大家已经对梯度下降和线性回归有了很清晰的理解了。 ...
  • 文章目录一、综述二、常见的回归分析三、对于相关性的理解四、一元线性回归模型五、对于回归系数的解释六、内生性七、四类线性模型回归系数的解释对于定性变量的处理——虚拟变量XXX八、下面来看一个实例九、扰动项...
  • 多元线性回归原理

    千次阅读 2019-03-27 21:36:17
    例子先行 一元线性:拿房价预测来说,房价就只与一个特征size(feet^2)有关: ... age of home....,为了引入这些特征,有了多元线性回归,x1,x2,x3,x4为特征,y为预测的价格。 符号引入: n:特征的数量 ...
  • 多元线性回归—异方差

    千次阅读 2021-06-15 16:11:08
    2 什么是异方差 经典线性回归方程 y = β X + ε y = \boldsymbol \beta \boldsymbol X +\boldsymbol \varepsilon y=βX+ε 普通最小二乘(OLS)估计量 β ^ o l s = ( X ′ X ) − 1 X ′ Y = ( X ′ X ) − 1 X ...
  • 多元线性回归分析

    千次阅读 2021-08-07 20:34:33
    多元线性回归分析 回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决。回归分析的任务就是,通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而...
  • 一、多元线性回归基础简单线性回归算法只有一个特征值(x),通常...多元线性回归模型中,每一种特征都与值(也就是 y)呈线性关系,从θ1 到θn ,以此为第一个特征到第 n 个特征与值的线性关系系数,θ1 是第一个特征(...
  • 经典线性模型自变量的线性预测就是因变量的估计值。 广义线性模型:自变量的线性预测的函数是因变量的...1.线性回归原理 其中,为偏置参数,M为特征数目,为基函数(径向基函数(rbf)、sigmoid基函数等), 特...
  • 大家好!我又出现了(*^__^*) 嘻嘻。...目录多元线性回归(下)偏回归平方和部分系数显著性检验违背基本假设的情况异方差性异方差性检验异方差性问题处理方法一元加权最小二乘估计多元加权最小二乘估计自相关性自相关...
  • 5-7 多元线性回归

    2019-08-21 22:25:23
    1. 多元线性回归的正规方程解 每个样本有多个特征 向量化 , 其中是样本矩阵X前面加上一列1 目标: 使尽可能的小---向量化了,提高运算效率 多元线性回归的正规方程解: 求出: 缺点: 时间复杂度高:O(n^3) ...
  • 如何衡量多元线性回归模型优劣

    万次阅读 2014-11-13 17:11:57
    最近再做一些多元回归分析方面的分析,但对于得出的回归模型的好坏不知道如何才判断,于是查找了一下相关的教材书籍,找到了张文彤老师写的《SPSS统计分析高级教程》这本书,里面对于回归模型的优劣评价给出来了几点...
  • 三、用矩阵求解多元线性回归

    千次阅读 2021-09-15 21:21:03
    一、多元线性回归函数;二、使用梯度下降法处理多元线性回归函数;三、特征缩放;四、学习率α;五、特征和多项式回归;六、正规方程
  • 但是在实际生活中,我们还会考虑许多因素,因此通常会使用到多元线性回归。 在这里,我们依然使用波特兰的房价数据,但是在前面的基础上,增加了多个特征进行房价的预测。具体如下图: 为此我们需要增加一些符号的...
  • ML - 多元线性回归

    2022-01-02 21:52:40
    文章目录关于 多元线性回归求解算法封装使用 sklearn 处理 boston 房价回归问题使用 kNN 解决多元线性回归问题 关于 多元线性回归 简单线性回归:假设样本只有一个特征值; 多元线性回归:解决 很多特征值 。 y^...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 4,673
精华内容 1,869
关键字:

多元线性回归模型缺点

友情链接: wriit__terminal__port.rar