-
2021-01-14 14:00:43
线性回归是很基础的机器学习算法,本文将通俗易懂的介绍线性回归的基本概念,优缺点,8 种方法的速度评测,还有和逻辑回归的比较。
什么是线性回归?
线性回归的位置如上图所示,它属于机器学习 – 监督学习 – 回归 – 线性回归。
扩展阅读:
什么是回归?
回归的目的是为了预测,比如预测明天的天气温度,预测股票的走势…
回归之所以能预测是因为他通过历史数据,摸透了“套路”,然后通过这个套路来预测未来的结果。
什么是线性?
“越…,越…”符合这种说法的就可能是线性个关系:
「房子」越大,「租金」就越高
「汉堡」买的越多,花的「钱」就越多
杯子里的「水」越多,「重量」就越大
……
但是并非所有“越…,越…”都是线性的,比如“充电越久,电量越高”,他就类似下面的非线性曲线:
线性关系不仅仅只能存在 2 个变量(二维平面)。3 个变量时(三维空间),线性关系就是一个平面,4 个变量时(四维空间),线性关系就是一个体。以此类推…
什么是线性回归?
线性回归本来是是统计学里的概念,现在经常被用在机器学习中。
如果 2 个或者多个变量之间存在“线性关系”,那么我们就可以通过历史数据,摸清变量之间的“套路”,建立一个有效的模型,来预测未来的变量结果。
线性回归的优缺点
优点:建模速度快,不需要很复杂的计算,在数据量大的情况下依然运行速度很快。
更多相关内容 -
多元线性回归模型的推广.pptx
2021-10-02 18:11:23多元线性回归模型的推广.pptx -
多元线性回归学习小结
2020-05-21 08:00:25什么是多元线性回归– MLR? 多元线性回归(MLR),也简称为多元回归,是一种统计技术,它使用多个解释变量来预测响应变量的结果。 多元线性回归(MLR)的目标是为解释性(独立)变量与响应(因变量)之间的线性关系...什么是多元线性回归– MLR?
多元线性回归(MLR),也简称为多元回归,是一种统计技术,它使用多个解释变量来预测响应变量的结果。 多元线性回归(MLR)的目标是为解释性(独立)变量与响应(因变量)之间的线性关系建模。
本质上,多元回归是普通最小二乘(OLS)回归的扩展,涉及多个解释变量。
首先是公式:
y = 是因变量
x = 解释变量
β 0 = 截距
β p = 每个的变量倾斜系数解释多元线性回归
简单的线性回归是允许分析人员或统计人员基于已知的另一变量的信息对一个变量进行预测的功能。仅当线性回归具有两个连续变量时,才可以使用线性回归:自变量和因变量。自变量是用于计算因变量或结果的参数。多元回归模型扩展到几个解释变量。多元回归模型基于以下假设:
因变量和自变量之间存在线性关系。
自变量彼此之间的相关性不是很高。
yi观测值是从总体中独立且随机选择的。
残差的正态分布应为平均值0和方差σ。确定系数(R平方)是一种统计量度,用于测量结果变量中的多少可以通过自变量中的变量来解释。 R2总是随着向MLR模型添加更多的预测变量而增加,即使这些预测变量可能与结果变量无关。
因此,R2本身不能用于识别模型中应包含哪些预测变量,应排除哪些预测变量。 R2只能介于0和1之间,其中0表示结果不能由任何自变量预测,而1表示可以预测结果而自变量没有错误。
在解释多元回归的结果时,β系数在保持所有其他变量不变(“其他均相等”)的同时有效。多元回归的输出可以水平显示为方程式,也可以垂直显示为表格形式。
多重线性回归的例子
例如,分析师可能想知道市场的波动如何影响埃克森美孚(XOM)的价格。在这种情况下,他的线性方程式将以S&P 500指数的值作为自变量或预测变量,以XOM的价格作为因变量。实际上,有多种因素可以预测事件的结果。例如,埃克森美孚的价格走势不仅取决于整个市场的表现。其他预测因素,例如石油价格,利率和石油期货价格走势,可能会影响XOM的价格和其他石油公司的股价。为了理解其中存在两个以上变量的关系,使用了多元线性回归。
多元线性回归(MLR)用于确定许多随机变量之间的数学关系。换句话说,MLR检查多个自变量与一个因变量的关系。一旦确定了每个独立因素以预测因变量,就可以使用有关多个变量的信息来准确预测它们对结果变量的影响程度。该模型以最接近所有单个数据点的直线(线性)形式创建关系。
在我们的示例中,参考上面的MLR公式:
最小二乘估计值B0,B1,B2…Bp通常由统计软件计算。回归模型中可以包含许多变量,其中每个自变量用数字1,2,3,4 … p进行区分。多元回归模型允许分析师基于在多个解释变量上提供的信息来预测结果。
尽管如此,该模型并不总是完全准确的,因为每个数据点可能与模型预测的结果略有不同。剩余值E是实际结果与预测结果之间的差,已包含在模型中以说明这种微小变化。
假设我们通过统计计算软件运行XOM价格回归模型,该模型将返回以下输出:
多元线性回归的输出以预测埃克森美孚的股价
分析师会将此输出解释为,如果其他变量保持不变,则如果市场上的石油价格上涨1%,XOM的价格将上涨7.8%。该模型还显示,随着利率上升1%,XOM的价格将下降1.5%。 R2表示埃克森美孚股价变化的86.5%可以用利率,石油价格,石油期货和S&P 500指数的变化来解释。线性回归与多元回归之间的差异
线性(OLS)回归比较给定变量在某些说明性变量发生变化时的响应。 但是,很少有因变量仅由一个变量解释。 在这种情况下,分析师使用多元回归,该回归尝试使用多个自变量来解释因变量。 多元回归可以是线性的也可以是非线性的。多元回归基于以下假设:因变量和自变量之间都存在线性关系。 它还假设自变量之间没有主要的相关性。
-
多元线性回归常见问题
2020-12-24 23:35:150.多元线性回归多元线性回归是统计学中经常用到回归方法,一般需满足一下六个条件:随机误差项是一个期望值或平均值为0的随机变量;对于解释变量的所有观测值,随机误差项有相同的方差;随机误差项彼此不相关;解释...0.多元线性回归
多元线性回归是统计学中经常用到回归方法,一般需满足一下六个条件:
随机误差项是一个期望值或平均值为0的随机变量;
对于解释变量的所有观测值,随机误差项有相同的方差;
随机误差项彼此不相关;
解释变量是确定性变量,不是随机变量,与随机误差项彼此之间相互独立
解释变量之间不存在精确的(完全的)线性关系
随机误差项服从正态分布。
但以上六个条件算是比较严格的条件,在实践中大部分情况下难以满足。由于无法满足假设条件,因此多元线性回归也经常遇到多重共线性、自相关、异方差等问题。下面就总结下这三个常见的问题。
1.多重共线性
多重共线性是解释变量存在线性关系或者近似的线性关系,多重共线性影响的模型一般为底层是线性的模型,例如:回归、SVM等
如果变量间不存在多重共线性,则变量系数组成的矩阵应该是满秩的,且变量间不存在共线性不代表变量间不存在非线性关系
产生变量相关性的原因有很多,一般为经济变量之间的相同变化趋势,模型中包含滞后变量和截面数据等等
1.1多重共线性的检验
计算相关系数,因为相关系数是对线性相关的度量
对于线性回归来说,删除或者增加变量系数是不是有较大变化
系数的正负号是否与现实相违背
系数通不过显著性检验
变量之间做回归,计算可决系数和VIF=1/(1-可决系数)来度量,也称为方差扩大因子法
1.2多重共线性的影响后果
共线性使最小二乘法预估的参数不确定且估计值方差较大,方差较大又会导致参数的置信区间增大
回归显著但是回归系数通不过检验,甚至会出现回归系数的正负号的不到合理的解释
但是如果遇到必须使用这些变量度量且为了预测Y,则可以对这些变量进行线性组合
1.3多重共线性的处理方法
删除变量--这个方法一般不推荐使用,因为删除变量会导致异方差增大,异方差后面会讲到
增加样本容量--这个好像现实中也不是很好实现,毕竟能用的数据肯定都会用的,时效性不强的也没太大用
变换模型--对数据求差分;计算相对指标;吧相关变量做线性组合,即小类合并成大类;----比较靠谱的做法
逐步回归----常用方法,添加删除变量之后做可决系数、F检验和T检验来确定是否增加或者剔除变量,若果增加变量对这些指标的影响较小,也认为指标为多余的,如果增加指标引起R和F的变动且通不过T检验,说明存在共线性---常常使用的方法
岭回归---但是岭回归的参数k不好选择,k的选择严重影响方差和偏倚程度
2.异方差性
什么是异方差呢,我们前面写线性回归的时候说过,做线性回归应假定随机扰动项满足l平均值和同方差,同方差表示的是所有变量对其均值的分散程度相同,由于u=0,所以也可以说是Y围绕回归线均值的分散程度,但是如果u对不同x呈现的离散程度不同,则称u具有异方差性,也就是被解释变量的观测值分散程度随着解释变量的变化而 变化,也可以说异方差是某个解释变量引起的
2.1产生异方差的原因
模型的设定(例如多重共线性变量的删除,但是变量与y具有相关性,也会产生异方差)
测量误差和截面数据的影响
2.3异方差的影响
存在异方差将不能保证最小二乘法估计的方差最小,但是模型的拟合依然是无偏性和一致性,但不具有有效性,即不具有最小方差
异方差会导致参数的方差增大,如果还是使用不存在异方差时的方法进行估计,则会低估参数方差
破坏t检验和f检验的有效性
image
由于参数估计不满足方差最小,所以不是有效的,则对Y的预测也是无效的
2.4异方差的检验
相关图检验---观察随着x的增加y的离散程度是否增加,如果增加说明存在递增的异方差
残差图分析
image
image
image
White检验
基本思想是如果存在异方差,x与u存在相关关系,所以white检验不但可以检验异方差,还可以检验时哪个变量导致的异方差,但该方法要求大样本,但是解释变量过多又会导致丧失自由度,所以一般用u与预测值y和y的平方做回归,用F检验检验是否存在异方差,H0所有系数为0不存在异方差,否则存在异方差
2.5异方差的处理
加权最小二乘法
方差越小,样本偏离均值的程度越小,越重视,权重越大,否则越小,一般权重使用1/x,1/x2,1/根号x
模型对数变换,log之后缩小了异方差的范围
3.自相关
自相关即u存在自相关,即cov(u)不等于0,不满足线性回归的假定
3.1自相关产生的原因
经济活动滞后和经济系统的惯性
3.2自相关的后果
存在自相关将不能保证最小二乘法估计的方差最小,但是模型的拟合依然是无偏性和一致性,但不具有有效性,即不具有最小方差,所以估计的参数不是最佳线性无偏估计
低估真实的方差会导致高估t检验的值,夸大参数显著性,本来不重要的变量会变为重要的变量,失去t检验的意义
方差的变大导致预测变量的区间增加,降低了预测的精度
3.3自相关的检验
残差图---et与e(t-1)的相关图
DW检验
但是DW检验的前提条件较多,首先需要u为一阶自回归,而且回归必须存在常数项
image
image
image
image
3.4自相关的处理
差分法
科克伦--奥克特迭代
基本思想是对变量回归,求残差u,u=相关系数*u(t-1)+随机扰动项
然后根据计算出来的相关系数做差分,yt-相关系数y(t-1)=yt
用yt和xt做回归
然后令最终计算的参数=上一步计算的参数/(1-上一步的相关系数)
迭代直到两次相关系数相差很小时作为最佳的相关系数
-
python 多元线性回归_如何评价多元线性回归模型的优劣
2020-11-21 12:14:14多元线性回归模型是一种简单而且有效的数学模型,一直在各领域广泛使用。一个多元回归模型建好后,如何评价模型的优劣呢?1. F值检验因变量的总变异(数据与均值之差的平方和,记为SStotal)由回归平方和(因变量的变异...多元线性回归模型是一种简单而且有效的数学模型,一直在各领域广泛使用。一个多元回归模型建好后,如何评价模型的优劣呢?
1. F值检验
因变量的总变异(数据与均值之差的平方和,记为SStotal)由回归平方和(因变量的变异中可以由自变量解释的部分,记为SSR)与误差平方和(记为SSE)构成,如果自变量引起的变异大于随机误差引起的变异,则说明因变量与至少一个自变量存在线性关系。回归平方和与误差平方和的比值记为F,F值服从F分布,通过查F分布概率表可得F值对应的概率,从而判断是否存在统计学意义。F值越大越好。
2. 偏回归系数检验
通过了F检验只说明因变量至少和一个自变量存在线性关系,但不是所有x都跟y存在线性关系。对每个变量的回归系数分别作t检验,假设回归系数为0,得到的概率值越小越好,一般取0.05作为临界值。
3. 标准化偏回归系数
y和x均经过标准化,均值为0,标准差为1,此时的回归结果常数项为0.消除了量纲的影响,更能直观表示自变量对因变量的影响。如果某项回归系数接近0,则说明该自变量与因变量的不具有线性关系,应当剔除。
4. 复相关系数R
指的是因变量与因变量的估计值(回归后得出的值)之间的简单线性相关系数,范围在0-1之间,一般来说,R值应大于0.9,但在某些社会科学研究中只要求R大于0.4,这是因为在社会科学研究中存在大量对因变量有影响却无法进行量化的因数,无法纳入模型研究。值得注意的是,即使向模型增加的变量没有统计学意义,R值也会增加,所以R值只作为参考。
5. 决定系数R2
因变量总变异中由模型中自变量解释部分的比例。也是越大越好,但是存在与R同样的问题。
R2=SSR/SStotal=1-SSE/SStotal
6.校正的决定系数R2adj
将自变量的个数纳入了考量范围,解决了R2 的局限性,不会随着自变量的增加而增加。当模型中增加的自变量缺乏统计学意义时,校正的决定系数会减小。该项系数越大越好。
R2adj=1-(n-1)(1- R2)/(n-p-1) n表示样本量,p表示模型中自变量个数
7.剩余标准差
误差均方的算术平方根,该值应明显小于因变量的标准差,越小越好。说明在引入模型自变量后,因变量的变异明显减小。
8. 赤池信息准则AIC
包含两部分,一部分反映拟合精度,一部分反映模型繁简程度(自变量个数越少模型越简洁),该值越小越好。值得注意的是,用最小二乘法拟合模型与用最大似然估计拟合的模型,其AIC计算方法是不一样的,所以用AIC进行模型比较时应注意拟合的方法是相同的才行。
最小二乘法拟合时:AIC=nln(SSE/n)+2p
最大似然估计拟合时:AIC=-2ln(L)+2p L为模型的最大似然函数
以上8种数据很多统计软件都能方便地输出。
9.预测效果
在数据量较大时,可留一部分数据用作预测,根据预测结果判断模型优劣。
-
多元线性回归
2022-07-14 16:44:16在这里,我们依然使用房价数据,但是在前面的...在进行多元的梯度下降时,如果各个特征的取值范围比较相近,那么梯度下降的收敛速度会比较快。其实在[-1,1]之间也是可以的,例如不会超过3,或者不低于1/3都是可以的。. -
多元线性回归及案例(Python)
2022-04-11 17:38:231 多元线性回归简介 2 案例:客户价值预测模型 2.1 案例背景 2.2具体代码 3模型评估 参考书籍 1 多元线性回归简介 多元线性回归模型可以表示为如下所示的公式。 其中x1、x2、x3……为不同的特征变量,k1... -
sklearn+python:线性回归案例
2020-09-17 21:08:07今天小编就为大家分享一篇sklearn+python:线性回归案例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧 -
多元线性回归分析(Stata)
2022-01-14 10:12:47线性回归:因变量Y为连续性数值变量,例如GDP的增长率 0-1回归:因变量Y为0-1型变量,例如P2P公司研究借款人是否能按时还贷,那么Y可以设计为二值变量,Y=0时代表可以还贷,Y=1时代表不能还贷 定序回归:... -
多元线性回归三大问题.ppt
2021-01-17 08:49:42多元线性回归三大问题§4.1 异方差性§4.2 序列相关性§4.3 多重共线性§4.4 随机解释变量问题 基本假定违背主要 包括: (1)随机误差项序列存在异方差性 (2)随机误差项序列存在序列相关性 (3)解释变量之间存在多重共... -
多元线性回归分析
2021-08-07 20:34:33多元线性回归分析 回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决。回归分析的任务就是,通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而... -
多元线性回归模型常见问题及解决方法概要.ppt
2020-12-24 23:34:45多元线性回归模型常见问题及解决方法概要多元线性回归模型 基本假设 (1)随机扰动项ui数学期望(均值)为零。E(ui)=0 (2)随机扰动项ui的同方差性且无自相关Var(ui)=σ2 (3)解释变量X列线性无关。R(Xn×k)=K (4)随机扰动... -
如何衡量多元线性回归模型优劣
2014-11-13 17:11:57最近再做一些多元回归分析方面的分析,但对于得出的回归模型的好坏不知道如何才判断,于是查找了一下相关的教材书籍,找到了张文彤老师写的《SPSS统计分析高级教程》这本书,里面对于回归模型的优劣评价给出来了几点... -
多元线性回归MLR
2021-10-10 23:19:49多元线性回归(MLR) 文章目录多元线性回归(MLR)由极大似然估计(MLE, Maximum likelihood estimation)推导MSE简单导数知识推导解析解(θ=(XTX)−1XTY\theta = (X^TX)^{-1}X^TYθ=(XTX)−1XTY)来个例子试一试吧不用解析... -
多元线性回归的基础理解
2018-11-19 01:09:28多元线性回归 Multivarate Linear Regression Multiple Feature 前面我们学习了一元线性回归,也动手亲自从底层编写了梯度下降算法来实现一元线性回归。相信大家已经对梯度下降和线性回归有了很清晰的理解了。 ... -
5-7 多元线性回归
2019-08-21 22:25:231. 多元线性回归的正规方程解 每个样本有多个特征 向量化 , 其中是样本矩阵X前面加上一列1 目标: 使尽可能的小---向量化了,提高运算效率 多元线性回归的正规方程解: 求出: 缺点: 时间复杂度高:O(n^3) ... -
ML - 多元线性回归
2022-01-02 21:52:40文章目录关于 多元线性回归求解算法封装使用 sklearn 处理 boston 房价回归问题使用 kNN 解决多元线性回归问题 关于 多元线性回归 简单线性回归:假设样本只有一个特征值; 多元线性回归:解决 很多特征值 。 y^... -
多元线性回归原理
2019-03-27 21:36:17例子先行 一元线性:拿房价预测来说,房价就只与一个特征size(feet^2)有关: ... age of home....,为了引入这些特征,有了多元线性回归,x1,x2,x3,x4为特征,y为预测的价格。 符号引入: n:特征的数量 ... -
回归分析|笔记整理(7)——多元线性回归(下),违背基本假设的情况
2020-12-24 23:33:46大家好!我又出现了(*^__^*) 嘻嘻。...目录多元线性回归(下)偏回归平方和部分系数显著性检验违背基本假设的情况异方差性异方差性检验异方差性问题处理方法一元加权最小二乘估计多元加权最小二乘估计自相关性自相关... -
【吴恩达机器学习笔记详解】第四章 多变量的线性回归(多元线性回归)
2022-04-25 21:07:07我们之前介绍的线性回归是一个变量(特征)对预测价格的影响,像这个例子中是房子的大小对价格的影响 下面会介绍更为复杂的情况就是多个变量(特征)对于房子价格的影响 在这个多变量的图中,下面解释了每个符号... -
吴恩达机器学习笔记(四)——多元线性回归
2021-05-08 15:07:00但是在实际生活中,我们还会考虑许多因素,因此通常会使用到多元线性回归。 在这里,我们依然使用波特兰的房价数据,但是在前面的基础上,增加了多个特征进行房价的预测。具体如下图: 为此我们需要增加一些符号的... -
数学建模解多元线性回归问题.pdf
2022-06-24 04:30:50数学建模解多元线性回归问题.pdf数学建模解多元线性回归问题.pdf数学建模解多元线性回归问题.pdf数学建模解多元线性回归问题.pdf数学建模解多元线性回归问题.pdf数学建模解多元线性回归问题.pdf数学建模解多元线性... -
多元线性回归—异方差
2021-06-15 16:11:082 什么是异方差 经典线性回归方程 y = β X + ε y = \boldsymbol \beta \boldsymbol X +\boldsymbol \varepsilon y=βX+ε 普通最小二乘(OLS)估计量 β ^ o l s = ( X ′ X ) − 1 X ′ Y = ( X ′ X ) − 1 X ... -
【机器学习】线性回归,多元线性回归、自回归及衡量指标
2018-01-20 14:03:24经典线性模型自变量的线性预测就是因变量的估计值。 广义线性模型:自变量的线性预测的函数是因变量的...1.线性回归原理 其中,为偏置参数,M为特征数目,为基函数(径向基函数(rbf)、sigmoid基函数等), 特... -
三、用矩阵求解多元线性回归
2021-09-15 21:21:03一、多元线性回归函数;二、使用梯度下降法处理多元线性回归函数;三、特征缩放;四、学习率α;五、特征和多项式回归;六、正规方程 -
机器学习:多元线性回归
2021-01-30 18:54:26一、多元线性回归基础简单线性回归算法只有一个特征值(x),通常线性回归算法中有多个特征值,有的甚至有成千上万个特征值;多元线性回归中有多种特征,每一种特征都与 y 呈线性关系,只是线性关系的系数不同;多元... -
数学建模学习笔记(六)——多元线性回归分析
2021-08-07 13:46:00文章目录一、综述二、常见的回归分析三、对于相关性的理解四、一元线性回归模型五、对于回归系数的解释六、内生性七、四类线性模型回归系数的解释对于定性变量的处理——虚拟变量XXX八、下面来看一个实例九、扰动项... -
机器学习(四)多元线性回归和正规方程
2022-01-02 13:34:54本文介绍了多元线性回归以及两个相关的算法,分别是多元梯度下降法以及正规方程法,除此之外还讨论了特征以及多项式回归的问题。 多元线性回归是一种新的线性回归版本,适用于多个变量或者多特征量的情况。 多元梯度... -
机器学习 -- 多元线性回归(Ⅰ多元线性回归和正规方程解)
2019-11-04 09:34:251.多元线性回归 如下图,有X1,X2,...,Xn多个变量。 (1)多元线性回归的目标 (2)转换成矩阵相乘 (3)推导结果 以上式子被称为多元线性回归的正规方程解(Normal Equation)。多元线性回归...