精华内容
下载资源
问答
  • 文章目录一、概述二、最小二乘估计 2021人工智能领域新星创作者,带你从入门到精通,该博客每天更新,逐渐...在高中时候我们学过最小二乘法就是求 a∗和b∗a^*和b^*a∗和b∗ 去拟合一条直线,来最大程度的是我们.

    如果需要完整代码可以关注下方公众号,后台回复“代码”即可获取,阿光期待着您的光临~


    2021人工智能领域新星创作者,带你从入门到精通,该博客每天更新,逐渐完善机器学习各个知识体系的文章,帮助大家更高效学习。


    一、概述

    在生活实际中经常遇到一些情况,比如根据公司内部一些人的工资待遇去预测一个将从事相同工作人的工资,我们需要根据已有数据来对未来的数据进行推测。

    在高中时候我们学过最小二乘法就是求 a ∗ 和 b ∗ a^*和b^* ab 去拟合一条直线,来最大程度的是我们的样本点落在该直线上。

    image-20210822105407401

    由上图,显然我们希望的是找到一条直线使所以的样本点尽可能靠近该直线,即每个样本点到直线的距离最短,其实这么说还不太对,它不是到直线的距离最短,而是到与该样本点相同x点的y值的距离最短,如果是到直线的距离最短没有几何意义,如果是竖直距离,它可以表示我们预测值和真实值之间的一种离散程度,显然这个差值越小越好。

    二、最小二乘估计

    根据上面的理解这就引出了我们的损失函数,也就是最小二乘估计:

    在给出公式之前,我们先给出一些约定,为了下面叙述方便:

    • x i x_i xi:每个样本为列向量,形状为(n,1)
    • X:样本矩阵,为(m,n)

    注意:
    X = [ x 1 T x 2 T . . . x m T ] = [ x 11 x 12 ⋯ x 1 n x 21 x 22 ⋯ x 2 n ⋮ ⋮ ⋱ ⋮ x m 1 x m 2 ⋯ x m n ] X=\begin{bmatrix}x_1^T\\x_2^T\\...\\x_m^T\end{bmatrix}\\=\begin{bmatrix}{x_{11}}&{x_{12}}&{\cdots}&{x_{1n}}\\{x_{21}}&{x_{22}}&{\cdots}&{x_{2n}}\\{\vdots}&{\vdots}&{\ddots}&{\vdots}\\{x_{m1}}&{x_{m2}}&{\cdots}&{x_{mn}}\\\end{bmatrix} X=x1Tx2T...xmT=x11x21xm1x12x22xm2x1nx2nxmn

    • w:为列向量,形状为(n,1)

    我们下面公式推导的时候没有b,只是用了 y = X W y=XW y=XW ,这只是为了方便,其实可以把b放在X中和W向量中一起计算也可以,这样就变成了:
    X = [ x 11 x 12 ⋯ x 1 n 1 x 21 x 22 ⋯ x 2 n 1 ⋮ ⋮ ⋱ ⋮ x m 1 x m 2 ⋯ x m n 1 ] X=\begin{bmatrix}{x_{11}}&{x_{12}}&{\cdots}&{x_{1n}}&1\\{x_{21}}&{x_{22}}&{\cdots}&{x_{2n}}&1\\{\vdots}&{\vdots}&{\ddots}&{\vdots}\\{x_{m1}}&{x_{m2}}&{\cdots}&{x_{mn}}&1\\\end{bmatrix} X=x11x21xm1x12x22xm2x1nx2nxmn111

    W = [ w 1 w 2 ⋮ w n w 0 ] W=\begin{bmatrix}w_1\\w_2\\\vdots\\w_n\\w0\end{bmatrix} W=w1w2wnw0

    如果把两个矩阵这样写,其实是和 X W + b = Y XW+b=Y XW+b=Y 是等价的。
    L ( w ) = ∑ i = 1 m ∣ ∣ w T x i − y i ∣ ∣ 2 = ∑ i = 1 m ( w T x i − y i ) 2 = [ w T x 1 − y 1 w T x 2 − y 2 . . . w T x m − y m ] [ w T x 1 − y 1 w T x 2 − y 2 . . . w T x m − y m ] = [ W T X T − Y T ] [ X W − Y ] = W T X T X W − Y T X W − W T X T Y + Y T Y = W T X T X W − 2 W T X T Y + Y T Y L(w)=\sum_{i=1}^m||w^Tx_i-y_i||^2\\=\sum_{i=1}^m(w^Tx_i-y_i)^2\\=\begin{bmatrix}w^Tx_1-y_1&&w^Tx_2-y_2&&...&&w^Tx_m-y_m\end{bmatrix}\begin{bmatrix}w^Tx_1-y_1\\w^Tx_2-y_2\\...\\w^Tx_m-y_m\end{bmatrix}\\=[W^TX^T-Y^T][XW-Y]\\=W^TX^TXW-Y^TXW-W^TX^TY+Y^TY\\=W^TX^TXW-2W^TX^TY+Y^TY L(w)=i=1mwTxiyi2=i=1m(wTxiyi)2=[wTx1y1wTx2y2...wTxmym]wTx1y1wTx2y2...wTxmym=[WTXTYT][XWY]=WTXTXWYTXWWTXTY+YTY=WTXTXW2WTXTY+YTY
    因为我们采用的是最小二乘估计,所以我们希望我们的损失函数最小,所以我们求取函数导数为0的点,就是我们的最优解,有人可能有疑问,导数为0的点不一定是最值点,这里说明一下,因为我们的损失函数为凸函数,有因为凸函数是可优化的,所以该函数导数为0的点一定是最值点。

    你可以想象二次函数 y = x 2 y=x^2 y=x2 ,他就是一个凸函数,显然它的导数为0的点一定是我们的最小值点,这里的损失函数为什么是最小值不予证明。

    所以我们的最优解就为:
    w ∗ = a r g m i n w L ( w ) w^*=argmin_wL(w) w=argminwL(w)
    此时就需要对函数进行求导,令其导数为0
    ∂ L ( w ) ∂ w = 2 X T X W − 2 X T Y = 0 \frac{\partial L(w)}{\partial w}=2X^TXW-2X^TY=0 wL(w)=2XTXW2XTY=0
    这里可能有人不会进行矩阵求导,我来讲两种方式,第一种就是损失函数不采用矩阵方式进行表达,用求和符号将其变成每个样本的损失然后求和,针对于每个样本对其求导,然后讲每个样本的导数相加,这样就避免了矩阵的求导。

    我采用的是第二种方式:

    我们讲原矩阵写成微分的形式:
    d L ( w ) = t r ( ∂ L ∂ w T d ( w ) ) = d ( W T X T X W − Y T X W − W T X T Y + Y T Y = W T X T X W − 2 W T X T Y + Y T Y ) = d ( W T ) X T X W + W T X T X d ( W ) − 2 d ( W T ) X T Y = X T X W d ( W T ) + W T X T X d ( W ) − 2 X T Y d ( W T ) dL(w)=tr(\frac{\partial L}{\partial w}^Td(w))=d(W^TX^TXW-Y^TXW-W^TX^TY+Y^TY\\=W^TX^TXW-2W^TX^TY+Y^TY)\\=d(W^T)X^TXW+W^TX^TXd(W)-2d(W^T)X^TY\\=X^TXWd(W^T)+W^TX^TXd(W)-2X^TYd(W^T) dL(w)=tr(wLTd(w))=d(WTXTXWYTXWWTXTY+YTY=WTXTXW2WTXTY+YTY)=d(WT)XTXW+WTXTXd(W)2d(WT)XTY=XTXWd(WT)+WTXTXd(W)2XTYd(WT)
    所以
    ∂ L ( w ) ∂ w = 2 X T X W − 2 X T Y = 0 \frac{\partial L(w)}{\partial w}=2X^TXW-2X^TY=0 wL(w)=2XTXW2XTY=0
    这样我们就求出了最优解w:
    w ∗ = ( X T X ) − 1 X T Y w^*=(X^TX)^{-1}X^TY w=(XTX)1XTY
    然后我们就可以构造决策函数:
    f ( x ) = ( w ∗ ) T x f(x)=(w^*)^Tx f(x)=(w)Tx
    使用该函数就可以拟合我们的每一个样本点。

    写在最后

         大家好,我是阿光,觉得文章还不错的话,记得“一键三连”哦!!!

    img

    展开全文
  • 最小二乘法推导以及理解

    千次阅读 2019-09-07 19:49:03
    我在网上发现了两种推导方式,于是自己跟着推导了一遍。。。。。 (一)(高数式推导): [参考博客](https://blog.csdn.net/MarsJohn/article/details/54911788) 这里先引入两个提前推得出的结论: ![两个...

    我在网上发现了两种推导方式,于是自己跟着推导了一遍。。。。。
    (一)(高数式推导):
    参考博客
    这里先引入两个提前推得出的结论:

    两个结论
    之后就是推导过程了。。。。抱歉我写的比较潦草。。。。
    在这里插入图片描述
    最后一行写不开了我就省略掉了,最终就能求出中学时学到的的公式。
    在这里插入图片描述
    为什么呢,因为只有和a,b有关的项为零,差的平方和才会达到最小。
    (二)(线性代数式推导)
    参考知乎专栏
    最直观最简单的推导方法是:
    在这里插入图片描述
    Theta就是表示我们要训练的权重

    我的理解:
    最小二乘法的目的在于寻找到合适的权重a和b,一般情况下a是向量,用差的平方和来表示拟合程度,因此,我们为了获得最优的拟合,就想办法让差的平方和最小,这就是我理解的最小二乘法。

    展开全文
  • 最小二乘法求解的两种表示方法

    千次阅读 2015-12-18 12:50:51
    之所以介绍向量表示法,一是因为使用向量可以大大简化公式,虽然开始时不易理解,一旦理解了再看类似的公式也会一目了然;二是因为编程需要,使用上一方法求解 w w 时,难免会用到循环,在一个程序中循环的嵌套...

    问题表述:

    有训练数据集 T={(x1,y1),(x2,y2),,(xN,yN)} ,其中,样本个数为N,每个样本有m个属性, xiR,yiR , 预测未知样本集的输出。
    很明显这是一个回归问题,我们想要求出一个回归函数 hw(x) (在线性回归下可以表示成 hw(x)=mi=0wixi=xTw ) ,使其在未知样本集得到期望的输出,一个很好的思路即是希望在已知的训练数据集上得到的输出 hw(x(i)) 与真实值 y(i) 足够小。于是我们可以定义一个损失函数

    J(w)=12i=1N(hw(x(i))y(i))2
    则我们的目的是使得损失函数最小。

    1.通用的表示方式

    我们使用梯度下降法来求解损失函数最小。即通过每次更新w,w更新的方向是损失函数对w的负梯度方向,每次更新之后损失函数都会变得更小,直到不能减小为止。包括两个步骤:1、初始化w;2、对w更新

    • inital w
    • repeat :
      • wj=wjαJ(w)wj

      其中, α 为步长,控制每次更新的幅度,而 J(w)wj 的计算如下:

      J(w)wj=wj(12i=1N(hw(x(i))y(i))2)=122i=1N(hw(x(i))y(i))x(i)j=i=1N(hw(x(i))y(i))x(i)j

      2.向量表示法

      之所以介绍向量表示法,一是因为使用向量可以大大简化公式,虽然开始时不易理解,一旦理解了再看类似的公式也会一目了然;二是因为编程需要,使用上一种方法求解 w 时,难免会用到循环,在一个程序中循环的嵌套往往意味着计算效率的降低,而使用Python的一个科学计算库Numpy,可以使用其中的函数将其全部变成矩阵\向量运算,提高了计算效率。其中用向量表示X,y 为 :

      X=(x(1))T(x(2))T(x(N))Ty=y(1)y(2)y(N)Xwy=(x(1))Twy(1)(x(2))Twy(2)(x(N))Twy(N)

      则损失函数的向量表示:

      J(w)=12i=1N(hw(x(i))y(i))2=12i=1N((x(i))Twy(i))2=12(Xwy)T(Xwy)

      w 的求导:
      w(J(w))=w12(Xwy)T(Xwy)=12w(wTXTXwwTXTyyTXw+yTy)=12wtr(wTXTXwwTXTyyTXw+yTy)=12(2XTXw2XTy)=XTXwXTy

      其中,等式第二步到第四步的推导用到了以下知识:

      • trABC=trBCA=trCAB
      • trA=trAT
      • AtrAB=BT
      • AtrABATC=CAB+CTABT
      • ATf(A)=(Af(A))T
      • wtr(wTXTXw)=(wTtr(wTXTXw))T=(wTXTX+wTXTX)T=XTXw
      • wtr(wTXTy)=wtr(yTXw)=XTy
    展开全文
  • 普通最小二乘法两种推导方法

    千次阅读 2019-06-24 14:51:58
    对于一个简单的线性回归模型,其形式为 其中是因变量,是自变量,表示出了之外其他可能影响的因素。我们要用这个模型来寻找在其他因素不变的情况下,对的影响大小,也就是说,在的情况下 ...第一是利用...

    对于一个简单的线性回归模型,其形式为[公式]

    其中[公式]是因变量,[公式]是自变量,[公式]表示出了[公式]之外其他可能影响[公式]的因素。我们要用这个模型来寻找在其他因素[公式]不变的情况下,[公式][公式]的影响大小[公式],也就是说,在[公式]的情况下

    [公式]

    这个线性公式表明不管[公式]的初值是多少,它的任何一个单位的变化对[公式]的影响都是相同的,这和很多经济学上的边际递增或者边际递减都是不符合的,这个问题之后再讨论。

    今天我们怎样估算出最准确的[公式]呢,我门有两个方法:

    • 第一种是利用两个假定推出
    • 第二种是利用残差的最小平方和最小

     

    那么我们要做出怎样的假定,才能估算出最准确的[公式]呢?

    首先,我们要保证

    [公式]

    其实这个假定并不是特别的强,因为只要截距[公式]被包含在等式之中,假设总体中[公式]就不会失掉什么。

    其次要保证,因素[公式][公式]之间不相关,也就是

    [公式] 或者说是 [公式]

    举一个例子,假设[公式]是受教育的年数,[公式]是工资水平,[公式]是影响工资水平的其他因素,这里是天生能力,如果受过8年教育的人的天生能力和受过16年教育的人的天生能力一样的话,那么就说明天生能力和受教育年数不相关,它们独立影响工资水平。如果天生能力越强的人受到的教育越多,那么这个假定则不成立。

    对于给定的样本[公式]

    [公式]

    对于所有的[公式]都成立,其中[公式]是第[公式]次观察的误差项,包含了出了自变量之外的所有其他变量

    根据[公式],就可以把[公式][公式]改写成为

    [公式]

    [公式]

     

    根据以上两个假设,我们就可以推导出最小二乘法的两个结果

    [公式]

    [公式]

    这里要强调,x和y回归的beta值,和两者之间的相关系数并不一样,相关系数等于

    [公式]

    当然,这个也可以利用残差的平方和推导出

    [公式]

    为了使得残差的平方和最小,使得此公式对[公式]的偏导为0,可以和前面得到相同的公式

    [公式]

    [公式]

    同样可以得到对[公式]的合理估计

    欢迎大家关注公众号“创小董”我会继续分享更多更真实的创业经历、经验、解决办法。

    展开全文
  • 假设 y = f(x),那么每个x应该会...最小二乘法就是最常用的一配线方式。最小二乘法是一数学优化技术,它通过最小误差的平方和找到一组数据的最佳函数匹配。最小二乘法常用于曲线拟合。下面,我们通过一个例子来...
  • 最小二乘法

    2019-09-26 10:12:41
    最小二乘法公式 y = a*x+ b; 其中式中N是数据点的个数。注意,以上式具有相同的分母,∑指逐项加法计算(取和)。∑x指对所有的x值求和,∑y指对所以的y值求和,∑(x^2)指对所有x的平方求和。∑xy指对所有的...
  • MATLAB实现最小二乘法

    万次阅读 多人点赞 2017-04-17 15:10:28
     最小二乘法(又称最小平方法)是一数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。  利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小...
  • n,也就是方程数要大于未知数,才用最小二乘法求系数矩阵W。下面根据Y矩阵是否为零矩阵来讨论如何求W: Y矩阵不为零矩阵 直接套用公式: Y矩阵为零矩阵 在||W||=1的前提下,的最小(n-rank(X))个特征值对应的...
  • 线性最小二乘法与非线性最小二乘法
  • 概念最小二乘法多项式曲线拟合,根据给定的m个点,并不要求这条曲线精确地经过这些点,而是曲线y=f(x)的近似曲线y= φ(x)。原理给定数据点pi(xi,yi),其中i=1,2,…,m。求近似曲线y= φ(x)。并且使得近似曲线与y=f(x)...
  • 智能车学习----最小二乘法求拟合曲线(中线)的斜率

    万次阅读 多人点赞 2019-04-18 21:30:03
    最小二乘法(又称最小平方法)是一数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最 小,简单来说...
  • 最小二乘法在三坐标测量时常常被提起,那什么是最小二乘法呢?它具备什么样的特点?根据标准,哪些要求必须采用最小二乘法呢?今天我们就来聊一聊这个传说中的最小二乘法。在认识最小二乘法之前,我们必须要先认识一...
  • 最小二乘法及算法实现

    万次阅读 多人点赞 2017-12-12 17:39:51
    代码最小二乘法是一优化方法。通过最小化误差的平方和来寻找数据的最佳函数进行匹配。线性函数模型:线性函数模型: Y=B^0+B^1X Y = \hat B_0 + \hat B_1 X残差形式写为: Yi=B^0+B^1X1+ei Y_i = \hat B_0 + \...
  • 最小二乘法拟合圆

    2020-12-08 08:34:49
    圆拟合的方法有非常多种,最小二乘法属于比較简单的一。今天就先将这样的。我们知道圆方程能够写为:(x?xc)2+(y?yc)2=R2通常的最小二乘拟合要求距离的平方和最小。也就是f=∑((xi?xc)2+(yi?yc)2????????????...
  • 线性最小二乘法

    千次阅读 2020-07-08 21:37:50
    最小二乘法是一相对来说比较简单而且易于理解的算法,在分类回归算法中经常使用。最近在学习Deep Learning这本书,遇到线性最小二乘,刚开始对于书本上的公式还不是很理解,后来经过查阅资料,对线性最小二乘的...
  • 最小二乘法 java

    2021-02-27 11:28:12
    最小二乘法拟合java实现源程序(转) 因为我所在的项目要用到最小二乘法拟合,所有我抽时间将C++实现的程序改为JAVA实现,现在贴出来,供大家参考使用./** * 函数功能:最小二乘法曲线拟合 * @ ... 最小二乘法多项式...
  • 最小二乘法应用

    2021-07-03 06:02:13
    最小二乘法的数据处理一、引言在实际的工程或者实验中,误差处理和数据的统计是一项必备的过程,处理误差和数据统计的结果与否关系到这项工程最后的结果是否达到预计的要求,所测量数据的实际值和理论值是否接近,...
  • 机器学习十大经典算法之最小二乘法

    千次阅读 多人点赞 2020-07-17 22:02:44
    最小二乘法(又称最小平方法)是一数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法...
  • 最小二乘法 通俗讲解

    千次阅读 2018-11-13 15:18:16
    若侵权,告知即删。 最小二乘是每个上过大学的同学都接触过的概念与知识点(当然可能纯文科的同学没接触过,但是一般纯文科的同学也不会看这...但是每次说到最小二乘,总感觉差了点什么似的,好像对于最小二乘的前世...
  • python实现线性回归之最小二乘法最小二乘法详解

    万次阅读 多人点赞 2019-06-02 14:42:54
    线性回归是确定两种两种以上变量的相互依赖关系。在数据分析中,线性回归是最简单且最有效的分析方法。举个简单的例子,某商品的利润在售价为2元、5元、10元时分别为4元、10元、20元,我们很容易得出商品的利润与...
  • 求解下列最小二乘的解: ,其中 解法一:由基本的实值函数对向量的求导公式推导 ...下面只对上面两种解法解析,具体如下: 求解BN的反向传播公式 1.BN算法的计算过程如下: 其中m是批的...
  • Python- sklearn之最小二乘法

    万次阅读 多人点赞 2018-06-07 14:30:27
    人曾为谁最早创立最小二乘法原理发生争执。  1829年,高斯提供了最小二乘法的优化效果强于其他方法的证明,见高斯-马尔可夫定理。   ----维基百科 2. 最小二乘法在机器学习中被用来 3. 高中关于最小二乘法估计 ...
  • 最小二乘法原理及应用

    千次阅读 2021-06-09 10:03:39
    最小二乘法是一在误差估计、不确定度、系统辨识及预测、预报等数据处理诸多学科领域得到广泛应用的数学工具。
  • 线性回归是利用数理统计中回归分析,来确定两种两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。在线性回归中,数据使用线性预测函数来建模,并且未知的模型参数也是通过数据来估计。由于市场...
  • 最小二乘法的几解释

    千次阅读 2020-10-17 15:05:05
    文章目录基础准备最小二乘法的几何意义典型相关分析主成分分析第一解释 经过一段时间的学习,对偏最小二乘法有了一些了解。下面主要是针对PLS1,也就是单响应变量的情况 基础准备 最小二乘法的几何意义 y=Xβ=β1...
  • 最小二乘法 几何意义

    千次阅读 2019-07-17 15:43:43
    上次写了篇文章来阐述几何投影与傅里叶级数的联系,今天我想谈谈几何投影与最小二乘法的联系,这种联系的好处是不管多复杂的公式,又可以被瞬间记住了。本文的中心思想是:最小二乘法中的几何意义是高维空间中的一个...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 10,418
精华内容 4,167
关键字:

最小二乘法两种公式