精华内容
下载资源
问答
  • 2020-03-23 02:44:23

    最小二乘估计矩阵形式的推导

    最近写文章有用到一些算法,自己推一下,顺便mark下来。
    这么久我才发现csdn居然都能写Tex了(666)。

    考虑一般线性回归模型(OLR)

    考虑只含有一个指标的一般线性回归模型(ordinary linear regression model)有如下形式:
    y i = β 0 + β 1 x i 1 + ϵ , i = 1 , 2 , … , n y_i=\beta_0+\beta_1x_{i1}+\epsilon,i=1,2,\dots,n yi=β0+β1xi1+ϵi=1,2,,n
    显然这是基于 n n n个观测数据或者叫样本的模型形式。其中 β 0 \beta_0 β0称为截距项系数, β 1 \beta_1 β1称为 x 1 x_1 x1的回归系数,它们都是未知的常值参数。 ϵ \epsilon ϵ是不能被观测到的随机误差项,并且满足 E ( ϵ ) = 0 E(\epsilon)=0 E(ϵ)=0, V a r ( ϵ ) = σ 2 > 0 \mathrm{Var(\epsilon)}=\sigma^2>0 Var(ϵ)=σ2>0。其实是有 x 0 x_0 x0的,只是通常认为 x 0 = 1 x_0=1 x0=1。还有一个关键的假设就是 x x x不是随机变量( x x x要都随机了,这模型就没法玩了)。

    实际上我们所研究的问题往往包含多个指标。那么这些指标 ( x 1 , x 2 , . . . , x p ) (x_1,x_2,...,x_p) (x1,x2,...,xp)就对对应 ( β 0 , β 1 , . . . , β p ) (\beta_0,\beta_1,...,\beta_p) (β0,β1,...,βp)个回归系数,这个时候模型的形式就变成了多元线性回归模型:
    y i = β 0 + β 1 x i 1 + β 2 x i 2 + ⋯ + β p x i p + ϵ i , i = 1 , 2 , … , n y_i=\beta_0+\beta_1x_{i1}+\beta_2x_{i2}+\cdots+\beta_px_{ip}+\epsilon_i , i=1,2,\dots,n yi=β0+β1xi1+β2xi2++βpxip+ϵii=1,2,,n
    所以为了简化计算和书写方便,我们可以把它写成矩阵的形式:
    Y = X β + ϵ Y=X\boldsymbol{\beta}+\boldsymbol{\epsilon} Y=Xβ+ϵ

    Y = [ y 1 y 2 ⋮ y n ] X = [ 1 x 11 ⋯ x 1 p 1 x 21 ⋯ x 2 p ⋮ ⋮ ⋮ ⋮ 1 x n 1 ⋯ x n p ] β = [ β 0 β 1 ⋮ β p ] ε = [ ε 1 ε 2 ⋮ ε n ] Y=\begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \\ \end{bmatrix} X=\begin{bmatrix} 1 & x_{11} & \cdots & x_{1p} \\ 1 & x_{21} & \cdots & x_{2p} \\ \vdots & \vdots & \vdots &\vdots \\ 1 & x_{n1} & \cdots & x_{np} \\ \end{bmatrix} \boldsymbol{\beta}=\begin{bmatrix} \beta_0\\ \beta_1\\ \vdots\\ \beta_p\\ \end{bmatrix} \boldsymbol{\varepsilon}=\begin{bmatrix} \varepsilon_1\\ \varepsilon_2\\ \vdots\\ \varepsilon_n\\ \end{bmatrix} Y=y1y2ynX=111x11x21xn1x1px2pxnpβ=β0β1βpε=ε1ε2εn
    其中 X X X称为设计矩阵(只是习惯叫法), Y Y Y就不多说了。同样也有一些前提: X X X必须是列满秩;随机误差向量 ε \boldsymbol{\varepsilon} ε要满足高斯-马尔科夫条件(1829年,高斯提供了最小二乘法的优化效果强于其他方法的证明,因此被称为高斯-马尔可夫定理):
    (i) E ( ε ) = 0 E(\boldsymbol{\varepsilon})=0 E(ε)=0
    (ii) V a r ( ε ) = σ 2 I \mathrm{Var(\boldsymbol{\varepsilon)}}=\sigma^2\boldsymbol{I} Var(ε)=σ2I

    最小二乘估计

    最小二乘估计法 ( L S E ) (LSE) (LSE),它和机器学习领域的梯度下降法还是有一定的区别的(后者没有这么多假设,实用性更广泛),准确的来讲 L E S LES LES只是一种算法,因为随机误差向量 ϵ \boldsymbol{\epsilon} ϵ并不能被观测,所以回归方程不存在解,我们只能尽可能的去接近真实值从而解出全局最优解,即确定一个 β ^ \hat{\boldsymbol{\beta}} β^使得 ε = Y − X β \boldsymbol{\varepsilon}=Y-X\boldsymbol{\beta} ε=YXβ各元素的平方和达到最小,可以记为:
    Q ( β ) = ∑ i = 1 n ε i 2 = ε T ε = ( Y − X β ) T ( Y − X β ) = ( Y T Y − 2 β T X T Y + β T X T X β ) \begin{aligned} Q(\boldsymbol{\beta}) &=\sum_{i=1}^n\varepsilon_i^2\\ &=\boldsymbol{\varepsilon}^T\boldsymbol{\varepsilon}\\ &=(Y-X\boldsymbol{\beta})^T(Y-X\boldsymbol{\beta})\\ &=(Y^TY-2\boldsymbol{\beta}^TX^TY+\boldsymbol{\beta}^TX^TX\boldsymbol{\beta}) \end{aligned} Q(β)=i=1nεi2=εTε=(YXβ)T(YXβ)=(YTY2βTXTY+βTXTXβ)

    令:
    ∂ Q ( β ) ∂ β = − 2 X T Y + 2 X T X β = 0 \frac{\partial{Q(\boldsymbol{\beta})}}{\partial\beta}=-2X^TY+2X^TX\boldsymbol{\beta}=0 βQ(β)=2XTY+2XTXβ=0
    这里需要一些矩阵求导的概念,接下来我们就可以得到一个叫做正规方程 的东西:
    X T X β = X T Y X^TX\boldsymbol{\beta}=X^TY XTXβ=XTY
    r a n k ( X T X ) = r a n k ( X ) = p + 1 \mathrm{rank}(X^TX)=\mathrm{rank}(X)=p+1 rank(XTX)=rank(X)=p+1 X T X X^TX XTX是正定矩阵,所以 X X X^X XX存在逆矩阵,那么正规方法就有唯一解了:
    β ^ = ( β ^ 0 , β ^ 1 , ⋯   , β ^ p ) T = ( X T X ) − 1 X T Y \hat{\boldsymbol{\beta}}=(\hat{\beta}_0,\hat{\beta}_1,\cdots,\hat{\beta}_p)^T=(X^TX)^{-1}X^TY β^=(β^0,β^1,,β^p)T=(XTX)1XTY
    此时 β \boldsymbol{\beta} β的估计就得到了,如果再把它带回到模型中去就有:
    Y ^ = X β ^ = X ( X T X ) − 1 X T Y = S Y \hat{Y}=X\hat{\boldsymbol{\beta}}=X(X^TX)^{-1}X^TY=SY Y^=Xβ^=X(XTX)1XTY=SY
    一般统计学上称 S S S Y Y Y的帽子矩阵,这个称呼是因为有 S S S的存在使 Y Y Y带上了帽子(总感觉怪怪的?)接下来看残差:
    ε ^ = Y − Y ^ = ( I − H ) Y \hat{\boldsymbol{\varepsilon}}=Y-\hat{Y}=(I-H)Y ε^=YY^=(IH)Y
    I I I n n n阶的单位矩阵,显然残差的总和为0,是因为 Q ( β ) Q(\boldsymbol{\beta}) Q(β)对截距项求偏导数等于0时:
    − 2 ∑ i = 1 n [ y i − ( β 0 + ∑ i = 1 p β i x i ) ] = 0 -2\sum_{i=1}^n[y_i-(\beta_0+\sum_{i=1}^p\beta_ix_i)]=0 2i=1n[yi(β0+i=1pβixi)]=0
    这个式子很明显表达了当存在截距项时,残差和必然为0,这也是为什么200年前拉普拉斯放弃了最小一乘法。也可以证明最小二乘法得到的估计和最大似然估计的结果是相同的,都是无偏估计。关于最小二乘法的BLUE性质不是本文的重点不再赘述。

    补充几个推导过程中用到的矩阵求偏导法则

    ∂ x T a ∂ x = ∂ a T x ∂ x = a \frac{\partial x^Ta}{\partial x}=\frac{\partial a^Tx}{\partial x}=a xxTa=xaTx=a
    ∂ x T A x ∂ x = A x + A T x \frac{\partial x^TAx}{\partial x}=Ax+A^Tx xxTAx=Ax+ATx
    如果 A A A是对称的: A x + A T x = 2 A x Ax+A^Tx=2Ax Ax+ATx=2Ax.
    至此推导过程完毕。

    参考文献:梅长林,王宁《近代回归分析方法》[M],科学出版社,2012.

    更多相关内容
  • 普通最小二乘估计对数据进行一元线性回归分析原理,附详细推导
  • 文章目录一、数据生成和观测的过程二、回归模型和数据生成三、最小二乘估计 一、数据生成和观测的过程 采用函数Y=f(X)描述输入变量X和输出变量Y之间的关系: 所以: f(X) 为线性函数时,线性回归问题; f(X) 为非...

    一、数据生成和观测的过程

    在这里插入图片描述
    采用函数Y=f(X)描述输入变量X和输出变量Y之间的关系:
    在这里插入图片描述
    所以:

    • f(X) 为线性函数时,线性回归问题;
    • f(X) 为非线性函数时,非线性回归问题。

    二、回归模型和数据生成

    在这里插入图片描述

    展开全文
  • 一元线性回归最小二乘估计PPT学习教案.pptx
  • 文章目录1、最小二乘估计的概念2、Matlab直线拟合2.1、直线拟合的数学推导 1、最小二乘估计的概念 “二乘”意即平方的含义,所以这里也可以称为“最小平方估计”拟合,那么也就有了谁的平方的问题了,直观上理解...

    1、最小二乘估计的概念

    “二乘”意即平方的含义,所以这里也可以称为“最小平方估计”拟合,那么也就有了谁的平方的问题了,直观上理解就是测量值与统计估计值的偏差,工程上又叫残余误差。而“最小”意即所有的残余误差的平方和最小!

    通过下图更直观理解,就是让所有红线分别平方,然后求和,所得的值最小!

    在这里插入图片描述

    2、Matlab直线拟合

    2.1、直线拟合的数学推导

    假设现有一组数据【x1,y1】【x2,y2】…【xn,yn】

    设其拟合直线表达式为: (1) y = a + b x y=a+bx\tag{1} y=a+bx(1)

    对应残余误差表达式为: (2) d i   = y i − ( a + b x i ) d_{i}~ = y_{i} - (a+bx_{i})\tag{2} di =yi(a+bxi)(2)

    最小二乘登场:

    (3) D i = ∑ i = 1 n d i 2 = ∑ i = 1 n ( y i − a − b x i ) 2 D_{i}=\sum_{i=1} ^{n} d_{i}^{2} = \sum_{i=1} ^{n}(y_{i}-a-bx_{i})^{2}\tag{3} Di=i=1ndi2=i=1n(yiabxi)2(3)

    因为使得平方和最小,意即求导为0,那么我们就分别对该式子的系数 a 、 b a、b ab求偏导可得到如下等式:

    (4) { ∂ D i ∂ a = ∑ i = 1 n 2 ( y i − a − b x i ) ( − 1 ) = − 2 ( ∑ i = 1 n y i − n a − b ∑ i = 1 n x i ) = 0 ∂ D i ∂ b = ∑ i = 1 n 2 ( y i − a − b x i ) ( − x i ) = − 2 ( ∑ i = 1 n x i y i − a ∑ i = 1 n x i − b ∑ i = 1 n x i 2 ) = 0 \begin{cases} \frac {\partial D_{i}} {\partial a} = \sum\limits _{i=1}^{n}2(y_{i}-a-bx_{i})(-1) = -2(\sum\limits _{i=1} ^{n}y_{i}-na-b\sum\limits _{i=1} ^{n} x_{i}) = 0 \\ \\ \frac {\partial D_{i}} {\partial b} = \sum\limits _{i=1}^{n}2(y_{i}-a-bx_{i})(-x_{i}) = -2(\sum\limits _{i=1} ^{n}x_{i}y_{i}-a\sum\limits _{i=1}^{n} x_{i}-b\sum\limits _{i=1} ^{n} x_{i}^2) = 0\tag{4} \end{cases} aDi=i=1n2(yiabxi)(1)=2(i=1nyinabi=1nxi)=0bDi=i=1n2(yiabxi)(xi)=2(i=1nxiyiai=1nxibi=1nxi2)=0(4)

    整理可得,

    (5) { ( ∑ i = 1 n y i − n a − b ∑ i = 1 n x i ) = 0 ∑ i = 1 n x i y i − a ∑ i = 1 n x i − b ∑ i = 1 n x i 2 ) = 0 ⟹ { a = y ‾ − b x ‾ b = x y ‾ − x ‾ y ‾ x 2 ‾ − ( x ‾ ) 2 \begin{cases} (\sum \limits_{i=1} ^{n}y_{i}-na-b\sum\limits _{i=1} ^{n} x_{i}) = 0 \\ \\ \sum\limits _{i=1} ^{n}x_{i}y_{i}-a\sum\limits _{i=1}^{n} x_{i}-b\sum\limits _{i=1} ^{n} x_{i}^2) = 0 \end{cases}\Longrightarrow \begin{cases} a=\overline{y}-b\overline{x} \\ \\ b=\frac{\overline{xy}-\overline{x}\overline{y}}{\overline{x^2}-(\overline{x})^2} \end{cases}\tag{5} (i=1nyinabi=1nxi)=0i=1nxiyiai=1nxibi=1nxi2)=0a=ybxb=x2(x)2xyxy(5)

    2.2、Matlab代码
    clc;
    clear;
    
    %录入X轴数据
    for a = 1:30 
        x(a) = a-1;
    end
    %录入Y轴数据
    y=[1,2,3,8,6,9,5,4,8,5,9,19,16,12,15,24,22,36,40,40,32,32,36,39,52,52,56,57,62,69];
    
    figure;
    plot(x,y,'.');%画点
    hold on
    b = ( mean(x*y(:)) - mean(x(:)).*mean(y(:)) ) / (mean(x*x(:))-mean(x(:))^2 );
    a = mean(y(:)) - b*mean(x(:));
    y1 = a+b*x;
    plot(x,y1);
    
    
    2.3、绘制效果

    在这里插入图片描述

    3、多项式曲线拟合

    3.1、曲线拟合的数学推导

    同时,假设有一组数据【x1,y1】【x2,y2】…【xn,yn】

    设拟合多项式表达式为:
    (1) y = a + a 1 x + . . . + a k x k y=a+a_{1}x+...+a_{k}x^{k}\tag{1} y=a+a1x+...+akxk(1)

    残余误差和表达式为:

    (2) D 2 = ∑ i = 1 n [ y i − ( a 0 + a 1 x i + . . . + a k + x i k ) ] 2 D^{2}=\sum_{i=1}^{n}[y_{i}-(a_{0}+a_{1}x_{i}+...+a_{k}+x_{i}^{k})]^{2}\tag{2} D2=i=1n[yi(a0+a1xi+...+ak+xik)]2(2)

    为求平方和最小,我们只需对系数 a 0   a k a_{0}~a_{k} a0 ak挨个求偏导,即可得到:

    (3) { − 2 ∑ i = 1 n [ y i − ( a 0 + a 1 x i + . . . + a k x i k ) ] = 0 − 2 ∑ i = 1 n [ y i − ( a 0 + a 1 x i + . . . + a k x i k ) ] x i = 0 . . . . . . − 2 ∑ i = 1 n [ y i − ( a 0 + a 1 x i + . . . + a k x i k ) ] x i k = 0 \begin{cases} -2\sum\limits _{i=1}^{n}[y_{i}-(a_{0}+a_{1}x_{i}+...+a_{k}x_{i}^{k})] = 0 \\ -2\sum\limits _{i=1}^{n}[y_{i}-(a_{0}+a_{1}x_{i}+...+a_{k}x_{i}^{k})]x_{i} = 0\\ ......\\ -2\sum\limits _{i=1}^{n}[y_{i}-(a_{0}+a_{1}x_{i}+...+a_{k}x_{i}^{k})]x_{i}^{k} = 0 \end{cases}\tag{3} 2i=1n[yi(a0+a1xi+...+akxik)]=02i=1n[yi(a0+a1xi+...+akxik)]xi=0......2i=1n[yi(a0+a1xi+...+akxik)]xik=0(3)

    上述等式继续化简可得:

    (4) { a 0 n + a 1 ∑ i = 1 n x i + . . . + a k ∑ i = 1 n x i k = ∑ i = 1 n x i 0 y i a 0 ∑ i = 1 n x i + a 1 ∑ i = 1 n x i 2 + . . . + a k ∑ i = 1 n x i k + 1 = ∑ i = 1 n x i 1 y i . . . a 0 ∑ i = 1 n x i k + a 1 ∑ i = 1 n x i k + 1 + . . . + a k ∑ i = 1 n x i 2 k = ∑ i = 1 n x i k y i \begin{cases} a_{0}n+a_{1}\sum\limits_{i=1}^{n}x_{i}+...+a_{k}\sum\limits _{i=1}^{n}x_{i}^{k}=\sum\limits _{i=1}^{n}x_{i}^{0}y_{i}\\ a_{0}\sum\limits_{i=1}^{n}x_{i}+a_{1}\sum\limits_{i=1}^{n}x_{i}^{2}+...+a_{k}\sum\limits_{i=1}^{n}x_{i}^{k+1}=\sum\limits_{i=1}^{n}x_{i}^{1}y_{i}\\ ...\\ a_{0}\sum\limits_{i=1}^{n}x_{i}^{k}+a_{1}\sum\limits_{i=1}^{n}x_{i}^{k+1}+...+a_{k}\sum\limits_{i=1}^{n}x_{i}^{2k}=\sum\limits_{i=1}^{n}x_{i}^{k}y_{i} \end{cases}\tag{4} a0n+a1i=1nxi+...+aki=1nxik=i=1nxi0yia0i=1nxi+a1i=1nxi2+...+aki=1nxik+1=i=1nxi1yi...a0i=1nxik+a1i=1nxik+1+...+aki=1nxi2k=i=1nxikyi(4)

    将这些等式表达成矩阵的形式,可以得到如下矩阵:

    (5) [ n ∑ i = 1 n x i ⋯ ∑ i = 1 n x i k ∑ i = 1 n x i ∑ i = 1 n x i 2 ⋯ ∑ i = 1 n x i k + 1 ⋮ ⋮ ⋱ ⋮ ∑ i = 1 n x k ∑ i = 1 n x i k + 1 ⋯ ∑ i = 1 n x i 2 k ] [ a 0 a 1 ⋮ a k ] = [ ∑ i = 1 n y i ∑ i = 1 n x i y i ⋮ ∑ i = 1 n x i k y i ] \begin{bmatrix} n & \sum\limits_{i=1}^{n}x_{i} & \cdots & \sum\limits_{i=1}^{n}x_{i}^{k} \\ \sum\limits_{i=1}^{n}x_{i} & \sum\limits_{i=1}^{n}x_{i}^{2} & \cdots & \sum\limits_{i=1}^{n}x_{i}^{k+1} \\ \vdots & \vdots & \ddots & \vdots \\ \sum\limits_{i=1}^{n}x_{k} & \sum\limits_{i=1}^{n}x_{i}^{k+1} & \cdots & \sum\limits_{i=1}^{n}x_{i}^{2k} \\ \end{bmatrix} \begin{bmatrix} a_{0}\\a_{1}\\ \vdots \\ a_{k} \end{bmatrix}= \begin{bmatrix} \sum\limits_{i=1}^{n}y_{i} \\ \sum\limits_{i=1}^{n}x_{i}y_{i} \\ \vdots \\ \sum\limits_{i=1}^{n}x_{i}^{k}y_{i} \end{bmatrix} \tag{5} ni=1nxii=1nxki=1nxii=1nxi2i=1nxik+1i=1nxiki=1nxik+1i=1nxi2ka0a1ak=i=1nyii=1nxiyii=1nxikyi(5)

    然后接着将这个范德蒙德行列式化简,可以得到:
    (6) [ 1 x 1 ⋯ x 1 k 1 x 2 ⋯ x 2 k ⋮ ⋮ ⋱ ⋮ 1 x n ⋯ x n k ] [ a 0 a 1 ⋮ a k ] = [ y 1 y 2 ⋮ y n ] \begin{bmatrix} 1 & x_{1} & \cdots & x_{1}^{k} \\ 1 & x_{2} & \cdots &x_{2}^{k} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{n} & \cdots & x_{n}^{k} \\ \end{bmatrix} \begin{bmatrix} a_{0}\\a_{1}\\ \vdots \\ a_{k} \end{bmatrix}= \begin{bmatrix} y_{1}\\y_{2}\\ \vdots \\ y_{n} \end{bmatrix} \tag{6} 111x1x2xnx1kx2kxnka0a1ak=y1y2yn(6)

    接着我们的分析 X A = Y XA=Y XA=Y,那么 A = X − 1 Y A=X^{-1}Y A=X1Y。由于这里需求 X X X的逆矩阵,求逆矩阵的前提是满秩,但是这里可能没有办法满足这一点,所以我们利用广义矩阵可以得到, A = ( X T ∗ X ) − 1 ∗ X T ∗ Y A=(X^{T}*X)^{-1}*X^{T}*Y A=(XTX)1XTY,这样便得到了系数矩阵 A A A,我们也就进一步得到了拟合曲线。

    3.2、Matlab代码
    clc;
    clear;
    %录入X轴数据
    for a = 1:30 
        x(a) = a-1;
    end
    %录入Y轴数据
    y=[1,2,3,6,6,7,8,9,8,10,9,19,16,14,15,24,28,36,40,40,42,41,37,39,52,52,56,57,62,69];
    
    figure
    plot(x,y,'.');%画点
    hold on
    
    k=5;%阶数  阶数可以在1-5之间更改看效果,记得每次更改了之后clear workspace然后在运行
    
    %X数据录入
    for a = 0:k
        for i = 1:30
            X(i,(a+1)) = x(i).^(a);
        end
    end
    
    Y = y';
    A = (X'*X)^-1*X'*Y;%求矩阵系数A
    A = A';%转置矩阵方便使用
    
    z = 0:0.1:30;
    
    
    if k==5
        y1 = A(1)+A(2).*z+A(3).*z.^2+A(4).*z.^3+A(5).*z.^4+A(6).*z.^5;%最后表达式用于绘图
    elseif k==4
        y1 = A(1)+A(2).*z+A(3).*z.^2+A(4).*z.^3+A(5).*z.^4;%最后表达式用于绘图
    elseif k==3
        y1 = A(1)+A(2).*z+A(3).*z.^2+A(4).*z.^3;%最后表达式用于绘图
    elseif k==2
        y1 = A(1)+A(2).*z+A(3).*z.^2;%最后表达式用于绘图
    elseif k==1
        y1 = A(1)+A(2).*z;%最后表达式用于绘图
    end
    
    plot(z,y1);
    hold off
    
    3.3、绘制效果

    k=1

    在这里插入图片描述

    k=2
    在这里插入图片描述

    k=3
    在这里插入图片描述

    k=4
    在这里插入图片描述

    k=5
    在这里插入图片描述

    展开全文
  • 最近在上“交通大数据”一课,里面的公式推导还是有点麻烦的,今天就来推导下在什么情况下最大似然估计和最小二乘估计等价。 先来说一下结论:当模型估计值和真实值间的残差项服从均值是0的高斯分布时,就有最小二乘...

    最近在上“交通大数据”一课,里面的公式推导还是有点麻烦的,今天就来推导下在什么情况下最大似然估计和最小二乘估计等价。
    先来说一下结论:当模型估计值和真实值间的残差项服从均值是0的高斯分布时,就有最小二乘估计和最大似然估计等价。

    推导过程

    极大似然估计

    首先,我们知道最大似然估计如下所示:
    ΘML = arg maxΘEx-pdata[ logpmodel(x(i);Θ) ]
    对于模型 y ^ \widehat{y} y = g(x) ,即y = g(x)+ ϵ,如果我们假设ϵ ~ N(0,σ):
    根据 y = y ^ \widehat{y} y + ϵ,我们可以得出 y ~ N( y ^ \widehat{y} y ,σ)
    可以写出它的极大似然估计如下所示:(打字好麻烦,就手写了,大家将就着看吧!)
    在这里插入图片描述

    最小二乘估计(最小均方误差)

    MinΘ( 1/M*Σ ||y - y ^ \widehat{y} y ||2 2)

    两者比较

    大家注意最大似然估计中与样本有关的项也就是最后一项就是1/M * Σ ||y - y ^ \widehat{y} y ||2 2,这和最小二乘估计是一模一样的,因此可以得出结论:当模型估计值和真实值间的残差项服从均值是0的高斯分布时,就有最小二乘估计和最大似然估计等价。

    ————————————————————————————————————
    今天在《deep learning》中看到一句话:

    之前,我们看到了对输出分布的最大似然估计和对线性模型均方误差的最小化之间的等价性,但事实上,这种等价性并不要求g(x)用于预测高斯分布的均值。

    所以应该可以有更加宽松的等价条件,但是对于更深入的理解,我目前并无法达到。

    展开全文
  • 3 逻辑回归的求解 3.1 极大似然法 最小二乘常被用来求解线性模型中的系数估计值,这在逻辑回归中失效了——我们无法得到逻辑回归最小二乘损失函数的具体形式。 然而我们知道问题的概率分布信息,因此可以得到相应...
  • 要想使这n个样本点落在一元线性回归方程附近,不妨设误差为,使得没一个样本点落在一元线性回归方程上,因此有恒成立,所以回归直线应满足的条件是:实际值与回归估计值之间的误差平方和最小,即: 此时令,原...
  • \qquad 多元回归中的最大似然和最小二乘估计 最大似然估计 \quad 最大似然估计:对于因变量YYY,最大似然估计就是去找到YYY的参数估计值θθ\theta ,使其发生概率最大,利用已知的样本结果,反推最有可能(最大...
  • 看似最小二乘估计与最大似然估计在推导得到的结果很相似,但是其前提条件必须引起大家的注意!!!对于最小二乘估计,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值和观测值之差的平方和最小,...
  • 多元回归&最小二乘

    2019-09-15 23:43:01
    最小二乘回归分析的区别: 最小二乘法是在模型确定的情况下对未知参数由观测数据来进行估计,而回归分析则是研究变量间相关关系的统计分析方法。 ...
  • 一元线性回归最小二乘法)

    千次阅读 2022-04-29 12:31:48
    这里写自定义目录标题前言实现原理工具准备1, 线性回归最小二乘参数估计使用python计算最小二乘法的线性回归检验 前言 本次知识来自贾俊平《统计学》第七版,初次学习,如有纰漏,请各位多多包含。诸位之意见笔者会...
  • 用MATLAB实现最小二乘法一元线性拟合,并求出预测直线的斜率与截距。
  • 最小二乘法(一元)推导

    千次阅读 2021-01-07 18:27:52
    最小二乘法一元推导 1 声明 本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。 2 最小二乘法简介 最小二乘法是一种优化的方法,它主要是通过最小化...
  • 一元线性回归算法 在数据的统计分析中,数据之间即变量x与Y之间的相关性研究非常重要,通过在直角坐标系中做散点图的方式我们会发现很多统计数据近似一条直线,它们之间或者正相关或者负相关。虽然这些数据是离散的...
  • 一元线性回归中未知参数的最小二乘估计   如果变量y对x的回归方程的形式为y=a+bx,又如何根据样本数据去寻求未知参数a与b的估计值和,而使回归直线方程与所有的观测点(xi,yi)(i=1,2,…,n)拟合得最好. 对任一...
  • 如何理解多维数据的线性回归问题?背景就是我们有一个训练集:( x1, y1 ), (x2,y2 )........ ( xN,yN ),通过这个数据集估计参数向量β。每个 xi是第i个数据(第i个样本)的特征度量向量,但是每个 yi就是一个...
  • 最小二乘回归

    千次阅读 2017-11-21 21:15:20
    最小二乘法(Least squares又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为...
  • 在测量误差服从高斯分布的情况下, 最小二乘法等价于极大似然估计。 Ref:最小二乘法与极大似然估计的区别与联系、最小二乘与最大似然估计之间的关系 ...
  • 三,一元一次线性回归最小二乘法 四,线性回归最小二乘法 一,相关系数 变量x和y的相关系数: r>0是正相关,r<0是负相关。 r的范围是[-1,1],越接近1、-1则相关性越强,越接近0则相关性越弱。 ...
  • 注:本文是王桢罡对“R语言基础及稳健回归实现”的介绍R语言简介R是统计领域广泛使用的诞生于1980年左右的S语言的一个分支。R是一套由数据操作、计算和图形展示功能整合而成的套件。包括:有效的数据存储和处理功能...
  • 本文以一元线性回归为例,整理线性回归模型参数的估计方法。 样本(x,y)(x,y)(x,y)可由y=β0+β1x+εy=\beta _{0}+\beta _{1}x+\varepsilony=β0​+β1​x+ε 表示,其中,ε\varepsilonε为随机因素引起的噪声, y=...
  • 最小二乘法曲线拟合参数估计:简单起见,这里以一元线性回归为例进行介绍:假设我们获取了一组样本点数据:利用最小二乘法用多项式曲线拟合这组样本点:1、设拟合多项式为:2、样本点到该曲线的距离平方和为:目标...
  • 参考了统计学习方法,概率论与数理统计,工程线性代数,西瓜书,Machine Learnig with python做的总结,所以不能作为教程,还包含自己用sklearn...线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相...
  • 非线性最小二乘问题

    2013-09-16 13:53:33
    非线性最小二乘问题原理方法: 由于的fi(x)非线性性,此时按梯度等于 0 得到的是一个非线性方程组,求解困难。常用的 基本思想是用一系列线性最小二乘问题求解该 非线性最小二乘问题:设x(k) 是解的第k次近似, 在x...
  • 线性回归——最小二乘回归 统计回归方法之一,通过最小化误差的平方进行最佳匹配。 如图 设一元线性函数为y=a0+a1x 则有y'=a0+a1x+ε,其中y为真实值,y‘为预测值,a0为截距,a1为斜率,ε为误差 若使...
  • 用Python实现最小二乘算法

    千次阅读 2020-12-03 17:51:18
    上一篇文章讲了最小二乘算法的原理。这篇文章通过一个简单的例子来看如何通过Python实现最小乘法的线性回归模型的参数估计。王松桂老师《线性统计模型——线性回归与方差分析》一书中例3.1.3。说的是一个实验容器靠...
  • {0}+\beta _{1}x+\varepsilony=β0​+β1​x+ε 表示,其中,ε\varepsilonε为随机因素引起的噪声, y=β0+β1xy=\beta _{0}+\beta _{1}xy=β0​+β1​x为用变量xxx和yyy关系描述的一元线性回归
  • SLAM基础——最小二乘

    2021-07-20 23:30:43
    概念入门:最小二乘估计(LSE) 最小二乘估计,简写为LSE(Leart Squares Estimate) 1-1 ???? 最小二乘模型的引出 线性模型如下: Y=AX+ε \mathbf{Y}=\mathbf{A} \boldsymbol{X}+\boldsymbol{\varepsilon} Y=AX+ε...
  • 最小二乘:也称为最小二乘法,英文 Least square method; 线性回归:英文Linear regression,有时也会用“线性模型”指代; 极大似然:

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,457
精华内容 982
关键字:

一元回归最小二乘估计