精华内容
下载资源
问答
  • 基于最优权重的加权最小二乘状态估计
  • 目录线性拟合平面线性拟合维度扩展最小二乘参数估计高斯噪声与最小二乘探究高斯噪声与最小二乘的关系参数估计 线性拟合 平面线性拟合 线性回归是最简单的数据拟合方法,平面空间的线性回归利于直观理解: 平面上有...

    线性拟合

    平面线性拟合

    线性回归是最简单的数据拟合方法,平面空间的线性回归利于直观理解:
    fig1
    平面上有很多样本点 ( x , y ) (x,y) (x,y),目标是找到一条直线 y = a x + b y=ax+b y=ax+b拟合这些样本,在实际问题中,样本点的特征不局限于1维,而是任意的 p p p维;

    维度扩展

    为了便于问题描述,引入符号:
    假设有一组样本 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) } D=\left\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})\right\} D={(x1,y1),(x2,y2),...,(xn,yn)},其中, x i x_{i} xi是一个 p p p维向量,它可以表达第 i i i个样本被观察的 p p p个特征, y i y_{i} yi表示第 i i i个样本的取值,是一个数值,所以拟合的直线表示样本 p p p个特征到最终取值的线性映射关系;

    因此, N N N个样本的集合写作: X = [ x 1 , x 2 , . . . , x N ] T X=[x_{1},x_{2},...,x_{N}]^{T} X=[x1,x2,...,xN]T;每个样本写作向量 x i = [ x i 1 , x i 2 , . . . , x i p ] x_{i}=[x_{i1},x_{i2},...,x_{ip}] xi=[xi1,xi2,...,xip],最终目标是估计系数 w = [ w 1 , w 2 , . . . , w p ] w=[w_{1},w_{2},...,w_{p}] w=[w1,w2,...,wp]和一个偏置 b b b,从而建立映射:
    w T x + b ⇒ y w^{T}x+b\Rightarrow y wTx+by
    为了书写简便,可以将偏置 b b b作为系数 w 0 w_{0} w0,得到:
    fig2
    w T x + b ⇒ y w^{T}x+b\Rightarrow y wTx+by变成 w T x ⇒ y w^{T}x\Rightarrow y wTxy

    最小二乘参数估计

    在最小二乘法估计中,定义目标函数如下:
    L ( w ) = ∑ i = 1 N ∣ w T x i − y i ∣ 2 L(w)=\sum_{i=1}^{N}|w^{T}x_{i}-y_{i}|^{2} L(w)=i=1NwTxiyi2
    针对 N N N个样本,找到一个系数向量 w w w,使得拟合结果和真实值间误差的平方和最小;

    高斯噪声与最小二乘

    探究高斯噪声与最小二乘的关系

    通过线性拟合,能否让直线精确通过每一个样本,使得拟合的误差为0;显然这是不可能的,因为样本本身携带噪声,带有随机性,所以可以得到另一种理解:拟合的直线代表样本分布的确定性,拟合值和真实值的误差(也可称为噪声),代表了随机性;

    对于随机性的噪声 ϵ \epsilon ϵ,也许可以用高斯分布来描述:
    ϵ ∼ N ( 0 , σ 2 ) \epsilon\sim N(0,\sigma^{2}) ϵN(0,σ2)
    因此,可以得到:
    y = w T x + ϵ y=w^{T}x+\epsilon y=wTx+ϵ
    显然,在 w w w x x x确定的情况下, y y y也将服从正态分布:
    y ∼ N ( w T x , σ 2 ) y\sim N(w^{T}x,\sigma^{2}) yN(wTx,σ2)
    其概率密度也是一个条件概率:
    p ( y ∣ x , w ) = 1 2 π σ 2 e x p ( − ( y − w T x ) 2 2 σ 2 ) p(y|x,w)=\frac{1}{\sqrt{2\pi\sigma^{2}}}exp(-\frac{(y-w^{T}x)^{2}}{2\sigma^{2}}) p(yx,w)=2πσ2 1exp(2σ2(ywTx)2)
    此时,可以使用极大似然估计去获得参数 w w w,对数似然函数为:
    L ( w ) = l o g ∏ i = 1 N p ( y i ∣ x i , w ) = ∑ i = 1 N l o g ( p ( y i ∣ x i , w ) ) = ∑ i = 1 N ( l o g 1 2 π σ 2 − ( y i − w T x i ) 2 2 σ 2 ) L(w)=log\prod_{i=1}^{N}p(y_{i}|x_{i},w)=\sum_{i=1}^{N}log(p(y_{i}|x_{i},w))=\sum_{i=1}^{N}(log\frac{1}{\sqrt{2\pi\sigma^{2}}}-\frac{(y_{i}-w^{T}x_{i})^{2}}{2\sigma^{2}}) L(w)=logi=1Np(yixi,w)=i=1Nlog(p(yixi,w))=i=1N(log2πσ2 12σ2(yiwTxi)2)
    去除与 w w w无关的项,目标化简为:
    w m l e = a r g m a x w ∑ i = 1 N − ( y i − w T x i ) 2 = a r g m i n w ∑ i = 1 N ( y i − w T x i ) 2 w_{mle}=argmax_{w}\sum_{i=1}^{N}-(y_{i}-w^{T}x_{i})^{2}=argmin_{w}\sum_{i=1}^{N}(y_{i}-w^{T}x_{i})^{2} wmle=argmaxwi=1N(yiwTxi)2=argminwi=1N(yiwTxi)2
    可以看出,正好就是最小二乘法参数估计的目标函数 L ( w ) = ∑ i = 1 N ∣ w T x i − y i ∣ 2 L(w)=\sum_{i=1}^{N}|w^{T}x_{i}-y_{i}|^{2} L(w)=i=1NwTxiyi2,所以,最小二乘法本身就隐含了噪声服从0均值正态分布的假设;

    参数估计

    现在需要求解 w m l e w_{mle} wmle,首先展开目标函数:
    fig3
    对向量 [ w T x 1 − y 1 , w T x 2 − y 2 , . . . , w T x N − y N ] [w^{T}x_{1}-y_{1},w^{T}x_{2}-y_{2},...,w^{T}x_{N}-y_{N}] [wTx1y1,wTx2y2,...,wTxNyN]进行简单处理:
    [ w T x 1 − y 1 , w T x 2 − y 2 , . . . , w T x N − y N ] = w T [ x 1 , x 2 , . . . , x N ] − [ y 1 , y 2 , . . . , y N ] = w T X T − Y T [w^{T}x_{1}-y_{1},w^{T}x_{2}-y_{2},...,w^{T}x_{N}-y_{N}]=w^{T}[x_{1},x_{2},...,x_{N}]-[y_{1},y_{2},...,y_{N}]=w^{T}X^{T}-Y^{T} [wTx1y1,wTx2y2,...,wTxNyN]=wT[x1,x2,...,xN][y1,y2,...,yN]=wTXTYT
    同样的,后一项作为转置有:
    ( w T X T − Y T ) T = X w − Y (w^{T}X^{T}-Y^{T})^{T}=Xw-Y (wTXTYT)T=XwY
    得到:
    L ( w ) = ( w T X T − Y T ) ( X w − Y ) = w T X T X w − 2 w T X T Y + Y T Y L(w)=(w^{T}X^{T}-Y^{T})(Xw-Y)=w^{T}X^{T}Xw-2w^{T}X^{T}Y+Y^{T}Y L(w)=(wTXTYT)(XwY)=wTXTXw2wTXTY+YTY
    计算关于 w w w的偏导数,并令偏导数为0:
    ∂ L ( w ) ∂ w = 2 X T X w − 2 X T Y = 0 ⇒ w = ( X T X ) − 1 X T Y \frac{\partial L(w)}{\partial w}=2X^{T}Xw-2X^{T}Y=0\Rightarrow w=(X^{T}X)^{-1}X^{T}Y wL(w)=2XTXw2XTY=0w=(XTX)1XTY

    展开全文
  • 广义最小二乘估计

    千次阅读 2019-05-03 22:08:26
    最小二乘估计的使用前提总是假设线性回归模型的误差是等方差且不相关的,即Cov(e)=σ2ICov(e)=\sigma ^{2}ICov(e)=σ2I,虽然在许多情况下,这个假定可以认为近似地成立,但有时我们的确要考虑假定不成了时的情况。...

    最小二乘估计的使用前提总是假设线性回归模型的误差是等方差且不相关的,即 C o v ( e ) = σ 2 I Cov(e)=\sigma ^{2}I Cov(e)=σ2I,虽然在许多情况下,这个假定可以认为近似地成立,但有时我们的确要考虑假定不成立时的情况。
    为了讨论的简单,我们假定以下的的 Σ \Sigma Σ(正常情况下是有参数的)是完全已知的。
    我们讨论的模型: { y = X β + e , ( ∗ ) E ( e ) = 0 , C o v ( e ) = σ 2 Σ \begin{cases}y=X\beta +e,\quad(*)\\E(e)=0,\\Cov(e)=\sigma^2\Sigma \end{cases} y=Xβ+e,()E(e)=0,Cov(e)=σ2Σ
    (注: Σ \Sigma Σ是正定矩阵,故存在 P n × n P_{n\times n} Pn×n使得 Σ = P ′ Λ P \Sigma=P'\Lambda P Σ=PΛP,并记 ( Σ − 1 2 ) 2 = Σ − 1 (\Sigma^{-\frac{1}{2}})^2=\Sigma^{-1} (Σ21)2=Σ1)
    Σ − 1 2 \Sigma^{-\frac{1}{2}} Σ21左乘 ( ∗ ) (*) ()式,得 Σ − 1 2 y = Σ − 1 2 X β + Σ − 1 2 e \Sigma^{-\frac{1}{2}}y=\Sigma^{-\frac{1}{2}}X\beta +\Sigma^{-\frac{1}{2}}e Σ21y=Σ21Xβ+Σ21e Z = Σ − 1 2 y , U = Σ − 1 2 X β , ε = Σ − 1 2 e Z=\Sigma^{-\frac{1}{2}}y, U= \Sigma^{-\frac{1}{2}}X\beta,\varepsilon=\Sigma^{-\frac{1}{2}}e Z=Σ21y,U=Σ21Xβ,ε=Σ21e,即得到了以个满足基本假定的新模型(我们可以计算新模型期望和协方差阵,发现确实满高斯-马尔可夫假定计算协方差时用到公式 C o v ( A X ) = A C o v ( X ) A ′ Cov(AX)=ACov(X)A' Cov(AX)=ACov(X)A): \quad Z = U + ε Z=U+\varepsilon Z=U+ε, 因而我们可以得到新模型的最小二乘估计 β ∗ = ( U ′ U ) − 1 U ′ Z = ( X ′ Σ − 1 X ) − 1 X ′ Σ − 1 y \beta^*=(U'U)^{-1}U'Z=(X'\Sigma^{-1}X)^{-1}X'\Sigma^{-1}y β=(UU)1UZ=(XΣ1X)1XΣ1y一般地,我们就称 β ∗ \beta^* β为广义最小二乘估计。
    定理: \quad 对于线性回归模型 ( ∗ ) (*) ()的广义最小二乘估计 β ∗ \beta^* β,有以下性质:

    1. E ( β ∗ ) = β E(\beta^*)=\beta E(β)=β
    2. C o v ( β ∗ ) = σ 2 ( X ′ Σ − 1 X ) − 1 Cov(\beta^*)=\sigma^2(X'\Sigma^{-1}X)^{-1} Cov(β)=σ2(XΣ1X)1
    3. 对于任意 c n × 1 c_{n\times1} cn×1向量, c ′ β ∗ c'\beta^* cβ c ′ β c'\beta cβ的唯一的最小方差无偏估计。(说明对于一般线性回归模型 ( ∗ ) , (*), (),广义最小二乘估计总是优于普通最小二乘估计的)
    展开全文
  • UA STAT687 线性模型II 最小二乘理论2 约束最小二乘估计约束最小二乘估计的求解数值计算的思路系数估计量的解析式约束最小二乘估计的统计性质 约束最小二乘估计的求解 在线性模型y=Xβ+ϵy = X\beta+\epsilony=Xβ+...

    约束最小二乘估计的求解

    在线性模型 y = X β + ϵ y = X\beta+\epsilon y=Xβ+ϵ中,我们考虑的约束也是线性的。假设系数 β \beta β满足
    H β = d , H ∈ R k × p ,   r a n k ( H ) = k H\beta = d, H \in \mathbb{R}^{k \times p},\ rank(H)=k Hβ=d,HRk×p, rank(H)=k

    并且 d d d属于 H H H的列空间(或者称为像空间), d ∈ C ( H ) d\in C(H) dC(H),也就是说这个约束方程有界。假设 C ( H ′ ) ⊂ C ( X ′ ) C(H') \subset C(X') C(H)C(X),即 H β H\beta Hβ k k k个线性无关的可估函数。

    下面我们尝试用Lagrange乘子法求解带约束的最小二乘:
    min ⁡ β    Q = ∥ e ∥ 2 = ( y − X β ) ′ ( y − X β ) = y ′ y − 2 y ′ X β + β ′ X ′ X β s . t .    H β = d \min_{\beta}\ \ Q = \left\| e \right\|^2 = (y-X\beta)'(y-X\beta)=y'y-2y'X\beta+\beta'X'X\beta \\ s.t.\ \ H\beta = d βmin  Q=e2=(yXβ)(yXβ)=yy2yXβ+βXXβs.t.  Hβ=d

    L L L表示Lagrange函数, 2 λ ∈ R k 2\lambda \in \mathbb{R}^k 2λRk表示Lagrange乘子,则
    L ( β , λ ) = y ′ y − 2 y ′ X β + β ′ X ′ X β + 2 λ ′ ( H β − d ) L(\beta,\lambda) = y'y-2y'X\beta+\beta'X'X\beta+2\lambda'(H\beta-d) L(β,λ)=yy2yXβ+βXXβ+2λ(Hβd)

    这里用 2 λ 2\lambda 2λ只是为了约掉2这个数值,让下面的正则方程形式上美观一点。计算Lagrange函数关于 β \beta β的梯度可以得到正则方程:
    ∇ β L = 2 X ′ X β − 2 ( X ′ y − H ′ λ ) = 0 ⇒ X ′ X β = X ′ y − H ′ λ \nabla_{\beta} L = 2X'X\beta - 2(X'y-H'\lambda)=0 \\ \Rightarrow X'X\beta = X'y-H'\lambda βL=2XXβ2(XyHλ)=0XXβ=XyHλ

    数值计算的思路

    θ = [ β ′ ,   λ ′ ] ′ \theta = [\beta',\ \lambda']' θ=[β, λ], 约束方程可以写成
    [ H 0 ] θ = d \left[ \begin{matrix} H & 0 \end{matrix} \right]\theta = d [H0]θ=d

    正则方程可以写成
    [ X ′ X H ′ ] θ = X ′ y \left[ \begin{matrix} X'X & H' \end{matrix} \right]\theta = X'y [XXH]θ=Xy

    合并起来就是
    [ X ′ X H ′ H 0 ] θ = [ X ′ y d ] \left[ \begin{matrix} X'X & H' \\ H & 0\end{matrix} \right]\theta = \left[ \begin{matrix} X'y \\ d \end{matrix} \right] [XXHH0]θ=[Xyd]

    求解 θ \theta θ可以得到 β \beta β λ \lambda λ的估计值,
    θ ^ = [ X ′ X H ′ H 0 ] − 1 [ X ′ y d ] \hat{\theta} = \left[ \begin{matrix} X'X & H' \\ H & 0\end{matrix} \right]^{-1}\left[ \begin{matrix} X'y \\ d \end{matrix} \right] θ^=[XXHH0]1[Xyd]

    系数估计量的解析式

    数值上这样计算非常方便,但是我们想得到 β \beta β估计量的解析式。考虑正则方程,
    β ^ = ( X ′ X ) − 1 ( X ′ y − H ′ λ ^ ) = β ^ O L S − ( X ′ X ) − 1 H ′ λ ^ \hat\beta = (X'X)^{-1}(X'y-H'\hat\lambda) = \hat\beta_{OLS}-(X'X)^{-1}H'\hat\lambda β^=(XX)1(XyHλ^)=β^OLS(XX)1Hλ^

    将这个结果代入约束方程中,
    H β ^ = H β ^ O L S − H ( X ′ X ) − 1 H ′ λ ^ = d ⇒ λ ^ = [ H ( X ′ X ) − 1 H ′ ] − 1 ( H β ^ O L S − d ) H\hat\beta = H\hat\beta_{OLS}-H(X'X)^{-1}H'\hat\lambda=d \\ \Rightarrow \hat\lambda = [H(X'X)^{-1}H']^{-1}(H\hat\beta_{OLS}-d) Hβ^=Hβ^OLSH(XX)1Hλ^=dλ^=[H(XX)1H]1(Hβ^OLSd)

    前面我们假设了 C ( H ′ ) ⊂ C ( X ′ ) C(H')\subset C(X') C(H)C(X),并且 r a n k ( H ) = k rank(H)=k rank(H)=k,因此 H ( X ′ X ) − 1 H ′ H(X'X)^{-1}H' H(XX)1H的逆与广义逆选取无关,这保证 λ ^ \hat{\lambda} λ^形式的唯一性。由此我们得到系数的估计量为
    β ^ = β ^ O L S − ( X ′ X ) − 1 H ′ [ H ( X ′ X ) − 1 H ′ ] − 1 ( H β ^ O L S − d ) \hat\beta = \hat\beta_{OLS}-(X'X)^{-1}H'[H(X'X)^{-1}H']^{-1}(H\hat\beta_{OLS}-d) β^=β^OLS(XX)1H[H(XX)1H]1(Hβ^OLSd)

    约束最小二乘估计的统计性质

    在约束参数空间 { ( β , σ 2 ) : H β = d } \{(\beta,\sigma^2):H\beta=d\} {(β,σ2):Hβ=d}中, σ ^ 2 \hat{\sigma}^2 σ^2 σ \sigma σ的无偏估计,其中
    σ ^ 2 = e ^ ′ e ^ n − r a n k ( X ) + r a n k ( H ) ,   e ^ = y − X β ^ \hat{\sigma}^2 = \frac{\hat{e}'\hat{e}}{n-rank(X)+rank(H)},\ \hat{e}=y-X\hat{\beta} σ^2=nrank(X)+rank(H)e^e^, e^=yXβ^

    与普通最小二乘法不同的是,约束最小二乘法的残差有更多自由度。普通最小二乘法总自由度为 n − 1 n-1 n1,回归自由度(系数的自由度)为 r a n k ( X ) − 1 rank(X)-1 rank(X)1;约束最小二乘法总自由度为 n + r a n k ( H ) − 1 n+rank(H)-1 n+rank(H)1,回归自由度与普通最小二乘一样,所以多出来的自由度属于残差。

    证明
    考虑 e ^ ′ e ^ = ∥ y − X β ^ ∥ 2 = e ^ ′ e ^ = ∥ y − X ( β ^ O L S + β ^ − β ^ O L S ) ∥ 2 \hat{e}'\hat{e} = \left\| y-X\hat{\beta}\right\|^2 = \hat{e}'\hat{e} = \left\| y-X(\hat{\beta}_{OLS}+\hat\beta-\hat{\beta}_{OLS})\right\|^2 e^e^=yXβ^2=e^e^=yX(β^OLS+β^β^OLS)2,进一步化简得到
    ∥ ( y − X β ^ O L S ) + X ( β ^ − β ^ O L S ) ∥ 2 \left\| (y-X\hat{\beta}_{OLS})+X(\hat\beta-\hat{\beta}_{OLS})\right\|^2 (yXβ^OLS)+X(β^β^OLS)2

    注意到 y − X β ^ O L S y-X\hat{\beta}_{OLS} yXβ^OLS C ( X ′ ) C(X') C(X)正交,因此上式等于
    ∥ y − X β ^ O L S ∥ 2 + ∥ X ( β ^ − β ^ O L S ) ∥ 2 \left\| y-X\hat{\beta}_{OLS}\right\|^2+\left\| X(\hat\beta-\hat{\beta}_{OLS})\right\|^2 yXβ^OLS2+X(β^β^OLS)2

    上一讲证明了
    E ∥ y − X β ^ O L S ∥ 2 = ( n − r a n k ( X ) ) σ 2 E\left\| y-X\hat{\beta}_{OLS}\right\|^2=(n-rank(X))\sigma^2 EyXβ^OLS2=(nrank(X))σ2

    并且证明了一个恒等式:如果 E X = μ , C o v ( X ) = Σ EX=\mu,Cov(X)=\Sigma EX=μ,Cov(X)=Σ,则
    E [ X ′ A X ] = μ ′ A μ + t r ( A Σ ) E[X'AX]=\mu'A\mu+tr(A\Sigma) E[XAX]=μAμ+tr(AΣ)

    接下来我们基于这个恒等式计算 E ∥ X ( β ^ − β ^ O L S ) ∥ 2 E\left\| X(\hat\beta-\hat{\beta}_{OLS})\right\|^2 EX(β^β^OLS)2,
    E ∥ X ( β ^ − β ^ O L S ) ∥ 2 = E ( H β ^ O L S − d ) ′ [ H ( X ′ X ) − 1 H ′ ] − 1 ( H β ^ O L S − d ) = ( H β − d ) ′ [ H ( X ′ X ) − 1 H ′ ] − 1 ( H β − d ) + t r [ [ H ( X ′ X ) − 1 H ′ ] − 1 C o v ( H β ^ O L S ) ] E\left\| X(\hat\beta-\hat{\beta}_{OLS})\right\|^2\\=E(H\hat\beta_{OLS}-d)'[H(X'X)^{-1}H']^{-1}(H\hat\beta_{OLS}-d) \\ = (H\beta-d)'[H(X'X)^{-1}H']^{-1}(H\beta-d) \\+tr[[H(X'X)^{-1}H']^{-1}Cov(H\hat\beta_{OLS})] EX(β^β^OLS)2=E(Hβ^OLSd)[H(XX)1H]1(Hβ^OLSd)=(Hβd)[H(XX)1H]1(Hβd)+tr[[H(XX)1H]1Cov(Hβ^OLS)]

    在参数空间 { ( β , σ 2 ) : H β = d } \{(\beta,\sigma^2):H\beta=d\} {(β,σ2):Hβ=d}中,第一项 ( H β − d ) ′ [ H ( X ′ X ) − 1 H ′ ] − 1 ( H β − d ) = 0 (H\beta-d)'[H(X'X)^{-1}H']^{-1}(H\beta-d)=0 (Hβd)[H(XX)1H]1(Hβd)=0

    计算第二项,根据上一讲的最后一个定理,
    C o v ( H β ^ O L S ) = σ 2 H ′ ( X ′ X ) − 1 H Cov(H\hat\beta_{OLS})=\sigma^2H'(X'X)^{-1}H Cov(Hβ^OLS)=σ2H(XX)1H

    因此
    [ H ( X ′ X ) − 1 H ′ ] − 1 C o v ( H β ^ O L S ) = σ 2 I k ⇒ t r [ [ H ( X ′ X ) − 1 H ′ ] − 1 C o v ( H β ^ O L S ) ] = t r ( σ 2 I k ) = k σ 2 [H(X'X)^{-1}H']^{-1}Cov(H\hat\beta_{OLS})=\sigma^2I_k \\ \Rightarrow tr[[H(X'X)^{-1}H']^{-1}Cov(H\hat\beta_{OLS})] = tr(\sigma^2I_k)=k\sigma^2 [H(XX)1H]1Cov(Hβ^OLS)=σ2Iktr[[H(XX)1H]1Cov(Hβ^OLS)]=tr(σ2Ik)=kσ2

    这里 k = r a n k ( H ) k=rank(H) k=rank(H),所以
    E ∥ y − X β ^ ∥ 2 = ( n − r a n k ( X ) + r a n k ( H ) ) σ 2 E \left\| y-X\hat{\beta}\right\|^2 = (n-rank(X)+rank(H))\sigma^2 EyXβ^2=(nrank(X)+rank(H))σ2

    证毕

    展开全文
  • 最小二乘估计矩阵形式的推导

    千次阅读 2020-03-23 02:44:23
    最小二乘估计矩阵形式的推导 最近写文章有用到一些算法,自己推一下,顺便mark下来。 这么久没上csdn居然都能写Tex了(666) 考虑一般线性回归模型(OLR) 考虑只含有一个指标的一般线性回归模型(ordinary linear ...

    最小二乘估计矩阵形式的推导

    最近写文章有用到一些算法,自己推一下,顺便mark下来。
    这么久我才发现csdn居然都能写Tex了(666)。

    考虑一般线性回归模型(OLR)

    考虑只含有一个指标的一般线性回归模型(ordinary linear regression model)有如下形式:
    y i = β 0 + β 1 x i 1 + ϵ , i = 1 , 2 , … , n y_i=\beta_0+\beta_1x_{i1}+\epsilon,i=1,2,\dots,n yi=β0+β1xi1+ϵi=1,2,,n
    显然这是基于 n n n个观测数据或者叫样本的模型形式。其中 β 0 \beta_0 β0称为截距项系数, β 1 \beta_1 β1称为 x 1 x_1 x1的回归系数,它们都是未知的常值参数。 ϵ \epsilon ϵ是不能被观测到的随机误差项,并且满足 E ( ϵ ) = 0 E(\epsilon)=0 E(ϵ)=0, V a r ( ϵ ) = σ 2 > 0 \mathrm{Var(\epsilon)}=\sigma^2>0 Var(ϵ)=σ2>0。其实是有 x 0 x_0 x0的,只是通常认为 x 0 = 1 x_0=1 x0=1。还有一个关键的假设就是 x x x不是随机变量( x x x要都随机了,这模型就没法玩了)。

    实际上我们所研究的问题往往包含多个指标。那么这些指标 ( x 1 , x 2 , . . . , x p ) (x_1,x_2,...,x_p) (x1,x2,...,xp)就对对应 ( β 0 , β 1 , . . . , β p ) (\beta_0,\beta_1,...,\beta_p) (β0,β1,...,βp)个回归系数,这个时候模型的形式就变成了多元线性回归模型:
    y i = β 0 + β 1 x i 1 + β 2 x i 2 + ⋯ + β p x i p + ϵ i , i = 1 , 2 , … , n y_i=\beta_0+\beta_1x_{i1}+\beta_2x_{i2}+\cdots+\beta_px_{ip}+\epsilon_i , i=1,2,\dots,n yi=β0+β1xi1+β2xi2++βpxip+ϵii=1,2,,n
    所以为了简化计算和书写方便,我们可以把它写成矩阵的形式:
    Y = X β + ϵ Y=X\boldsymbol{\beta}+\boldsymbol{\epsilon} Y=Xβ+ϵ

    Y = [ y 1 y 2 ⋮ y n ] X = [ 1 x 11 ⋯ x 1 p 1 x 21 ⋯ x 2 p ⋮ ⋮ ⋮ ⋮ 1 x n 1 ⋯ x n p ] β = [ β 0 β 1 ⋮ β p ] ε = [ ε 1 ε 2 ⋮ ε n ] Y=\begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \\ \end{bmatrix} X=\begin{bmatrix} 1 & x_{11} & \cdots & x_{1p} \\ 1 & x_{21} & \cdots & x_{2p} \\ \vdots & \vdots & \vdots &\vdots \\ 1 & x_{n1} & \cdots & x_{np} \\ \end{bmatrix} \boldsymbol{\beta}=\begin{bmatrix} \beta_0\\ \beta_1\\ \vdots\\ \beta_p\\ \end{bmatrix} \boldsymbol{\varepsilon}=\begin{bmatrix} \varepsilon_1\\ \varepsilon_2\\ \vdots\\ \varepsilon_n\\ \end{bmatrix} Y=y1y2ynX=111x11x21xn1x1px2pxnpβ=β0β1βpε=ε1ε2εn
    其中 X X X称为设计矩阵(只是习惯叫法), Y Y Y就不多说了。同样也有一些前提: X X X必须是列满秩;随机误差向量 ε \boldsymbol{\varepsilon} ε要满足高斯-马尔科夫条件(1829年,高斯提供了最小二乘法的优化效果强于其他方法的证明,因此被称为高斯-马尔可夫定理):
    (i) E ( ε ) = 0 E(\boldsymbol{\varepsilon})=0 E(ε)=0
    (ii) V a r ( ε ) = σ 2 I \mathrm{Var(\boldsymbol{\varepsilon)}}=\sigma^2\boldsymbol{I} Var(ε)=σ2I

    最小二乘估计

    最小二乘估计法 ( L S E ) (LSE) (LSE),它和机器学习领域的梯度下降法还是有一定的区别的(后者没有这么多假设,实用性更广泛),准确的来讲 L E S LES LES只是一种算法,因为随机误差向量 ϵ \boldsymbol{\epsilon} ϵ并不能被观测,所以回归方程不存在解,我们只能尽可能的去接近真实值从而解出全局最优解,即确定一个 β ^ \hat{\boldsymbol{\beta}} β^使得 ε = Y − X β \boldsymbol{\varepsilon}=Y-X\boldsymbol{\beta} ε=YXβ各元素的平方和达到最小,可以记为:
    Q ( β ) = ∑ i = 1 n ε i 2 = ε T ε = ( Y − X β ) T ( Y − X β ) = ( Y T Y − 2 β T X T Y + β T X T X β ) \begin{aligned} Q(\boldsymbol{\beta}) &=\sum_{i=1}^n\varepsilon_i^2\\ &=\boldsymbol{\varepsilon}^T\boldsymbol{\varepsilon}\\ &=(Y-X\boldsymbol{\beta})^T(Y-X\boldsymbol{\beta})\\ &=(Y^TY-2\boldsymbol{\beta}^TX^TY+\boldsymbol{\beta}^TX^TX\boldsymbol{\beta}) \end{aligned} Q(β)=i=1nεi2=εTε=(YXβ)T(YXβ)=(YTY2βTXTY+βTXTXβ)

    令:
    ∂ Q ( β ) ∂ β = − 2 X T Y + 2 X T X β = 0 \frac{\partial{Q(\boldsymbol{\beta})}}{\partial\beta}=-2X^TY+2X^TX\boldsymbol{\beta}=0 βQ(β)=2XTY+2XTXβ=0
    这里需要一些矩阵求导的概念,接下来我们就可以得到一个叫做正规方程 的东西:
    X T X β = X T Y X^TX\boldsymbol{\beta}=X^TY XTXβ=XTY
    r a n k ( X T X ) = r a n k ( X ) = p + 1 \mathrm{rank}(X^TX)=\mathrm{rank}(X)=p+1 rank(XTX)=rank(X)=p+1 X T X X^TX XTX是正定矩阵,所以 X X X^X XX存在逆矩阵,那么正规方法就有唯一解了:
    β ^ = ( β ^ 0 , β ^ 1 , ⋯   , β ^ p ) T = ( X T X ) − 1 X T Y \hat{\boldsymbol{\beta}}=(\hat{\beta}_0,\hat{\beta}_1,\cdots,\hat{\beta}_p)^T=(X^TX)^{-1}X^TY β^=(β^0,β^1,,β^p)T=(XTX)1XTY
    此时 β \boldsymbol{\beta} β的估计就得到了,如果再把它带回到模型中去就有:
    Y ^ = X β ^ = X ( X T X ) − 1 X T Y = S Y \hat{Y}=X\hat{\boldsymbol{\beta}}=X(X^TX)^{-1}X^TY=SY Y^=Xβ^=X(XTX)1XTY=SY
    一般统计学上称 S S S Y Y Y的帽子矩阵,这个称呼是因为有 S S S的存在使 Y Y Y带上了帽子(总感觉怪怪的?)接下来看残差:
    ε ^ = Y − Y ^ = ( I − H ) Y \hat{\boldsymbol{\varepsilon}}=Y-\hat{Y}=(I-H)Y ε^=YY^=(IH)Y
    I I I n n n阶的单位矩阵,显然残差的总和为0,是因为 Q ( β ) Q(\boldsymbol{\beta}) Q(β)对截距项求偏导数等于0时:
    − 2 ∑ i = 1 n [ y i − ( β 0 + ∑ i = 1 p β i x i ) ] = 0 -2\sum_{i=1}^n[y_i-(\beta_0+\sum_{i=1}^p\beta_ix_i)]=0 2i=1n[yi(β0+i=1pβixi)]=0
    这个式子很明显表达了当存在截距项时,残差和必然为0,这也是为什么200年前拉普拉斯放弃了最小一乘法。也可以证明最小二乘法得到的估计和最大似然估计的结果是相同的,都是无偏估计。关于最小二乘法的BLUE性质不是本文的重点不再赘述。

    补充几个推导过程中用到的矩阵求偏导法则

    ∂ x T a ∂ x = ∂ a T x ∂ x = a \frac{\partial x^Ta}{\partial x}=\frac{\partial a^Tx}{\partial x}=a xxTa=xaTx=a
    ∂ x T A x ∂ x = A x + A T x \frac{\partial x^TAx}{\partial x}=Ax+A^Tx xxTAx=Ax+ATx
    如果 A A A是对称的: A x + A T x = 2 A x Ax+A^Tx=2Ax Ax+ATx=2Ax.
    至此推导过程完毕。

    参考文献:梅长林,王宁《近代回归分析方法》[M],科学出版社,2012.

    展开全文
  • 最小二乘估计及证明

    万次阅读 多人点赞 2018-07-16 16:30:59
    已知变量X和Y为线性关系(这里XY均为nx1的列向量),为了得知X和Y到底具有怎样的线性关系(也即求解X的系数),如果这是一个工程问题,我们解决这一问题的方法就是对X和Y进行采样,获得很多组样本,然后就能求解出...
  • R语言计算线性回归的最小二乘估计

    千次阅读 2021-06-04 21:03:02
    R语言计算线性回归的最小二乘估计 全称:线性回归的最小二乘法(OLS回归),ordinary least square,字面翻译:普通最小平方; 内容:包括三个部分:简单线性回归、多项式回归、多元线性回归; 原理:最小二乘法,...
  • 节点自身定位是目前无线传感器网络领域...介绍了如何将加权最小二乘估计应用于节点定位以及如何合理地选择加权系数以降低定位误差。仿真实验表明,运用加权最小二乘估计可以有效地抑制误差累积的影响,提高定位精度。
  • 线性回归方程参数的最小二乘估计

    千次阅读 2020-02-29 21:55:10
    一共两个部分,第一,线性模型和最小二乘估计方法的概括。第二, 基于最小二乘估计方法,实现线性回归方程中回归参数的估计。并且和statsmodels中的方法进行对比。 1.线性模型和最小二乘方法 线性模型是指预测值是...
  • 通过对非线性最小二乘估计理论的研究,提出动力学模型参数的最小二乘估计,并设计出相应的估计器,基于现场数据给予模型较为准确的定论。应用于曲柄滑块机构中滑块与滑动面间的摩擦系数估计,经过较少的迭代次数...
  • http://blog.csdn.net/acdreamers/article/details/44662633
  • 最小二乘估计法(又称最小平方法)用来确定形如函数y(x) = b1x + b0中的b1和b0的估计值,使得y(x)是n个点(x0,y0),...,(xn-1,yn-1)的最佳拟合线。 最佳拟合线采用最小二乘估计法来最小化点(xi, yi)(i=0,...,n-1)...
  • SPSS加权最小二乘估计的实现

    千次阅读 2020-12-25 16:16:05
    多元加权最小二乘估计 选择“分析”-“回归”-“线性” 选入自变量与因变量 选择“保存”,在“残差”中将“未标准化”选中 选择“转换”-“计算变量” 输入如下公式,点击“确定” 选择“分析”-“相关”-“双变量...
  • 看似最小二乘估计与最大似然估计在推导得到的结果很相似,但是其前提条件必须引起大家的注意!!!对于最小二乘估计,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值和观测值之差的平方和最小,...
  • rls算法,递推最小二乘法是最小二乘法中的一种快速算法...RLS算法可以使输出信号在最小二乘意义上尽可能接近期望信号,因为它可以选择自适应滤波器的权重系数。RLS算法在最小化过程中必须使用所有可用的输入信号信息。
  • 加权最小二乘

    2013-08-25 11:10:24
    能量的特性,运用能量系数作为权值,进行加权最小二乘算法,定位目标的位置,提高定位准确性
  • 大家点链接,取自己想要的。 1. 线性推导 -简单理解 2. 最优化理论·非线性最小二乘 3. 最全最小二乘推导加例子
  • 文章目录一、数据生成和观测的过程二、回归模型和数据生成三、最小二乘估计 一、数据生成和观测的过程 采用函数Y=f(X)描述输入变量X和输出变量Y之间的关系: 所以: f(X) 为线性函数时,线性回归问题; f(X) 为非...
  • 线性最小二乘法的系数方差估计

    千次阅读 2019-11-28 22:44:56
    线性模型 y=Xβ+ϵ y = X \beta+\epsilon y=Xβ+ϵ ...最小二乘法的解为 β^=(XTX)XTy=X+y \hat{\beta} = (X^TX)X^Ty = X^{+}y β^​=(XTX)XTy=X+y 无偏估量性质 E(β^)=E(X+y)=E(X+(Xβ+ϵ))=E(β...
  • RLS ...简单来说,递归最小二乘(RLS)就是这样的算法。 相关算法的推导可以在网上找到。 这里直接给出RLS的递推算法: 阻抗估计 这一章使用RLS来估计环境的阻抗。 回到上面一张图,我们假设环境的
  • 摘要: 提出了一种全分布式最优...每个局部估计器提供其自身区域的参数估计,并且通过仅交换少量的边界估计数据来完成与相邻区域的连接。不同区域之间的物理联系(连线)通常是低维的,在一个区域进行的大多数测量不受
  • §2 回归系数最小二乘估计

    千次阅读 2013-05-09 12:27:46
    设分别为的最小二乘估计值, 于是的观测值  , , (2.1) 其中为误差的估计值, 称为残差或剩余。令为的估计值, 则有  , (2.2)  , , (2.3) (2.3)式表示实际值与估计值的偏离程度。欲使...
  • \qquad 多元回归中的最大似然和最小二乘估计 最大似然估计 \quad 最大似然估计:对于因变量YYY,最大似然估计就是去找到YYY的参数估计值θθ\theta ,使其发生概率最大,利用已知的样本结果,反推最有可能(最大...
  • 14 最小二乘估计原理推导和线性回归的外推等 标签:机器学习与数据挖掘 1.简单最小二乘估计的推导   先说个历史:最小二乘法是勒让德( A. M. Legendre)于1805年在其著作《计算慧星轨道的新方法》中提出的。它的...
  • 最小二乘、加权最小二乘 matlab实现

    千次阅读 多人点赞 2019-09-05 11:13:39
    1. 定义 最小二乘: 最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方...
  • 1、多元线性回归方程的矩阵表示1.1 最小二乘估计的原理、思想及推导步骤1.1.1 最小二乘估计的思想1.1.2 最小二乘估计的前提条件1.1.3 最小二乘估计的推导步骤1.1.4 最小二乘估计的性质1.1.5 编程实现β=(XTX)−1XTY\...
  • 使用正规方程组的方法实现最小二乘: 1、 方程组Ax=b,其中A为m行n列的系数矩阵,其转置矩阵为n行m列的矩阵,使A的转置矩阵和A自身相乘可得到一个n行n列的系数矩阵,同时等号右侧也让A的转置矩阵和n维的向量b相乘...
  • 但由于最小二乘线性模型的特殊性,R方有几个特殊地方。数学证明过程略过,只讲结论。对数学推导过程感兴趣的,可以看wikipedia词条 [1]。 对于不固定截距的简单线性模型(y = mx + b), R方等于x和y的pearson ...
  • 线性最小二乘问题

    2020-10-03 18:25:48
    线性最小二乘是一种求解线性系统参数的方法,即参数估计的方法。它的特点有: 需要已知参数与观察量之间的线性函数关系 存在多余观测 线性最小二乘原理 线性关系 对于一个参数估计问题,我们往往不能直接获得想要...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 7,479
精华内容 2,991
关键字:

最小二乘系数估计