精华内容
下载资源
问答
  • 线性回归方程参数最小二乘估计

    千次阅读 2020-02-29 21:55:10
    基于最小二乘估计方法,实现线性回归方程中回归参数的估计。并且和statsmodels中的方法进行对比。 1.线性模型和最小二乘方法 线性模型是指预测值是特征(feature)的线性组合(liner combination),数学表达式如下...

    概述

    一共两个部分,第一,线性模型和最小二乘估计方法的概括。第二,
    基于最小二乘估计方法,实现线性回归方程中回归参数的估计。并且和statsmodels中的方法进行对比。

    1.线性模型和最小二乘方法

    线性模型是指预测值是特征(feature)的线性组合(liner combination),数学表达式如下:
    y i ^ = β 0 + β 1 x i 1 + . . . + β p x i p (1) \hat {y_i}= \beta_0 + \beta_1 x_{i1} + ... + \beta_p x_{ip} \tag{1} yi^=β0+β1xi1+...+βpxip(1)
    y i = y ^ i + ϵ i (2) y_i = \hat y_i + \epsilon_i \tag{2} yi=y^i+ϵi(2)
    i = 1 , 2 , . . . , n i=1,2,...,n i=1,2,...,n
    其中:
    y ^ \hat {y} y^是预测值(也叫因变量);
    y y y是真实值;
    β = ( β 1 , . . . , β p ) \beta = (\beta_1,..., \beta_p) β=(β1,...,βp)是系数coef_;
    β 0 \beta_0 β0是截距intercept_;
    x i 1 , . . . , x i p x_{i1},..., x_{ip} xi1,...,xip是第 i i i个样本点, 是 x x x的行向量;
    ϵ i \epsilon_i ϵi是第 i i i个样本点估计的误差项。

    普通最小二乘法拟合线性模型,本质上解决的是:
    min ⁡ β ∣ ∣ x β − y ∣ ∣ 2 2 \min_ {\beta} || x\beta-y || _2 ^ 2 βminxβy22
    其中:
    β = ( β 1 , . . . , β p ) \beta = (\beta_1,..., \beta_p) β=(β1,...,βp)是回归系数coef_;
    x = ( x 1 , . . . , x p ) x = (x_1,..., x_p) x=(x1,...,xp) x x x的列向量,也叫自变量;
    y = ( y 1 , y 2 , . . . , y p ) y = (y_1,y_2,...,y_p) y=(y1,y2,...,yp)是样本观测值(也叫自变量);

    线性回归模型基本假设

    • 自变量 x 1 , x 2 , . . , x p x_1,x_2,..,x_p x1,x2,..,xp是确定的观测值,且互不影响。
    • 因变量与自变量之间是近似线性的关系,即公式(1)所示;
    • 误差项 ϵ i \epsilon_i ϵi的均值为0,方差形同,且两两不相关。

    { E ( ϵ i ) = 0 v a r ( ϵ i ) = σ 2 c o v ( ϵ i , ϵ j ) = 0 \left\{ \begin{aligned} E(\epsilon_i) & = &0 \\ var(\epsilon_i) & = & \sigma^2 \\ cov(\epsilon_i, \epsilon_j)& = & 0 \end{aligned} \right. E(ϵi)var(ϵi)cov(ϵi,ϵj)===0σ20
    其中, i ≠ j , i = 1 , 2 , . . . , n ; j = 1 , 2 , . . . , n i\neq j,i=1,2,...,n;j=1,2,...,n i=j,i=1,2,...,n;j=1,2,...,n

    也就是说如果自变量 x i x_i xi x j x_j xj的相关时,最小二乘法的估计值会对自变量X中的随机误差极其敏感,会产生很大的方差。在没有实验设计就进行数据收集,很容易在自变量之间产生多重共线问题。

    2. 最小二乘方法估计回归参数

    经验回归系数 β ^ \hat\beta β^的最小二乘估计
    β ^ = ( X T X ) − 1 X T y \hat\beta = (X^TX)^{-1}X^Ty β^=(XTX)1XTy
    X ∈ R 1 × n , β ∈ R n × 1 , y ∈ R n × 1 X \in R^{1\times n},\beta \in R^{n\times 1},y \in R^{n\times 1} XR1×n,βRn×1,yRn×1
    标准回归系数 β j ∗ \beta_j^* βj(对自变量因变量进行过标准化)和经验回归系数 β ^ j \hat\beta_j β^j(对自变量因变量没有进行过标准化)之间的关系:
    β j ∗ = s t d ( X ) s t d ( y ) β ^ j ,   j = 1 , 2 , . . . , p \beta_j^* = \frac{std(X)}{std(y)}\hat\beta_j ,\space j = 1,2,...,p βj=std(y)std(X)β^j, j=1,2,...,p
    有了标准回归系数之后,各个自变量之间的相对重要性就可以比较了。

    2.1 代码实现最小二乘估计回归参数

    下面是代码实现最小二乘方法估计回归参数:标准回归系数 β j ∗ \beta_j^* βj和经验回归系数 β ^ j \hat\beta_j β^j

    def Beta_linear_model(X,y):
        """最小二乘方法估计线性回归方程的回归参数
        输入:X,没有标准化后的(自变量+常数项,且第一列是常数项)。
              y, 没有标准化后的因变量。
        返回:标准回归系数和经验回归系数。
        """
        # 转化成numpy数组
        X = np.array(X)
        y = np.array(y)
        # 标准化X,y
        X_std = (X - X.mean())/X.std()
        y_std = (y - y.mean())/y.std()
        # 计算标准回归系数
        a = np.linalg.inv(np.dot(X_std.T, X_std))
        b = np.dot(X_std.T, y_std)
        beta_std = np.dot(a,b)
        # 计算经验回归系数
        beta = beta_std*y.std()/X.std()   
        beta[0] = (y - np.dot(X[:,1:],beta[1:])).mean()
        return beta_std,beta
    

    下面通过人工生成一组数据来看看上面代码的回归参数估计情况:

    import numpy as np
    nsample = 100
    #  人工生成数据一组二元不共线的数据,并且带有一组常数项。
    x = np.linspace(0, 10, nsample)
    X = np.column_stack((x, x**2))
    beta = np.array([1, 0.1, 10])
    e = np.random.normal(size=nsample)
    X = sm.add_constant(X)
    y = np.dot(X, beta) + e
    # 估计回归参数
    print(Beta_linear_model(X, y))
    

    结果是:
    (array([1.25358906, 0.00597212, 0.75249024]),
    array([1.24744675, 0.07934234, 9.99717462]))
    第一组数组是标准回归系数,第二组是经验回归系数,比较接近设置的beta参数[1, 0.1, 10], 这里值得注意的地方,回归方程的预测值是预测结果的平均值,而不是真实结果的确切值。回归一词指的就是平均值,又称为数学期望。

    下面通过statsmodels中的简单最小二乘来验证上述结果。

    #  最小二乘拟合线性回归方程,y,X也没有进行标准化
    model = sm.OLS(y, X)
    results = model.fit()
    print(results.summary())
    

    结果见下图:
    在这里插入图片描述
    对比statsmodels中回归系数[1.2474,0.0793, 9.9972]和[1.24744675, 0.07934234, 9.99717462]一样,所以,Beta_linear_model()函数成功实现了最小二乘方法估计回归参数。

    参考文献

    [1]何晓群,刘文卿.应用回归分析(第三版)[M].中国人民大学出版社

    展开全文
  • 广义最小二乘估计

    千次阅读 2019-05-03 22:08:26
    最小二乘估计的使用前提总是假设线性回归模型的误差是等方差且不相关的,即Cov(e)=σ2ICov(e)=\sigma ^{2}ICov(e)=σ2I,虽然在许多情况下,这个假定可以认为近似地成立,但有时我们的确要考虑假定不成了时的情况。...

    最小二乘估计的使用前提总是假设线性回归模型的误差是等方差且不相关的,即 C o v ( e ) = σ 2 I Cov(e)=\sigma ^{2}I Cov(e)=σ2I,虽然在许多情况下,这个假定可以认为近似地成立,但有时我们的确要考虑假定不成立时的情况。
    为了讨论的简单,我们假定以下的的 Σ \Sigma Σ(正常情况下是有参数的)是完全已知的。
    我们讨论的模型: { y = X β + e , ( ∗ ) E ( e ) = 0 , C o v ( e ) = σ 2 Σ \begin{cases}y=X\beta +e,\quad(*)\\E(e)=0,\\Cov(e)=\sigma^2\Sigma \end{cases} y=Xβ+e,()E(e)=0,Cov(e)=σ2Σ
    (注: Σ \Sigma Σ是正定矩阵,故存在 P n × n P_{n\times n} Pn×n使得 Σ = P ′ Λ P \Sigma=P'\Lambda P Σ=PΛP,并记 ( Σ − 1 2 ) 2 = Σ − 1 (\Sigma^{-\frac{1}{2}})^2=\Sigma^{-1} (Σ21)2=Σ1)
    Σ − 1 2 \Sigma^{-\frac{1}{2}} Σ21左乘 ( ∗ ) (*) ()式,得 Σ − 1 2 y = Σ − 1 2 X β + Σ − 1 2 e \Sigma^{-\frac{1}{2}}y=\Sigma^{-\frac{1}{2}}X\beta +\Sigma^{-\frac{1}{2}}e Σ21y=Σ21Xβ+Σ21e Z = Σ − 1 2 y , U = Σ − 1 2 X β , ε = Σ − 1 2 e Z=\Sigma^{-\frac{1}{2}}y, U= \Sigma^{-\frac{1}{2}}X\beta,\varepsilon=\Sigma^{-\frac{1}{2}}e Z=Σ21y,U=Σ21Xβ,ε=Σ21e,即得到了以个满足基本假定的新模型(我们可以计算新模型期望和协方差阵,发现确实满高斯-马尔可夫假定计算协方差时用到公式 C o v ( A X ) = A C o v ( X ) A ′ Cov(AX)=ACov(X)A' Cov(AX)=ACov(X)A): \quad Z = U + ε Z=U+\varepsilon Z=U+ε, 因而我们可以得到新模型的最小二乘估计 β ∗ = ( U ′ U ) − 1 U ′ Z = ( X ′ Σ − 1 X ) − 1 X ′ Σ − 1 y \beta^*=(U'U)^{-1}U'Z=(X'\Sigma^{-1}X)^{-1}X'\Sigma^{-1}y β=(UU)1UZ=(XΣ1X)1XΣ1y一般地,我们就称 β ∗ \beta^* β为广义最小二乘估计。
    定理: \quad 对于线性回归模型 ( ∗ ) (*) ()的广义最小二乘估计 β ∗ \beta^* β,有以下性质:

    1. E ( β ∗ ) = β E(\beta^*)=\beta E(β)=β
    2. C o v ( β ∗ ) = σ 2 ( X ′ Σ − 1 X ) − 1 Cov(\beta^*)=\sigma^2(X'\Sigma^{-1}X)^{-1} Cov(β)=σ2(XΣ1X)1
    3. 对于任意 c n × 1 c_{n\times1} cn×1向量, c ′ β ∗ c'\beta^* cβ c ′ β c'\beta cβ的唯一的最小方差无偏估计。(说明对于一般线性回归模型 ( ∗ ) , (*), (),广义最小二乘估计总是优于普通最小二乘估计的)
    展开全文
  • 普通最小二乘 (ordinary least squares) 我们的目标是找到,,使得上面的方程(损失函数)最小。 数学上对于求极值问题,凸函数 会有极值。关于凸函数可以再去查,之前的梯度下降哪里也提到了。 从数学微积分上说...

    一 序

      本来是要接着看lasso的,属于逻辑回归的变种。因为我是0基础。逻辑回归看的太吃力,这篇看了知乎的大佬的好文章。给自己再补充下。我当时看知乎的问答帖子感受是这样的。

    大神的解释是看不懂的,啥是OLS啊?看不下去了。(反复提醒自己,0基础看机器学习就得先看数学基础)。

    看了大佬”化简可得“的这篇文章。感谢大佬愿意把深奥的知识用刚入门的小白也能看懂的形式分享出来。推荐看原文链接,我写的只是对作者文章的理解,不如原文好。

    https://zhuanlan.zhihu.com/p/72513104

    二 一元线性回归

    回归分析用来预测两种两种以上变量间相互依赖的定量关系。其中被预测的变量叫因变量,被用来进行预测的变量叫自变量。

    看下最简单的二元一次方程。

    y=\beta _0+\beta _1x

    当给定参数\beta _0\beta _1的时候,画在坐标图内是一条直线(这就是“线性”的含义)别的写法y=ax+b 一样

    接着给了广告的例子,类似例子有房屋售价与面积。

    当我们只用一个x来预测y,就是一元线性回归,也就是在找一个直线来拟合数据。比如,我有一组数据画出来的散点图,横坐标代表广告投入金额,纵坐标代表销售量,线性回归就是要找一条直线,并且让这条直线尽可能地拟合图中的数据点。

    这里我们得到的拟合方程是y = 0.0512x + 7.1884,此时当我们获得一个新的广告投入金额后,我们就可以用这个方程预测出大概的销售量。

    譬如你代入x=0就能得到唯一的 \hat{y} ,\hat{y} =7.1884 (\hat{y}  表示估计值),但现实世界中的数据就像这个散点图,我们只能尽可能地在杂乱中寻找规律

    统计会将理论与实际间的差别表示出来,也就是“误差”。公式会有一个小尾巴 \mu表示误差。

    y=\beta _0+\beta _1x+\mu

    三 损失函数 

      那既然是用直线拟合散点,为什么最终得到的直线是y = 0.0512x + 7.1884,而不是其他直线呢?

    要找到一个评判标准,用于评价哪条直线才是最“合适”的。

    为了表示差距,这里引入了残差的概念。残差是真实值和预测值间的差值。

    e=y-\hat{y}

    对于某个广告投入 x_i ,我们有对应的实际销售量y_i,也有预测出来的销售量\hat{y_i}(代入公式计算)。

    计算 \hat{e_i}=y_i-\hat{y_i},再将其平方(为了消除负号),我们数据中的每个点如此计算一遍,

    Q=\sum_{i=1}^{N} (y_i- \hat{y_i})^2= \sum_{i=1}^{N} (y_i-(\hat{ \beta _0}+ \hat{\beta _1}x_i))^2

    这个公式是残差平方和,即SSE(Sum of Squares for Error),在机器学习中它是回归问题中最常用的损失函数

    现在我们知道了损失函数是衡量回归模型误差的函数,也就是我们要的“直线”的评价标准。这个函数的值越小,说明直线越能拟合我们的数据。

    四 普通最小二乘 (ordinary least squares)

    我们的目标是找到\beta_0,\beta _1,使得上面的方程(损失函数)最小。

    数学上对于求极值问题,凸函数 会有极值。关于凸函数可以再去查,之前的梯度下降哪里也提到了。

    从数学微积分上说,我们知道导数为0时,Q取最小值、因此我们分别对\beta _1\beta_0求偏导并令其为0:

    作者没有求值具体推导过程。我整理下推导过程。

    \frac{ \partial Q}{ \partial \beta _0}= \sum_{i=1}^{N} 2(y_i- \beta _0-\beta _1x_i)(-1)

    =-2 \sum_{i=1}^{N} (y_i- \beta _0-\beta _1x_i)

    =-2(\sum_{i=1}^{N}y_i- \sum_{i=1}^{N}\beta_0-\sum_{i=1}^{N}\beta _1x_i )

    =-2(n\bar{y} -n\beta _0-n\beta _1 \bar{x})  式子1

    我们令 式子1 =0 ,则

    \beta _0= \bar{y}-\beta _1\bar{x}   

    \frac{ \partial Q}{\partial \beta _1 }=\sum_{i=1}^{N}2(y_i- \beta _0- \beta _1x_i)(-x_i)

    =-2\sum_{i=1}^{N} (x_iy_i- \beta _0x_i+\beta _1x_i^2)

    =-2( \sum_{i=1}^{N}x_iy_i- \sum_{i=1}^{N}\beta _0x_i+\sum_{i=1}^{N}\beta _1x_i^2 )

    -2( \sum_{i=1}^{N}x_iy_i- n\beta_0\bar{x}- \beta _1\sum_{i=1}^{N}x_i^2 )   式子2

    我们把上面\beta _0= \bar{y}-\beta _1\bar{x}    代入到式子2,令式子2偏导等于0,化简后可得

    \sum_{i=1}^{N}x_iy_i-n\bar{x}\bar{y}+n\beta _1\bar{x}^2-\beta _1\sum_{i=1}^{N}x_i^2=0 

    ==>\sum_{i=1}^{N}x_iy_i-n\bar{x}\bar{y} = \beta _1( \sum_{i=1}^{N}x_i^2-n\bar{x}^2 )  (左右移动)

    ==>\beta _1= \frac{ \sum_{i=1}^{N}x_iy_i-n\bar{x}\bar{y} }{ \sum_{i=1}^{N}x_i^2-n\bar{x}^2 }   式子3

    因为:\sum_{i=1}^{N}(x_i-\bar{x})(y_i-\bar{y})=\sum_{i=1}^{N}(x_iy_i-\bar{x}y_i-x_i\bar{y}+\bar{x}\bar{y} )=\sum_{i=1}^{N}x_iy_i-n\bar{x}\bar{y}-n\bar{x}\bar{y}+n\bar{x}\bar{y}  式子4

     式子3后面的消掉就是式子3 的分子。

    \sum_{i=1}^{N}(x_i-\bar{x})^2= \sum_{i=1}^{N}(x_i^2-2x_i\bar{x}+\bar{x}^2)=\sum_{i=1}^{N}x_i^2-2n\bar{x}^2+n\bar{x}^2= \sum_{i=1}^{N}x_i^2-n\bar{x}^2

    上面就是式子3 的分母

    所以\beta _1= \frac{\sum_{i=1}^{N}(x_i-\bar{x})(y_i-\bar{y}) }{ \sum_{i=1}^{N}(x_i-\bar{x})^2 }

     

    上面推导过程,使用了求和性质。

    这是一元线性模型,要是多元模型,需要用到矩阵,这个我还没看。待学习。先写到这里。

     

    展开全文
  • UA STAT687 线性模型II 最小二乘理论2 约束最小二乘估计约束最小二乘估计的求解数值计算的思路系数估计量的解析式约束最小二乘估计的统计性质 约束最小二乘估计的求解 在线性模型y=Xβ+ϵy = X\beta+\epsilony=Xβ+...

    约束最小二乘估计的求解

    在线性模型 y = X β + ϵ y = X\beta+\epsilon y=Xβ+ϵ中,我们考虑的约束也是线性的。假设系数 β \beta β满足
    H β = d , H ∈ R k × p ,   r a n k ( H ) = k H\beta = d, H \in \mathbb{R}^{k \times p},\ rank(H)=k Hβ=d,HRk×p, rank(H)=k

    并且 d d d属于 H H H的列空间(或者称为像空间), d ∈ C ( H ) d\in C(H) dC(H),也就是说这个约束方程有界。假设 C ( H ′ ) ⊂ C ( X ′ ) C(H') \subset C(X') C(H)C(X),即 H β H\beta Hβ k k k个线性无关的可估函数。

    下面我们尝试用Lagrange乘子法求解带约束的最小二乘:
    min ⁡ β    Q = ∥ e ∥ 2 = ( y − X β ) ′ ( y − X β ) = y ′ y − 2 y ′ X β + β ′ X ′ X β s . t .    H β = d \min_{\beta}\ \ Q = \left\| e \right\|^2 = (y-X\beta)'(y-X\beta)=y'y-2y'X\beta+\beta'X'X\beta \\ s.t.\ \ H\beta = d βmin  Q=e2=(yXβ)(yXβ)=yy2yXβ+βXXβs.t.  Hβ=d

    L L L表示Lagrange函数, 2 λ ∈ R k 2\lambda \in \mathbb{R}^k 2λRk表示Lagrange乘子,则
    L ( β , λ ) = y ′ y − 2 y ′ X β + β ′ X ′ X β + 2 λ ′ ( H β − d ) L(\beta,\lambda) = y'y-2y'X\beta+\beta'X'X\beta+2\lambda'(H\beta-d) L(β,λ)=yy2yXβ+βXXβ+2λ(Hβd)

    这里用 2 λ 2\lambda 2λ只是为了约掉2这个数值,让下面的正则方程形式上美观一点。计算Lagrange函数关于 β \beta β的梯度可以得到正则方程:
    ∇ β L = 2 X ′ X β − 2 ( X ′ y − H ′ λ ) = 0 ⇒ X ′ X β = X ′ y − H ′ λ \nabla_{\beta} L = 2X'X\beta - 2(X'y-H'\lambda)=0 \\ \Rightarrow X'X\beta = X'y-H'\lambda βL=2XXβ2(XyHλ)=0XXβ=XyHλ

    数值计算的思路

    θ = [ β ′ ,   λ ′ ] ′ \theta = [\beta',\ \lambda']' θ=[β, λ], 约束方程可以写成
    [ H 0 ] θ = d \left[ \begin{matrix} H & 0 \end{matrix} \right]\theta = d [H0]θ=d

    正则方程可以写成
    [ X ′ X H ′ ] θ = X ′ y \left[ \begin{matrix} X'X & H' \end{matrix} \right]\theta = X'y [XXH]θ=Xy

    合并起来就是
    [ X ′ X H ′ H 0 ] θ = [ X ′ y d ] \left[ \begin{matrix} X'X & H' \\ H & 0\end{matrix} \right]\theta = \left[ \begin{matrix} X'y \\ d \end{matrix} \right] [XXHH0]θ=[Xyd]

    求解 θ \theta θ可以得到 β \beta β λ \lambda λ的估计值,
    θ ^ = [ X ′ X H ′ H 0 ] − 1 [ X ′ y d ] \hat{\theta} = \left[ \begin{matrix} X'X & H' \\ H & 0\end{matrix} \right]^{-1}\left[ \begin{matrix} X'y \\ d \end{matrix} \right] θ^=[XXHH0]1[Xyd]

    系数估计量的解析式

    数值上这样计算非常方便,但是我们想得到 β \beta β估计量的解析式。考虑正则方程,
    β ^ = ( X ′ X ) − 1 ( X ′ y − H ′ λ ^ ) = β ^ O L S − ( X ′ X ) − 1 H ′ λ ^ \hat\beta = (X'X)^{-1}(X'y-H'\hat\lambda) = \hat\beta_{OLS}-(X'X)^{-1}H'\hat\lambda β^=(XX)1(XyHλ^)=β^OLS(XX)1Hλ^

    将这个结果代入约束方程中,
    H β ^ = H β ^ O L S − H ( X ′ X ) − 1 H ′ λ ^ = d ⇒ λ ^ = [ H ( X ′ X ) − 1 H ′ ] − 1 ( H β ^ O L S − d ) H\hat\beta = H\hat\beta_{OLS}-H(X'X)^{-1}H'\hat\lambda=d \\ \Rightarrow \hat\lambda = [H(X'X)^{-1}H']^{-1}(H\hat\beta_{OLS}-d) Hβ^=Hβ^OLSH(XX)1Hλ^=dλ^=[H(XX)1H]1(Hβ^OLSd)

    前面我们假设了 C ( H ′ ) ⊂ C ( X ′ ) C(H')\subset C(X') C(H)C(X),并且 r a n k ( H ) = k rank(H)=k rank(H)=k,因此 H ( X ′ X ) − 1 H ′ H(X'X)^{-1}H' H(XX)1H的逆与广义逆选取无关,这保证 λ ^ \hat{\lambda} λ^形式的唯一性。由此我们得到系数的估计量为
    β ^ = β ^ O L S − ( X ′ X ) − 1 H ′ [ H ( X ′ X ) − 1 H ′ ] − 1 ( H β ^ O L S − d ) \hat\beta = \hat\beta_{OLS}-(X'X)^{-1}H'[H(X'X)^{-1}H']^{-1}(H\hat\beta_{OLS}-d) β^=β^OLS(XX)1H[H(XX)1H]1(Hβ^OLSd)

    约束最小二乘估计的统计性质

    在约束参数空间 { ( β , σ 2 ) : H β = d } \{(\beta,\sigma^2):H\beta=d\} {(β,σ2):Hβ=d}中, σ ^ 2 \hat{\sigma}^2 σ^2 σ \sigma σ的无偏估计,其中
    σ ^ 2 = e ^ ′ e ^ n − r a n k ( X ) + r a n k ( H ) ,   e ^ = y − X β ^ \hat{\sigma}^2 = \frac{\hat{e}'\hat{e}}{n-rank(X)+rank(H)},\ \hat{e}=y-X\hat{\beta} σ^2=nrank(X)+rank(H)e^e^, e^=yXβ^

    与普通最小二乘法不同的是,约束最小二乘法的残差有更多自由度。普通最小二乘法总自由度为 n − 1 n-1 n1,回归自由度(系数的自由度)为 r a n k ( X ) − 1 rank(X)-1 rank(X)1;约束最小二乘法总自由度为 n + r a n k ( H ) − 1 n+rank(H)-1 n+rank(H)1,回归自由度与普通最小二乘一样,所以多出来的自由度属于残差。

    证明
    考虑 e ^ ′ e ^ = ∥ y − X β ^ ∥ 2 = e ^ ′ e ^ = ∥ y − X ( β ^ O L S + β ^ − β ^ O L S ) ∥ 2 \hat{e}'\hat{e} = \left\| y-X\hat{\beta}\right\|^2 = \hat{e}'\hat{e} = \left\| y-X(\hat{\beta}_{OLS}+\hat\beta-\hat{\beta}_{OLS})\right\|^2 e^e^=yXβ^2=e^e^=yX(β^OLS+β^β^OLS)2,进一步化简得到
    ∥ ( y − X β ^ O L S ) + X ( β ^ − β ^ O L S ) ∥ 2 \left\| (y-X\hat{\beta}_{OLS})+X(\hat\beta-\hat{\beta}_{OLS})\right\|^2 (yXβ^OLS)+X(β^β^OLS)2

    注意到 y − X β ^ O L S y-X\hat{\beta}_{OLS} yXβ^OLS C ( X ′ ) C(X') C(X)正交,因此上式等于
    ∥ y − X β ^ O L S ∥ 2 + ∥ X ( β ^ − β ^ O L S ) ∥ 2 \left\| y-X\hat{\beta}_{OLS}\right\|^2+\left\| X(\hat\beta-\hat{\beta}_{OLS})\right\|^2 yXβ^OLS2+X(β^β^OLS)2

    上一讲证明了
    E ∥ y − X β ^ O L S ∥ 2 = ( n − r a n k ( X ) ) σ 2 E\left\| y-X\hat{\beta}_{OLS}\right\|^2=(n-rank(X))\sigma^2 EyXβ^OLS2=(nrank(X))σ2

    并且证明了一个恒等式:如果 E X = μ , C o v ( X ) = Σ EX=\mu,Cov(X)=\Sigma EX=μ,Cov(X)=Σ,则
    E [ X ′ A X ] = μ ′ A μ + t r ( A Σ ) E[X'AX]=\mu'A\mu+tr(A\Sigma) E[XAX]=μAμ+tr(AΣ)

    接下来我们基于这个恒等式计算 E ∥ X ( β ^ − β ^ O L S ) ∥ 2 E\left\| X(\hat\beta-\hat{\beta}_{OLS})\right\|^2 EX(β^β^OLS)2,
    E ∥ X ( β ^ − β ^ O L S ) ∥ 2 = E ( H β ^ O L S − d ) ′ [ H ( X ′ X ) − 1 H ′ ] − 1 ( H β ^ O L S − d ) = ( H β − d ) ′ [ H ( X ′ X ) − 1 H ′ ] − 1 ( H β − d ) + t r [ [ H ( X ′ X ) − 1 H ′ ] − 1 C o v ( H β ^ O L S ) ] E\left\| X(\hat\beta-\hat{\beta}_{OLS})\right\|^2\\=E(H\hat\beta_{OLS}-d)'[H(X'X)^{-1}H']^{-1}(H\hat\beta_{OLS}-d) \\ = (H\beta-d)'[H(X'X)^{-1}H']^{-1}(H\beta-d) \\+tr[[H(X'X)^{-1}H']^{-1}Cov(H\hat\beta_{OLS})] EX(β^β^OLS)2=E(Hβ^OLSd)[H(XX)1H]1(Hβ^OLSd)=(Hβd)[H(XX)1H]1(Hβd)+tr[[H(XX)1H]1Cov(Hβ^OLS)]

    在参数空间 { ( β , σ 2 ) : H β = d } \{(\beta,\sigma^2):H\beta=d\} {(β,σ2):Hβ=d}中,第一项 ( H β − d ) ′ [ H ( X ′ X ) − 1 H ′ ] − 1 ( H β − d ) = 0 (H\beta-d)'[H(X'X)^{-1}H']^{-1}(H\beta-d)=0 (Hβd)[H(XX)1H]1(Hβd)=0

    计算第二项,根据上一讲的最后一个定理,
    C o v ( H β ^ O L S ) = σ 2 H ′ ( X ′ X ) − 1 H Cov(H\hat\beta_{OLS})=\sigma^2H'(X'X)^{-1}H Cov(Hβ^OLS)=σ2H(XX)1H

    因此
    [ H ( X ′ X ) − 1 H ′ ] − 1 C o v ( H β ^ O L S ) = σ 2 I k ⇒ t r [ [ H ( X ′ X ) − 1 H ′ ] − 1 C o v ( H β ^ O L S ) ] = t r ( σ 2 I k ) = k σ 2 [H(X'X)^{-1}H']^{-1}Cov(H\hat\beta_{OLS})=\sigma^2I_k \\ \Rightarrow tr[[H(X'X)^{-1}H']^{-1}Cov(H\hat\beta_{OLS})] = tr(\sigma^2I_k)=k\sigma^2 [H(XX)1H]1Cov(Hβ^OLS)=σ2Iktr[[H(XX)1H]1Cov(Hβ^OLS)]=tr(σ2Ik)=kσ2

    这里 k = r a n k ( H ) k=rank(H) k=rank(H),所以
    E ∥ y − X β ^ ∥ 2 = ( n − r a n k ( X ) + r a n k ( H ) ) σ 2 E \left\| y-X\hat{\beta}\right\|^2 = (n-rank(X)+rank(H))\sigma^2 EyXβ^2=(nrank(X)+rank(H))σ2

    证毕

    展开全文
  • 此Matlab文件为最小二乘的递推算法,可根据需要,修改其中部分代码
  • 对于最小二乘估计,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值和观测值之差的平方和最小,其推导过程如下所示。其中Q表示误差,Yi表示估计值,Yi'表示观测值。对于最大似然法,最合理的参数...
  • 对于线性回归模型y=ax+b, 常用到的估计参数的方法有:最小二乘法和极大似然估计,本话题暂不讨论这两种理论方法如何去估计参数,只讨论在最小二乘法的核心思想中,为什么使用残差平方和去做处理。 先来看看最小...
  • R语言计算线性回归的最小二乘估计

    千次阅读 2021-06-04 21:03:02
    R语言计算线性回归的最小二乘估计 全称:线性回归的最小二乘法(OLS回归),ordinary least square,字面翻译:普通最小平方; 内容:包括三个部分:简单线性回归、多项式回归、多元线性回归; 原理:最小二乘法,...
  • 参数估计
  • 最小二乘估计详细推导

    千次阅读 2020-10-22 10:56:51
  • 14 最小二乘估计原理推导和线性回归的外推等 标签:机器学习与数据挖掘 1.简单最小二乘估计的推导   先说个历史:最小二乘法是勒让德( A. M. Legendre)于1805年在其著作《计算慧星轨道的新方法》中提出的。它的...
  • 普通最小二乘(OLS)回归

    千次阅读 2020-08-10 13:43:01
    OLS(普通最小二乘)回归是最简单的线性回归模型,也称为线性回归的基础模型。 尽管它是一个简单的模型,但是在机器学习中却没有太多的权重。 OLS就是这样一种模型,它告诉您的不仅是整个模型的准确性。 它还告诉您每...
  • 普通最小二乘法(OLS)(有时也称为线性最小二乘法)估计线性回归线的参数,从而使样本点的垂直距离(残差或误差)之和最小化。 from sklearn.preprocessing import StandardScaler import numpy as np import ...
  • 普通最小二乘-OLS原理简介

    千次阅读 2018-04-23 20:08:21
    最小二乘法是做拟合问题的一个常用的方法,最小二乘法的来源是怎样的呢?下面我们一起来探究一下,参考资料—–Andrew Ng 机器学习课程。 回顾一下线性回归问题的优化目标 θ∗=argminθ12∑ni=1(θTxi−yi)2=arg...
  • 【基础入门】最小二乘原理详解+系统参数辨识

    万次阅读 多人点赞 2019-03-20 18:19:29
    本章将研究最小二乘参数辨识方法,主要包括最小二乘参数估计的一次完成算法、最小二乘递推算法、增广最小二乘法、 广义最小二乘法和多级最小二乘法。 其中最小二乘的一次完成算法是最基本的,也是应用最广泛的一...
  • 一元线性回归中未知参数最小二乘估计   如果变量y对x的回归方程的形式为y=a+bx,又如何根据样本数据去寻求未知参数a与b的估计值和,而使回归直线方程与所有的观测点(xi,yi)(i=1,2,…,n)拟合得最好. 对任一...
  • 利用python手动写最小二乘估计

    千次阅读 2015-10-13 21:25:48
    今天朋友请我吃完晚饭回来,刚刚一个python群问起最小二乘回归估计的问题,他不知道在python里面怎么实现,我告诉他有很多方法去实现,比如说sklean库里面有关于最小二乘估计现成模块,利用pyper调用R软件里面lm,再...
  • 1.矩阵求导: 函数自变量是矩阵,求导是对矩阵的每一个元素分别求导后,组成新的矩阵。 例: 2.矩阵的迹: 矩阵迹的常用性质: 矩阵迹与矩阵求导相关结论: ...3.证明最小二乘的正规方程(矩阵...
  • 最小二乘估计

    2020-01-05 23:21:10
    最近学习到卡尔曼滤波,但卡尔曼滤波的基础是最小二乘估计最小二乘估计是统计学的基石。 学习笔记: 通过事实,推断出最有可能的硬币情况,就是最大似然估计。 已知硬币的参数,就可以去推测抛硬币的各种情况的...
  • 最小二乘法(LS)估计曲线的参数

    千次阅读 2019-09-30 21:06:59
    Content1 目标2 进行观测(多余观测)3 泰勒展开获得误差方程4 最小二乘解 1 目标 2 进行观测(多余观测) 3 泰勒展开获得误差方程 4 最小二乘
  • 对于多元线性回归要拟合最好的直线,要使得误差平方和最小,课本上的方法都是求偏导,并使其为0,然后求解线性方程组。 但是还有很多其他方法可以达到上述效果,Andrew在大样本和小样本的情况下给出了两种梯度下降...
  • 最小二乘原理推导及代码

    千次阅读 2019-03-04 18:11:13
     最常用的是普通最小二乘法( Ordinary Least Square,OLS):所选择的回归模型应该使所有观察值的残差平方和达到最小。(Q为残差平方和) 样本回归模型: 残差平方和: 则通过Q最小确定这条直线,...
  • 最小二乘、加权最小二乘、迭代加权最小二乘(迭代重加全最小二乘最小二乘: 最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地...
  • 最小二乘原理

    2021-05-16 21:50:36
    最小二乘估计的步骤推导(原理)及无偏性证明
  • 1、多元线性回归方程的矩阵表示1.1 最小二乘估计的原理、思想及推导步骤1.1.1 最小二乘估计的思想1.1.2 最小二乘估计的前提条件1.1.3 最小二乘估计的推导步骤1.1.4 最小二乘估计的性质1.1.5 编程实现β=(XTX)−1XTY\...
  • 基本最小二乘到递推最小二乘基本最小二乘(LS)先导知识:从函数出发残差梳理推导基本思想:开始推导递推最小二乘法 基本最小二乘(LS) 先导知识: 从函数出发   假设一个函数y=[θ1θ2⋯θn][x1x2⋮xn]=θX=∑i=...
  • get_params([deep])得到参数估计量,默认为true #predict(x)用来预测,score(x,y,sample_weight=none)用来返回确认系数R^2的预测。 from sklearn.linear_model import LinearRegression import pandas as pd ...
  • 简述:参数估计中的最小二乘法

    千次阅读 2020-03-28 23:44:59
    普通最小二乘法只考虑观测向量b的误差,而总体最小二乘法还考虑了数据矩阵 A 的误差, 因此适用于数据矩阵 A 满列秩和数据向量b存在独立同分布的高斯误差的情况。 后者更符合实际并拥有更高的估计精度,所以在统计...
  • 普通最小二乘法(ordinary least squares, OLS)是线性回归预测问题中一个很重要的概念,在 Introductory Econometrics A Modern Approach (Fourth Edition) 第2章 简单回归模型 中,花了很详细的篇幅对此作出介绍。

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,053
精华内容 1,221
关键字:

参数的普通最小二乘估计