精华内容
下载资源
问答
  • 多元回归模型

    2016-11-03 15:29:42
    coursera华盛顿大学机器学习专项课程第二门课,多元回归,数据和代码(包括习题答案)
  • 多元门限回归模型优于单纯多元回归模型,曹琨,,利用乌江渡1951-2006年月径流量和74项气象因子资料拟合,建立单纯的多元回归模型和非线性多元门限回归模型,对2007、2008年月径流量进�
  • 基于多元回归模型的我国GDP增长的影响因素分析
  • 首先根据动力性排放关联因素选择了防爆轻型胶轮车排放检测设备,利用SPSS软件中多元回归法得出最理想的拟合方程,建立矿用轻型胶轮车动力性评估的多元回归模型。其次,进行了动力性评估试验,将模型评估结果与底盘测...
  • 多元回归模型 Multiple Regression Model2.1一阶多元回归模型 First–Order Multiple Regression Model2.2 两个自变量的一阶模型2.3 估计系数的解释3. 一阶模型示例3.1系数的解释3.1 σ^2的估值3.2 测试整体意义4....

    1. 残差的诊断

    ▪模型为线性的假设不成立。注意,对于x的高和低值,残差是负的,对于x的中值是正的。这些残差的图是抛物线的,而不是随机的。
    ▪残留地块不需要以这种方式塑造,非线性关系就会存在。与近似水平残差图的任何显著偏差都可能意味着这两个变量之间存在非线性关系。
    在这里插入图片描述
    ▪残差曲线呈扇形分布,表明误差方差不变(均方差)的假设不成立。
    ▪在图13.7(a)中注意到,x值小时误差方差较大,x值大时误差方差较小。在图13.7(b)中情况相反。
    在这里插入图片描述
    ▪如果误差项不是独立的(自相关),残差图可能看起来像图13.8中的一个图形。
    ▪根据这些图,残差值是残差值的函数,而不是每个误差项都与相邻的误差项无关。
    ▪例如,一个大的正残差紧挨着一个大的正残差,一个小的负残差紧挨着一个小的负残差。
    在这里插入图片描述
    ▪回归分析得到的符合假设的残差图-健康残差图-可能像图13.9所示。
    ▪plot在x轴上有随机分布;对于x的每个值,误差的方差大约是相等的,并且误差项似乎与相邻项没有关系。
    在这里插入图片描述

    2.多元回归模型 Multiple Regression Model

    一般形式:y=β0+β1X1+β2X2+...+βkXk+εy=β_0+β_1X_1+β_2X_2+...+β_kX_k+ε

    2.1一阶多元回归模型 First–Order Multiple Regression Model

    1个因变量与2个或更多自变量之间的关系是线性函数
    在这里插入图片描述

    2.2 两个自变量的一阶模型

    •1个因变量和2个自变量之间的关系是一个线性函数
    •模型:E(YX1,X2)=/beta0+/beta1x1+/beta2x2E(Y|X_1, X_2) = /beta_0 + /beta_1x1 + /beta_2x2
    •假设X1和X2之间没有相互作用;即,无论X2值如何,X1对E(Y|X1, X2)的影响是相同的
    sample Multiple Regression Model
    在这里插入图片描述

    2.3 估计系数的解释

    截距(β^0\hat{β}_0)

    • Xk = 0时Y的平均值

    斜率(β^k\hat{β}_k)

    • 估计Y改变β^k平均每增加1单位在Xk,保持所有其他独立变量不变。
    • 如果β^1 = 2,然后销售(Y)预计将增加2平均每增加1单位的广告(X1)给销售代表的数量(X2)。

    3. 一阶模型示例

    你在《纽约时报》做广告。您需要找到广告大小size的影响(sq.IN.)和报纸发行量circulation(000份)上的广告回应数response(00份)。估计未知参数。
    在这里插入图片描述

    3.1系数的解释

    拟合多重回归是Y^=0.06397+0.20492X1+0.28049X2\hat{Y}= 0.06397 + 0.20492X_1 + 0.28049 X_2
    β^1 = 0.20492

    • 每增加一个单位的广告规模,对广告有反应的数量将增加0.2049 * 100 = 20.49
      β^2 = 0.28049
    • 在保持广告规模不变的情况下,每增加1000单位的发行量,有反应数量平均增加100 = 28.05。

    3.1 σ^2的估值

    在这里插入图片描述

    3.2 测试整体意义

    表明所有X变量和Y之间是否存在线性关系
    假设

    • H0:β1=β2=β3=…=βk=0
    • H1:至少有一个βj≠0
      检验统计量
      多元回归中的R^2
      在这里插入图片描述

    4.多元回归中的R^2

    在这里插入图片描述
    ▪当回归中加入另一个回归因素时,

    • TSS保持不变;这是数据的一个纯粹特征
    • RSS无法增加:模型越大越不适合数据
    • 注意,如果额外的回归系数为零,那么RSS将保持不变(即,对模型没有贡献)
      ▪因此,R2不能随着我们加入更多的回归项而减少,即使额外的回归项是无关的!

    4.1Adjusted R^2

    adjusted R2是对R2的改进措施
    ▪它根据模型中回归变量k的数量进行调整
    ▪当回归中加入另一个回归因素时,
    •TSS保持不变;RSS不能增加
    •n - p减少1
    ▪调整后的R2可能增加或减少
    •如果额外的回归因子不能为模型提供更多的解释力,RSS变化不大。调整后的R2将减少!
    •如果额外的回归变量对解释Y很重要,则调整后的R2会增加。当加入一个额外的回归变量时,R2不会下降。

    展开全文
  • 应用stata学习计量经济学原理 第五章 多元回归模型本章代码 第五章 多元回归模型 本章代码 * setup version 11.1 capture log close set more off * open log log using chap05_food, replace text * open data ...

    应用stata学习计量经济学原理

    第五章 多元回归模型

    本章代码

    * setup
    version 11.1
    capture log close
    set more off
    
    * open log
    log using chap05_food, replace text
    
    * open data
    use andy, clear
    
    * Summary Statistics
    summarize
    
    * List subset of observations
    list in 1/5
    
    * Least squares regression with covariance matrix
    regress sales price advert
    estat vce
    
    * Predict sales when price is 5.50 and adv is 1200
    di _b[_cons] + _b[price]*5.50 + _b[advert]*1.2
    
    * Using the data editor to predict
    set obs 76
    replace price = 5.50 in 76
    replace advert = 1.2 in 76
    predict yhat
    list yhat in 76
    
    * Calculate sigma-hat square
    ereturn list
    scalar sighat2 = e(rss)/e(df_r)
    scalar list sighat2
    
    * Standard error of the regression
    di sqrt(sighat2)
    
    * Confidence Intervals
    scalar bL = _b[price] - invttail(e(df_r),.025) * _se[price]
    scalar bU = _b[price] + invttail(e(df_r),.025) * _se[price]
    
    scalar list bL bU
    
    * Using the level() command to change size of default intervals
    regress sales price advert, level(90)
    
    * Interval for a linear combination
    * Easy way
    lincom -0.4*price+0.8*advert, level(90)
    
    * Hard way
    matrix cov=e(V)
    scalar lambda = -0.4*_b[price]+0.8*_b[advert]
    scalar var_lambda = (-0.4)^2*cov[1,1]+(0.8)^2*cov[2,2]+2*(-0.4)*(0.8)*cov[1,2]
    scalar se = sqrt(var_lambda)
    scalar t = lambda/se
    scalar lb = lambda-invttail(e(df_r),.05)*se
    scalar ub = lambda+invttail(e(df_r),.05)*se
    scalar list lambda var_lambda se t lb ub
    
    * t-ratios
    scalar t1 = (_b[price]-0)/_se[price]
    scalar t2 = (_b[advert]-0)/_se[advert]
    scalar list t1 t2
    
    * pvalues
    scalar p1 = 2*ttail(72,abs(t1))
    scalar p2 = ttail(72,abs(t2))
    scalar list p1 p2
    
    * One sided significance test
    scalar t1 = (_b[price]-0)/_se[price]
    scalar crit = -invttail(e(df_r),.05)
    scalar pval = 1-ttail(e(df_r),t1)
    scalar list t1 crit pval
    
    * One sided test of Advertising effectiveness
    scalar t2 = (_b[advert]-1)/_se[advert]
    scalar crit = invttail(e(df_r),.05)
    scalar pval = ttail(e(df_r),t2)
    scalar list t2 crit pval
    
    * Linear combination
    lincom -0.2*price-0.5*advert
    scalar t = r(estimate)/r(se)
    scalar crit = invttail(e(df_r),.05)
    scalar pval = ttail(e(df_r),t)
    scalar list crit t pval
    
    return list
    
    * Polynomial
    generate a2 = advert*advert
    reg sales price advert a2
    scalar me1 = _b[advert]+2*(.5)*_b[a2]
    scalar me2 = _b[advert]+2*(2)*_b[a2]
    scalar list me1 me2
    
    * Nonlinear combinations of variables
    scalar advertt0 = (1-_b[advert])/(2*_b[a2])
    scalar list advertt0
    
    nlcom (1-_b[advert])/(2*_b[a2])
    
    * Polynomial using factor variables
    regress sales price advert c.advert#c.advert
    margins, dydx(advert) at(advert=(.5 2))
    
    * Interactions
    use pizza4, clear
    regress pizza age income c.age#c.income
    margins, dydx(age) at(income=(25 90))
    
    use cps4_small, clear
    gen lwage = ln(wage)
    regress lwage educ exper c.educ#c.exper 
    regress lwage educ exper c.educ#c.exper c.exper#c.exper
    
    use andy, clear
    reg sales price advert
    
    di "R-square " e(mss)/(e(mss)+e(rss))
    di "R-square " 1-e(rss)/(e(mss)+e(rss))
    log close
    
    
    展开全文
  • 数学建模常用模型05 :多元回归模型

    万次阅读 多人点赞 2018-08-03 13:43:37
    1.1回归模型的引入 由于客观事物内部规律的复杂性及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型。所以在遇到有些无法用机理分析建立数学模型的时候,通常采取搜集大量数据的...

    给大家安利一款朋友开发的自研国产数据分析基础工具,一键式自动分析,自动生成分析模板,5分钟掌握主流61个统计类数学模型(几乎涵盖SPSS绝大部分功能),以及23个有监督机器学习(包括随机森林,SVM,XGBoost等)

    PS:巨方便简单上手,貌似现在是免费

    官网:www.mpaidata.com   mpai数据科学平台

     

    1 基本知识介绍

    1.1回归模型的引入

    由于客观事物内部规律的复杂性及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型。所以在遇到有些无法用机理分析建立数学模型的时候,通常采取搜集大量数据的办法,基于对数据的统计分析去建立模型,其中用途最为广泛的一类随即模型就是统计回归模型。

    回归模型确定的变量之间是相关关系,在大量的观察下,会表现出一定的规律性,可以借助函数关系式来表达,这种函数就称为回归函数或回归方程。

     

    1.2回归模型的分类

     

    2 用回归模型解题的步骤

    回归模型解题步骤主要包括两部分,一:确定回归模型属于那种基本类型,然后通过计算得到回归方程的表达式;二:是对回归模型进行显著性检验。

    一:①根据试验数据画出散点图;

        ②确定经验公式的函数类型;

    ③通过最小二乘法得到正规方程组;

    ④求解方程组,得到回归方程的表达式。

    二:①相关系数检验,检验线性相关程度的大小;

    ②F检验法(这两种检验方法可以任意选);

    ③残差分析;

    ④对于多元回归分析还要进行因素的主次排序;

        如果检验结果表示此模型的显著性很差,那么应当另选回归模型了。

    3模型的转化

    非线性的回归模型可以通过线性变换转变为线性的方程来进行求解:例如

    函数关系式:可以通过线性变换:转化为一元线性方程组来求解,对于多元的也可以进行类似的转换。

     

    4举例

    例1(多元线性回归模型):已知某湖八年来湖水中COD浓度实测值(y)与影响因素湖区工业产值(x1)、总人口数(x2)、捕鱼量(x3)、降水量(x4)资料,建立污染物y的水质分析模型。

        (1)输入数据

        x1=[1.376, 1.375, 1.387, 1.401, 1.412, 1.428, 1.445, 1.477]

        x2=[0.450, 0.475, 0.485, 0.500, 0.535, 0.545, 0.550, 0.575]

        x3=[2.170 ,2.554, 2.676, 2.713, 2.823, 3.088, 3.122, 3.262]

        x4=[0.8922, 1.1610 ,0.5346, 0.9589, 1.0239, 1.0499, 1.1065, 1.1387]

        y=[5.19, 5.30, 5.60,5.82,6.00, 6.06,6.45, 6.95]

        (2)保存数据(以数据文件.mat形式保存,便于以后调用)

        save  data x1 x2 x3 x4 y

        load data  (取出数据)

        (3)执行回归命令

        

    [b,bint,r,rint,stats] = regress(y,x)

    得结果:

        b = (-16.5283,15.7206,2.0327,-0.2106,-0.1991)’

        stats = (0.9908,80.9530,0.0022)

    即:\hat y= -16.5283 + 15.7206xl + 2.0327x2 – 0.2106x3 + 0.1991x4

            {R^2} = 0.9908,F = 80.9530,P = 0.0022

        通过查表可知,{R^2}代表决定系数(R代表相关系数),它的值很接近与1,说明此方程是高度线性相关的;

    F检验值为80.9530远大于{F_{0.05}}(4,3) = 9.12,可见,检验结果是显著的。

    例2(非线性回归模型)非线性回归模型可由命令nlinfit来实现,调用格式为

        [beta,r,j] = nlinfit(x,y,'model’,beta0)

        其中,输人数据x,y分别为n×m矩阵和n维列向量,对一元非线性回归,x为n维列向量model是事先用 m-文件定义的非线性函数,beta0是回归系数的初值, beta是估计出的回归系数,r是残差,j是Jacobian矩阵,它们是估计预测误差需要的数据。

      预测和预测误差估计用命令

      [y,delta] = nlpredci(’model’,x,beta,r,j)

      如:对实例1中COD浓度实测值(y),建立时序预测模型,这里选用logistic模型。即

        y = \frac{a}{{1 + b{e^{ - ct}}}}

      (1)对所要拟合的非线性模型建立的m-文件mode1.m如下:

      function yhat=model(beta,t)

      yhat=beta(1)./(1+beta(2)*exp(-beta(3)*t))

      (2)输人数据

      t=1:8

      load data y(在data.mat中取出数据y)

      beta0=[50,10,1]’

      (3)求回归系数

      [beta,r,j]=nlinfit(t’,y’,’model’,beta0)

      得结果:

      beta=(56.1157,10.4006,0.0445)’

      即

      \hat y = \frac{{56.1157}}{{1 + 10.4006{e^{ - 0.0445t}}}}

      (4)预测及作图

        [yy,delta] = nlprodei(’model’,t’,beta,r,j);

        plot(t,y,’k+’,t,yy,’r’)

        3.逐步回归

        逐步回归的命令是stepwise,它提供了一个交互式画面,通过此工具可以自由地选择变量,进行统计分析。调用格式为:

        stepwise(x,y,inmodel,alpha)

        其中x是自变量数据,y是因变量数据,分别为n×m和n×l矩阵,inmodel是矩阵的列数指标(缺省时为全部自变量),alpha,为显著性水平(缺省时为0.5)

        结果产生三个图形窗口,在stepwise plot窗口,虚线表示该变量的拟合系数与0无显著差异,实线表示有显著差异,红色线表示从模型中移去的变量;绿色线表明存在模型中的变量,点击一条会改变其状态。在stepwise Table窗口中列出一个统计表,包括回归系数及其置信区间,以及模型的统计量剩余标准差(RMSE),相关系数 (R-square),F值和P值。

      例3、主成份分析

      主成份分析主要求解特征值和特征向量,使用命令 eig(),调用格式为

        [V,D] = eig(R)   

        其中R为X的相关系数矩阵,D为R的特征值矩阵,V为特征向量矩阵

        实例3:对实例1中变量进行主成份成析

        (1)调用数据

        load data

        x =

        (2)计算相关系数矩阵

        R = corrcoef(x)

        (3)求特征根、特征向量

        [V,D] = eig(R)

    得结果:

     

      按特征根由大到小写出各主成份

      第一主成份

      f1 = 0.5438xl+0.5505x2+0.5387x3+0.3332x4

      方差贡献率为3.1863/4 = 79.66%

      第二主成份

      f2 = -0.1693xl-0.1588x2 –0.2484x3 +0.9404x4

      方差贡献率为0.7606/4 = 19.12%

      第三主成份

      f3 = -0.7597x1 + 0.0930x2 + 0.6418x3 + 0.0485x4

    方差贡献率为0.0601/4=1.5%

    展开全文
  • 本文主要将简单回归模型拓展到多元回归模型,重点介绍经典线性回归模型的假定,利用排除其他变量影响的方法进行推导计算。

    多元回归模型

    经典线性回归模型的假定

    在这一节中,我们将把回归模型由一元扩展到多元。多元回归分析允许在模型中加入多个可观测的因素,通过控制其他条件不变,分析不同的自变量对因变量的解释能力。首先,我们给出经典线性回归模型的基本假定的严格定义,分析在不同的假定条件下,OLS 估计量具有什么样的统计性质。

    MLR.1 线性于参数

    总体模型设定:
    y=β0+β1x1+β2x2++βkxk+u , y=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_kx_k+u \ ,
    其中 β0,β1,,βk\beta_0,\beta_1,\cdots,\beta_k 是未知的待估参数,而 uu 是无法观测的随机误差项。

    上述方程是总体模型的规范化表述,此模型的一个重要特点是,它是参数 β0,β1,,βk\beta_0,\beta_1,\cdots,\beta_k 的线性函数。该假定也是多元回归分析的模型设定。

    MLR.2 随机抽样

    有一个包含 nn 次观测的随机样本 {(xi1,xi2,,xik,yi):i=1,2,,n}\{(x_{i1},x_{i2},\cdots,x_{ik},y_i):i=1,2,\cdots,n\} 来自总体模型。

    我们可以对一次特定观测 ii 写出其方程:
    yi=β0+β1xi1+β2xi2++βkxik+ui , y_i=\beta_0+\beta_1x_{i1}+\beta_2x_{i2}+\cdots+\beta_kx_{ik}+u_i \ ,

    这里的 ii 表示观测次数,xx 的第二个下标表示变量的序号。

    MLR.3 不存在完全共线性

    在样本(总体)中,没有一个解释变量是常数,自变量之间也不存在严格的线性关系。

    该假定允许解释变量之间存在相关关系,但不能是完全相关。如果存在完全共线性,则 OLS 方法将无法估计,这一点我们在多重共线性一章进行介绍。

    MLR.4 零条件均值

    给定解释变量的任何值,误差的期望值为零,即
    E(u  x1,x2,,xk)=0 . {\rm E}(u\ |\ x_1,x_2,\cdots,x_k)=0 \ .

    该假设不成立的情况:

    • 被解释变量和解释变量之间的函数关系被错误设定
    • 遗漏一个与 x1,x2,,xkx_1,x_2,\cdots,x_k 中任何一个解释变量相关的解释变量
    • uu 与一个解释变量相关(内生解释变量)

    MLR.5 同方差性

    给定解释变量的任何值,误差都具有相同的方差,即
    Var(u  x1,x2,,xk)=σ2 . {\rm Var}(u\ | \ x_1,x_2,\cdots,x_k)=\sigma^2 \ .

    该假设意味着以解释变量为条件,不管解释变量出现怎样的组合,误差项 uu 的方差都是一样的。违背该假定,模型将表现出异方差性,这一问题在截面数据中十分常见。

    MLR.6 正态性

    总体误差 uu 独立于解释变量 x1,x2,,xkx_1,x_2,\cdots,x_k,而且服从均值为0和方差为 σ2\sigma^2 的正态分布:
    uN(0, σ2) . u\sim N(0,\ \sigma^2) \ .

    该假定是比前面任何一个假定都更强的假定。当我们以样本自变量的值为条件时,易知 OLS 估计量的抽样分布取决于其背后的误差 uu 的分布。

    定理总结

    我们将假定 MLR.1 至 MLR.5 称为高斯-马尔科夫假定,将假定 MLR.1 至 MLR.6 称为经典线性回归模型的基本假定。在基本假定成立的前提条件下,OLS 估计量具有很多优良的统计性质:

    • 在假定 MLR.1 至 MLR.4 下,OLS 估计量是具有无偏性。
    • 在假定 MLR.1 至 MLR.5 下,OLS 估计量是具有有效性。
    • 高斯-马尔科夫定理:在高斯-马尔科夫假定下,OLS 估计量是最优线性无偏估计量(BLUE)。

    为了对上述定理进行推导,我们首先要引入一种分析多元回归模型偏效应的方法,即排除其他变量影响的方法。

    排除其他变量影响的方法

    我们以 β1\beta_1 为例,介绍偏回归系数的估计方法,进而我们可以控制其他变量的影响因素,分析 x1x_1yy 的偏效应。

    step.1

    x1x_1x2,x3,...,xkx_2,x_3,...,x_k 进行回归,残差记为 r^i1\hat{r}_{i1} 。写成总体模型的形式如下:
    x1=γ1+γ2x2+...+γkxk+r1 . x_1=\gamma_1+\gamma_2x_2+...+\gamma_kx_k+r_1 \ .
    上述模型具有如下的统计性质:
    E(r1)=0 ,    Cov(xj,r1)=0 ,    j=2,3,,k , {\rm E}(r_1)=0\ ,\ \ \ \ {\rm Cov}(x_j,\,r_1)=0\ ,\ \ \ \ j=2,3,\cdots,k \ ,

    该统计性质来源于多元回归模型的零条件均值假设,由该性质可以推出下面的性质:
    Cov(x1, r1)=Var(r12) . {\rm Cov}(x_1,\ r_1)={\rm Var}(r_1^2) \ .

    在一组观测样本中,我们可以用样本数据的形式表现上述性质:
    i=1nr^i1=0 , \sum_{i=1}^n \hat{r}_{i1}=0 \ ,

    i=1nxijr^i1=0 ,    j=2,3,,k , \sum_{i=1}^n x_{ij}\hat{r}_{i1}=0\ ,\ \ \ \ j=2,3,\cdots,k \ ,

    i=1nxi1r^i1=i=1nr^i12 . \sum_{i=1}^n x_{i1}\hat{r}_{i1}=\sum_{i=1}^n\hat{r}_{i1}^2 \ .

    step.2

    yyr^1\hat{r}_1 做简单回归,模型可以写为:
    y=β0+β1r^1+ε . y=\beta_0+\beta_1\hat{r}_1+\varepsilon \ .
    根据简单回归模型的 OLS 计算公式,有
    β^1=i=1n(r^i1r^ˉ1)(yiyˉ)i=1n(r^i1r^ˉ1)2=i=1nr^i1yii=1nr^i12 . \hat\beta_1=\frac{\displaystyle\sum_{i=1}^n(\hat{r}_{i1}-\bar{\hat{r}}_1)(y_i-\bar{y})}{\displaystyle\sum_{i=1}^n(\hat{r}_{i1}-\bar{\hat{r}}_1)^2}=\frac{\displaystyle\sum_{i=1}^n\hat{r}_{i1}y_i}{\displaystyle\sum_{i=1}^n\hat{r}_{i1}^2} \ .
    这样我们就求出来了 x1x_1yy 的偏效应,可以证明这里的 β^1\hat\beta_1 和原模型 OLS 的估计结果完全相等,在这里就不进行推导。偏回归系数的估计为 OLS 估计量的性质的证明提供了新的思路。

    无偏性的证明

    接下来我们利用排除其他变量影响的方法证明 OLS 估计下 β^1\hat\beta_1 具有无偏性。

    将多元线性模型的样本形式代入 β1\beta_1 的估计式中:
    β^1=i=1nr^i1yii=1nr^i12=i=1nr^i1(β0+β1xi1+β2xi2+...+βkxik+ui)i=1nr^i12 , \hat\beta_1=\frac{\displaystyle\sum_{i=1}^n\hat{r}_{i1}y_i}{\displaystyle\sum_{i=1}^n\hat{r}_{i1}^2}=\frac{\displaystyle\sum_{i=1}^n\hat{r}_{i1}(\beta_0+\beta_1x_{i1}+\beta_2x_{i2}+...+\beta_kx_{ik}+u_i)}{\displaystyle\sum_{i=1}^n\hat{r}_{i1}^2} \ ,

    根据 step.1 中的样本性质得出以下推论:

    • 对于常数项 β0\beta_0r^i1\hat{r}_{i1} 的乘积和,

    i=1nβ0r^i1=β0i=1nr^i1=0 . \displaystyle\sum_{i=1}^n\beta_0\hat{r}_{i1}=\beta_0\cdot\displaystyle\sum_{i=1}^n\hat{r}_{i1}=0 \ .

    • 对于偏效应 β1\beta_1r^i1\hat{r}_{i1} 的乘积和,

    i=1nβ1xi1r^i1=β1i=1nxi1r^i1=β1i=1nr^i12 . \displaystyle\sum_{i=1}^n\beta_1x_{i1}\hat{r}_{i1}=\beta_1\cdot \sum_{i=1}^nx_{i1}\hat{r}_{i1}=\beta_1\cdot\sum_{i=1}^n\hat{r}_{i1}^2 \ .

    • 对于被控制的其他偏效应和 r^i1\hat{r}_{i1} 的乘积和,

    i=1nβjxijr^i1=βji=1nxijr^i1=0 ,    j=2,3,...,k . \displaystyle\sum_{i=1}^n\beta_jx_{ij}\hat{r}_{i1}=\beta_j\cdot\displaystyle\sum_{i=1}^nx_{ij}\hat{r}_{i1}=0\ ,\ \ \ \ j=2,3,...,k \ .

    将上述三条推论代入 β1\beta_1 的估计式中可以得到:
    β^1=β1i=1nr^i12+i=1nr^i1uii=1nr^i12=β1+i=1nr^i1uii=1nr^i12 . \hat\beta_1=\frac{\beta_1\cdot\displaystyle\sum_{i=1}^n\hat{r}_{i1}^2+\displaystyle\sum_{i=1}^n\hat{r}_{i1}u_i}{\displaystyle\sum_{i=1}^n\hat{r}_{i1}^2}=\beta_1+\frac{\displaystyle\sum_{i=1}^n\hat{r}_{i1}u_i}{\displaystyle\sum_{i=1}^n\hat{r}_{i1}^2} \ .
    这里唯一的随机变量就是总体回模型的随机误差项 uu ,因此我们两边取数学期望得
    E(β^1)=β1+i=1nr^i1E(ui)i=1nr^i12=β1 . {\rm E}(\hat\beta_1)=\beta_1+\frac{\displaystyle\sum_{i=1}^n\hat{r}_{i1}\cdot {\rm E}(u_i)}{\displaystyle\sum_{i=1}^n\hat{r}_{i1}^2}=\beta_1 \ .

    由此便证明了 β^1\hat\beta_1 是无偏估计量。

    估计量的方差计算

    对所有的 j=1,2,...,kj=1,2,...,k,都有
    Var(β^j)=σ2SSTj(1Rj2) , {\rm Var}(\hat\beta_j)=\frac{\sigma^2}{{\rm SST}_j(1-R^2_j)} \ ,
    其中, SSTj=i=1n(xijxˉj)2{\rm SST}_j=\displaystyle\sum_{i=1}^n(x_{ij}-\bar{x}_j)^2 ,是 xjx_j 的总样本波动; Rj2R_j^2xjx_j 对其他解释变量做回归所得到的可决系数。

    对于上述公式,我们还是利用排除其他变量影响的方法对 j=1j=1 的情况进行证明:
    Var(β^1)=Var(i=1nr^i1uii=1nr^i12)=i=1nr^i12Var(ui)(i=1nr^i12)2=σ2i=1nr^i12 , {\rm Var}(\hat\beta_1)={\rm Var}\left(\frac{\displaystyle\sum_{i=1}^n\hat{r}_{i1}u_i}{\displaystyle\sum_{i=1}^n\hat{r}_{i1}^2}\right)=\frac{\displaystyle\sum_{i=1}^n\hat{r}_{i1}^2\cdot {\rm Var}(u_i)}{\left(\displaystyle\sum_{i=1}^n\hat{r}_{i1}^2\right)^2}=\frac{\sigma^2}{\displaystyle\sum_{i=1}^n\hat{r}_{i1}^2} \ ,
    因为 i=1nr^i12\displaystyle\sum_{i=1}^n\hat{r}_{i1}^2x1x_1x2,x3,...,xkx_2,x_3,...,x_k 做回归的残差平方和 SSR1{\rm SSR}_1 ,根据可决系数的定义,我们有
    i=1nr^i12=SSTj(1Rj2) , \displaystyle\sum_{i=1}^n\hat{r}_{i1}^2={\rm SST}_j(1-R^2_j) \ ,
    代入即可证得
    Var(β^1)=σ2SST1(1R12) . {\rm Var}(\hat\beta_1)=\frac{\sigma^2}{{\rm SST}_1(1-R^2_1)} \ .

    估计量方差的成份

    在实证研究中 Var(β^j){\rm Var}(\hat\beta_j) 的大小非常重要。方差越大,意味着估计量越不精确,即置信区间和假设检验越不准确。因此,讨论估计量方差的构成要素很有必要。这里我们将根据上述估计量方差的计算公式,分析估计量方差的成份及其影响因素。

    (1) 误差方差 σ2\sigma^2

    • 这一点很好理解,σ2\sigma^2 越大,方程中的“噪音”越多,OLS 估计量的方差越大,因此估计任何一个解释变量对 yy 的偏效应就越困难。
    • 需要注意的是 σ2\sigma^2 是总体的一个特征,与样本容量无关。对于一个给定的因变量 yy ,减小误差方差的唯一方法就是增加更多的解释变量,将某些可观测的因素从误差中分离出来。但在实际中这样做不仅很难实现,而且还不一定能够得出令人满意的结果。

    (2) xjx_j 的总样本波动 SSTj{\rm SST}_j

    • xjx_j 的总波动越大,Var(β^j){\rm Var}(\hat\beta_j) 越小,因此在其他条件不变的情况下,我们希望 xjx_j 的样本方差越大越好。
    • 当我们从总体中随机抽样时,我们可以通过扩大样本容量的方式,提高自变量的样本波动,即增大 SSTj{\rm SST}_j

    (3) 自变量之间的线性关系 Rj2R_j^2

    • 随着 Rj2R_j^2 向 1 逐渐增加,Var(β^j){\rm Var}(\hat\beta_j) 越来越大。
    • 当模型中出现多重共线性问题时, Rj2R_j^2 接近于 11 但并不违背假设 MLR.3 。
    • 在所有其他条件不变的情况下,就估计 βj\beta_j 而言,xjx_j 与其他自变量之间越不相关越好。

    展开全文
  • 多元回归模型在回采工作面瓦斯涌出量预测中的应用,冯占科,程曙初,生产现场表明:矿井瓦斯涌出量的变化是受多种因素影响的。回归分析方法是处理变量之间相关关系的有利工具,在很多领域都有应用。�
  • 应用stata学习计量经济学原理 第六章 多元回归模型:更多推断本章代码 第六章 多元回归模型:更多推断 本章代码 * setup version 11.1 capture log close set more off * open log log using chap06, replace text ...
  • 我眼中的多元回归模型

    千次阅读 2019-06-21 10:05:07
    多元回归与一元回归不同 与一元回归相比,多元回归有两点不同: 1、新增了一个假定,多元回归的假定为: Y的平均值能够准确的被由X组成的线性函数模型呈现出来; 解释变量和随机扰动项不存在线性关系; ...
  • (一)基础铺垫多重线性回归(Multiple Linear Regression)研究一个因变量...(二)多重线性回归模型1.模型2.模型关键词解析偏回归系数多重线性模型中包含多个自变量,它们同时对因变量y发生作用,如果要考察一个自变量对...
  • 多元回归模型 Y=Xβ+μY=X\beta+\muY=Xβ+μ 被解释变量的估计值与观测值的残差 e=Y−Xβ^=Xβ^+μ−X(X′X)−1X′(Xβ^+μ)=μ−X(X′X)−1μ=[I−X(X′X)−1X′]μ=Mμe=Y-X\hat\beta \\=X\hat\beta+\mu-X(X'X)^{-...
  • Boston-Model-Housing-prices-Multiple-Regression:使用多元回归模型从sklearn.datasets.load_boston预测房价
  • 文章应用股市中三个具有典型意义的技术指标,RSI,KDJ和5日平均线建立了非线性回归预测模型,对股票的价格走势进行了短期...所建立的回归模型对预测某些股票的短期价格趋势提供了参考,具有一定的理论价值和实际应用价值。
  • 分析师通常希望基于自变量的值在多元回归中预测因变量的值。我们之前曾讨论在只有一个自变量的情况下如何进行这种预测。使用多元线性回归进行预测的过程与此非常相似。要使用多元线性回归模型预测因变量的值,我们...
  • 中有一个实验性函数,可以在HTML / CSV / LaTeX / etc中报告单个回归模型的结果,但仍不能完全满足我的要求。 python程序包现在是面向对象的,具有链接的命令来更改渲染参数,希望它具有更多的pythonic特性,并且...
  • 兼顾时间序列模型和多因素回归模型来预测房地产价格,对市场自发展趋势和外部因素影响得出的合理的模型
  • 迭代硬阈值-一种用于分析全基因组关联研究(GWAS)数据的多元回归方法 文献资料 建立状态 代码覆盖率 安装 下载并安装 。 在Julia内,复制并粘贴以下内容: using Pkg Pkg.add(PackageSpec(url=...
  • 如何做多元回归 逐步回归选择模型 逐步程序 定义最终模型 方差分析 预测值图 检查模型的假设 模型拟合标准 将模型与似然比检验进行比较 我从马里兰州生物流调查中提取了一些数据,以进行多元回归分析。数据...
  • 时间问题,有时间再说模型的训练,包括决策树/决策森林原理,特征向量的处理,因子的选择,超参数调整,管道,决策森林和决策树的关系,本次直接上干货,代码中有适量的注释。 工程数据:...
  • 本章采用多元回归模型应用于煤矿井下通风量的最优预测方案,旨在解决煤矿井下通风影响因素的复杂,以及风速、瓦斯、煤尘等各因素之间复杂的非线性关系对瓦斯浓度和煤尘浓度的影响,利用该方法揭示煤矿井下风速与瓦斯...
  • 本章采用多元回归模型应用于煤矿井下通风量的最优预测方案,旨在解决煤矿井下通风影响因素的复杂,以及风速、瓦斯、煤尘等各因素之间复杂的非线性关系对瓦斯浓度和煤尘浓度的影响,利用该方法揭示煤矿井下风速与瓦斯...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,786
精华内容 1,114
关键字:

多元回归模型