精华内容
下载资源
问答
  • lecture 11:内生性与工具变量法
    千次阅读
    2021-04-30 12:38:00

    内生性问题

    1. “内生性”名称的由来

    现在人们说某个模型有内生性问题(endogeneity issue),是指模型中的一个或多个解释变量与误差项存在相关关系。

    显然,这个解释和内生性这个名字有点不搭。其实内生性问题字面含义是指模型中的解释变量有内生性(endogeneity)。

    在一个模型中,有些变量的值是在模型内部决定的,是内生的(endogenous);有些变量的值是被模型外界决定的,是外生的(exogenous)。在一般模型中,被解释变量应该是内生的,解释变量应该是外生的,解释变量的取值是不能被我们的模型所决定的。内生性问题字面意思指的是解释变量不是完全外生了,有了内生性了。

    此种内生性问题的一个常见症状就是解释变量和误差项存在相关关系。但不知从什么时候起,人们开始把一切“解释变量和误差项存在相关关系”的情况都叫做内生性问题了,也不管它是什么原因导致的。(关于这一点,可以参考Dougherty《introduction to econometrics》第十章和Wooldridge《Introductory Econometrics》第三章)

    所以就这么叫吧,没什么好纠结的了。

    1. 存在内生性问题的后果

    内生性会破坏参数估计的“一致性”。

    参数估计的“一致性”就是指当样本量很大时,用样本估计出的参数会无限趋近于总体的真实参数。当我们用样本估计出的参数没有了一致性,那它也就没什么参考价值了。

    1. 内生性问题的产生原因

    主要有以下几种,当然也不完全,我用简单的单方程线性模型举例:

    1)测量误差(measurement error)

    测量误差指的是模型使用的解释变量的数值和真实数据有误差。

    2)选择偏差

    3)遗漏解释变量(explanatory variable omitted)

    现实问题总是复杂的,一般情况下,谁也没办法找到所有能影响被解释变量的变量,遗漏解释变量几乎是不可避免的。

    4)互为因果(simultaneity)

    被解释变量能够反过来影响解释变量的情况被称为互为因果,有时也被称为反向因果(reverse causality)。

    在这里插入图片描述4. 内生性问题的解决方法

    内生性的解决方法有很多,IV、Heckman两步法、matching类、DID…从IV到2SLS, 到GMM,到系统GMM,应用范围越来越宽。但我有一个忠诚的建议,就是在选择方法之前梳理一下自己的处理逻辑,弄清楚到底内生性问题是由什么引起的。计量经济学的迷人(或者说迷我)之处就在于故事的完整性、逻辑的严密性,如果机械地套用方法,文章就失去了灵魂。

    内生性的解决方法:

    1 工具变量法
    2 自然实验法
    3 处理效应模型
    4 Heckman 模型
    5 引入固定效应
    6 广义矩估计
    7 断点回归
    8 倾向得分匹配模型

    更新

    对文章的一些修正及补充。如果确定有内生性问题,打算用IV法。一般来说,经济学top期刊对IV要求较高,要完全外生的IV。2020年Economic Journal一篇研究古代科举对现代人力资本影响的文章用一个地区到最近的竹林和松林分布地带的河流距离作为科举考试制度的成功程度。更经典的还有Acemoglu 2001的例子。这是完全外生的,很难想到。对于一些管理学文章,非完全外生的IV也是可行的,例如对于企业层面的研究,用滞后项,行业均值,行业除自身外的均值作为IV都是常用的办法。如果IV的个数与内生解释变量个数一致,则需要从理论上说明该IV的外生性和相关性,其中相关性可以通过2SLS第一阶段的F值或者相关系数做个大概判断。如果IV个数大于内生解释变量个数,则要用Hansen J test检验其外生性。

    对于控制变量是否需要外生,控制变量可以内生。

    总之,在同方差或者恰好识别情况下,2SLS与GMM等价,没有必要使用GMM。但是同方差很少见,多数都是异方差。文章里所说的2SLS指的是GMM,不过因为我个人把用于解决内生性的GMM叫做2SLS,把sys-GMM和diff-GMM叫做GMM。所以在异方差时,我说的2SLS指的是GMM。2SLS和GMM的命令高度相似。如果恰好识别,就用2SLS。

    工具变量和2SLS之间的关系:
    其实两者的本质都是一样的,IV可以视为2SLS的一个特例:当内生变量个数与工具变量个数相等时,称之为IV法;而当工具变量个数大于内生变量个数时,称为2SLS。

    参考文献:
    IV2SLS-python使用

    内生性问题及其产生原因

    内生性问题:起因,类型和解决办法

    工具变量相关性与外生性

    08 - Instrumental Variables

    内生性问题刍议:

    为什么学者都逮着“内生性问题”不放?

    作为一个学术后辈,我个人认为学术交流和研究具有复杂性和开放性,没有一个学术问题探讨是自我封闭的,尤其是社会科学中因果关系的分析,需要不断的努力探索和发展。

    大家都知道,社会科学领域研究中的“因果关系”分析,在实证研究范畴中经常会遇到所谓的“内生性问题”。众所周知,内生性问题的产生,是有多重因素影响引起的,从而产生了不同类型的处理方案,比如工具变量法、Heckman二阶段法、安慰剂分析法、倾向得分匹配法等一系列五花八门的分析方法,而且这类内生性问题处理方法也在进一步完善和发展中,这也是为什么近些年来又有很多统计方法不断出现,如DID方法、断点回归分析法等。当然,这些方法的使用都要各自安好应用环境和条件,需要区别对待和运用。

    其中,工具变量法是最为重要的一种内生性处理方法,也是大家常用且易懂的方法。但是,在运用该方法的时候,我们经常会遇到一个非常重要的问题:如何去寻找一个合适且有效的工具变量呢?的确,这是个学术难题,它难处不仅仅在于我们个人能力的有限性,而且还在于客观世界的复杂性带来的学术偏好,以致影响学术审稿的客观性。

    众所周知的是,在社会科学领域,进行实证研究难以避开所考察因素之间的双向因果,即内生性问题。对此,在实际研究操作过程中,工具变量法(instrumental variable method)依然是解决内生性问题的最为有效方法之一,而且相比较而言,对基于调查数据的定量分析,工具变量方法具有独特优势,已构成解决内生性问题的常见方法(陈强,2013;陈云松,2012; Krueger,1991)。但是,如何寻找可靠合适的工具变量,增加了解决内生性问题的难度。

    从因果关系的分析来看,社会科学中因果关系的分析经常被因果关系中的“反向因果”所困扰,这是为什么呢?因为社会科学中很多社会经济现象的发生都是多重因素交织在一起的影响结果,以我们目前的个人主观臆断和能力,显然是我们无法剥离谁是因、谁是果?或许,这也是为什么很多学术同仁在中国知网搜索文献时,经常会遇到似“鸳鸯”类的文献,如:一篇文章主题是“A对B的影响研究”,一篇文章主题是“B对A的影响研究”。那么,我们就产生一种疑虑:到底是谁影响谁呢?相信这类奇怪的选题,你也遇到过不少好!

    也正因为有这种风气或计量潮流的影响,现在学界有关工具变量的探讨,尤其是在学术论文审稿中或者学术会议中,很多审稿人或点评人似乎存在明显的偏好性和误导性,喜欢“乱点谱”,逮着“内生性问题”不放,比如:1、一提意见就指点他人文章因果关系中的内生性问题。2、随意批评别人工具变量的合理性但又不提啥建设性意见。3、过于重视因果关系中内生性问题,由此拒稿。4、追求吸引眼球的工具变量。……

    需要说明的是,在学术规范上,本人是不反对去重视实证分析中的内生性问题,反而为了应对审稿人的要求,每次做了不少内生性问题的处理方案。但是,在这个内生性问题的讨论方面,每个学术人都应该有个节制的程度,针对内生性问题分析的问题上,我们应该做到“有理有据、合情合理”,而不是随意就来“内生性问题”,我们主要从以下几个方面去把关内生性问题:内生性问题你处理重视与否、计量方法的准确性、工具变量度量的合理性、工具变量的外生性,以及内生性问题理论分析阐述等方面。

    实际上,由于经济活动的影响因素繁多复杂,以及经济数据的噪音影响,去寻找一个完全独立于因变量、且仅对自变量产生影响的外生变量是一项艰巨的任务,找到好的工具变量是非常之艰难(陈云松,2012),但康奈尔大学知名计量社会学家Morgan(2002)认为,由于社会科学问题的影响因素较为复杂,只要能和其他方法进行比较和相互补充,就可以更大胆、更冒险地发现和使用工具变量,哪怕工具变量具有明显瑕疵的外生性或无法完全消除质疑,也是值得提倡的。

    为此,我们尽心去努力的是:根据所考察的主题来为寻找合适的工具变量把关,不仅从理论分析上认为所选取的工具变量的适宜性,而且还应通过统计分析来检验工具变量的外生性(即弱工具变量检验),以尽可能地寻找一个恰当的工具变量,运用工具变量法来减轻内生性问题对结论所产生的影响偏误。

    所以,在学术探讨上,大家要保持一种开放的思维来分析学术问题,内生性问题是一个极为复杂的统计问题和社会现象,更需要我们的深思熟虑去看待问题的解决方案和态度。而且,内生性问题的解决,也并不会因为你寻找了一个工具变量、进行了一个内生性处理命令,就可以得到很好或者完全解决的。

    当然,也许你认为我的观点不对,但你想想:你认为你文章的内生性问题,真的处理好了吗?你找的工具变量真的完全“外生”吗?不好意思,也许主效应他们两者之间根本没有什么关系……

    举例:电子资料在群里。
    https://economics.mit.edu/faculty/acemoglu/ Daron Acemoglu
    https://www.sohu.com/a/159507737_728084
    https://blog.csdn.net/weixin_27787297/article/details/113965735
    Sargent数量经济:回归分析与Python
    二阶段最小二乘

    作为示例,我们会重复Acemoglu,Johnson and Robinson(2001,AER)的经典文章的结果

    该论文可以从这里下载(https://economics.mit.edu/files/4123)

    (1)在这篇文章中,作者强调制度对经济发展对的影响

    (2)主要的贡献是利用殖民死亡率作为制度差异的外生变化的来源

    (3)这种变化决定制度是否引起了更多的经济增长,而不是别的方式

    更多相关内容
  • 论文研究-基于广义非线性工具变量法的综列单位根检验.pdf, 当截面个体之间显著相关时,非线性工具变量法(NIV)综列单位根检验存在严重的分布扭曲.该文基于似无关回归形式...
  • 内生性问题—工具变量法

    千次阅读 2021-06-17 07:47:48
    文章目录@[toc]1 什么是内生性2 内生性的来源2.1遗漏变量偏差2.2 联立方程偏差2.3 解释变量测量误差2.4 选择偏差2.5 双向因果关系2.6 模型设定偏误2.7 动态面板偏差3 工具变量3.1工具变量的思想3.2 两阶段最小二乘法...

    1 什么是内生性

    经典线性回归模型
    y = X β + ε (1) y = \boldsymbol X \boldsymbol \beta + \boldsymbol \varepsilon \tag{1} y=Xβ+ε(1)
    一个假设是所有解释变量与任意时期的扰动项均不相关(严格外生性假定),即
    E ( ε ∣ X ) = 0 (2) E(\boldsymbol \varepsilon|\boldsymbol X) = 0 \tag{2} E(εX)=0(2)
    这意味着
    E ( ε ) = 0 ; C o v ( x i k , ε j ) = 0 , ∀ j , k E(\boldsymbol\varepsilon) =0;Cov(x_{ik},\varepsilon_{j}) =0,\forall j,k E(ε)=0Cov(xik,εj)=0j,k
    其中第一个条件可由(2)通过迭代期望定律证明,第二个条件由协方差定义证明。在大样本OLS估计中,也必须满足解释变量为预定(前定)解释变量,即
    C o v ( x i k , ε i ) = 0 Cov(x_{ik} ,\varepsilon_i) =0 Cov(xik,εi)=0
    在大样本中只要所有解释变量与扰动项同期不相关,其他大样本OLS假定不变条件下,通过OLS+稳健标准误就能得到一致估计量。但事实上,模型中解释变量与扰动项一般都存在相关性,这种相关性会导致估计量的不一致,产生内生性问题。此时称与扰动项相关的解释变量薇内生解释变量。具有内生性的解释变量不是随机的,而是受到系统中其他因素的影响。在理论上,多元线性回归模型OLS估计量
    β ^ = ( X ′ X ) − 1 X ′ y \hat{\boldsymbol \beta} = ({\boldsymbol X}^{\prime} \boldsymbol X)^{-1} {\boldsymbol X }^{\prime}\boldsymbol y β^=(XX)1Xy
    将(1)式带入上式
    β ^ = ( X ′ X ) − 1 X ′ ( X β + ε ) = β + ( X ′ X ) − 1 X ′ ε \hat{\boldsymbol \beta} =({\boldsymbol X}^{\prime} \boldsymbol X)^{-1} {\boldsymbol X }^{\prime}\boldsymbol ( \boldsymbol X \boldsymbol \beta + \boldsymbol \varepsilon ) = \boldsymbol \beta+ ({\boldsymbol X}^{\prime}\boldsymbol X)^{-1}{\boldsymbol X }^{\prime}\boldsymbol\varepsilon β^=(XX)1X(Xβ+ε)=β+(XX)1Xε
    两边取期望得
    β ^ = β + ( X ′ X ) − 1 X ′ ε \hat{\boldsymbol \beta} = \boldsymbol \beta+ ({\boldsymbol X}^{\prime}\boldsymbol X)^{-1}{\boldsymbol X }^{\prime}\boldsymbol\varepsilon β^=β+(XX)1Xε

    β ^ − β = ( X ′ X ) − 1 X ′ ε \hat{\boldsymbol \beta} - \boldsymbol \beta = ({\boldsymbol X}^{\prime}\boldsymbol X)^{-1}{\boldsymbol X }^{\prime}\boldsymbol\varepsilon β^β=(XX)1Xε
    两边求条件期望得
    E ( β ^ − β ∣ X ) = X ( X ′ X ) − 1 X ′ E ( ε ∣ X ) = A E ( ε ∣ X ) E(\hat{\boldsymbol \beta} - \boldsymbol \beta |\boldsymbol X)= \boldsymbol X({\boldsymbol X}^{\prime}\boldsymbol X)^{-1}{\boldsymbol X }^{\prime}\boldsymbol E(\boldsymbol\varepsilon|\boldsymbol X) = \boldsymbol A E(\boldsymbol\varepsilon|\boldsymbol X) E(β^βX)=X(XX)1XE(εX)=AE(εX)
    其中 A = X ( X ′ X ) − 1 X ′ \boldsymbol A = \boldsymbol X({\boldsymbol X}^{\prime}\boldsymbol X)^{-1}{\boldsymbol X }^{\prime} A=X(XX)1X。当严格外生性条件(2)不成立时,即便样本容量 n → ∞ n \to \infty n,也不能消除内生性问题带来的偏差。


    2 内生性的来源

    按照内生性来源,主要划分为以下七类:

    2.1遗漏变量偏差

    如果对研究对象的影响因素考虑不全面,或者对影响因素信息的不可观测,这可能导致回归模型遗漏了重要的解释变量。假如真实的回归模型为
    y i = a + b x 1 + c x 2 + ε y_i = a + bx_1 + cx_2 +\varepsilon yi=a+bx1+cx2+ε
    假定 C o v ( x 1 , ε ) = 0 , C o v ( x 2 , ε ) = 0 Cov(x_1,\varepsilon) =0,Cov(x_2,\varepsilon) =0 Cov(x1,ε)=0,Cov(x2,ε)=0。由于变量 x 2 x_2 x2不可观测,实际的回归模型变为
    y i = a + b x 1 + u y_i = a + bx_1 + u yi=a+bx1+u
    其中 u = c x 2 + ε u = cx_2+\varepsilon u=cx2+ε。考虑
    C o v ( x 1 , u ) = C o v ( x 1 , c x 2 + ε ) = c ∗ C o v ( x 1 , x 2 ) + C o v ( x 1 , ε ) = c ∗ C o v ( x 1 , x 2 ) Cov(x_1 ,u) = Cov(x_1 ,cx_2+\varepsilon) = c*Cov(x_1,x_2)+Cov(x_1,\varepsilon) = c*Cov(x_1,x_2) Cov(x1,u)=Cov(x1,cx2+ε)=cCovx1,x2)+Cov(x1,ε)=cCovx1,x2)

    • x 1 x_1 x1 x 2 x_2 x2不相关时, C o v ( x 1 , x 2 ) = 0 Cov(x_1,x_2) =0 Covx1,x2)=0,从而 C o v ( x 1 , u ) = 0 Cov(x_1 ,u) =0 Cov(x1,u)=0,此时实际模不存在内生性问题,由于扰动项的信息量增加,这将会增加扰动项的方差。
    • x 1 x_1 x1 x 2 x_2 x2相关时, C o v ( x 1 , x 2 ) ≠ 0 Cov(x_1,x_2) \ne 0 Covx1,x2)=0,从而 C o v ( x 1 , u ) ≠ 0 Cov(x_1 ,u) \ne 0 Cov(x1,u)=0,此时实际模型存在内生性问题。

    2.2 联立方程偏差

    联立方程偏差也称内生变量偏差,其最为经典的例子是供求均衡模型:
    { q t s = α 0 + α 1 p t + u t q t d = β 0 + β 1 p t + v t q t s = q t d \begin{aligned} \left\{ \begin{array}{lll} q_t^s =\alpha_0 + \alpha_1p_t +u_t \\ q_t^d=\beta_0 + \beta_1p_t +v_t \\ q_t^s = q_t^d \end{array} \right. \end{aligned} qts=α0+α1pt+utqtd=β0+β1pt+vtqts=qtd
    解得
    { p t = p t ( u t , v t ) = β 0 − α 0 α 1 − β 1 + v t − u t α 1 − β 1 q t = q t ( u t , v t ) = α 1 β 0 − α 0 β 1 α 1 − β 1 + α 1 v t − β 1 u t α 1 − β 1 \begin{aligned} \left\{ \begin{array}{lll} p_t = p_t(u_t,v_t)=\frac{\beta_0 -\alpha_0}{\alpha_1 - \beta_1} +\frac{v_t-u_t}{\alpha_1 - \beta_1} \\ \\ q_t = q_t(u_t,v_t) = \frac{\alpha_1\beta_0 - \alpha_0\beta_1}{\alpha_1 - \beta_1}+ \frac{\alpha_1v_t - \beta_1u_t}{\alpha_1 - \beta_1} \end{array} \right. \end{aligned} pt=pt(ut,vt)=α1β1β0α0+α1β1vtutqt=qt(ut,vt)=α1β1α1β0α0β1+α1β1α1vtβ1ut

    显然 C o v ( p t , u t ) ≠ 0 Cov(p_t ,u_t) \ne 0 Cov(pt,ut)=0, C o v ( q t , v t ) ≠ 0 Cov(q_t ,v_t) \ne 0 Cov(qt,vt)=0,因此估计量 α ^ 1 \hat \alpha_1 α^1 β ^ 1 \hat \beta_1 β^1的估计量不是一致的。


    2.3 解释变量测量误差

    设真实回归模型为
    y = a + b x ∗ + ε (3) y = a + bx^{*}+\varepsilon \tag{3} y=a+bx+ε(3)
    其中 C o v ( x , ε ) = 0 Cov(x,\varepsilon) =0 Cov(x,ε)=0.由于客观或主观原因导致对解释变量 x ∗ x^{*} x的测量存在误差,使得实际观测的解释变量
    x = x ∗ + e (4) x = x^{*} + e \tag{4} x=x+e(4)
    其中 e = x − x ∗ e = x - x^{*} e=xx表示绝对误差。技术条件 C o v ( x ∗ , e ) = 0 Cov(x^{*},e) = 0 Cov(x,e)=0, C o v ( e , ε ) = 0 Cov(e,\varepsilon) =0 Cov(e,ε)=0。将(4)带入(3)得
    y = a + b ( x − e ) + ε = a + b x + ( ε − b e ) y = a + b(x-e)+\varepsilon = a+bx+(\varepsilon -be) y=a+b(xe)+ε=a+bx+(εbe)
    由于
    C o v ( x , ε − b e ) = C o v ( x , ε ) − b C o v ( x , e ) = C o v ( x ∗ + e , ε ) − b C o v ( x ∗ + e , e ) = C o v ( x ∗ , e ) + C o v ( x ∗ , ε ) − b C o v ( x ∗ , e ) − b C o v ( e , e ) = 0 + 0 + 0 − b V a r ( e ) = − b σ e 2 ≠ 0 \begin{aligned} Cov(x,\varepsilon -be) &= Cov(x,\varepsilon)-bCov(x,e) \\ &=Cov( x^{*} + e ,\varepsilon)-bCov(x^{*} + e ,e) \\ &=Cov(x^{*},e)+Cov(x^{*},\varepsilon) -bCov(x^{*},e)-bCov(e,e) \\ &=0+0+0-bVar(e) = -b\sigma_e^2 \ne 0 \end{aligned} Cov(x,εbe)=Cov(x,ε)bCov(x,e)=Cov(x+e,ε)bCov(x+e,e)=Cov(x,e)+Cov(x,ε)bCov(x,e)bCov(e,e)=0+0+0bVar(e)=bσe2=0
    因此如果解释变量存在测量误差,解释变量存在内生性,导致回归存在结果存在偏差。如果被解释变量存在测量误差,总可以将绝对误差移向归并到扰动项中,从而扩大了扰动项的方差(如果解释变量不存在内生性),回归系数的方差会增大。但不会导致内生性问题。


    2.4 选择偏差

    选择偏差包括自选择偏差(self-selectionbias)和样本选择偏差(sample-selection bias)。

    • 自选择偏差是指解释变量不是随机的,而是选择的结果,而这个选择的过程会使对主效应的估计产生偏差(Shaver, 1998

    Weigelt (2013)研究IT业务内包或是外包的不同情境下,供应商IT能力和公司运营能力交互效应对公司绩效的不同影响。其中对公司IT业务内包或是外包的选择就存在选择偏差,因为公司IT业务到底是内包还是外包其实是一种战略选择,因而它并不是外生的(随机的)。公司可以根据自身特质(更适合哪种战略)和针对不同战略选择(内包还是外包)对未来绩效的预测而有意识选择的。因此如果只考虑主效应的影响而忽视潜在的选择过程,对主效应的估计是有偏的,因为前后两个过程的误差项是相关的(Shaver, 1998)。

    • 样本选择偏差(Heckman, 1979),是指样本选择不是随机的,从而使估计量产生偏差。样本选择偏差扣除人为因素,主要是由自选择偏差造成的。

    Perkins (2014)研究了跨国公司制度经验与目标国家的相似性、广度和深度对跨国公司在目标国家经营成败的影响,该研究以进入巴西电信行业投资的外国跨国公司为样本,但跨国公司是否进入巴西投资可能不是随机的,而是有选择的,是根据自身情况是否适合进入巴西以及进入巴西后的绩效预测而决定的。只有当进入巴西后,因变量(经营成败)才可以被观测到。换句话说,没有进入巴西的那部分样本的因变量无法被观测到,而能够被观测到的只是适合进入巴西的那部分样本,从而造成样本选择偏差。


    2.5 双向因果关系

    双向因果关系是指解释变量与被解释变量互为因果。假设解释变量 x i x_i xi与被解释变量 y i y_i yi满足
    y = a + b x + ε y = a + b x + \varepsilon y=a+bx+ε
    由于被解释变量与解释变量互为因果,因此下列方程也满足
    x = c + d y + λ x = c +dy + \lambda x=c+dy+λ
    其中技术性条件满足 C o v ( ε , λ ) = 0 Cov(\varepsilon,\lambda) =0 Cov(ε,λ)=0。由于
    C o v ( x , ε ) = C o v ( c + d y + λ , ε ) = C o v ( d y + λ , ε ) = d C o v ( y , ε ) + C o v ( λ , ε ) = d C o v ( y , ε ) ≠ 0 \begin{aligned} Cov(x,\varepsilon) &= Cov(c +dy + \lambda,\varepsilon) \\ &= Cov(dy + \lambda,\varepsilon)\\ &=dCov(y,\varepsilon)+Cov(\lambda,\varepsilon)\\ &=dCov(y,\varepsilon) \ne0 \end{aligned} Cov(x,ε)=Cov(c+dy+λ,ε)=Cov(dy+λ,ε)=dCov(y,ε)+Cov(λ,ε)=dCov(y,ε)=0
    因此双向因果关系条件下也会产生内生性。


    2.6 模型设定偏误

    模型设定偏误是指构建的回归模型没有按照理论经验进行构建,或者根据已有的理论构建但因客观原因导致模型与实际情况存在模型结构上的系统性偏差。例如,消费函数中收入的增长快于消费的增长,因此消费与收入应该呈现非线性关系。但是实际中为了简化二者关系,常假定消费是收入的线性函数,从而导致模型存在内生性。例如,研究经济增长与收入分配的关系,构建了如下模型:
    g a p = a + b ∗ g d p + ε gap = a + b*gdp+\varepsilon gap=a+bgdp+ε
    但实际上,根据库兹涅茨效应(1955)发现,一国的收入分配(gap)与经济增长(gdp)呈现非线性关系,经济增长初期,效率优先,从而导致差距扩大;随着经济进一步增长,实施兼顾公平或公平优先策略,差距逐渐缩小。因此模型应该加入gdp的二次项以保证gdp对经济增长存在库兹涅茨效应。假设真实模型为
    g a p = a + b ∗ g d p + c ∗ ( g d p ) 2 + e . ( c < 0 ) gap = a + b*gdp+ c*(gdp)^2+e.(c<0) gap=a+bgdp+c(gdp)2+e.(c<0)
    因此实际构建的模型的扰动项 ε = e + c ∗ ( g d p ) 2 \varepsilon = e+c*(gdp)^2 ε=e+c(gdp)2。由于
    C o v ( g d p , ε ) = C o v ( g d p , e + c ∗ ( g d p ) 2 ) = c ∗ C o v ( g d p , ( g d p ) 2 ) ≠ 0 Cov(gdp,\varepsilon) = Cov(gdp,e+c*(gdp)^2) = c*Cov(gdp,(gdp)^2)\ne0 Cov(gdp,ε)=Cov(gdp,e+c(gdp)2)=cCov(gdp,(gdp)2)=0
    从而产生内生性问题。此外,模型设定偏误也会导致球形扰动项不成立,即可能导致模型出现异方差与自相关问题。


    2.7 动态面板偏差

    动态面板偏差是指在动态面板模型中存在固有的内生性问题。设动态面板模型为
    y i t = α y i , t − 1 + X β + u i + ε i t (5) y_{it} =\alpha y_{i,t-1}+\boldsymbol X\boldsymbol \beta +u_i+ \varepsilon_{it} \tag{5} yit=αyi,t1+Xβ+ui+εit(5)
    将上述方程滞后一期得
    y i , t − 1 = α y i , t − 2 + X β + u i + ε i , t − 1 (6) y_{i,t-1} =\alpha y_{i,t-2}+\boldsymbol X\boldsymbol \beta +u_i+ \varepsilon_{i,t-1} \tag{6} yi,t1=αyi,t2+Xβ+ui+εi,t1(6)
    考虑
    C o v ( y i , t − 1 , u i + ε i t ) = C o v ( y i , t − 1 , u i ) + C o v ( y i , t − 1 , ε i t ) Cov(y_{i,t-1}, u_i+\varepsilon_{it}) =Cov(y_{i,t-1},u_i)+Cov(y_{i,t-1}, \varepsilon_{it}) Cov(yi,t1,ui+εit)=Cov(yi,t1,ui)+Cov(yi,t1,εit)
    在(6)中, u i u_i ui y i , t − 1 y_{i,t-1} yi,t1的组成部分,故 C o v ( y i , t − 1 , u i ) ≠ 0 Cov(y_{i,t-1},u_i)\ne 0 Cov(yi,t1,ui)=0因此动态面板模型(5)也存在系统性的内生性。


    3 工具变量

    解决模型的内生性问题主要包括如下几种:

    • 通过自然实验(随机试验)
    • 面板数据通过差分或离差消除个体效应
    • 匹配法
    • 工具变量法

    本文主要介绍最后一种比较常用的方法。


    3.1工具变量的思想

    设模型
    y = a + b x + μ y = a+ bx+\mu y=a+bx+μ
    存在内生性问题,即 C o v ( x , μ ) ≠ 0 Cov(x,\mu)\ne 0 Cov(x,μ)=0。如果将变量 x x x与扰动项 μ \mu μ视为两个集合,由于 C o v ( x , μ ) ≠ 0 Cov(x,\mu)\ne 0 Cov(x,μ)=0,在图形上可表示为

    内生解释变量与扰动项的关系

    从图形上看,解释变量与扰动项之间存在交集,即 x ∩ μ = Δ x \cap \mu = \Delta xμ=Δ,因此需要通过某种方法使解释变量分解为两部分:

    • 第一部分是 x ^ \hat x x^,它满足 x ^ ∩ μ = ∅ \hat x \cap \mu =\emptyset x^μ=,也就是 C o v ( x ^ , μ ) = 0 Cov(\hat x,\mu) =0 Cov(x^,μ)=0
    • 第二部分是 Δ \Delta Δ, 它满足 Δ ∩ μ ≠ ∅ \Delta \cap \mu \ne \emptyset Δμ=, 即 C o v ( Δ , μ ) ≠ 0 Cov(\Delta,\mu) \ne 0 Cov(Δ,μ)=0

    但问题是应该用什么手段对存在内生性的解释变量进行分解呢?现引入一个集合 z z z,使得

    • 外生性条件: C o v ( z , μ ) = 0 Cov(z,\mu) = 0 Cov(z,μ)=0
    • 相关性条件: C o v ( z , x ) ≠ 0 Cov(z,x)\ne 0 Cov(z,x)=0

    即实现上述目的。如果引入的变量 z z z与解释变量 x x x存在较强的相关关系,说明变量 z z z有助于预测或解释解释变量 x x x;而变量 z z z与扰动项无关,则意味着通过变量 z z z对变量 x x x的预测值 x ^ \hat x x^也与扰动项无关。称满足外生性条件与相关性条件的变量 z z z为工具变量(IV)。如果将预测值 x ^ \hat x x^作为解释变量以替代原有解释变量 x x x,那就能抑制内生性问题。外生性条件与内生性条件意味着存在如下的因果链:
    在这里插入图片描述
    相关性意味着工具变量 z z z x x x的造成直接的影响,而外生性意味着工具变量 z z z只能通过变量 x x x的作用对 y y y产生影响。前者为局部影响,后者为总影响(相对整个因果链)。设工具变量 z z z x x x的局部线性影响为 π 1 \pi_1 π1,工具变量 z z z y y y的全局线性影响为 π \pi π,则解释变量 x x x对变量 y y y的影响为 π 2 = π / π 1 \pi_2 = \pi/\pi_1 π2=π/π1

    :设工具变量 z z z对变量 x x x的回归模型为
    x = a + π 1 z + u (7) x = a + \pi_1 z + u \tag{7} x=a+π1z+u(7)
    设解释变量 x x x y y y的回归方程为
    y = b + π 2 x + v (8) y = b + \pi_2x + v \tag{8} y=b+π2x+v(8)
    将(7)带入(8)得
    y = b + π 2 ( a + π 1 z + u ) + v = ( b + a π 2 ) + π 1 π 2 z + ( u π 2 + v ) = α + π z + ε (9) \begin{aligned} y &= b + \pi_2(a + \pi_1 z + u) + v \\ &=(b+a\pi_2)+\pi_1 \pi_2z +(u\pi_2+v) \\ & =\alpha+\pi z +\varepsilon \end{aligned} \tag{9} y=b+π2(a+π1z+u)+v=(b+aπ2)+π1π2z+(uπ2+v)=α+πz+ε(9)
    不难看出,工具变量 z z z对被解释变量 y y y的间接影响为 π = π 1 π 2 \pi =\pi_1 \pi_2 π=π1π2,即
    π = C o v ( y , z ) V a r ( z ) \pi = \frac{Cov(y,z)}{Var(z)} π=Var(z)Cov(y,z)
    而由(7)得
    π 1 = C o v ( x , z ) V a r ( z ) \pi_1 = \frac{Cov(x,z)}{Var(z)} π1=Var(z)Cov(x,z)
    因此在引入工具变量 z z z时,解释变量 x x x y y y的影响为
    π 2 = π π 1 = C o v ( y , z ) C o v ( x , z ) \pi_2 = \frac{\pi}{\pi_1} = \frac{Cov(y,z)}{Cov(x,z)} π2=π1π=Cov(x,z)Cov(y,z)
    由相关性条件可知, C o v ( x , z ) ≠ 0 Cov(x,z) \ne0 Cov(x,z)=0,故 π 2 \pi_2 π2是可识别的。如果 C o v ( x , z ) ≈ 0 Cov(x,z) \approx0 Cov(x,z)0,则 π 2 → ∞ \pi_2 \to \infty π2不可识别,此时称工具变量 z z z为弱工具变量。


    3.2 两阶段最小二乘法

    为了解决内生性问题,在引入工具变量后利用两步回归可以解决内生性问题,具体步骤如下

    • 先用内生解释变量对工具变量回归,即(7),此时得到 x x x的拟合值 x ^ = a + π 1 z \hat x = a + \pi_1 z x^=a+π1z
    • 用被解释变量对拟合值 x ^ = a + π 1 z \hat x = a + \pi_1 z x^=a+π1z进行回归

    :由于
    { y = b + π 2 x + v x = a + π 1 z + u \left\{ \begin{array}{ccc} y = b + \pi_2x + v\\ x = a + \pi_1 z + u \end{array} \right. {y=b+π2x+vx=a+π1z+u
    x = a + π 1 z + u = x ^ + u x = a + \pi_1 z + u = \hat x +u x=a+π1z+u=x^+u,其中 x ^ = a + π 1 z \hat x = a + \pi_1 z x^=a+π1z C o v ( x ^ , u ) = 0 Cov(\hat x,u) =0 Cov(x^,u)=0。联立方程消除 x x x
    y = b + π 2 ( x ^ + u ) + v = b + π 2 x ^ + ( π 2 u + v ) y = b + \pi_2(\hat x +u) + v =b+\pi_2\hat x+( \pi_2u+v) y=b+π2(x^+u)+v=b+π2x^+(π2u+v)
    此时考虑
    C o v ( x ^ , π 2 u + v ) = π 2 C o v ( x ^ , u ) + C o v ( x ^ , u ) = π 2 C o v ( x ^ , u ) + C o v ( a + π 1 z , u ) = 0 + 0 = 0 \begin{aligned} Cov(\hat x,\pi_2u+v)& = \pi_2Cov(\hat x,u)+Cov(\hat x,u) \\ &= \pi_2Cov(\hat x,u)+Cov(a + \pi_1 z,u)\\ &=0+0=0 \end{aligned} Cov(x^,π2u+v)=π2Cov(x^,u)+Cov(x^,u)=π2Cov(x^,u)+Cov(a+π1z,u)=0+0=0
    因此通过两阶段最小二乘法能够解决内生性问题。下面运用数据grilic举例。其中lw为被解释变量,iq为内生解释变量,med为工具变量。

    use grilic.dta
    qui reg lw med,noheader r  //使用被解释变量对工具变量回归
    est sto m1
    qui reg iq med ,noheader r //使用解释变量对工具变量回归
    est sto m2
    qui ivregress 2sls lw  (iq =med),noheader r  //2sls回归
    est sto m3
    esttab m1 m2 m3
    
                                                             /*结果
    ------------------------------------------------------------
                          (1)             (2)             (3)   
                           lw              iq              lw   
    ------------------------------------------------------------
    med                0.0334***        1.306***                
                        (6.00)          (7.47)                   
    
    iq                                                  0.0256***
                                                         (5.85)   
    
    _cons               5.323***        89.61***        3.033***
                        (84.77)         (44.80)          (6.68)   
    ------------------------------------------------------------
    N                     758             758             758   
    ------------------------------------------------------------
    t statistics in parentheses
    * p<0.05, ** p<0.01, *** p<0.001
                                                              */
    

    不难发现0.334/1.306 = 0.0256。


    3.3 Wald估计量

    设回归模型
    y = a + π 2 x + u y = a + \pi_2 x + u y=a+π2x+u
    其中 C o v ( x , u ) ≠ 0 Cov(x,u)\ne0 Cov(x,u)=0,故变量 x x x为内生解释变量。设虚拟变量 z z z与扰动项 u u u满足 C o v ( z , u ) = 0 Cov(z,u)=0 Cov(z,u)=0,则工具变量的估计量为
    π ^ 2 = y ˉ 1 − y ˉ 0 x ˉ 1 − x ˉ 0 \hat \pi_2 = \frac{\bar y_1 - \bar y_0}{\bar x_1 - \bar x_0} π^2=xˉ1xˉ0yˉ1yˉ0
    其中 y ˉ 1 = E ( y ∣ z = 1 ) , y ˉ 0 = E ( y ∣ z = 0 ) , x ˉ 1 = E ( x ∣ z = 1 ) , x ˉ 0 = E ( x ∣ z = 0 ) \bar y_1 = E(y|z=1),\bar y_0 = E(y|z=0),\bar x_1 = E(x|z=1),\bar x_0 = E(x|z=0) yˉ1=E(yz=1),yˉ0=E(yz=0),xˉ1=E(xz=1),xˉ0=E(xz=0),该估计也称Wald估计量。

    证明:根据因果链条 z → x → y z\to x \to y zxy得到:
    π ^ 2 = π π 1 \hat\pi_2 =\frac{\pi}{\pi_1} π^2=π1π
    将(7)求条件期望得
    E ( x ∣ z = 1 ) = a + π 1 ; E ( x ∣ z = 0 ) = a E(x|z=1) = a + \pi_1 ;E(x|z=0) = a E(xz=1)=a+π1;E(xz=0)=a
    从而有
    π 1 = E ( x ∣ z = 1 ) − E ( x ∣ z = 0 ) \pi_1 = E(x|z=1) -E(x|z=0) π1=E(xz=1)E(xz=0)
    再对(9)求条件期望得
    E ( y ∣ z = 1 ) = α + π ; E ( y ∣ z = 0 ) = α E(y|z=1) = \alpha + \pi ;E(y|z=0) = \alpha E(yz=1)=α+π;E(yz=0)=α
    从而有
    π = E ( y ∣ z = 1 ) − E ( y ∣ z = 0 ) \pi = E(y|z=1) -E(y|z=0) π=E(yz=1)E(yz=0)
    于是
    π ^ 2 = π π 1 = E ( y ∣ z = 1 ) − E ( y ∣ z = 0 ) E ( x ∣ z = 1 ) − E ( x ∣ z = 0 ) = y ˉ 1 − y ˉ 0 x ˉ 1 − x ˉ 0 \hat\pi_2 =\frac{\pi}{\pi_1} =\frac{E(y|z=1) -E(y|z=0)}{ E(x|z=1) -E(x|z=0)} = \frac{\bar y_1 - \bar y_0}{\bar x_1 - \bar x_0} π^2=π1π=E(xz=1)E(xz=0)E(yz=1)E(yz=0)=xˉ1xˉ0yˉ1yˉ0


    4 矩估计

    经典线性回归方程中要求
    C o v ( X , ε ) = E ( X ε ) − E ( X ) E ( ε ) = 0 Cov(\boldsymbol X,\boldsymbol \varepsilon) = E(\boldsymbol X\boldsymbol \varepsilon) -E(\boldsymbol X)E(\boldsymbol \varepsilon)=0 Cov(X,ε)=E(Xε)E(X)E(ε)=0
    扰动项期望 E ( ε ) = 0 E(\boldsymbol \varepsilon) =0 E(ε)=0,故 E ( X ε ) = 0 E(\boldsymbol X\boldsymbol \varepsilon) =0 E(Xε)=0。设多元线性回归方程为
    y = a 0 + a ^ 1 x 1 + a ^ 2 x 2 + ⋯ + a ^ k x k + e y = a_0 +\hat a_1x_1+\hat a_2x_2+\cdots+\hat a_kx_k+e y=a0+a^1x1+a^2x2++a^kxk+e
    因为 E ( X ε ) = 0 E(\boldsymbol X\boldsymbol \varepsilon) =0 E(Xε)=0,故存在 k k k个矩方程使得
    { E ( x 1 e ) = 0 E ( x 2 e ) = 0 ⋮ E ( x k e ) = 0                              ( 10 ) \left\{\begin{array}{ccc} E(x_1e)=0\\ E(x_2e)=0\\ \vdots\\ E(x_ke)=0\\ \end{array}\right. \;\;\;\;\;\;\;\;\;\;\;\;\;\; (10) E(x1e)=0E(x2e)=0E(xke)=0(10)
    成立,另外 E ( u ) = 0 E(u)=0 E(u)=0,从而可以解出回归系数向量 a = [ a ^ 0 , ⋯ a ^ k ] ′ \boldsymbol a = [\hat a_0,\cdots\hat a_k]^{\prime} a=[a^0,a^k]。显然 a \boldsymbol a a的解是唯一的,因为存在 k + 1 k+1 k+1个未知数与 k + 1 k+1 k+1个方程(如果解释变量之间不存在完全相关性)。方程组(10)必须满足每一个解释变量与误差项正交,但现实中,可能出现某些解释变量与误差项存在相关性,即方程组的个数小于未知参数的个数,从而无法识别解释变量对被解释变量的影响。为简化关系,设二元线性回归模型
    y = a + b x + c w + u y = a + bx +cw +u y=a+bx+cw+u
    其中 u u u为扰动项, C o v ( x , u ) ≠ 0 , C o v ( w , u ) = 0 Cov(x,u)\ne0,Cov(w,u) =0 Cov(x,u)=0,Cov(w,u)=0。根据条件可得到如下矩方程组
    { E ( w u ) = E ( w ( y − a − b x − c w ) ) = 0 E ( u ) = E ( y − a − b x − c w ) = 0 \left\{\begin{array}{lll} E(wu) = E(w(y-a-bx-cw))=0 \\ E(u)=E(y-a-bx-cw)=0 \end{array}\right. {E(wu)=E(w(yabxcw))=0E(u)=E(yabxcw)=0
    显然,两个方程不能得到唯一参数 a , b , c a,b,c a,b,c的值,原因在于第三个矩方程 E ( x u ) ≠ 0 E(xu)\ne 0 E(xu)=0。现引入工具变量 z z z,使得 z z z满足:

    • 外生性: C o v ( z , u ) = 0 Cov(z,u)=0 Cov(z,u)=0
    • 相关性: C o v ( z , x ) ≠ 0 Cov(z,x) \ne 0 Cov(z,x)=0

    从而得到如下矩方程组
    { E ( w u ) = E ( w ( y − a − b x − c w ) ) = 0 E ( z u ) = E ( z ( y − a − b x − c w ) ) = 0 E ( u ) = E ( y − a − b x − c w ) = 0 \left\{\begin{array}{lll} E(wu) = E(w(y-a-bx-cw))=0 \\ E(zu)=E(z(y-a-bx-cw))=0 \\ E(u)=E(y-a-bx-cw)=0 \end{array}\right. E(wu)=E(w(yabxcw))=0E(zu)=E(z(yabxcw))=0E(u)=E(yabxcw)=0
    从而解出参数 a , b , c a,b,c a,b,c的唯一值。下面是更正式的矩估计推导,设多元回归模型
    y i = β 1 x 1 i + ⋯ + β 1 x k − 1 , i + β 1 x k i + ε i y_i = \beta_1x_{1i}+\cdots+ \beta_1x_{k-1,i} +\beta_1x_{ki}+\varepsilon_i yi=β1x1i++β1xk1i+β1xki+εi
    其中只有解释变量 x k x_{k} xk为内生解释变量,即 C o v ( x i k , ε i ) ≠ 0 Cov(x_{ik},\varepsilon_i)\ne0 Cov(xik,εi)=0,其他解释变量均外生(因此可以把 x 1 , x 2 ⋯ x k − 1 x_1,x_2\cdots x_{k-1} x1,x2xk1自身作为自身的工具变量)。为了解决内生性问题,现引入工具变量 w w w使得

    • C o v ( x k , w ) ≠ 0 Cov(x_{k},w) \ne 0 Cov(xk,w)=0
    • C o v ( ε , w ) = 0 Cov(\varepsilon,w) =0 Cov(ε,w)=0

    记解释变量向量 x i = ( x i 1 , ⋯ x i , k − 1 , x i k ) ′ \boldsymbol x_i = (x_{i1},\cdots x_{i,k-1},x_{ik})' xi=(xi1,xi,k1,xik),回归参数向量 β = ( β 1 ⋯ β k ) ′ \boldsymbol \beta = (\beta_1 \cdots\beta_k)' β=(β1βk),故回归模型可记作
    y i = x i ′ β + ε i y_i =x_i^{\prime} \boldsymbol \beta+\varepsilon_i yi=xiβ+εi
    记工具变量向量 z = ( x i 1 , x i 2 , ⋯ x i , k − 1 , w ) ′ \boldsymbol z = (x_{i1},x_{i2},\cdots x_{i,k-1},w)^{\prime} z=(xi1,xi2,xi,k1,w),并定义
    g i = z i ε i \boldsymbol g_i = \boldsymbol z_i \varepsilon_i gi=ziεi
    从而得到 E ( g i ) = E ( z i ε i ) = z i E ( ε i ) = 0 E(\boldsymbol g_i ) =E(\boldsymbol z_i \varepsilon_i)= \boldsymbol z_iE( \varepsilon_i)=\boldsymbol 0 E(gi)=E(ziεi)=ziE(εi)=0。于是
    E ( z i ε i ) = E ( z i ( y i − x i ′ β ) ) = 0 ⇒ E ( z i y i ) = ( E ( z i x i ′ ) ) β ⇒ β = [ E ( z i x i ′ ) ] − 1 E ( z i y i )                ( 假 定 [ E ( z i x i ′ ) ] − 1 存 在 ) \begin{aligned} E(\boldsymbol z_i \varepsilon_i)&= E(\boldsymbol z_i (y_i -x_i^{\prime} \boldsymbol \beta))=0 \\ &\Rightarrow E(\boldsymbol z_i y_i) =( E(\boldsymbol z_i \boldsymbol x_i^{\prime}))\boldsymbol \beta \\ &\Rightarrow \boldsymbol \beta = [E(\boldsymbol z_i \boldsymbol x_i^{\prime})]^{-1} E(\boldsymbol z_i y_i) \;\;\;\;\;\;\;(假定 [E(\boldsymbol z_i \boldsymbol x_i^{\prime})]^{-1}存在) \end{aligned} E(ziεi)=E(zi(yixiβ))=0E(ziyi)=(E(zixi))ββ=[E(zixi)]1E(ziyi)([E(zixi)]1)
    用样本矩代替总体矩得
    β ^ I V = ( 1 n ∑ i = 1 n z i x i ′ ) − 1 ( 1 n ∑ i = 1 n z i y i ) = ( Z ′ X ) − 1 Z y                              ( 11 ) \hat{\boldsymbol \beta}_{IV} =\left(\frac{1}{n} \sum_{i=1}^{n} \boldsymbol z_{i} \boldsymbol x_{i}^{\prime}\right)^{-1}\left(\frac{1}{n} \sum_{i=1}^{n} \boldsymbol z_{i} y_{i}\right)=\left(\boldsymbol Z^{\prime} \boldsymbol X\right)^{-1} \boldsymbol Z y \;\;\;\;\;\;\;\;\;\;\;\;\;\; (11) β^IV=(n1i=1nzixi)1(n1i=1nziyi)=(ZX)1Zy(11)
    其中 Z ≡ ( z 1 ⋯ z n − 1 z n ) ′ \boldsymbol Z \equiv\left(z_{1} \cdots z_{n-1} z_{n}\right)^{\prime} Z(z1zn1zn)

    命题:如果秩条件 r a n k ( E ( z i x i ′ ) ) = k rank(E(\boldsymbol z_i\boldsymbol x_i^{\prime}))=k rank(E(zixi))=k,则在一定的正则条件 β ^ I V \hat{\boldsymbol \beta}_{IV} β^IV β \boldsymbol \beta β得一致估计量。并且工具变量估计量 β ^ I V \hat{\boldsymbol \beta}_{IV} β^IV服从渐进正态分布,即
    n ( β ^ I V − β ) → d N ( 0 , A v a r ( β ^ I V ) ) \sqrt{n} (\hat{\boldsymbol \beta}_{IV}-{\boldsymbol \beta}) \xrightarrow{d}N(\boldsymbol 0,Avar ({\hat{\boldsymbol \beta}_{IV}})) n (β^IVβ)d N(0,Avar(β^IV))
    其中 A v a r ( β ^ I V ) = [ E ( z i x i ′ ) ] − 1 S [ E ( z i x i ′ ) ] − 1 Avar ({\hat{\boldsymbol \beta}_{IV}}) = [E(\boldsymbol z_i \boldsymbol x_i^{\prime})]^{-1} \boldsymbol S [E(\boldsymbol z_i \boldsymbol x_i^{\prime})]^{-1} Avar(β^IV)=[E(zixi)]1S[E(zixi)]1 S = E ( ε i 2 z i z i ′ ) \boldsymbol S = E(\varepsilon_i ^2 \boldsymbol z_i \boldsymbol z_i^{\prime}) S=E(εi2zizi)。证明略


    5 二阶段最小二乘法

    5.1 阶条件

    考虑模型
    y = a + b x 1 + c x 2 + d x 3 + u y = a + bx_1 +cx_2+ dx_3+u y=a+bx1+cx2+dx3+u
    其中 a , b , c , d a,b,c,d a,b,c,d为回归系数, u u u为扰动项。

    • C o v ( x i , u ) = 0 ( i = 1 , 2 , 3 ) Cov(x_i,u)=0(i=1,2,3) Cov(xi,u)=0(i=1,2,3)时,可得到四个矩方程

    { E ( x 1 u ) = 0 E ( x 2 u ) = 0 E ( x 3 u ) = 0 E ( u ) = 0 \left\{\begin{array}{llll} E(x_1u)=0\\ E(x_2u)=0\\ E(x_3u)=0\\ E(u)=0 \end{array}\right. E(x1u)=0E(x2u)=0E(x3u)=0E(u)=0

    即可解出 a , b , c , d a,b,c,d a,b,c,d的唯一解;

    • C o v ( x 1 , u ) ≠ 0 Cov(x_1,u)\ne0 Cov(x1,u)=0,此时只能得到关于 a , b , c , d a,b,c,d a,b,c,d的不定矩方程组,即

    { E ( x 2 u ) = 0 E ( x 3 u ) = 0 E ( u ) = 0 \left\{\begin{array}{ccc} E(x_2u)=0\\ E(x_3u)=0\\ E(u)=0 \end{array}\right. E(x2u)=0E(x3u)=0E(u)=0

    此时参数 a , b , c , d a,b,c,d a,b,c,d不可唯一识别。注:此时未引入工具变量,工具变量个数为L=0,内生解释变量个数为K= 1。显然 L < K L<K L<K

    如果引入关于内生变量 x 1 x_1 x1的工具变量 z 1 z_1 z1,且满足
    C o v ( z 1 , u ) = 0 ; C o v ( z 1 , x 1 ) ≠ 0 Cov(z_1,u)=0;Cov(z_1,x_1)\ne0 Cov(z1,u)=0;Cov(z1,x1)=0
    则依然可构建四个矩方程组
    { E ( z 1 u ) = 0 E ( x 2 u ) = 0 E ( x 3 u ) = 0 E ( u ) = 0 \left\{\begin{array}{llll} E(z_1u)=0\\ E(x_2u)=0\\ E(x_3u)=0\\ E(u)=0 \end{array}\right. E(z1u)=0E(x2u)=0E(x3u)=0E(u)=0
    从而解出唯一参数 a , b , c , d a,b,c,d a,b,c,d的值。注:此时引入工具变量,工具变量个数为L=1,内生解释变量个数为K=1。显然 L = K L=K L=K

    • C o v ( x 1 , u ) ≠ 0 Cov(x_1,u)\ne0 Cov(x1,u)=0 C o v ( x 2 , u ) ≠ 0 Cov(x_2,u)\ne0 Cov(x2,u)=0,此时内生解释变量为 x 1 , x 2 x_1,x_2 x1,x2,于是对应的矩方程只有两个

    { E ( x 3 u ) = 0 E ( u ) = 0 \left\{\begin{array}{ll} E(x_3u)=0\\ E(u)=0 \end{array}\right. {E(x3u)=0E(u)=0

    显然,两个方程不能唯一解出方程组的四个参数。如果分别引入 x 1 , x 2 x_1,x_2 x1,x2的工具变量 z 1 , z 2 z_1,z_2 z1,z2,且满足
    C o v ( z 1 , u ) = 0 ; C o v ( z 1 , x 1 ) ≠ 0 ; C o v ( z 2 , u ) = 0 ; C o v ( z 2 , x 2 ) ≠ 0 Cov(z_1,u)=0;Cov(z_1,x_1)\ne0;Cov(z_2,u)=0;Cov(z_2,x_2)\ne0 Cov(z1,u)=0;Cov(z1,x1)=0Cov(z2,u)=0;Cov(z2,x2)=0
    则依然可构建四个矩方程组
    { E ( z 1 u ) = 0 E ( z 2 u ) = 0 E ( x 3 u ) = 0 E ( u ) = 0 \left\{\begin{array}{llll} E(z_1u)=0\\ E(z_2u)=0\\ E(x_3u)=0\\ E(u)=0 \end{array}\right. E(z1u)=0E(z2u)=0E(x3u)=0E(u)=0
    从而解出唯一参数 a , b , c , d a,b,c,d a,b,c,d的值。注:工具变量个数为L=2,内生解释变量个数为K=2。显然 L = K L=K L=K

    • C o v ( x 1 , u ) ≠ 0 Cov(x_1,u)\ne0 Cov(x1,u)=0 C o v ( x 2 , u ) ≠ 0 Cov(x_2,u)\ne0 Cov(x2,u)=0,此时内生解释变量为 x 1 , x 2 x_1,x_2 x1,x2,于是对应的矩方程只有两个

    { E ( x 3 u ) = 0 E ( u ) = 0 \left\{\begin{array}{ll} E(x_3u)=0\\ E(u)=0 \end{array}\right. {E(x3u)=0E(u)=0

    显然两个方程不能唯一解出方程组的四个参数。如果 x 1 x_1 x1的工具变量为 z 1 z_1 z1,但 x 2 x_2 x2的工具变量有两个 z 21 , z 22 z_{21},z_{22} z21,z22,且满足
    { C o v ( z 1 , u ) = 0 ; C o v ( z 1 , x 1 ) ≠ 0 C o v ( z 21 , u ) = 0 ; C o v ( z 21 , x 2 ) ≠ 0 C o v ( z 22 , u ) = 0 ; C o v ( z 22 , x 2 ) ≠ 0 \left\{\begin{array}{llll} Cov(z_1,u)=0;Cov(z_1,x_1)\ne0\\ Cov(z_{21},u)=0;Cov(z_{21},x_2)\ne0\\ Cov(z_{22},u)=0;Cov(z_{22},x_2)\ne0\\ \end{array}\right. Cov(z1,u)=0;Cov(z1,x1)=0Cov(z21,u)=0;Cov(z21,x2)=0Cov(z22,u)=0;Cov(z22,x2)=0
    对应的矩方程组为
    { E ( z 1 u ) = 0 E ( z 21 u ) = 0 E ( z 22 u ) = 0 E ( x 3 u ) = 0 E ( u ) = 0 \left\{\begin{array}{llll} E(z_1u)=0\\ E(z_{21}u)=0\\ E(z_{22}u)=0\\ E(x_3u)=0\\ E(u)=0 \end{array}\right. E(z1u)=0E(z21u)=0E(z22u)=0E(x3u)=0E(u)=0
    此时共有5个矩方程,但未知参数只有四个,称这类情形为“过度识别”。注意此时工具变量个数L=3,内生解释比那辆个数为K= 2。显然 L > K L>K L>K。从以上三种情况可以归纳出阶条件

    A: 如果内生解释变量个数大于工具变量变量个数,则模型参数不可识别;
    B: 如果内生解释变量个数等于工具变量变量个数,则模型参数恰好识别;
    C: 如果内生解释变量个数小于工具变量变量个数,则模型参数过度识别;

    因此,要让模型参数能识别出来,工具变量个数至少大于内生解释变量个数。


    5.2 球形扰动假定条件下的 2SLS

    通过以上的方法只能求出恰好识别的情形,并不适用于过度识别情形,因为(11)式的 Z ′ X Z^{\prime} \boldsymbol X ZX不是方阵,故 ( Z ′ X ) − 1 (Z^{\prime} \boldsymbol X)^{-1} (ZX)1不存在。下面介绍过度识别的情况。

    即使工具变量个数存在多个,但它依然满足工具变量的条件,即外生性与相关性。由此看来,如果将较多的工具变量通过某种线性组合(降维)也会回到恰好识别的情形。已经证明,在球形扰动项的条件下,由二阶段最小二乘法所提供的工具变量线性组合是所有线性组合中最渐进有效的。之所以要假定球形扰动项成立,是因为该方法没有考虑到模型可存在的异方差与自相关问题。下面介绍球形扰动假定条件下的2SLS具体步骤:

    step1:分离出内生变量的外生部分。

    将解释变量 x 1 , x 2 , ⋯ x k x_1,x_2,\cdots x_k x1,x2,xk对所有 L L L个工具变量 z 1 , z 2 , ⋯ z L z_1,z_2,\cdots z_L z1,z2,zL作OLS回归,得到 k k k个拟合值
    x ^ 1 = P x 1 , x ^ 2 = P x 2 , ⋯ x ^ k = P x k , \hat x_1 = \boldsymbol Px_1,\hat x_2 = \boldsymbol Px_2,\cdots \hat x_k = \boldsymbol Px_k, x^1=Px1,x^2=Px2,x^k=Pxk,
    其中 P = Z ( Z ′ Z ) − 1 Z ′ \boldsymbol P = \boldsymbol Z(\boldsymbol Z' \boldsymbol Z)^{-1}\boldsymbol Z' P=Z(ZZ)1Z为投影矩阵,参见多元回归分析内容。定义
    X ^ ≡ ( x ^ 1 x ^ 2 ⋯ x ^ k ) = P ( x 1 x 2 ⋯ x k ) = P X = Z [ ( Z ′ Z ) − 1 Z ′ X ]                              ( 12 ) \hat{\boldsymbol{X}} \equiv\left(\hat{\boldsymbol{x}}_{1} \hat{\boldsymbol{x}}_{2} \cdots \hat{\boldsymbol{x}}_{k}\right)=\boldsymbol{P}\left(\boldsymbol{x}_{1} \boldsymbol{x}_{2} \cdots \boldsymbol{x}_{k}\right)=\boldsymbol{P} \boldsymbol{X}=\boldsymbol{Z}\left[\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right] \;\;\;\;\;\;\;\;\;\;\;\;\;\; (12) X^(x^1x^2x^k)=P(x1x2xk)=PX=Z[(ZZ)1ZX](12)
    step2:使用外生部分进行回归。

    由于 X ^ \hat{\boldsymbol{X}} X^是工具变量 z 1 , z 2 , ⋯ z L z_1,z_2,\cdots z_L z1,z2,zL的线性组合,故 X ^ \hat{\boldsymbol{X}} X^也包含了 k k k个工具变量。此时工具变量个数等于内生解释变量个数,即处于恰好识别情形。现将外生解释变量 X ^ \hat{\boldsymbol{X}} X^替换内生解释变量 X {\boldsymbol{X}} X
    y = β X + ε \boldsymbol y = \boldsymbol \beta \boldsymbol X+\boldsymbol \varepsilon y=βX+ε
    并进行OLS回归,得到工具变量估计量
    β ^ I V = ( X ^ X ) − 1 X ^ ′ y = ( X ^ X ^ ) − 1 X ^ ′ y                              ( 13 ) \hat{\boldsymbol \beta}_{\mathrm{IV}}=(\hat{\boldsymbol{X}} \boldsymbol{X})^{-1} \hat{\boldsymbol{X}}^{\prime} \boldsymbol{y}=(\hat{\boldsymbol{X}} \hat{\boldsymbol{X}})^{-1} \hat{\boldsymbol{X}}^{\prime} \boldsymbol{y} \;\;\;\;\;\;\;\;\;\;\;\;\;\; (13) β^IV=(X^X)1X^y=(X^X^)1X^y(13)
    这里 X ^ ′ X ^ = ( P X ) ′ ( P X ) = X ′ P ′ P X = X ′ P ′ X = X ^ X \hat{\boldsymbol{X}}^{\prime} \hat{\boldsymbol{X}}=(\boldsymbol{P X})^{\prime}(\boldsymbol{P X})=\boldsymbol{X}^{\prime} \boldsymbol{P}^{\prime} \boldsymbol{P} \boldsymbol{X}=\boldsymbol{X}^{\prime} \boldsymbol{P}^{\prime} \boldsymbol{X}=\hat{\boldsymbol{X}} \boldsymbol{X} X^X^=(PX)(PX)=XPPX=XPX=X^X,且投影矩阵 P \boldsymbol P P为等幂矩阵,即 P ′ = P ; P 2 = P \boldsymbol P' =\boldsymbol P;\boldsymbol P^{2}=\boldsymbol P P=P;P2=P。将(12)带入(13)得
    β ^ 2 S L S = ( X ′ P X ) − 1 X ′ P y = [ X ′ Z ( Z ′ Z ) − 1 Z ′ X ] − 1 X ′ Z ( Z ′ Z ) − 1 Z ′ y \hat{\boldsymbol \beta}_{2 \mathrm{SLS}}=\left(\boldsymbol X^{\prime}\boldsymbol P \boldsymbol X\right)^{-1} \boldsymbol X^{\prime} \boldsymbol P\boldsymbol y=\left[\boldsymbol X^{\prime} \boldsymbol Z\left(\boldsymbol Z^{\prime} \boldsymbol Z\right)^{-1}\boldsymbol Z^{\prime} \boldsymbol X\right]^{-1}\boldsymbol X^{\prime}\boldsymbol Z\left(\boldsymbol Z^{\prime} \boldsymbol Z\right)^{-1} \boldsymbol Z^{\prime} \boldsymbol y β^2SLS=(XPX)1XPy=[XZ(ZZ)1ZX]1XZ(ZZ)1Zy
    在同方差假定下, β ^ I V \hat{\boldsymbol \beta}_{\mathrm{IV}} β^IV的协方差估计量为
    Var ⁡ ( β ^ I V ) = s 2 ( X ^ ′ X ^ ) − 1 \operatorname{Var}\left(\hat{\boldsymbol{\beta}}_{\mathrm{IV}}\right)=s^{2}\left(\hat{\boldsymbol{X}}^{\prime} \hat{\boldsymbol{X}}\right)^{-1} Var(β^IV)=s2(X^X^)1
    其中 s 2 ≡ e ′ e / ( n − K ) s^{2} \equiv e^{\prime} e/(n-K) s2ee/(nK)。在异方差假定下,可使用稳健标准误
    Var ⁡ ( β ^ I V ) = ( X ^ ′ X ^ ) − 1 ( ∑ i = 1 n e i 2 x ^ i x ^ i ′ ) ( X ^ X ^ ) − 1 \operatorname{Var}\left(\hat{\boldsymbol{\beta}}_{\mathrm{IV}}\right)=\left(\hat{\boldsymbol{X}}^{\prime} \hat{\boldsymbol{X}}\right)^{-1}\left(\sum_{i=1}^{n} e_{i}^{2} \hat{\boldsymbol{x}}_{i} \hat{\boldsymbol{x}}_{i}^{\prime}\right)(\hat{\boldsymbol{X}} \hat{\boldsymbol{X}})^{-1} Var(β^IV)=(X^X^)1(i=1nei2x^ix^i)(X^X^)1


    6 关于工具变量的检验

    首先应该判断该模是否存在内生性问题,若模型不存在内生性,就没有必要使用工具变量进行估计;若在没有内生性问题条件下使用了工具变量估计,根据两阶段最小二乘法原理,第一阶段回归的外生部分与原有的解释变量相比将损失部分信息,而这部分信息的损失降低回归结果的有效性。

    其次,若存在内生性问题,应判断工具变量是否为过度识别情形。当工具变量个数等于内生解释变量个数时,即恰好识别情形,此时无法进行过度识别检验;当工具变量个数大于内生解释变量个数时,需要检验工具变量的有效性,即是否存在工具变量不具有外生性。

    最后,如果运用了工具变量法估计,还需要对工具变量进行弱工具变量检验,即内生解释变量与工具变量之间的相关性是否较低。若存在弱工具变量,可以通过其他方法进行弥补。


    6.1 内生性检验

    方法一:当使用工具变量变量估计与使用OLS估计的回归系数相差不大,则意味着二者在大样本条件下, β ^ I V \hat{\boldsymbol \beta}_{IV} β^IV β ^ O L S \hat{\boldsymbol \beta}_{OLS} β^OLS都会收敛到真实的参数 β \boldsymbol \beta β。相反,若 β ^ I V \hat{\boldsymbol \beta}_{IV} β^IV β ^ O L S \hat{\boldsymbol \beta}_{OLS} β^OLS相差较大,则说明使用工具变量与不适用工具变量存在显著差异,表明模型存在内生性问题。Hausman检验的原假设为
    H 0 : 所 有 解 释 变 量 都 是 外 生 的        o r        β ^ I V − β ^ O L S → 0 H_0:所有解释变量都是外生的\;\;\;or \;\;\; \hat{\boldsymbol \beta}_{IV} - \hat{\boldsymbol \beta}_{OLS} \to \boldsymbol 0 H0:orβ^IVβ^OLS0
    如拒绝原假设,则模型存在内生性,

    方法二:为简化关系设回归模型为
    y = a 0 + a 1 x 1 + a 2 x 2 + a 3 x 3 + u                              ( 14 ) y = a_0 + a_1x_1 + a_2x_2 +a_3x_3+u \;\;\;\;\;\;\;\;\;\;\;\;\;\; (14) y=a0+a1x1+a2x2+a3x3+u(14)
    其中 x 1 x_1 x1为内生解释变量,其余变量外生。变量 x 1 x_1 x1的工具变量有 z 1 , z 2 z_1,z_2 z1,z2。因此可以先将内生解释变量分离出外生部分,即
    x 1 = b 0 + b 1 z 1 + b 2 z 2 + b 3 x 2 + b 4 x 3 + v = x ^ 1 + v x_1 = b_0 + b_1z_1 + b_2z_2+b_3x_2 + b_4x_3+v = \hat x_1 +v x1=b0+b1z1+b2z2+b3x2+b4x3+v=x^1+v
    由于 C o v ( x 1 , u ) ≠ 0 Cov(x_1,u)\ne 0 Cov(x1,u)=0, x ^ 1 \hat x_1 x^1 x 1 x_1 x1的外生部分,故 C o v ( v , u ) ≠ 0 Cov(v,u)\ne0 Cov(v,u)=0。因此要检验变量 x 1 x_1 x1是否存在内生性,只要需要检验扰动项 u u u v v v是否存在相关性即可。假设二者的相关性满足
    u = ρ v + e u = \rho v+e u=ρv+e
    带入(14)得
    y = a 0 + a 1 x 1 + a 2 x 2 + a 3 x 3 + ρ v + e y = a_0 + a_1x_1 + a_2x_2 +a_3x_3+\rho v+e y=a0+a1x1+a2x2+a3x3+ρv+e
    此时只需检验回归系数 ρ \rho ρ是否为0,若是,则表明模型不存在内生性,反之存在。


    6.2 过度识别(冗余)检验

    过度识别检验的原假设为
    H 0 : 所 有 的 工 具 变 量 与 误 差 项 不 相 关 H_0:所有的工具变量与误差项不相关 H0:
    操作步骤为

    step1:对方程做2SLS估计,得到残差项
    step2:用残差对所有工具变量(包括模型中的外生解释变量)作回归,得到可决系数 R 2 R^2 R2
    step3:在原假设 H 0 H_0 H0成立条件下
    n R 2 ∼ χ q 2 ( n ) nR^2 \sim \chi_q^2(n) nR2χq2(n)
    其中 n n n表示多余的工具变量个数。当处于恰好识别时,此时 n = 0 n = 0 n=0,而 χ q 2 ( 0 ) \chi_q^2(0) χq2(0)无意义,因此恰好识别情形无法进行过度识别检验。


    6.3 弱工具变量检验

    考虑一元线性回归模型,通过OLS与IV估计,在大样本条件下,
    { plim ⁡ β ^ 1 , o l s = β 1 + corr ⁡ ( x , u ) σ u σ x plim ⁡ β ^ 1 , i v = β 1 + corr ⁡ ( z , u ) corr ⁡ ( z , x ) σ u σ x \left\{ \begin{array}{l} \operatorname{plim} \hat{\beta}_{1, o l s}=\beta_{1}+\operatorname{corr}(x, u) \frac{\sigma_{u}}{\sigma_{x}} \\ \\ \operatorname{plim} \hat{\beta}_{1, i v}=\beta_{1}+\frac{\operatorname{corr}(z, u)}{\operatorname{corr}(z, x)} \frac{\sigma_{u}}{\sigma_{x}} \end{array} \right. plimβ^1,ols=β1+corr(x,u)σxσuplimβ^1,iv=β1+corr(z,x)corr(z,u)σxσu

    • 如果工具变量 z z z完全具有外生性,即 C o r r ( z , u ) = 0 Corr(z,u) =0 Corr(z,u)=0,此时工具变量估计量 β ^ 1 , i v \hat{\beta}_{1, i v} β^1,iv是一致的,不存在偏差;

    • 如果工具变量 z z z不完全具有外生性,即 C o r r ( z , u ) ≠ 0 Corr(z,u) \ne0 Corr(z,u)=0,并且内生解释变量与工具变量之间存在较弱的相关关系,那么Iv估计量的偏差可能要大于OLS估计量的偏差。

      因此检验工具变量是否是弱工具变量至关重要,因为它直接影响到参数估计的一致性。

    6.31 弱工具变量的识别方法

    目前识别弱工具变量的方法主要有以下几种:

    • 使用偏 R 2 R^2 R2。具体操作步骤如下:
      step1:用内生解释变量对外生解释变量进行OLS回归,其残差记作 u u u它表示不能由外生解释变量解释内生解释变量的信息;
      step2:用工具变量变量对外生解释变量进行OLS回归,其残差记作 v v v,它表示不能由外生解释变量解释工具变量的信息;
      step3:用残差 u u u对残差 v v v进行OLS回归,其可决系数记作 R p 2 R_p^2 Rp2。如果 R p 2 R_p^2 Rp2较大,则内生解释变量与工具变量存在较强的相关性。

    事实上,计算出的 R p 2 R_p^2 Rp2究竟是多大才不构成弱工具变量目前尚无共识。

    • 经验规则(Staiger and Stock, 1997):第一阶段工具变量显著性检验的𝐹统计量应大于10:如果在多个内生解释变量情况下,将会存在多个第一阶段回归,对应多个F统计量。(Staiger and Stock, 2005)提出“最小特征统计值”,stata提供了最小特征统计值的临界值。通过特征值与临界值进行比较以判定弱工具变量问题。SY(Stock and Yogo )统计量为第一阶段中对工具变量显著性检验的𝐹统计量,但临界值不同于𝐹分布的临界值。临界值取决于内生变量的个数和工具变量的个数。

    • 如果假设扰动项为iid,可使用“Cragg-Donald Wald F统计量”(Cragg and Donald, 1993),其临界值由Stock and Yogo (2005 )提供。

    • 如果不作iid 扰动项的假设,则应使用“Kleibergen-Paap Wald rk F 统计量”,其临界值也来自Stock and Yogo (2005)。

    6.32 弱工具变量的处理方法

    • 减少工具变量的个数。工具变量越多,对第一阶段的𝐹统计量要求越高

    • 寻找更强的工具变量

    • 采用有限信息极大似然估计(LIML)。LIML对估计和推断偏差没有2SLS敏感。

    • 使用冗余检验,剔除弱工具变量。


    7 如何寻找工具变量

    • 根据理论,列出所有与内生解释变量相关的变量的清单
    • 从清单中剔除与扰动项相关的变量,工具变量具必须具有外生性
    • 相关政策或制度、外生的冲击,比如自然灾害、意外事件等;

    • 地理因很大程度上具有独立性;

    • 历史变量也先于当前的经济指标生成。

    • 最后一个常用的方法是将内生解释变量的时间(空间)滞后作为工具变量。

      考虑模型
      y t = a + b x t + u t y_t = a + b x_t +u_t yt=a+bxt+ut
      由于 x t x_t xt存在内生性,故 C o v ( x t , u t ) ≠ 0 Cov(x_t,u_t) \ne 0 Cov(xt,ut)=0 x t − 1 x_{t-1} xt1先于 u t u_t ut,且 C o v ( x t , x t − 1 ) ≠ 0 Cov(x_t,x_{t-1})\ne0 Cov(xt,xt1)=0,因此内生解释变量的滞后其可能是一个工具变量。


      参考文献

    [1] 陈强《高级计量经济学及Stata应用》
    [2] 王宇等(2017). 管理学研究中的内生性问题及修正方法[J].管理学季刊


    -END-

    更多内容,关注公众号“那由他的学习笔记”

    展开全文
  • 工具变量法也就是 Instrumental Variable Analysis,简称IV,是用来处理内生性问题的重要方法,那么我们先从内生性问题出发,然后讲述工具变量法。 1. 内生性问题 对于上面式子中的多元线性回归方程,在采用OLS...

    工具变量法也就是 Instrumental Variable Analysis,简称IV,是用来处理内生性问题的重要方法,那么我们先从内生性问题出发,然后讲述工具变量法。

    1. 内生性问题

    对于上面式子中的多元线性回归方程,在采用OLS方法进行估计参数量时,我们一般假设随机扰动项与解释变量之间没有相关性,但是现实中肯定是无法满足的,比如我们遗漏了一些变量等,因此就出现了内生性问题,那么我们就需要解决内生性问题(endogeneity)。

    具体的讲,造成内生性问题的主要原因有:

    • 遗漏重要解释变量
    • 联立方程问题,y可以解释x,x也可以解释y
    • 测量误差,观测到的X,y与真实的X和y存在一定的差距

    既然内生性问题的产生是由于扰动项和解释变量相关造成的,那么从另一个角度来看,如果可以将这个与扰动项相关的解释变量拆分成两部分,一部分与扰动项相关,而另一部分则与扰动项不相关, 那么我们就可以利用与扰动项不相关的那部分回归,进而得到一致的估计结果,这就可以构造一个工具变量的形式来实现,一般而言工具变量法通过“二阶段最小二乘法”(2SLS,Two Stage Least Square) 来实现。

    2. 单个工具变量法

    并不是说所有的变量都可以充当工具变量,工具变量Z需要满足:

     

    也就是说工具变量不仅要满足与随机扰动项不相关,而且要满足与解释变量相关 。

    (1)阶段一:假设我们已经找到了内生变量X的有效的工具变量Z,那么就可以将X对Z进行OLS回归,如此分离出来X的外生部分。

     

     

     (2)阶段二:

     

     

     

     思考一下:

     3. 多个工具变量

     

     第二阶段的回归和单个工具变量的情形一样的流程操作

    4. 加入控制变量

    此外,在多元回归分析中,一般还有其他的外生变量或者控制变量,比如:

     

     

     

    5. 多个内生变量

     

     

     

     

     

    综上可知,如果工具变量个数少于内生变量个数,则无法进行2SLS估计,称之为“不可识别”(Unidentified),因为无法得到对模型参数的一致估计。

    如果工具变量的个数正好等于内生变量的个数,那么就成为“恰好识别”(Just identified或者exactly identified) 。

    如果工具变量个数大于内生变量个数,则称之为“过度识别”(overientified)。

    在恰好识别和过度识别的情形下,均可以进行2SLS估计,但是在不可以识别的情形下,是不可以进行2SLS使用的。

    此外,2SLS估计量是一致估计的,并且随着样本容量n的增大,其渐进分布为正态分布,此外,如果扰动项为球形扰动项(满足同方差、无自相关性),则2SLS为最有效率的工具变量法,如果担心扰动项存在异方差,那么依然可以使用稳健性标准误进行统计推断。 

     

     

     

    展开全文
  • 在陈云松(2012):农民工收入与村庄网络,《社会》发表的文章中,家庭劳动力数量被视为和农民工在城市的工资收入无关的因素而纳入打工决策的Logit模型 七、 与工具变量区别 Heckman二阶段只能解决样本选择问题,...

    一、适用范围

    Heckman两阶段模型适用于解决由样本选择偏差(sample selection bias)造成的内生性问题。

    在经济学领域,样本选择偏差的典型例子是研究女性的受教育情况对女性工资的影响。按照这个思路,一般会去问卷收集或在哪个网站下载部分女性的受教育情况,工资,及其他特征数据,例如年龄,毕业院校等级等个人特征,然后做回归。不过这样做有一个问题,就是登记的女性,都是在工作的,但是许多受教育程度较高的女性不工作,选择做家庭主妇,这部分样本就没有算在内,样本失去随机性。这就导致模型只是用到了在工作的女性,这样得出的结论是有偏差的。

    在管理学领域,一个典型的问题是企业的某个特征,或者董事/CEO的某个特征,对企业R&D投入的影响。也是同样的问题,企业的R&D投入是企业自愿披露的内容,有的企业不披露,这时你做回归时就不能包括这部分样本,也会造成样本选择偏差,结果有偏。

    二、分析步骤

    经典的赫克曼二阶段法,具体步骤如下:

    第一步,研究者根据管理学理论设计出一个计算企业披露R&D投入概率的模型,而该模型的统计估计结果可以用来预测每个个体的概率

    第二步,研究者将这些被预测个体概率合并为一个额外的解释变量,与其他控制变量等变量一起来矫正自选择问题。这个比率叫逆米尔斯比率,inverse Mills ration, imr,也就是说,在第一步计算出imr,在第二步把imr当作一个控制变量。

    三、主要原理

    选择模型有两种主要应用,一是 处理效应 (treatment effect model),即回归模型中包含一个内生的指示变量 (D)。例如,管理层是否发布盈余预测 (D=1 或 0) 对资本成本影响。二是 样本选择 (sample selection model),即回归样本为一个子样本。例如,在管理层发布盈余预测子样本中 (D=1),对管理层盈余预测精确度的影响因素进行分析。在上述模型中,内生的 D 都会导致有偏估计。

    处理效应模型 (treatment effect model) 如下:

    其中,X 包含截距项和一组影响 Y 的外生解释变量。指示性变量 D 可以通过以下二元选择模型进行回归得到: 

    通常,式 (1) 和式 (2) 的随机误差项 u 和 v 服从二元正态分布,其均值为 0,协方差矩阵为: 

     

    如果随机误差项 u 和 v 相关 (\rho \neq 0),则E(u \mid D)\neq 0 ,使得式 (1) 中的 OLS 估计量 \vartheta 有偏。Heckman 方法就是通过式 (2) 构造 逆米尔斯比率 (IMR) 控制这个偏差。IMR 计算如下: 

     其中,\varphi (.) 和 \Phi (.) 分别为标准正态分布的密度函数和累积分布函数。然后,将计算得到 IMR 加入式 (1) 进行回归:

    此时,式 (3) 中随机误差项 \xi 与 D 不相关,\theta 为无偏估计量。并且,可以通过 IMR 显著性和系数判断选择偏差是否存在以及方向。当然,式 (2) 和 式 (3) 可以用传统两步法或最大似然估计法。

    上述为处理效应模型 (treatment effect model),除式 (3) 是以子样本回归外,样本选择模型与处理效应模型 (sample selection model)类似。例如,对管理层预测精确度 (Y) 分析中,回归样本为发布盈余预测的公司 (D=1)。此时,式 (3) 为 

     其中,IMR1 计算公式如下:

     

    IMR可以识别选择性偏差的主要原因:

    选择模型式 (3) 与 OLS 模型式 (1) 的区别在于前者加入了逆米尔斯比率 ()。IMR 可以识别选择性偏差主要是以下原因:

    • IMR 是 X 和 Z 变量的非线性函数
    • Z变量从式 (3) 中已经排除

    其中,Z 变量被假定为不会对 Y 变量产生直接的影响,只能通过 IMR 产生间接影响,因此也被称为排他性约束 (exclusion restrictions)

    排他性约束变量,也就是 Z 变量,在控制选择模型内生性问题过程中具有非常重要的作用:

    1.  Z变量必须是外生的,否则选择模型第一阶段回归 (式 2) 系数以及 IMR 会产生偏误;

    2. Z 变量对 D 具有较强的解释能力,使得 IMR 能够更好的检测和控制选择偏差;

    3. 式 (3) 中必须有效排除 Z 变量的影响,即 Z 变量只能通过 IMR 对 Y 产生间接影响,否则  IMR 与随机误差项相关,使得  IMR 系数估计有偏,不能有效控制 D 变量的内生性。

    找到一个好的 Z 变量是困难的。在没有排他性约束情况下,即没有 Z 变量,仍可以通过 IMR 的非线性去识别偏差。但可能面临以下两个问题:

    • 由于只能通过 IMR 的非线性识别偏差,非线性模型被错误设定为线性模型会被 IMR 吸收。
    • 在式 (3) 中,IMR  与 X 和 D 相关,这种相关性在没有排他性约束变量 (Z) 情况下更加严重。

    进一步,高的共线性会产生以下两个问题:

    • 高共线性会使得系数的标准差变大,降低了系数的显著性。IMR  系数可能会变得不显著,进而得出错误结论。
    • 在模型被正确设定下,即使存在高的共线性问题,系数也可以被无偏的估计。但是,事实上,选择模型被错误设定概率是很高的。若模型被错误设定,共线性会吸收这种偏差,导致系数估计有偏。

    四、实例分析

    以企业R&D投入问题为例,假设全样本是1000家公司,其中800家公司披露了其R&D投入。

    第一阶段的模型,是一个包括全样本(1000家)的Probit模型,用来估计一家公司是否会披露其R&D投入的概率。这里的因变量是二元的,表示是否披露R&D投入;自变量是一些会影响是否披露R&D的外生变量,比如其他收入营业收入,杠杆率,公司规模,所属行业等等。然后根据这个Probit模型,为每一个样本计算出imr,IMR作用是为每一个样本计算出一个用于修正样本选择偏差的值

    第二阶段,在原来的回归方程,也就是原来只有800家公司的样本的方程假如imr作为控制变量,其他都不变,然后估计出回归参数。这时不管imr显著不显著都不重要,imr显著说明样本选择偏差的确影响了你最初模型的估计,这正表明了使用Heckman两步法纠正样本选择偏差的必要性。imr不显著说明原模型不存在严重的样本选择偏差,这时Heckman第二步得到的结果应该与原模型得到的结果差不多。(关于imr的显著性是否说明样本选择偏差存在目前还有争议,不过imr不是关注的变量)。第二步关注的对象是核心解释变量是否显著。只要核心解释变量显著,就说明结果稳健。

    五、Stata实现

    在stata上的实现,还是刚才的例子。假设问题是研究董事会的连锁懂事比例对企业R&D投入的影响,各变量如下:

    因变量:企业R&D投入额度(rd)

    自变量:董事会连锁懂事比例 (interlockratio)

    控制变量:公司规模(firmsize),杠杆率(leverage), 公司成长性(growth),公司年龄(age),行业R&D投入(industryrd),行业集中度(cr4),行业净资产收益率(industryroa)等。

    其中前三个控制变量还会影响企业R&D投入的概率。

    总样本数1000家,其中800家披露了R&D投入,不考虑其他变量的缺失值。

    Heckman两步法
    第一步,命名一个新的因变量,企业是否披露R&D投入,ifrd
    xi: probit ifrd firmsize leverage growth i.year i.ind  r//Heckman两阶段的第一阶段回归,这里的r可加可不加,看需不需要控制异方差问题。
    estimate store First
    predict y_hat, xb
    gen pdf = normalden(y_hat)  
    gen cdf = normal(y_hat)  
    gen imr = pdf/cdf//生成imr
     第二步回归,把imr当作控制变量加入原模型,用原来的数据。
    reg rd interlockratio leverage growth industryrd cr4 industryroa imr i.year i.ind , r if ifrd==1

    六、回归变量选择

    需要注意的是,在第一步,确定哪些变量会影响企业披露其R&D数据时,这些变量不一定是原模型的因变量,可以是可以不是,是不是要说明理由。

    要真正解决样本选择问题,总样本模型中的解释因子群应该是选择模型(披露了R&D投入)的解释因子群的完全子集。而且,在选择模型中,至少要有一个解释变量不出现在主体模型之中。文章通常会选取与因变量不相关的变量加入进行估计。

    eg. 在陈云松(2012):农民工收入与村庄网络,《社会》发表的文章中,家庭劳动力数量被视为和农民工在城市的工资收入无关的因素而纳入打工决策的Logit模型

    七、 与工具变量区别

    Heckman二阶段法只能解决样本选择问题,对于一般性的因遗漏变量引发的估计偏误联立性问题(双向因果)却无能为力。

    为解决这个问题,在陈云松(2012):农民工收入与村庄网络,《社会》发表的文章中,Heckman二阶段模型的基础上进一步采用工具变量方法。这个工具变量必须是一个和农民工在城市的工资收入没有任何直接关系,但却又可以有力地影响村庄外出打工者数量的外生变量。利用工具变量所引发的自变量的差异,可以获得对因变量的无偏估计。
     

    展开全文
  • 什么是工具变量法? Instrumental variable methods The method of instrumental variables (IV) is used to estimate causal relationships when controlled experiments are not feasible or when a treatment is...
  • 较为常见的解决方法是使用工具变量法。 工具变量的选择 首先工具变量的选择要满足两个条件: 相关性:工具变量与内生解释变量相关 外生性:工具变量与扰动项不相关 两阶段最小二乘法 若YYY为被解释变量,CCC为解释...
  • OLS是常用的回归方法之一,那么OLS在使用过程中最重要的一个前提是解释变量与扰动项不相关,解释变量可以理解为我们研究时...传统的工具变量法一般是称之为“两阶段最小二乘回归”;以上图为例,在一篇文章中,两个...
  • 传统ols中的hypothesis要求xix_ixi​与uiu_iui​无关。但是在实际中很难满足这个假设,有时候因变量(在单方程模型中就是内生...这个时候比较有效的方法是采取工具变量法进行估计参数值。 Namely, an apppropriat...
  • 本篇是本人总结的基本Stata使用手册(4):工具变量法
  • 解释变量和误差项存在内生性问题 内生性问题来源 内生性问题主要来自于三个方面,分别为:遗漏变量、联立性以及度量误差 遗漏变量 遗漏变量是指可能与解释变量相关的变量,本来应该加以控制,但却没有控制的变量。...
  • 工具变量通常采用二阶段最小二乘法(2SLS)进行回归,当随机扰动项存在异方差或自相关的问题,2SLS就不是有效率的,就需要用GMM等方法进行估计,除此之外还需要对工具变量的弱工具性和内生性进行检验。1数据与要求以...
  • 使用OLS还是工具变量?——豪斯曼检验 H0:所有变量均为外生 reg y x1 x2 estimates store ols ivregress 2sls y x1 (x2=z1 z2) 怀疑x2为内生变量 estimates store iv hausman iv ols,constant sigmamore 对于DWH...
  • 原标题:面板工具变量法学习手册(固定效应与随机效应方法、过度识别检验、预测等)转载请联系一.简介虽然面板数据能够有效处理不随时间而变的个体特征,但如果回归模型包含“内生( endogenousregressors)变量,则...
  • 工具变量法(IV): 是为了解决一个违反经典假设问题而设计的,假设条件是:解释变量与随机扰动项不相关。如果出现了违反该假设的问题,就需要找一个和解释变量高度相关的、同时和随机扰动项不相关的变量。要注意的...
  • 中国城市公立和私立医疗机构门诊医疗保健支出的比较:运用工具变量法.pdf
  • 两阶段最小二乘法(2SLS)回归拟合的线性模型是一种常用的工具变量估计方法。 本文的主要内容是将各种标准的回归诊断扩展到2SLS。 2SLS估计的回顾 我们需要2SLS回归的一些基本结果来开发诊断方法,因此我们在此...
  • 行业分类-外包设计-基于递推工具变量法RIV的结晶器ARX模型辨识方法的说明分析.rar
  • Stata:工具变量法(IV)也不难呀!

    千次阅读 2021-07-27 15:41:45