精华内容
下载资源
问答
  • 内生性
    千次阅读
    2021-06-24 21:51:34

    全文阅读:https://www.lianxh.cn/news/224e2b4e170e4.html

    目录


    1. 内生性的来源

    内生性问题 (endogeneity issue) 是指模型中的一个或多个解释变量与误差项存在相关关系。换言之,如果 OLS 回归模型中出现 ,则模型存在内生性问题,以致于 OLS 估计量不再是一致估计。进一步,内生性问题主要由以下四种原因导致。

    全文阅读:https://www.lianxh.cn/news/224e2b4e170e4.html

    更多相关内容
  • stata做时间序列数据( Time series data ),截面数据( Cross-sectional data )和面板数据( Panel data )的内生性检验
  • 该文详细讲述内生性问题的来源,内生性问题的处理方法。
  • 内生性_模拟 这是一个演示内生性的仿真,并通过lavaan了两阶段最小二乘(2SLS)估计
  • This chapter discusses how applied researchers in corporate finance can address endogeneity concerns. We begin by reviewing the sources of endogeneity— omitted variables, simultaneity, and ...
  • 每一个公司或企业都拥有这各司其能的部门或组织,组织结构变化的内生性研究给你最好的参考与建议,喜欢组...该文档为组织结构变化的内生性研究,是一份很不错的参考资料,具有较高参考价值,感兴趣的可以下载看看
  • 内生性专题1:2sls.do

    2021-10-24 20:18:18
    内生性专题1:2sls.do
  • 多个大股东制衡机制的形成及其对公司价值的影响: 基于股权结构内生性视角,贾钢,李婉丽,基于股权结构内生性视角,本文运用上市公司2003——2005年数据对形成多个大股东相互制衡的股权结构之影响因素及该类型股权...
  • 选择 2011―2012 年两市 A 股有过度投资行为的上市公司作为样本,从内生性视角重新审视了机构投资者对公司治理的作用。首先采用普通最小二乘法证实了机构持股与公司过度投资程度有相互影响的内生性问题,而进一步的二...
  • 股权分置改革后,上市公司股权再融资的方式主要有两种:定向增发和公开增发。本文的经验证据表明:全流通背景下,上市公司股权再融资方式的选择,主要是基于其大股东巩固...股权再融资,实质上是一种股权结构的内生性调整。
  • 解决内生性问题

    千次阅读 2021-10-14 19:12:26
    1. 内生性来源 内生性问题 (endogeneity issue) 是指模型中的一个或多个解释变量与误差项存在相关关系。换言之,如果 OLS 回归模型中出现,则模型存在内生性问题,以致于 OLS 估计量不再是一致估计。进一步,内生性...

    1. 内生性来源

    内生性问题 (endogeneity issue) 是指模型中的一个或多个解释变量与误差项存在相关关系。换言之,如果 OLS 回归模型中出现 ,则模型存在内生性问题,以致于 OLS 估计量不再是一致估计。进一步,内生性问题主要由以下四种原因导致。

    1.1 遗漏变量

    在实证研究中,研究者通常无法控制所有能影响被解释变量的变量,因此遗漏解释变量 (omitted variables) 是很常见的事情。假设 OLS 模型中解释变量为x_{1}  和x_{2} ,研究者遗漏的解释变量为x_{2}

     如果遗漏的变量x_{2}  对另一个解释变量x_{1} 有影响,就会产生内生性问题。

    1.2 选择偏差

    选择偏差包括两种形式,即样本选择偏差 (sample selection bias) 和自选择偏差 (self-selection bias)。

    样本选择偏差是指因样本选择的非随机性导致结论存在偏差,本质上也是一种遗漏变量问题 (Heckman,1979)。如果是采用类似 “抽签” 的随机方式获得的样本,其估计参数能很好地反映总体的性质。如果所抽取的方法不是随机的,那么无论样本容量有多大,根据这些样本数据估计的参数都不能准确反映总体的性质。

    Heckma (1979) 在研究样本选择偏差的时候也意识到了自选择问题。他观察到直接比较管理培训生的工资和非培训生的工资也可能导致处理效应的有偏估计。存在自选择问题的模型中,可能存在某些无法观测的变量同时影响了y  和x 。比如,在研究员工培训对工资的影响时,员工智力水平可能同时影响是否参加培训和员工工资。

    1.3  双向因果

    经济变量通常是相互依赖的,或者说是互为因果。上述现象也会导致内生性问题。比如,在估计需求曲线时,价格p  是需求模型中的内生解释变量

    1.4 测量误差

    当模型使用数据和真实数据存在误差,且满足 CEV 假定时,则会影响估计量的一致性,产生内生性问题。当只有一个解释变量时,CEV 假定下的测量误差将导致 OLS 估计量产生向 0 的偏误,也称为衰减偏误。当模型存在多个解释变量时,其中一个解释变量的测量误差导致 OLS 估计量发生方向不确定的偏移。

    2. 内生性的解决方法

    2.1 工具变量法

    工具变量法 (IV) 可以解决遗漏变量、样本选择、双向因果和测量误差这四种违背经典线性回归假定情况的内生性问题。一般来讲,如果确定研究中存在内生性问题,又无法确定产生原因,可以考虑使用工具变量法。

    工具变量法 (IV) 和 两阶段最小二乘法 (TSLS) 都属于 GMM。IV 只是 TSLS 的特例,即 IV 的工具变量个数和内生变量个数相等。当工具变量个数大于内生变量个数时,需要对各工具变量加以权重进行拟合,这时候就需要 TSLS。

    • Mauro (1995) 认为不同的语言代表了不同的族源,反映了不同制度的起源,因此语言可以作为各国腐败程度和政府效率的工具变量

    • 沈坤荣和李莉 (2005) 在研究银行监管对于防范危机、促进发展的作用时,使用了英美、法国、德国和斯堪的纳维亚四种法系作为工具变量来表示国别差异

    • 何玉梅和孙艳青 (2011) 为了解决以管理费用率衡量代理成本产生的内生性问题,使用了滞后一期的代理成本作为当期的代理成本的工具变量等。

    相关参考文献:

    • Mauro P. Corruption and growth[J]. The quarterly journal of economics, 1995, 110(3): 681-712. -PDF-

    • 沈坤荣, 李莉. 银行监管: 防范危机还是促进发展?——基于跨国数据的实证研究及其对中国的启示[J]. 管理世界, 2005, 10: 6-23. -Link-

    • 何玉梅, 孙艳青. 不完全契约, 代理成本与国际外包水平——基于中国工业数据的实证分析[J]. 中国工业经济, 2011, 12: 57-60. -Link-

    2.2 自然实验法

    自然实验法指的是在研究中,因为某些外部事件使得研究对象被随机分成了实验组和对照组。其关键在于寻找一个影响被解释变量而不影响解释变量的外部事件。自然实验法本质上是一种观察实验,它是现场和实验室实验之外的另一种选择。

    Fuchs-Schündeln 和 Hassan (2016) 将 “自然实验” 中的 “自然” 定义为 “研究人员没有有意识地设计要分析的情节,但仍然可以利用它来学习因果关系。”

    也许二战后影响最大的自然实验是德国 1949 年的东西分裂和 1989 年的东西德合并。“柏林墙” 将大量的人口分为生活在不同经济环境下两部分,这相对于人的偏好、经济条件等其他因素是外生的。有很多宏观和微观经济研究是基于这一自然事件。例如:

    • Fuchs-Schündeln 和 Schündeln (2005) 首先利用这个实验研究了基于风险规避的职业自我选择,及其对预防性储蓄的影响;

    • Fuchs-Schündeln 和 Alesina (2007) 利用 “柏林墙” 研究经济政策的内生性偏好;

    • Redding 和 Sturm (2008) 研究了市场准入的重要性;

    • Burchardi 和 Hassan (2013) 研究了社会关系对经济的影响。

    除此之外,在永久收入假设的背景下,Fuchs-Schündeln (2008) 认为德国统一对东德人来说是一个巨大的、积极的、永久性的收入冲击,分析了生命周期消费模型的有效性,得出了关于东德人和西德人的储蓄行为的三个类型化特征,并发现强有力的证据支持理性的、前瞻性的储蓄的行为。

    相关参考文献:

    • Fuchs-Schündeln N, Hassan T A. Natural experiments in macroeconomics[M]//Handbook of macroeconomics. Elsevier, 2016, 2: 923-1012. -PDF-

    • Fuchs-Schündeln N, Schündeln M. Precautionary savings and Self-Selection: Evidence from the german reunification “Experiment”[J]. The Quarterly Journal of Economics, 2005, 120(3): 1085-1120. -PDF-

    • Alesina A, Fuchs-Schündeln N. Goodbye Lenin (or not?): The effect of communism on people's preferences[J]. American Economic Review, 2007, 97(4): 1507-1528. -PDF-

    • Redding S J, Sturm D M. The costs of remoteness: Evidence from German division and reunification[J]. American Economic Review, 2008, 98(5): 1766-97. -PDF-

    • Burchardi K B, Hassan T A. The economic impact of social ties: Evidence from German reunification[J]. The Quarterly Journal of Economics, 2013, 128(3): 1219-1271. -PDF-

    • Fuchs-Schundeln N. The response of household saving to the large shock of German reunification[J]. American Economic Review, 2008, 98(5): 1798-1828. -PDF-

    2.3 处理效应模型

    在经济学中评估项目或政策实施效果是一类很重要的研究,此类研究又被称为项目效应评估或政策效应分析。上述研究主要使用的是处理效应模型。它包含一个内生的指示变量,通常和自然科学实验一样分为实验组和对照组 (D=1 或 0),由于实验组和对照组成员初始条件不同,会产生选择偏差 (selection bias)。

    处理效应模型与 TSLS 两阶段最小二乘法的区别在于,由于内生解释变量是虚拟变量,处理效应模型第一阶段回归不使用 OLS 回归,而是使用 Logit 或 Probit 回归计算出 hazard ratio,在第二段回归中加入 hazard ratio 调整偏误。Imbens 和 Wooldridge (2009) 总结了评估政策和项目的因果效应的研究方法和历史。

    Angrist (1994) 提出了局部平均处理效应 local average treatment (LATE),框架类似于 Rubin (1974, 1990) 和 Heckman (1990)。Angrist (1990) 曾使用越南时期的兵役抽签 Draft Lottery 来估计退伍军人地位对收入的影响,工具变量是随机分配到出生日期的抽签号码(号码被用于确定征兵的优先级,于是服兵役的概率与抽签号码有关)。是否服兵役形成了实验组和对照组。他认为退伍军人身份的平均影响是那些本来会以低抽签号码服兵役的男性,而不是以高抽签号码服兵役的男性。

    胡吉祥等 (2011) 研究国有企业上市对绩效的影响时,将公开上市视为对于企业实施的一个处理,按参与上市与否将企业划分为处理组和控制组, 通过估计上市的 ATE 或处理组中的 ATT 来衡量上市对国有企业绩效的效果。

    王德文等 (2008) 借助政府实施农村迁移劳动力就业服务和培训计划将农村迁移劳动力是否接受培训分为两组,使用平均处理效应模型应对劳动力是否参加培训存在的个人选择问题。

    相关参考文献:

    • Imbens G W, Wooldridge J M. Recent developments in the econometrics of program evaluation[J]. Journal of economic literature, 2009, 47(1): 5-86. -PDF-

    • Angrist J, Imbens G. Identification and estimation of local average treatment effects[J]. 1995. -PDF-

    • Angrist J D. Lifetime earnings and the Vietnam era draft lottery: evidence from social security administrative records[J]. The American Economic Review, 1990: 313-336. -PDF-

    • 胡吉祥, 童英, 陈玉宇. 国有企业上市对绩效的影响: 一种处理效应方法[J]. 经济学 (季刊), 2011, 10(3). -Link-

    • 王德文, 蔡昉, 张国庆. 农村迁移劳动力就业与工资决定: 教育与培训的重要性[J]. 经济学 (季刊), 2008, 7(4). -Link-

    2.4 Heckman 模型

    Heckman 两阶段模型主要是针对性解决样本选择偏误 (sample selection bias) 导致的内生性问题。Heckman 模型解决的样本选择问题,是由于被解释变量部分观测值的缺失/不可观测导致的。而处理效应模型主要针对核心解释变量为内生虚拟变量的情况,并且处理效应模型中的 y 值都是可观测的。

    Heckman 模型分两阶段,第一步使用 Probit 回归模型,并根据回归结果计算逆米尔斯比 (IMR),第二步是将 IMR 带入模型进行回归。Heckman (1979) 使用了 Heckman 模型估计女性劳动供给和工资率水平。该模型在近些年的研究也有不少应用,例如:

    • Weigelt (2013) 研究了客户公司如何在市场安排下从供应商的 IT 能力中获得性能收益,以及公司在 IT 业务内包和外包的不同情况下,供应商的 IT 能力和公司运营能力交互效应对公司业绩的影响。文章第一阶段采用 Probit 模型对公司 IT 业务内包或是外包发生的可能性进行估计,并从中得到 IMR;第二阶段将样本拆分为内包组和外包组进行分组回归,并加入 IMR 来修正样本自选择偏差;

    • 石晓军和王骜然 (2017) 在研究双层股权制度对企业创新的影响时,为了处理部分企业没有 R&D 支出导致的样本偏差,使用 Probit 模型对是否进行 R&D 投入进行回归,并计算逆米尔斯比率比率。之后,将逆米尔斯比率带入模型进行回归;

    • 陈作华和刘子旭 (2019) 在研究政企关系对民营企业特质风险的影响时,使用了 Heckman 法控制可能存在的自选择问题。由于民营企业建立的政企关系可能内生于其所处环境和自身特征,这些因素也可能影响企业的特质风险。他们使用了民营企业家是否参政议政建立虚拟变量,将政企关系作为被解释变量,可能影响政企关系的变量作为解释变量并进行 Probit 回归来估计民营企业建立政企关系的概率,从而得到逆米尔斯比率比率。

    相关参考文献:

    • Heckman J J. Sample selection bias as a specification error[J]. Econometrica: Journal of the econometric society, 1979: 153-161. -PDF-

    • Weigelt C. Leveraging supplier capabilities: The role of locus of capability deployment[J]. Strategic Management Journal, 2013, 34(1): 1-21. -Link-

    • 石晓军, 王骜然. 独特公司治理机制对企业创新的影响———来自互联网公司双层股权制的全球证据[J]. 经济研究, 2017, 52(1): 149-164. -Link-

    • 陈作华, 刘子旭. 政企关系与企业特质风险[J]. 管理科学, 2019, 32(4): 48-61. -Link-

    2.5 引入固定效应

    固定效应模型在面板数据建模中被广泛使用。顾名思义,固定效应是不随时间或个体变化的因素,它是难以观测的。模型中之所以要加入固定效应,是因为这些因素可能与解释变量相关,如果包含在扰动项中则会产生内生性问题。

    Flannery(2006)建立了公司向目标资本结构动态调整的模型。方程如下;

    其中目标资本结构为:

    方程整理后,加入公司固定效应:

    在此之前,Fama 和 MacBeth 也进行过类似研究,但没有在方程中加入固定效应。除了控制个体的固定效应,研究中还经常引入时间的固定效应,即只与时间相关、不随个体变化的因素,如经济环境等。这样的模型被称为双向固定效应模型。例如:

    • 曹廷求和张光利 (2020) 在研究公司自愿信息披露对股价崩盘风险的影响时,同时控制了了个体、时间 (季度和年度) 固定效应;

    • 蔡庆丰等 (2020) 研究信贷可得性与企业创新的关系时,入了行业、年份和企业的固定效应;

    • 高晶晶等 (2019) 探究影响农户化肥使用量高低的因素时,为了削弱内生性,模型中控制了年份和个体的固定效应。

    需要说明的是,固定效应模型只能消除部分的内生性,因此它通常与工具变量法、倍分法等其他内生性处理方法混合使用。如工具变量需要与扰动项无关,且与内生解释变量强相关。前一个条件(外生性)往往很难满足。加入固定效应后,扰动项中部分内生因素被剔除,此时再引入工具变量时,外生性条件更容易被满足,工具变量的质量提高。

    相关参考文献:

    • Flannery M J, Rangan K P. Partial adjustment toward target capital structures[J]. Journal of financial economics, 2006, 79(3): 469-506. -PDF-

    • 曹廷求, 张光利. 自愿性信息披露与股价崩盘风险:基于电话会议的研究[J]. 经济研究, 2020, 55(11):191-207. -Link-

    • 蔡庆丰, 陈熠辉, 林焜. 信贷资源可得性与企业创新: 激励还是抑制?——基于银行网点数据和金融地理结构的微观证据[J]. 经济研究, 2020. -Link-

    • 高晶晶, 彭超, 史清华. 中国化肥高用量与小农户的施肥行为研究——基于 1995~ 2016 年全国农村固定观察点数据的发现[J]. 管理世界, 2019, 35(10): 12. -Link-

    2.6 广义矩估计

    动态面板模型是解释变量中包含被解释变量滞后项的模型,可以理解成过去会在某种程度上影响未来的模型。当用差分去除模型中的固定效应时,方程中滞后项的差分便与扰动项的差分相关,产生内生性 (短面板中难以消除,所以也称短面板偏误)。GMM 估计方法通过引入滞后两期及以上的滞后项作为工具变量,并尽可能地满足所有矩条件,得到一个较好的估计量。实质上,GMM 也是工具变量法。

    GMM 包含多种形式。估计差分模型的为差分 GMM,采用水平方程的为水平 GMM,联立差分和水平方程的为系统 GMM。其中差分 GMM 和系统 GMM 使用更加广泛。田国强和李双建 (2020) 在研究经济不确定性对银行流动性创造的影响时,首先采用了不包含银行流动性滞后项的静态面板模型。后考虑到银行流动性具有自相关性,模型加入了流动性的滞后变量,采用差分和系统 GMM 估计排除动态面板偏误的影响。

    相关参考文献:

    • Blundell R, Bond S. GMM estimation with persistent panel data: an application to production functions[J]. Econometric reviews, 2000, 19(3): 321-340. -PDF-

    • Flannery M J, Rangan K P. Partial adjustment toward target capital structures[J]. Journal of financial economics, 2006, 79(3): 469-506. -PDF-

    • 田国强, 李双建. 经济政策不确定性与银行流动性创造:来自中国的经验证据[J]. 经济研究, 2020, 55(11):19-35. -Link-

    • 张宗新, 缪婧倩. 基金流量与基金投资行为——基于动态面板数据模型的实证研究[J]. 金融研究, 2012, 4: 110-123. -Link-

    2.7 断点回归

    断点回归的思路是研究某一断点处的政策效应,因为在特定断点处,实验组和对照组可以认为是本质上差异不大的。

    Cattaneo (2015) 研究州议员选举中的在任者优势时,认为在任者可能拥有更高的知名度、阻止反对党的能力和信息优势,可能帮助其在选举中获胜。但是这其中存在内生性问题,即在任者可能本来就具有更强的能力,拥有更高的胜选机会。因此,文中选择以得票率等于50% 为断点,断点附近的选举中候选人之间得票比率相差较小,表示其能力相差不大,由此剔除了内生因素。

    田文佳等 (2019) 研究工业用地出让价格与官员晋升激励程度的关系时,认为官员为了晋升,可能会压低地块出让价格来吸引企业投资,达到提高经济绩效的效果。模型以官员任职时间作为晋升激励大小的代理解释变量,用工业用地出让对其回归。为了消除不可测的地理因素对地块本身价值的影响,文章使用城市边界附近的地块作为样本,设计了断点回归。

    断点回归分为清晰断点回归和模糊断点回归,区别是断点是否能完全分割实验组和对照组。上述官员晋升激励的研究中,城市边界能完全区分地块所述城市,因此为清晰断点回归。

    刘生龙等 (2016) 研究 1986 年义务教育法的出台对教育经济回报率的影响,认为出生日期在 1971 年 9 月之后的样本会受到义务教育法影响 (15 岁),之前的则不会,因此可以作为断点。而考虑到不是所有人都严格完成九年义务教育,该断点并不能完全分开是否受影响的人群,所以文章采用模糊断点回归,采用两阶段最小二乘法估计。

    相关参考文献:

    • Cattaneo M, Frandsen B, Titiunik R. Randomization inference in the regression discontinuity design: An application to the study of party advantages in the US Senate[J]. Journal of Causal Inference, 2014, 3(1), 1-24. -PDF-

    • 田文佳, 余靖雯, 龚六堂. 晋升激励与工业用地出让价格——基于断点回归方法的研究[J]. 经济研究, 2019, 10. -Link-

    • 刘生龙, 周绍杰, 胡鞍钢. 义务教育法与中国城镇教育回报率: 基于断点回归设计[J]. 经济研究, 2016, 2: 154-167. -Link-

    2.8 倾向得分匹配模型

    倾向得分匹配模型 (propensity score matching,PSM) 类似于多元线性回归。不过多元线性回归 (MR) 的无偏估计依赖于函数形式的正确设定,否则会出现函数形式误设 (functional form misspecification,FFM) 导致估计量有偏。PSM 模型通过匹配可以减少对函数形式的依赖,放松对多元回归模型的线性假设,进而缓解 FFM 问题。

    关于 PSM 方法有三个误区:

    • 一是 PSM 方法并没有从根本上解决由选择偏差或遗漏变量导致的内生性问题,更不能代替 Heckman 和 IV 等方法用于解决自选择、遗漏变量等问题;

    • 二是 PSM 不能被称为 “准实验”,也无法模拟实验条件;

    • 三是 PSM 的外部有效性问题。在 “共同支撑假设 (Common Support)”无法满足或很牵强的情况下,PSM 会系统排除缺乏对照组的样本,进而使得样本代表性变差,影响结果的外部有效性。

    关于 PSM 更多详细介绍,请参考连享会推文「Stata:PSM-倾向得分匹配分析的误区」。

    徐尚昆等 (2020) 在研究企业家在国有企业的工作经历对其企业成长的影响时,为了排除有能力的人 “更有可能进入国有企业工作” 这一自选择偏误,使用了临近匹配和核匹配两种 PSM。不过在这一研究中,作者也强调了 PSM 只能缓解由于可观测变量带来的内生性问题,无法处理最为关键的不可观测变量带来的内生性。

    相关参考文献:

    • 徐尚昆, 郑辛迎, 杨汝岱. 国有企业工作经历, 企业家才能与企业成长[J]. 中国工业经济, 2020, 1. -Link-

    展开全文
  • 线性板模型中性解决案以及Stata 总的说来性主要由以下原因造成 1. 遗漏变量 如果遗漏的变量与其他解释变量 不相关般不会造成问题否则就会造成解释变量与残差项相关从引起性 问题 2. 解释变量与被解释变量相互...
  • 内生性问题—工具变量法

    千次阅读 2021-06-17 07:47:48
    文章目录@[toc]1 什么是内生性2 内生性的来源2.1遗漏变量偏差2.2 联立方程偏差2.3 解释变量测量误差2.4 选择偏差2.5 双向因果关系2.6 模型设定偏误2.7 动态面板偏差3 工具变量3.1工具变量的思想3.2 两阶段最小二乘法...

    1 什么是内生性

    经典线性回归模型
    y = X β + ε (1) y = \boldsymbol X \boldsymbol \beta + \boldsymbol \varepsilon \tag{1} y=Xβ+ε(1)
    一个假设是所有解释变量与任意时期的扰动项均不相关(严格外生性假定),即
    E ( ε ∣ X ) = 0 (2) E(\boldsymbol \varepsilon|\boldsymbol X) = 0 \tag{2} E(εX)=0(2)
    这意味着
    E ( ε ) = 0 ; C o v ( x i k , ε j ) = 0 , ∀ j , k E(\boldsymbol\varepsilon) =0;Cov(x_{ik},\varepsilon_{j}) =0,\forall j,k E(ε)=0Cov(xik,εj)=0j,k
    其中第一个条件可由(2)通过迭代期望定律证明,第二个条件由协方差定义证明。在大样本OLS估计中,也必须满足解释变量为预定(前定)解释变量,即
    C o v ( x i k , ε i ) = 0 Cov(x_{ik} ,\varepsilon_i) =0 Cov(xik,εi)=0
    在大样本中只要所有解释变量与扰动项同期不相关,其他大样本OLS假定不变条件下,通过OLS+稳健标准误就能得到一致估计量。但事实上,模型中解释变量与扰动项一般都存在相关性,这种相关性会导致估计量的不一致,产生内生性问题。此时称与扰动项相关的解释变量薇内生解释变量。具有内生性的解释变量不是随机的,而是受到系统中其他因素的影响。在理论上,多元线性回归模型OLS估计量
    β ^ = ( X ′ X ) − 1 X ′ y \hat{\boldsymbol \beta} = ({\boldsymbol X}^{\prime} \boldsymbol X)^{-1} {\boldsymbol X }^{\prime}\boldsymbol y β^=(XX)1Xy
    将(1)式带入上式
    β ^ = ( X ′ X ) − 1 X ′ ( X β + ε ) = β + ( X ′ X ) − 1 X ′ ε \hat{\boldsymbol \beta} =({\boldsymbol X}^{\prime} \boldsymbol X)^{-1} {\boldsymbol X }^{\prime}\boldsymbol ( \boldsymbol X \boldsymbol \beta + \boldsymbol \varepsilon ) = \boldsymbol \beta+ ({\boldsymbol X}^{\prime}\boldsymbol X)^{-1}{\boldsymbol X }^{\prime}\boldsymbol\varepsilon β^=(XX)1X(Xβ+ε)=β+(XX)1Xε
    两边取期望得
    β ^ = β + ( X ′ X ) − 1 X ′ ε \hat{\boldsymbol \beta} = \boldsymbol \beta+ ({\boldsymbol X}^{\prime}\boldsymbol X)^{-1}{\boldsymbol X }^{\prime}\boldsymbol\varepsilon β^=β+(XX)1Xε

    β ^ − β = ( X ′ X ) − 1 X ′ ε \hat{\boldsymbol \beta} - \boldsymbol \beta = ({\boldsymbol X}^{\prime}\boldsymbol X)^{-1}{\boldsymbol X }^{\prime}\boldsymbol\varepsilon β^β=(XX)1Xε
    两边求条件期望得
    E ( β ^ − β ∣ X ) = X ( X ′ X ) − 1 X ′ E ( ε ∣ X ) = A E ( ε ∣ X ) E(\hat{\boldsymbol \beta} - \boldsymbol \beta |\boldsymbol X)= \boldsymbol X({\boldsymbol X}^{\prime}\boldsymbol X)^{-1}{\boldsymbol X }^{\prime}\boldsymbol E(\boldsymbol\varepsilon|\boldsymbol X) = \boldsymbol A E(\boldsymbol\varepsilon|\boldsymbol X) E(β^βX)=X(XX)1XE(εX)=AE(εX)
    其中 A = X ( X ′ X ) − 1 X ′ \boldsymbol A = \boldsymbol X({\boldsymbol X}^{\prime}\boldsymbol X)^{-1}{\boldsymbol X }^{\prime} A=X(XX)1X。当严格外生性条件(2)不成立时,即便样本容量 n → ∞ n \to \infty n,也不能消除内生性问题带来的偏差。


    2 内生性的来源

    按照内生性来源,主要划分为以下七类:

    2.1遗漏变量偏差

    如果对研究对象的影响因素考虑不全面,或者对影响因素信息的不可观测,这可能导致回归模型遗漏了重要的解释变量。假如真实的回归模型为
    y i = a + b x 1 + c x 2 + ε y_i = a + bx_1 + cx_2 +\varepsilon yi=a+bx1+cx2+ε
    假定 C o v ( x 1 , ε ) = 0 , C o v ( x 2 , ε ) = 0 Cov(x_1,\varepsilon) =0,Cov(x_2,\varepsilon) =0 Cov(x1,ε)=0,Cov(x2,ε)=0。由于变量 x 2 x_2 x2不可观测,实际的回归模型变为
    y i = a + b x 1 + u y_i = a + bx_1 + u yi=a+bx1+u
    其中 u = c x 2 + ε u = cx_2+\varepsilon u=cx2+ε。考虑
    C o v ( x 1 , u ) = C o v ( x 1 , c x 2 + ε ) = c ∗ C o v ( x 1 , x 2 ) + C o v ( x 1 , ε ) = c ∗ C o v ( x 1 , x 2 ) Cov(x_1 ,u) = Cov(x_1 ,cx_2+\varepsilon) = c*Cov(x_1,x_2)+Cov(x_1,\varepsilon) = c*Cov(x_1,x_2) Cov(x1,u)=Cov(x1,cx2+ε)=cCovx1,x2)+Cov(x1,ε)=cCovx1,x2)

    • x 1 x_1 x1 x 2 x_2 x2不相关时, C o v ( x 1 , x 2 ) = 0 Cov(x_1,x_2) =0 Covx1,x2)=0,从而 C o v ( x 1 , u ) = 0 Cov(x_1 ,u) =0 Cov(x1,u)=0,此时实际模不存在内生性问题,由于扰动项的信息量增加,这将会增加扰动项的方差。
    • x 1 x_1 x1 x 2 x_2 x2相关时, C o v ( x 1 , x 2 ) ≠ 0 Cov(x_1,x_2) \ne 0 Covx1,x2)=0,从而 C o v ( x 1 , u ) ≠ 0 Cov(x_1 ,u) \ne 0 Cov(x1,u)=0,此时实际模型存在内生性问题。

    2.2 联立方程偏差

    联立方程偏差也称内生变量偏差,其最为经典的例子是供求均衡模型:
    { q t s = α 0 + α 1 p t + u t q t d = β 0 + β 1 p t + v t q t s = q t d \begin{aligned} \left\{ \begin{array}{lll} q_t^s =\alpha_0 + \alpha_1p_t +u_t \\ q_t^d=\beta_0 + \beta_1p_t +v_t \\ q_t^s = q_t^d \end{array} \right. \end{aligned} qts=α0+α1pt+utqtd=β0+β1pt+vtqts=qtd
    解得
    { p t = p t ( u t , v t ) = β 0 − α 0 α 1 − β 1 + v t − u t α 1 − β 1 q t = q t ( u t , v t ) = α 1 β 0 − α 0 β 1 α 1 − β 1 + α 1 v t − β 1 u t α 1 − β 1 \begin{aligned} \left\{ \begin{array}{lll} p_t = p_t(u_t,v_t)=\frac{\beta_0 -\alpha_0}{\alpha_1 - \beta_1} +\frac{v_t-u_t}{\alpha_1 - \beta_1} \\ \\ q_t = q_t(u_t,v_t) = \frac{\alpha_1\beta_0 - \alpha_0\beta_1}{\alpha_1 - \beta_1}+ \frac{\alpha_1v_t - \beta_1u_t}{\alpha_1 - \beta_1} \end{array} \right. \end{aligned} pt=pt(ut,vt)=α1β1β0α0+α1β1vtutqt=qt(ut,vt)=α1β1α1β0α0β1+α1β1α1vtβ1ut

    显然 C o v ( p t , u t ) ≠ 0 Cov(p_t ,u_t) \ne 0 Cov(pt,ut)=0, C o v ( q t , v t ) ≠ 0 Cov(q_t ,v_t) \ne 0 Cov(qt,vt)=0,因此估计量 α ^ 1 \hat \alpha_1 α^1 β ^ 1 \hat \beta_1 β^1的估计量不是一致的。


    2.3 解释变量测量误差

    设真实回归模型为
    y = a + b x ∗ + ε (3) y = a + bx^{*}+\varepsilon \tag{3} y=a+bx+ε(3)
    其中 C o v ( x , ε ) = 0 Cov(x,\varepsilon) =0 Cov(x,ε)=0.由于客观或主观原因导致对解释变量 x ∗ x^{*} x的测量存在误差,使得实际观测的解释变量
    x = x ∗ + e (4) x = x^{*} + e \tag{4} x=x+e(4)
    其中 e = x − x ∗ e = x - x^{*} e=xx表示绝对误差。技术条件 C o v ( x ∗ , e ) = 0 Cov(x^{*},e) = 0 Cov(x,e)=0, C o v ( e , ε ) = 0 Cov(e,\varepsilon) =0 Cov(e,ε)=0。将(4)带入(3)得
    y = a + b ( x − e ) + ε = a + b x + ( ε − b e ) y = a + b(x-e)+\varepsilon = a+bx+(\varepsilon -be) y=a+b(xe)+ε=a+bx+(εbe)
    由于
    C o v ( x , ε − b e ) = C o v ( x , ε ) − b C o v ( x , e ) = C o v ( x ∗ + e , ε ) − b C o v ( x ∗ + e , e ) = C o v ( x ∗ , e ) + C o v ( x ∗ , ε ) − b C o v ( x ∗ , e ) − b C o v ( e , e ) = 0 + 0 + 0 − b V a r ( e ) = − b σ e 2 ≠ 0 \begin{aligned} Cov(x,\varepsilon -be) &= Cov(x,\varepsilon)-bCov(x,e) \\ &=Cov( x^{*} + e ,\varepsilon)-bCov(x^{*} + e ,e) \\ &=Cov(x^{*},e)+Cov(x^{*},\varepsilon) -bCov(x^{*},e)-bCov(e,e) \\ &=0+0+0-bVar(e) = -b\sigma_e^2 \ne 0 \end{aligned} Cov(x,εbe)=Cov(x,ε)bCov(x,e)=Cov(x+e,ε)bCov(x+e,e)=Cov(x,e)+Cov(x,ε)bCov(x,e)bCov(e,e)=0+0+0bVar(e)=bσe2=0
    因此如果解释变量存在测量误差,解释变量存在内生性,导致回归存在结果存在偏差。如果被解释变量存在测量误差,总可以将绝对误差移向归并到扰动项中,从而扩大了扰动项的方差(如果解释变量不存在内生性),回归系数的方差会增大。但不会导致内生性问题。


    2.4 选择偏差

    选择偏差包括自选择偏差(self-selectionbias)和样本选择偏差(sample-selection bias)。

    • 自选择偏差是指解释变量不是随机的,而是选择的结果,而这个选择的过程会使对主效应的估计产生偏差(Shaver, 1998

    Weigelt (2013)研究IT业务内包或是外包的不同情境下,供应商IT能力和公司运营能力交互效应对公司绩效的不同影响。其中对公司IT业务内包或是外包的选择就存在选择偏差,因为公司IT业务到底是内包还是外包其实是一种战略选择,因而它并不是外生的(随机的)。公司可以根据自身特质(更适合哪种战略)和针对不同战略选择(内包还是外包)对未来绩效的预测而有意识选择的。因此如果只考虑主效应的影响而忽视潜在的选择过程,对主效应的估计是有偏的,因为前后两个过程的误差项是相关的(Shaver, 1998)。

    • 样本选择偏差(Heckman, 1979),是指样本选择不是随机的,从而使估计量产生偏差。样本选择偏差扣除人为因素,主要是由自选择偏差造成的。

    Perkins (2014)研究了跨国公司制度经验与目标国家的相似性、广度和深度对跨国公司在目标国家经营成败的影响,该研究以进入巴西电信行业投资的外国跨国公司为样本,但跨国公司是否进入巴西投资可能不是随机的,而是有选择的,是根据自身情况是否适合进入巴西以及进入巴西后的绩效预测而决定的。只有当进入巴西后,因变量(经营成败)才可以被观测到。换句话说,没有进入巴西的那部分样本的因变量无法被观测到,而能够被观测到的只是适合进入巴西的那部分样本,从而造成样本选择偏差。


    2.5 双向因果关系

    双向因果关系是指解释变量与被解释变量互为因果。假设解释变量 x i x_i xi与被解释变量 y i y_i yi满足
    y = a + b x + ε y = a + b x + \varepsilon y=a+bx+ε
    由于被解释变量与解释变量互为因果,因此下列方程也满足
    x = c + d y + λ x = c +dy + \lambda x=c+dy+λ
    其中技术性条件满足 C o v ( ε , λ ) = 0 Cov(\varepsilon,\lambda) =0 Cov(ε,λ)=0。由于
    C o v ( x , ε ) = C o v ( c + d y + λ , ε ) = C o v ( d y + λ , ε ) = d C o v ( y , ε ) + C o v ( λ , ε ) = d C o v ( y , ε ) ≠ 0 \begin{aligned} Cov(x,\varepsilon) &= Cov(c +dy + \lambda,\varepsilon) \\ &= Cov(dy + \lambda,\varepsilon)\\ &=dCov(y,\varepsilon)+Cov(\lambda,\varepsilon)\\ &=dCov(y,\varepsilon) \ne0 \end{aligned} Cov(x,ε)=Cov(c+dy+λ,ε)=Cov(dy+λ,ε)=dCov(y,ε)+Cov(λ,ε)=dCov(y,ε)=0
    因此双向因果关系条件下也会产生内生性。


    2.6 模型设定偏误

    模型设定偏误是指构建的回归模型没有按照理论经验进行构建,或者根据已有的理论构建但因客观原因导致模型与实际情况存在模型结构上的系统性偏差。例如,消费函数中收入的增长快于消费的增长,因此消费与收入应该呈现非线性关系。但是实际中为了简化二者关系,常假定消费是收入的线性函数,从而导致模型存在内生性。例如,研究经济增长与收入分配的关系,构建了如下模型:
    g a p = a + b ∗ g d p + ε gap = a + b*gdp+\varepsilon gap=a+bgdp+ε
    但实际上,根据库兹涅茨效应(1955)发现,一国的收入分配(gap)与经济增长(gdp)呈现非线性关系,经济增长初期,效率优先,从而导致差距扩大;随着经济进一步增长,实施兼顾公平或公平优先策略,差距逐渐缩小。因此模型应该加入gdp的二次项以保证gdp对经济增长存在库兹涅茨效应。假设真实模型为
    g a p = a + b ∗ g d p + c ∗ ( g d p ) 2 + e . ( c < 0 ) gap = a + b*gdp+ c*(gdp)^2+e.(c<0) gap=a+bgdp+c(gdp)2+e.(c<0)
    因此实际构建的模型的扰动项 ε = e + c ∗ ( g d p ) 2 \varepsilon = e+c*(gdp)^2 ε=e+c(gdp)2。由于
    C o v ( g d p , ε ) = C o v ( g d p , e + c ∗ ( g d p ) 2 ) = c ∗ C o v ( g d p , ( g d p ) 2 ) ≠ 0 Cov(gdp,\varepsilon) = Cov(gdp,e+c*(gdp)^2) = c*Cov(gdp,(gdp)^2)\ne0 Cov(gdp,ε)=Cov(gdp,e+c(gdp)2)=cCov(gdp,(gdp)2)=0
    从而产生内生性问题。此外,模型设定偏误也会导致球形扰动项不成立,即可能导致模型出现异方差与自相关问题。


    2.7 动态面板偏差

    动态面板偏差是指在动态面板模型中存在固有的内生性问题。设动态面板模型为
    y i t = α y i , t − 1 + X β + u i + ε i t (5) y_{it} =\alpha y_{i,t-1}+\boldsymbol X\boldsymbol \beta +u_i+ \varepsilon_{it} \tag{5} yit=αyi,t1+Xβ+ui+εit(5)
    将上述方程滞后一期得
    y i , t − 1 = α y i , t − 2 + X β + u i + ε i , t − 1 (6) y_{i,t-1} =\alpha y_{i,t-2}+\boldsymbol X\boldsymbol \beta +u_i+ \varepsilon_{i,t-1} \tag{6} yi,t1=αyi,t2+Xβ+ui+εi,t1(6)
    考虑
    C o v ( y i , t − 1 , u i + ε i t ) = C o v ( y i , t − 1 , u i ) + C o v ( y i , t − 1 , ε i t ) Cov(y_{i,t-1}, u_i+\varepsilon_{it}) =Cov(y_{i,t-1},u_i)+Cov(y_{i,t-1}, \varepsilon_{it}) Cov(yi,t1,ui+εit)=Cov(yi,t1,ui)+Cov(yi,t1,εit)
    在(6)中, u i u_i ui y i , t − 1 y_{i,t-1} yi,t1的组成部分,故 C o v ( y i , t − 1 , u i ) ≠ 0 Cov(y_{i,t-1},u_i)\ne 0 Cov(yi,t1,ui)=0因此动态面板模型(5)也存在系统性的内生性。


    3 工具变量

    解决模型的内生性问题主要包括如下几种:

    • 通过自然实验(随机试验)
    • 面板数据通过差分或离差消除个体效应
    • 匹配法
    • 工具变量法

    本文主要介绍最后一种比较常用的方法。


    3.1工具变量的思想

    设模型
    y = a + b x + μ y = a+ bx+\mu y=a+bx+μ
    存在内生性问题,即 C o v ( x , μ ) ≠ 0 Cov(x,\mu)\ne 0 Cov(x,μ)=0。如果将变量 x x x与扰动项 μ \mu μ视为两个集合,由于 C o v ( x , μ ) ≠ 0 Cov(x,\mu)\ne 0 Cov(x,μ)=0,在图形上可表示为

    内生解释变量与扰动项的关系

    从图形上看,解释变量与扰动项之间存在交集,即 x ∩ μ = Δ x \cap \mu = \Delta xμ=Δ,因此需要通过某种方法使解释变量分解为两部分:

    • 第一部分是 x ^ \hat x x^,它满足 x ^ ∩ μ = ∅ \hat x \cap \mu =\emptyset x^μ=,也就是 C o v ( x ^ , μ ) = 0 Cov(\hat x,\mu) =0 Cov(x^,μ)=0
    • 第二部分是 Δ \Delta Δ, 它满足 Δ ∩ μ ≠ ∅ \Delta \cap \mu \ne \emptyset Δμ=, 即 C o v ( Δ , μ ) ≠ 0 Cov(\Delta,\mu) \ne 0 Cov(Δ,μ)=0

    但问题是应该用什么手段对存在内生性的解释变量进行分解呢?现引入一个集合 z z z,使得

    • 外生性条件: C o v ( z , μ ) = 0 Cov(z,\mu) = 0 Cov(z,μ)=0
    • 相关性条件: C o v ( z , x ) ≠ 0 Cov(z,x)\ne 0 Cov(z,x)=0

    即实现上述目的。如果引入的变量 z z z与解释变量 x x x存在较强的相关关系,说明变量 z z z有助于预测或解释解释变量 x x x;而变量 z z z与扰动项无关,则意味着通过变量 z z z对变量 x x x的预测值 x ^ \hat x x^也与扰动项无关。称满足外生性条件与相关性条件的变量 z z z为工具变量(IV)。如果将预测值 x ^ \hat x x^作为解释变量以替代原有解释变量 x x x,那就能抑制内生性问题。外生性条件与内生性条件意味着存在如下的因果链:
    在这里插入图片描述
    相关性意味着工具变量 z z z x x x的造成直接的影响,而外生性意味着工具变量 z z z只能通过变量 x x x的作用对 y y y产生影响。前者为局部影响,后者为总影响(相对整个因果链)。设工具变量 z z z x x x的局部线性影响为 π 1 \pi_1 π1,工具变量 z z z y y y的全局线性影响为 π \pi π,则解释变量 x x x对变量 y y y的影响为 π 2 = π / π 1 \pi_2 = \pi/\pi_1 π2=π/π1

    :设工具变量 z z z对变量 x x x的回归模型为
    x = a + π 1 z + u (7) x = a + \pi_1 z + u \tag{7} x=a+π1z+u(7)
    设解释变量 x x x y y y的回归方程为
    y = b + π 2 x + v (8) y = b + \pi_2x + v \tag{8} y=b+π2x+v(8)
    将(7)带入(8)得
    y = b + π 2 ( a + π 1 z + u ) + v = ( b + a π 2 ) + π 1 π 2 z + ( u π 2 + v ) = α + π z + ε (9) \begin{aligned} y &= b + \pi_2(a + \pi_1 z + u) + v \\ &=(b+a\pi_2)+\pi_1 \pi_2z +(u\pi_2+v) \\ & =\alpha+\pi z +\varepsilon \end{aligned} \tag{9} y=b+π2(a+π1z+u)+v=(b+aπ2)+π1π2z+(uπ2+v)=α+πz+ε(9)
    不难看出,工具变量 z z z对被解释变量 y y y的间接影响为 π = π 1 π 2 \pi =\pi_1 \pi_2 π=π1π2,即
    π = C o v ( y , z ) V a r ( z ) \pi = \frac{Cov(y,z)}{Var(z)} π=Var(z)Cov(y,z)
    而由(7)得
    π 1 = C o v ( x , z ) V a r ( z ) \pi_1 = \frac{Cov(x,z)}{Var(z)} π1=Var(z)Cov(x,z)
    因此在引入工具变量 z z z时,解释变量 x x x y y y的影响为
    π 2 = π π 1 = C o v ( y , z ) C o v ( x , z ) \pi_2 = \frac{\pi}{\pi_1} = \frac{Cov(y,z)}{Cov(x,z)} π2=π1π=Cov(x,z)Cov(y,z)
    由相关性条件可知, C o v ( x , z ) ≠ 0 Cov(x,z) \ne0 Cov(x,z)=0,故 π 2 \pi_2 π2是可识别的。如果 C o v ( x , z ) ≈ 0 Cov(x,z) \approx0 Cov(x,z)0,则 π 2 → ∞ \pi_2 \to \infty π2不可识别,此时称工具变量 z z z为弱工具变量。


    3.2 两阶段最小二乘法

    为了解决内生性问题,在引入工具变量后利用两步回归可以解决内生性问题,具体步骤如下

    • 先用内生解释变量对工具变量回归,即(7),此时得到 x x x的拟合值 x ^ = a + π 1 z \hat x = a + \pi_1 z x^=a+π1z
    • 用被解释变量对拟合值 x ^ = a + π 1 z \hat x = a + \pi_1 z x^=a+π1z进行回归

    :由于
    { y = b + π 2 x + v x = a + π 1 z + u \left\{ \begin{array}{ccc} y = b + \pi_2x + v\\ x = a + \pi_1 z + u \end{array} \right. {y=b+π2x+vx=a+π1z+u
    x = a + π 1 z + u = x ^ + u x = a + \pi_1 z + u = \hat x +u x=a+π1z+u=x^+u,其中 x ^ = a + π 1 z \hat x = a + \pi_1 z x^=a+π1z C o v ( x ^ , u ) = 0 Cov(\hat x,u) =0 Cov(x^,u)=0。联立方程消除 x x x
    y = b + π 2 ( x ^ + u ) + v = b + π 2 x ^ + ( π 2 u + v ) y = b + \pi_2(\hat x +u) + v =b+\pi_2\hat x+( \pi_2u+v) y=b+π2(x^+u)+v=b+π2x^+(π2u+v)
    此时考虑
    C o v ( x ^ , π 2 u + v ) = π 2 C o v ( x ^ , u ) + C o v ( x ^ , u ) = π 2 C o v ( x ^ , u ) + C o v ( a + π 1 z , u ) = 0 + 0 = 0 \begin{aligned} Cov(\hat x,\pi_2u+v)& = \pi_2Cov(\hat x,u)+Cov(\hat x,u) \\ &= \pi_2Cov(\hat x,u)+Cov(a + \pi_1 z,u)\\ &=0+0=0 \end{aligned} Cov(x^,π2u+v)=π2Cov(x^,u)+Cov(x^,u)=π2Cov(x^,u)+Cov(a+π1z,u)=0+0=0
    因此通过两阶段最小二乘法能够解决内生性问题。下面运用数据grilic举例。其中lw为被解释变量,iq为内生解释变量,med为工具变量。

    use grilic.dta
    qui reg lw med,noheader r  //使用被解释变量对工具变量回归
    est sto m1
    qui reg iq med ,noheader r //使用解释变量对工具变量回归
    est sto m2
    qui ivregress 2sls lw  (iq =med),noheader r  //2sls回归
    est sto m3
    esttab m1 m2 m3
    
                                                             /*结果
    ------------------------------------------------------------
                          (1)             (2)             (3)   
                           lw              iq              lw   
    ------------------------------------------------------------
    med                0.0334***        1.306***                
                        (6.00)          (7.47)                   
    
    iq                                                  0.0256***
                                                         (5.85)   
    
    _cons               5.323***        89.61***        3.033***
                        (84.77)         (44.80)          (6.68)   
    ------------------------------------------------------------
    N                     758             758             758   
    ------------------------------------------------------------
    t statistics in parentheses
    * p<0.05, ** p<0.01, *** p<0.001
                                                              */
    

    不难发现0.334/1.306 = 0.0256。


    3.3 Wald估计量

    设回归模型
    y = a + π 2 x + u y = a + \pi_2 x + u y=a+π2x+u
    其中 C o v ( x , u ) ≠ 0 Cov(x,u)\ne0 Cov(x,u)=0,故变量 x x x为内生解释变量。设虚拟变量 z z z与扰动项 u u u满足 C o v ( z , u ) = 0 Cov(z,u)=0 Cov(z,u)=0,则工具变量的估计量为
    π ^ 2 = y ˉ 1 − y ˉ 0 x ˉ 1 − x ˉ 0 \hat \pi_2 = \frac{\bar y_1 - \bar y_0}{\bar x_1 - \bar x_0} π^2=xˉ1xˉ0yˉ1yˉ0
    其中 y ˉ 1 = E ( y ∣ z = 1 ) , y ˉ 0 = E ( y ∣ z = 0 ) , x ˉ 1 = E ( x ∣ z = 1 ) , x ˉ 0 = E ( x ∣ z = 0 ) \bar y_1 = E(y|z=1),\bar y_0 = E(y|z=0),\bar x_1 = E(x|z=1),\bar x_0 = E(x|z=0) yˉ1=E(yz=1),yˉ0=E(yz=0),xˉ1=E(xz=1),xˉ0=E(xz=0),该估计也称Wald估计量。

    证明:根据因果链条 z → x → y z\to x \to y zxy得到:
    π ^ 2 = π π 1 \hat\pi_2 =\frac{\pi}{\pi_1} π^2=π1π
    将(7)求条件期望得
    E ( x ∣ z = 1 ) = a + π 1 ; E ( x ∣ z = 0 ) = a E(x|z=1) = a + \pi_1 ;E(x|z=0) = a E(xz=1)=a+π1;E(xz=0)=a
    从而有
    π 1 = E ( x ∣ z = 1 ) − E ( x ∣ z = 0 ) \pi_1 = E(x|z=1) -E(x|z=0) π1=E(xz=1)E(xz=0)
    再对(9)求条件期望得
    E ( y ∣ z = 1 ) = α + π ; E ( y ∣ z = 0 ) = α E(y|z=1) = \alpha + \pi ;E(y|z=0) = \alpha E(yz=1)=α+π;E(yz=0)=α
    从而有
    π = E ( y ∣ z = 1 ) − E ( y ∣ z = 0 ) \pi = E(y|z=1) -E(y|z=0) π=E(yz=1)E(yz=0)
    于是
    π ^ 2 = π π 1 = E ( y ∣ z = 1 ) − E ( y ∣ z = 0 ) E ( x ∣ z = 1 ) − E ( x ∣ z = 0 ) = y ˉ 1 − y ˉ 0 x ˉ 1 − x ˉ 0 \hat\pi_2 =\frac{\pi}{\pi_1} =\frac{E(y|z=1) -E(y|z=0)}{ E(x|z=1) -E(x|z=0)} = \frac{\bar y_1 - \bar y_0}{\bar x_1 - \bar x_0} π^2=π1π=E(xz=1)E(xz=0)E(yz=1)E(yz=0)=xˉ1xˉ0yˉ1yˉ0


    4 矩估计

    经典线性回归方程中要求
    C o v ( X , ε ) = E ( X ε ) − E ( X ) E ( ε ) = 0 Cov(\boldsymbol X,\boldsymbol \varepsilon) = E(\boldsymbol X\boldsymbol \varepsilon) -E(\boldsymbol X)E(\boldsymbol \varepsilon)=0 Cov(X,ε)=E(Xε)E(X)E(ε)=0
    扰动项期望 E ( ε ) = 0 E(\boldsymbol \varepsilon) =0 E(ε)=0,故 E ( X ε ) = 0 E(\boldsymbol X\boldsymbol \varepsilon) =0 E(Xε)=0。设多元线性回归方程为
    y = a 0 + a ^ 1 x 1 + a ^ 2 x 2 + ⋯ + a ^ k x k + e y = a_0 +\hat a_1x_1+\hat a_2x_2+\cdots+\hat a_kx_k+e y=a0+a^1x1+a^2x2++a^kxk+e
    因为 E ( X ε ) = 0 E(\boldsymbol X\boldsymbol \varepsilon) =0 E(Xε)=0,故存在 k k k个矩方程使得
    { E ( x 1 e ) = 0 E ( x 2 e ) = 0 ⋮ E ( x k e ) = 0                              ( 10 ) \left\{\begin{array}{ccc} E(x_1e)=0\\ E(x_2e)=0\\ \vdots\\ E(x_ke)=0\\ \end{array}\right. \;\;\;\;\;\;\;\;\;\;\;\;\;\; (10) E(x1e)=0E(x2e)=0E(xke)=0(10)
    成立,另外 E ( u ) = 0 E(u)=0 E(u)=0,从而可以解出回归系数向量 a = [ a ^ 0 , ⋯ a ^ k ] ′ \boldsymbol a = [\hat a_0,\cdots\hat a_k]^{\prime} a=[a^0,a^k]。显然 a \boldsymbol a a的解是唯一的,因为存在 k + 1 k+1 k+1个未知数与 k + 1 k+1 k+1个方程(如果解释变量之间不存在完全相关性)。方程组(10)必须满足每一个解释变量与误差项正交,但现实中,可能出现某些解释变量与误差项存在相关性,即方程组的个数小于未知参数的个数,从而无法识别解释变量对被解释变量的影响。为简化关系,设二元线性回归模型
    y = a + b x + c w + u y = a + bx +cw +u y=a+bx+cw+u
    其中 u u u为扰动项, C o v ( x , u ) ≠ 0 , C o v ( w , u ) = 0 Cov(x,u)\ne0,Cov(w,u) =0 Cov(x,u)=0,Cov(w,u)=0。根据条件可得到如下矩方程组
    { E ( w u ) = E ( w ( y − a − b x − c w ) ) = 0 E ( u ) = E ( y − a − b x − c w ) = 0 \left\{\begin{array}{lll} E(wu) = E(w(y-a-bx-cw))=0 \\ E(u)=E(y-a-bx-cw)=0 \end{array}\right. {E(wu)=E(w(yabxcw))=0E(u)=E(yabxcw)=0
    显然,两个方程不能得到唯一参数 a , b , c a,b,c a,b,c的值,原因在于第三个矩方程 E ( x u ) ≠ 0 E(xu)\ne 0 E(xu)=0。现引入工具变量 z z z,使得 z z z满足:

    • 外生性: C o v ( z , u ) = 0 Cov(z,u)=0 Cov(z,u)=0
    • 相关性: C o v ( z , x ) ≠ 0 Cov(z,x) \ne 0 Cov(z,x)=0

    从而得到如下矩方程组
    { E ( w u ) = E ( w ( y − a − b x − c w ) ) = 0 E ( z u ) = E ( z ( y − a − b x − c w ) ) = 0 E ( u ) = E ( y − a − b x − c w ) = 0 \left\{\begin{array}{lll} E(wu) = E(w(y-a-bx-cw))=0 \\ E(zu)=E(z(y-a-bx-cw))=0 \\ E(u)=E(y-a-bx-cw)=0 \end{array}\right. E(wu)=E(w(yabxcw))=0E(zu)=E(z(yabxcw))=0E(u)=E(yabxcw)=0
    从而解出参数 a , b , c a,b,c a,b,c的唯一值。下面是更正式的矩估计推导,设多元回归模型
    y i = β 1 x 1 i + ⋯ + β 1 x k − 1 , i + β 1 x k i + ε i y_i = \beta_1x_{1i}+\cdots+ \beta_1x_{k-1,i} +\beta_1x_{ki}+\varepsilon_i yi=β1x1i++β1xk1i+β1xki+εi
    其中只有解释变量 x k x_{k} xk为内生解释变量,即 C o v ( x i k , ε i ) ≠ 0 Cov(x_{ik},\varepsilon_i)\ne0 Cov(xik,εi)=0,其他解释变量均外生(因此可以把 x 1 , x 2 ⋯ x k − 1 x_1,x_2\cdots x_{k-1} x1,x2xk1自身作为自身的工具变量)。为了解决内生性问题,现引入工具变量 w w w使得

    • C o v ( x k , w ) ≠ 0 Cov(x_{k},w) \ne 0 Cov(xk,w)=0
    • C o v ( ε , w ) = 0 Cov(\varepsilon,w) =0 Cov(ε,w)=0

    记解释变量向量 x i = ( x i 1 , ⋯ x i , k − 1 , x i k ) ′ \boldsymbol x_i = (x_{i1},\cdots x_{i,k-1},x_{ik})' xi=(xi1,xi,k1,xik),回归参数向量 β = ( β 1 ⋯ β k ) ′ \boldsymbol \beta = (\beta_1 \cdots\beta_k)' β=(β1βk),故回归模型可记作
    y i = x i ′ β + ε i y_i =x_i^{\prime} \boldsymbol \beta+\varepsilon_i yi=xiβ+εi
    记工具变量向量 z = ( x i 1 , x i 2 , ⋯ x i , k − 1 , w ) ′ \boldsymbol z = (x_{i1},x_{i2},\cdots x_{i,k-1},w)^{\prime} z=(xi1,xi2,xi,k1,w),并定义
    g i = z i ε i \boldsymbol g_i = \boldsymbol z_i \varepsilon_i gi=ziεi
    从而得到 E ( g i ) = E ( z i ε i ) = z i E ( ε i ) = 0 E(\boldsymbol g_i ) =E(\boldsymbol z_i \varepsilon_i)= \boldsymbol z_iE( \varepsilon_i)=\boldsymbol 0 E(gi)=E(ziεi)=ziE(εi)=0。于是
    E ( z i ε i ) = E ( z i ( y i − x i ′ β ) ) = 0 ⇒ E ( z i y i ) = ( E ( z i x i ′ ) ) β ⇒ β = [ E ( z i x i ′ ) ] − 1 E ( z i y i )                ( 假 定 [ E ( z i x i ′ ) ] − 1 存 在 ) \begin{aligned} E(\boldsymbol z_i \varepsilon_i)&= E(\boldsymbol z_i (y_i -x_i^{\prime} \boldsymbol \beta))=0 \\ &\Rightarrow E(\boldsymbol z_i y_i) =( E(\boldsymbol z_i \boldsymbol x_i^{\prime}))\boldsymbol \beta \\ &\Rightarrow \boldsymbol \beta = [E(\boldsymbol z_i \boldsymbol x_i^{\prime})]^{-1} E(\boldsymbol z_i y_i) \;\;\;\;\;\;\;(假定 [E(\boldsymbol z_i \boldsymbol x_i^{\prime})]^{-1}存在) \end{aligned} E(ziεi)=E(zi(yixiβ))=0E(ziyi)=(E(zixi))ββ=[E(zixi)]1E(ziyi)([E(zixi)]1)
    用样本矩代替总体矩得
    β ^ I V = ( 1 n ∑ i = 1 n z i x i ′ ) − 1 ( 1 n ∑ i = 1 n z i y i ) = ( Z ′ X ) − 1 Z y                              ( 11 ) \hat{\boldsymbol \beta}_{IV} =\left(\frac{1}{n} \sum_{i=1}^{n} \boldsymbol z_{i} \boldsymbol x_{i}^{\prime}\right)^{-1}\left(\frac{1}{n} \sum_{i=1}^{n} \boldsymbol z_{i} y_{i}\right)=\left(\boldsymbol Z^{\prime} \boldsymbol X\right)^{-1} \boldsymbol Z y \;\;\;\;\;\;\;\;\;\;\;\;\;\; (11) β^IV=(n1i=1nzixi)1(n1i=1nziyi)=(ZX)1Zy(11)
    其中 Z ≡ ( z 1 ⋯ z n − 1 z n ) ′ \boldsymbol Z \equiv\left(z_{1} \cdots z_{n-1} z_{n}\right)^{\prime} Z(z1zn1zn)

    命题:如果秩条件 r a n k ( E ( z i x i ′ ) ) = k rank(E(\boldsymbol z_i\boldsymbol x_i^{\prime}))=k rank(E(zixi))=k,则在一定的正则条件 β ^ I V \hat{\boldsymbol \beta}_{IV} β^IV β \boldsymbol \beta β得一致估计量。并且工具变量估计量 β ^ I V \hat{\boldsymbol \beta}_{IV} β^IV服从渐进正态分布,即
    n ( β ^ I V − β ) → d N ( 0 , A v a r ( β ^ I V ) ) \sqrt{n} (\hat{\boldsymbol \beta}_{IV}-{\boldsymbol \beta}) \xrightarrow{d}N(\boldsymbol 0,Avar ({\hat{\boldsymbol \beta}_{IV}})) n (β^IVβ)d N(0,Avar(β^IV))
    其中 A v a r ( β ^ I V ) = [ E ( z i x i ′ ) ] − 1 S [ E ( z i x i ′ ) ] − 1 Avar ({\hat{\boldsymbol \beta}_{IV}}) = [E(\boldsymbol z_i \boldsymbol x_i^{\prime})]^{-1} \boldsymbol S [E(\boldsymbol z_i \boldsymbol x_i^{\prime})]^{-1} Avar(β^IV)=[E(zixi)]1S[E(zixi)]1 S = E ( ε i 2 z i z i ′ ) \boldsymbol S = E(\varepsilon_i ^2 \boldsymbol z_i \boldsymbol z_i^{\prime}) S=E(εi2zizi)。证明略


    5 二阶段最小二乘法

    5.1 阶条件

    考虑模型
    y = a + b x 1 + c x 2 + d x 3 + u y = a + bx_1 +cx_2+ dx_3+u y=a+bx1+cx2+dx3+u
    其中 a , b , c , d a,b,c,d a,b,c,d为回归系数, u u u为扰动项。

    • C o v ( x i , u ) = 0 ( i = 1 , 2 , 3 ) Cov(x_i,u)=0(i=1,2,3) Cov(xi,u)=0(i=1,2,3)时,可得到四个矩方程

    { E ( x 1 u ) = 0 E ( x 2 u ) = 0 E ( x 3 u ) = 0 E ( u ) = 0 \left\{\begin{array}{llll} E(x_1u)=0\\ E(x_2u)=0\\ E(x_3u)=0\\ E(u)=0 \end{array}\right. E(x1u)=0E(x2u)=0E(x3u)=0E(u)=0

    即可解出 a , b , c , d a,b,c,d a,b,c,d的唯一解;

    • C o v ( x 1 , u ) ≠ 0 Cov(x_1,u)\ne0 Cov(x1,u)=0,此时只能得到关于 a , b , c , d a,b,c,d a,b,c,d的不定矩方程组,即

    { E ( x 2 u ) = 0 E ( x 3 u ) = 0 E ( u ) = 0 \left\{\begin{array}{ccc} E(x_2u)=0\\ E(x_3u)=0\\ E(u)=0 \end{array}\right. E(x2u)=0E(x3u)=0E(u)=0

    此时参数 a , b , c , d a,b,c,d a,b,c,d不可唯一识别。注:此时未引入工具变量,工具变量个数为L=0,内生解释变量个数为K= 1。显然 L < K L<K L<K

    如果引入关于内生变量 x 1 x_1 x1的工具变量 z 1 z_1 z1,且满足
    C o v ( z 1 , u ) = 0 ; C o v ( z 1 , x 1 ) ≠ 0 Cov(z_1,u)=0;Cov(z_1,x_1)\ne0 Cov(z1,u)=0;Cov(z1,x1)=0
    则依然可构建四个矩方程组
    { E ( z 1 u ) = 0 E ( x 2 u ) = 0 E ( x 3 u ) = 0 E ( u ) = 0 \left\{\begin{array}{llll} E(z_1u)=0\\ E(x_2u)=0\\ E(x_3u)=0\\ E(u)=0 \end{array}\right. E(z1u)=0E(x2u)=0E(x3u)=0E(u)=0
    从而解出唯一参数 a , b , c , d a,b,c,d a,b,c,d的值。注:此时引入工具变量,工具变量个数为L=1,内生解释变量个数为K=1。显然 L = K L=K L=K

    • C o v ( x 1 , u ) ≠ 0 Cov(x_1,u)\ne0 Cov(x1,u)=0 C o v ( x 2 , u ) ≠ 0 Cov(x_2,u)\ne0 Cov(x2,u)=0,此时内生解释变量为 x 1 , x 2 x_1,x_2 x1,x2,于是对应的矩方程只有两个

    { E ( x 3 u ) = 0 E ( u ) = 0 \left\{\begin{array}{ll} E(x_3u)=0\\ E(u)=0 \end{array}\right. {E(x3u)=0E(u)=0

    显然,两个方程不能唯一解出方程组的四个参数。如果分别引入 x 1 , x 2 x_1,x_2 x1,x2的工具变量 z 1 , z 2 z_1,z_2 z1,z2,且满足
    C o v ( z 1 , u ) = 0 ; C o v ( z 1 , x 1 ) ≠ 0 ; C o v ( z 2 , u ) = 0 ; C o v ( z 2 , x 2 ) ≠ 0 Cov(z_1,u)=0;Cov(z_1,x_1)\ne0;Cov(z_2,u)=0;Cov(z_2,x_2)\ne0 Cov(z1,u)=0;Cov(z1,x1)=0Cov(z2,u)=0;Cov(z2,x2)=0
    则依然可构建四个矩方程组
    { E ( z 1 u ) = 0 E ( z 2 u ) = 0 E ( x 3 u ) = 0 E ( u ) = 0 \left\{\begin{array}{llll} E(z_1u)=0\\ E(z_2u)=0\\ E(x_3u)=0\\ E(u)=0 \end{array}\right. E(z1u)=0E(z2u)=0E(x3u)=0E(u)=0
    从而解出唯一参数 a , b , c , d a,b,c,d a,b,c,d的值。注:工具变量个数为L=2,内生解释变量个数为K=2。显然 L = K L=K L=K

    • C o v ( x 1 , u ) ≠ 0 Cov(x_1,u)\ne0 Cov(x1,u)=0 C o v ( x 2 , u ) ≠ 0 Cov(x_2,u)\ne0 Cov(x2,u)=0,此时内生解释变量为 x 1 , x 2 x_1,x_2 x1,x2,于是对应的矩方程只有两个

    { E ( x 3 u ) = 0 E ( u ) = 0 \left\{\begin{array}{ll} E(x_3u)=0\\ E(u)=0 \end{array}\right. {E(x3u)=0E(u)=0

    显然两个方程不能唯一解出方程组的四个参数。如果 x 1 x_1 x1的工具变量为 z 1 z_1 z1,但 x 2 x_2 x2的工具变量有两个 z 21 , z 22 z_{21},z_{22} z21,z22,且满足
    { C o v ( z 1 , u ) = 0 ; C o v ( z 1 , x 1 ) ≠ 0 C o v ( z 21 , u ) = 0 ; C o v ( z 21 , x 2 ) ≠ 0 C o v ( z 22 , u ) = 0 ; C o v ( z 22 , x 2 ) ≠ 0 \left\{\begin{array}{llll} Cov(z_1,u)=0;Cov(z_1,x_1)\ne0\\ Cov(z_{21},u)=0;Cov(z_{21},x_2)\ne0\\ Cov(z_{22},u)=0;Cov(z_{22},x_2)\ne0\\ \end{array}\right. Cov(z1,u)=0;Cov(z1,x1)=0Cov(z21,u)=0;Cov(z21,x2)=0Cov(z22,u)=0;Cov(z22,x2)=0
    对应的矩方程组为
    { E ( z 1 u ) = 0 E ( z 21 u ) = 0 E ( z 22 u ) = 0 E ( x 3 u ) = 0 E ( u ) = 0 \left\{\begin{array}{llll} E(z_1u)=0\\ E(z_{21}u)=0\\ E(z_{22}u)=0\\ E(x_3u)=0\\ E(u)=0 \end{array}\right. E(z1u)=0E(z21u)=0E(z22u)=0E(x3u)=0E(u)=0
    此时共有5个矩方程,但未知参数只有四个,称这类情形为“过度识别”。注意此时工具变量个数L=3,内生解释比那辆个数为K= 2。显然 L > K L>K L>K。从以上三种情况可以归纳出阶条件

    A: 如果内生解释变量个数大于工具变量变量个数,则模型参数不可识别;
    B: 如果内生解释变量个数等于工具变量变量个数,则模型参数恰好识别;
    C: 如果内生解释变量个数小于工具变量变量个数,则模型参数过度识别;

    因此,要让模型参数能识别出来,工具变量个数至少大于内生解释变量个数。


    5.2 球形扰动假定条件下的 2SLS

    通过以上的方法只能求出恰好识别的情形,并不适用于过度识别情形,因为(11)式的 Z ′ X Z^{\prime} \boldsymbol X ZX不是方阵,故 ( Z ′ X ) − 1 (Z^{\prime} \boldsymbol X)^{-1} (ZX)1不存在。下面介绍过度识别的情况。

    即使工具变量个数存在多个,但它依然满足工具变量的条件,即外生性与相关性。由此看来,如果将较多的工具变量通过某种线性组合(降维)也会回到恰好识别的情形。已经证明,在球形扰动项的条件下,由二阶段最小二乘法所提供的工具变量线性组合是所有线性组合中最渐进有效的。之所以要假定球形扰动项成立,是因为该方法没有考虑到模型可存在的异方差与自相关问题。下面介绍球形扰动假定条件下的2SLS具体步骤:

    step1:分离出内生变量的外生部分。

    将解释变量 x 1 , x 2 , ⋯ x k x_1,x_2,\cdots x_k x1,x2,xk对所有 L L L个工具变量 z 1 , z 2 , ⋯ z L z_1,z_2,\cdots z_L z1,z2,zL作OLS回归,得到 k k k个拟合值
    x ^ 1 = P x 1 , x ^ 2 = P x 2 , ⋯ x ^ k = P x k , \hat x_1 = \boldsymbol Px_1,\hat x_2 = \boldsymbol Px_2,\cdots \hat x_k = \boldsymbol Px_k, x^1=Px1,x^2=Px2,x^k=Pxk,
    其中 P = Z ( Z ′ Z ) − 1 Z ′ \boldsymbol P = \boldsymbol Z(\boldsymbol Z' \boldsymbol Z)^{-1}\boldsymbol Z' P=Z(ZZ)1Z为投影矩阵,参见多元回归分析内容。定义
    X ^ ≡ ( x ^ 1 x ^ 2 ⋯ x ^ k ) = P ( x 1 x 2 ⋯ x k ) = P X = Z [ ( Z ′ Z ) − 1 Z ′ X ]                              ( 12 ) \hat{\boldsymbol{X}} \equiv\left(\hat{\boldsymbol{x}}_{1} \hat{\boldsymbol{x}}_{2} \cdots \hat{\boldsymbol{x}}_{k}\right)=\boldsymbol{P}\left(\boldsymbol{x}_{1} \boldsymbol{x}_{2} \cdots \boldsymbol{x}_{k}\right)=\boldsymbol{P} \boldsymbol{X}=\boldsymbol{Z}\left[\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right] \;\;\;\;\;\;\;\;\;\;\;\;\;\; (12) X^(x^1x^2x^k)=P(x1x2xk)=PX=Z[(ZZ)1ZX](12)
    step2:使用外生部分进行回归。

    由于 X ^ \hat{\boldsymbol{X}} X^是工具变量 z 1 , z 2 , ⋯ z L z_1,z_2,\cdots z_L z1,z2,zL的线性组合,故 X ^ \hat{\boldsymbol{X}} X^也包含了 k k k个工具变量。此时工具变量个数等于内生解释变量个数,即处于恰好识别情形。现将外生解释变量 X ^ \hat{\boldsymbol{X}} X^替换内生解释变量 X {\boldsymbol{X}} X
    y = β X + ε \boldsymbol y = \boldsymbol \beta \boldsymbol X+\boldsymbol \varepsilon y=βX+ε
    并进行OLS回归,得到工具变量估计量
    β ^ I V = ( X ^ X ) − 1 X ^ ′ y = ( X ^ X ^ ) − 1 X ^ ′ y                              ( 13 ) \hat{\boldsymbol \beta}_{\mathrm{IV}}=(\hat{\boldsymbol{X}} \boldsymbol{X})^{-1} \hat{\boldsymbol{X}}^{\prime} \boldsymbol{y}=(\hat{\boldsymbol{X}} \hat{\boldsymbol{X}})^{-1} \hat{\boldsymbol{X}}^{\prime} \boldsymbol{y} \;\;\;\;\;\;\;\;\;\;\;\;\;\; (13) β^IV=(X^X)1X^y=(X^X^)1X^y(13)
    这里 X ^ ′ X ^ = ( P X ) ′ ( P X ) = X ′ P ′ P X = X ′ P ′ X = X ^ X \hat{\boldsymbol{X}}^{\prime} \hat{\boldsymbol{X}}=(\boldsymbol{P X})^{\prime}(\boldsymbol{P X})=\boldsymbol{X}^{\prime} \boldsymbol{P}^{\prime} \boldsymbol{P} \boldsymbol{X}=\boldsymbol{X}^{\prime} \boldsymbol{P}^{\prime} \boldsymbol{X}=\hat{\boldsymbol{X}} \boldsymbol{X} X^X^=(PX)(PX)=XPPX=XPX=X^X,且投影矩阵 P \boldsymbol P P为等幂矩阵,即 P ′ = P ; P 2 = P \boldsymbol P' =\boldsymbol P;\boldsymbol P^{2}=\boldsymbol P P=P;P2=P。将(12)带入(13)得
    β ^ 2 S L S = ( X ′ P X ) − 1 X ′ P y = [ X ′ Z ( Z ′ Z ) − 1 Z ′ X ] − 1 X ′ Z ( Z ′ Z ) − 1 Z ′ y \hat{\boldsymbol \beta}_{2 \mathrm{SLS}}=\left(\boldsymbol X^{\prime}\boldsymbol P \boldsymbol X\right)^{-1} \boldsymbol X^{\prime} \boldsymbol P\boldsymbol y=\left[\boldsymbol X^{\prime} \boldsymbol Z\left(\boldsymbol Z^{\prime} \boldsymbol Z\right)^{-1}\boldsymbol Z^{\prime} \boldsymbol X\right]^{-1}\boldsymbol X^{\prime}\boldsymbol Z\left(\boldsymbol Z^{\prime} \boldsymbol Z\right)^{-1} \boldsymbol Z^{\prime} \boldsymbol y β^2SLS=(XPX)1XPy=[XZ(ZZ)1ZX]1XZ(ZZ)1Zy
    在同方差假定下, β ^ I V \hat{\boldsymbol \beta}_{\mathrm{IV}} β^IV的协方差估计量为
    Var ⁡ ( β ^ I V ) = s 2 ( X ^ ′ X ^ ) − 1 \operatorname{Var}\left(\hat{\boldsymbol{\beta}}_{\mathrm{IV}}\right)=s^{2}\left(\hat{\boldsymbol{X}}^{\prime} \hat{\boldsymbol{X}}\right)^{-1} Var(β^IV)=s2(X^X^)1
    其中 s 2 ≡ e ′ e / ( n − K ) s^{2} \equiv e^{\prime} e/(n-K) s2ee/(nK)。在异方差假定下,可使用稳健标准误
    Var ⁡ ( β ^ I V ) = ( X ^ ′ X ^ ) − 1 ( ∑ i = 1 n e i 2 x ^ i x ^ i ′ ) ( X ^ X ^ ) − 1 \operatorname{Var}\left(\hat{\boldsymbol{\beta}}_{\mathrm{IV}}\right)=\left(\hat{\boldsymbol{X}}^{\prime} \hat{\boldsymbol{X}}\right)^{-1}\left(\sum_{i=1}^{n} e_{i}^{2} \hat{\boldsymbol{x}}_{i} \hat{\boldsymbol{x}}_{i}^{\prime}\right)(\hat{\boldsymbol{X}} \hat{\boldsymbol{X}})^{-1} Var(β^IV)=(X^X^)1(i=1nei2x^ix^i)(X^X^)1


    6 关于工具变量的检验

    首先应该判断该模是否存在内生性问题,若模型不存在内生性,就没有必要使用工具变量进行估计;若在没有内生性问题条件下使用了工具变量估计,根据两阶段最小二乘法原理,第一阶段回归的外生部分与原有的解释变量相比将损失部分信息,而这部分信息的损失降低回归结果的有效性。

    其次,若存在内生性问题,应判断工具变量是否为过度识别情形。当工具变量个数等于内生解释变量个数时,即恰好识别情形,此时无法进行过度识别检验;当工具变量个数大于内生解释变量个数时,需要检验工具变量的有效性,即是否存在工具变量不具有外生性。

    最后,如果运用了工具变量法估计,还需要对工具变量进行弱工具变量检验,即内生解释变量与工具变量之间的相关性是否较低。若存在弱工具变量,可以通过其他方法进行弥补。


    6.1 内生性检验

    方法一:当使用工具变量变量估计与使用OLS估计的回归系数相差不大,则意味着二者在大样本条件下, β ^ I V \hat{\boldsymbol \beta}_{IV} β^IV β ^ O L S \hat{\boldsymbol \beta}_{OLS} β^OLS都会收敛到真实的参数 β \boldsymbol \beta β。相反,若 β ^ I V \hat{\boldsymbol \beta}_{IV} β^IV β ^ O L S \hat{\boldsymbol \beta}_{OLS} β^OLS相差较大,则说明使用工具变量与不适用工具变量存在显著差异,表明模型存在内生性问题。Hausman检验的原假设为
    H 0 : 所 有 解 释 变 量 都 是 外 生 的        o r        β ^ I V − β ^ O L S → 0 H_0:所有解释变量都是外生的\;\;\;or \;\;\; \hat{\boldsymbol \beta}_{IV} - \hat{\boldsymbol \beta}_{OLS} \to \boldsymbol 0 H0:orβ^IVβ^OLS0
    如拒绝原假设,则模型存在内生性,

    方法二:为简化关系设回归模型为
    y = a 0 + a 1 x 1 + a 2 x 2 + a 3 x 3 + u                              ( 14 ) y = a_0 + a_1x_1 + a_2x_2 +a_3x_3+u \;\;\;\;\;\;\;\;\;\;\;\;\;\; (14) y=a0+a1x1+a2x2+a3x3+u(14)
    其中 x 1 x_1 x1为内生解释变量,其余变量外生。变量 x 1 x_1 x1的工具变量有 z 1 , z 2 z_1,z_2 z1,z2。因此可以先将内生解释变量分离出外生部分,即
    x 1 = b 0 + b 1 z 1 + b 2 z 2 + b 3 x 2 + b 4 x 3 + v = x ^ 1 + v x_1 = b_0 + b_1z_1 + b_2z_2+b_3x_2 + b_4x_3+v = \hat x_1 +v x1=b0+b1z1+b2z2+b3x2+b4x3+v=x^1+v
    由于 C o v ( x 1 , u ) ≠ 0 Cov(x_1,u)\ne 0 Cov(x1,u)=0, x ^ 1 \hat x_1 x^1 x 1 x_1 x1的外生部分,故 C o v ( v , u ) ≠ 0 Cov(v,u)\ne0 Cov(v,u)=0。因此要检验变量 x 1 x_1 x1是否存在内生性,只要需要检验扰动项 u u u v v v是否存在相关性即可。假设二者的相关性满足
    u = ρ v + e u = \rho v+e u=ρv+e
    带入(14)得
    y = a 0 + a 1 x 1 + a 2 x 2 + a 3 x 3 + ρ v + e y = a_0 + a_1x_1 + a_2x_2 +a_3x_3+\rho v+e y=a0+a1x1+a2x2+a3x3+ρv+e
    此时只需检验回归系数 ρ \rho ρ是否为0,若是,则表明模型不存在内生性,反之存在。


    6.2 过度识别(冗余)检验

    过度识别检验的原假设为
    H 0 : 所 有 的 工 具 变 量 与 误 差 项 不 相 关 H_0:所有的工具变量与误差项不相关 H0:
    操作步骤为

    step1:对方程做2SLS估计,得到残差项
    step2:用残差对所有工具变量(包括模型中的外生解释变量)作回归,得到可决系数 R 2 R^2 R2
    step3:在原假设 H 0 H_0 H0成立条件下
    n R 2 ∼ χ q 2 ( n ) nR^2 \sim \chi_q^2(n) nR2χq2(n)
    其中 n n n表示多余的工具变量个数。当处于恰好识别时,此时 n = 0 n = 0 n=0,而 χ q 2 ( 0 ) \chi_q^2(0) χq2(0)无意义,因此恰好识别情形无法进行过度识别检验。


    6.3 弱工具变量检验

    考虑一元线性回归模型,通过OLS与IV估计,在大样本条件下,
    { plim ⁡ β ^ 1 , o l s = β 1 + corr ⁡ ( x , u ) σ u σ x plim ⁡ β ^ 1 , i v = β 1 + corr ⁡ ( z , u ) corr ⁡ ( z , x ) σ u σ x \left\{ \begin{array}{l} \operatorname{plim} \hat{\beta}_{1, o l s}=\beta_{1}+\operatorname{corr}(x, u) \frac{\sigma_{u}}{\sigma_{x}} \\ \\ \operatorname{plim} \hat{\beta}_{1, i v}=\beta_{1}+\frac{\operatorname{corr}(z, u)}{\operatorname{corr}(z, x)} \frac{\sigma_{u}}{\sigma_{x}} \end{array} \right. plimβ^1,ols=β1+corr(x,u)σxσuplimβ^1,iv=β1+corr(z,x)corr(z,u)σxσu

    • 如果工具变量 z z z完全具有外生性,即 C o r r ( z , u ) = 0 Corr(z,u) =0 Corr(z,u)=0,此时工具变量估计量 β ^ 1 , i v \hat{\beta}_{1, i v} β^1,iv是一致的,不存在偏差;

    • 如果工具变量 z z z不完全具有外生性,即 C o r r ( z , u ) ≠ 0 Corr(z,u) \ne0 Corr(z,u)=0,并且内生解释变量与工具变量之间存在较弱的相关关系,那么Iv估计量的偏差可能要大于OLS估计量的偏差。

      因此检验工具变量是否是弱工具变量至关重要,因为它直接影响到参数估计的一致性。

    6.31 弱工具变量的识别方法

    目前识别弱工具变量的方法主要有以下几种:

    • 使用偏 R 2 R^2 R2。具体操作步骤如下:
      step1:用内生解释变量对外生解释变量进行OLS回归,其残差记作 u u u它表示不能由外生解释变量解释内生解释变量的信息;
      step2:用工具变量变量对外生解释变量进行OLS回归,其残差记作 v v v,它表示不能由外生解释变量解释工具变量的信息;
      step3:用残差 u u u对残差 v v v进行OLS回归,其可决系数记作 R p 2 R_p^2 Rp2。如果 R p 2 R_p^2 Rp2较大,则内生解释变量与工具变量存在较强的相关性。

    事实上,计算出的 R p 2 R_p^2 Rp2究竟是多大才不构成弱工具变量目前尚无共识。

    • 经验规则(Staiger and Stock, 1997):第一阶段工具变量显著性检验的𝐹统计量应大于10:如果在多个内生解释变量情况下,将会存在多个第一阶段回归,对应多个F统计量。(Staiger and Stock, 2005)提出“最小特征统计值”,stata提供了最小特征统计值的临界值。通过特征值与临界值进行比较以判定弱工具变量问题。SY(Stock and Yogo )统计量为第一阶段中对工具变量显著性检验的𝐹统计量,但临界值不同于𝐹分布的临界值。临界值取决于内生变量的个数和工具变量的个数。

    • 如果假设扰动项为iid,可使用“Cragg-Donald Wald F统计量”(Cragg and Donald, 1993),其临界值由Stock and Yogo (2005 )提供。

    • 如果不作iid 扰动项的假设,则应使用“Kleibergen-Paap Wald rk F 统计量”,其临界值也来自Stock and Yogo (2005)。

    6.32 弱工具变量的处理方法

    • 减少工具变量的个数。工具变量越多,对第一阶段的𝐹统计量要求越高

    • 寻找更强的工具变量

    • 采用有限信息极大似然估计(LIML)。LIML对估计和推断偏差没有2SLS敏感。

    • 使用冗余检验,剔除弱工具变量。


    7 如何寻找工具变量

    • 根据理论,列出所有与内生解释变量相关的变量的清单
    • 从清单中剔除与扰动项相关的变量,工具变量具必须具有外生性
    • 相关政策或制度、外生的冲击,比如自然灾害、意外事件等;

    • 地理因很大程度上具有独立性;

    • 历史变量也先于当前的经济指标生成。

    • 最后一个常用的方法是将内生解释变量的时间(空间)滞后作为工具变量。

      考虑模型
      y t = a + b x t + u t y_t = a + b x_t +u_t yt=a+bxt+ut
      由于 x t x_t xt存在内生性,故 C o v ( x t , u t ) ≠ 0 Cov(x_t,u_t) \ne 0 Cov(xt,ut)=0 x t − 1 x_{t-1} xt1先于 u t u_t ut,且 C o v ( x t , x t − 1 ) ≠ 0 Cov(x_t,x_{t-1})\ne0 Cov(xt,xt1)=0,因此内生解释变量的滞后其可能是一个工具变量。


      参考文献

    [1] 陈强《高级计量经济学及Stata应用》
    [2] 王宇等(2017). 管理学研究中的内生性问题及修正方法[J].管理学季刊


    -END-
    展开全文
  • 学习笔记 | 内生性全面介绍

    万次阅读 多人点赞 2020-09-14 20:55:46
    所以,今天上午把关于内生性的知识认真地看了一遍,梳理了一遍,总结一下,方便后面学习。 内容包括三大块:内生性来源、解决、典型例子 主要学习的内容有: [1] 计量分析中的内生性问题综述,一篇不得不读的经典作品...

    一直以来,对内生性的理解都是似懂非懂,就像是蒙着一层黑纱,哈哈~
    所以,今天上午把关于内生性的知识认真地看了一遍,梳理了一遍,总结一下,方便后面学习。
    内容包括三大块:内生性来源、解决、典型例子
    主要学习的内容有:
    [1] 计量分析中的内生性问题综述,一篇不得不读的经典作品
    [2] 金融学里的内生性和外生性是什么意思?
    [3] 内生性的通俗解释
    [4] 内生性” 到底是什么鬼? New Yorker告诉你
    [5] 内生性问题及其产生原因

    以上文章都推荐阅读,本人从[1]、[2]、[3]中学习颇多。

    1 内生性的来源

    1.1 外生性的提出

    在谈内生性问题前,我们先来聊外生性,或者是严格外生。这个是我们在一个经典的多元回归模型提及到:计量经济学学习笔记:多元线性模型
    在这里插入图片描述
    基本假定
    假定1:线性关系假定,被解释变量与解释变量存在线性随机函数关系。
    假定2:严格外生假定。(零均值假定、随机扰动项与解释变量不相关)
    假定3:球形扰动假定。
    假定4:无完全共线假定,解释变量之间无完全共线性。

    那么假定2出现了严格外生假定,是什么呢?
    外生是指:当所有时期的解释变量X给定时,每一期的随机干扰项均值都为 0。有经验的研究者会讲X和ε同期外生和跨期外生同时存在,则为严格外生。表现形式为:
    在这里插入图片描述

    1.2 内生性的产生

    当然要求解释变量和与过去、现在、未来的扰动项不相关,通常难以实现,也就是严格外生困难。所以者们退而求其次,只要求同期外生,这便是弱外生性假定。我们也可以给出这个假定的条件均值形式
    在这里插入图片描述
    这种情况下,满足假定1、3、4以及弱严格外生假定后,我们能够证明OLS估计量一致、那么渐进正态分布,T检验,F检验以及Wald检验等常用检验都近似有效。

    但扰动项与解释变量同期不相关,在现实中也常常不能被满足。
    在这里插入图片描述
    外生性假定不满足,这便产生了内生性问题。严格来说,若扰动项与解释变量不满足弱外生性假定,我们称模型存在内生性问题,与扰动项相关的解释变量被称为内生变量。

    2 内生性的表现形式

    前文多元回归模型中,我们提及到随机扰动项和解释变量存在相关,导致了内生性。那么它一般表现在哪里呢,即为何随机扰动项和解释变量存在相关?

    首先,回归目的多是为了解释机制或因果推断。那么,简化完美的设计是划分两个不同组别,他们其他方面都相同,除了关注的研究方面存在差异,那么我们就能很好地厘清因果关系和解释机制。

    然而,总有那些无法被观察的,或者学者未想到的变量导致两组之间不具有可比性。因此,对于回归方程而言,这就意味着解释变量和遗漏误差项出现了相关(我们无法观察控制到一些点),不能满足高斯马尔可夫定理(Gauss-Markov theorem),估计参数就会有偏误,内生性( endogeneity )问题出现。

    并且计量经济学还是定量社会学分析,由于绝大多数实证研究都基于非实验性数据,也即无法保证实验组和控制组的相似性,因此内生性问题不可避免。

    而,随机扰动项和解释变量存在相关主要源自一般性的遗漏变量偏误(omitted variable bias)、自选择偏误( self-selection bias)、 样本选择偏误( sample selection bias )和联立性偏误( simultaneity bias) 等多个方面。

    下面,我就来解释这几种情形的表现,不以公式为例,主要是以例子和个人理解,有错误,请指出。

    2.1 一般性的遗漏变量偏误(omitted variable bias)

    设解释变量为x,被解释变量为y,遗漏变量为z
    (1)一般性的遗漏变量偏误,指的是遗漏变量(z)会通过解释变量x影响被解释变量(y),未将其控制,落入扰动项中,那么扰动项将与解释变量相关,同时也将导致解释变量x估计系数包括了遗漏变量z的影响效应,这样就无法区分是x还是z的影响效应。

    (2)举例子:
    假设研究:“找熟人”和“不找熟人”(x)对于求职结果(y)的因果影响我们遗漏了变量口才(z),那么我们估计出的使用社会关系对工资收入的影响可能就是有偏误的。
    原因:口才不仅增加了找关系的成功概率,而且本身也影响工作类型和工资水平。因为较高的语言技能本身就代表了较强的能力。
    这种情况下,遗漏变量z就会通过影响x来影响y,导致系数估计偏误。

    2.2 自选择偏误( self-selection bias)

    (1)自选择偏误:可以理解为这个结果是我自己选择而得到的。先进一步理解“选择”,我们可以把所分析的社会现象解析为两个过程。比如,一个过程是解释变量发挥作用的主体过程,而另外一个则是个人选择的过程
    自选择偏误问题本质就是上述两个过程中的非观察到的因素相互关联
    我们还是举上文找熟人的例子

    (2)举例子:
    首先,什么人会找熟人?没有很多社会资本、社会地位的会倾向于找熟人、不胆怯、脸皮厚的人会倾向于找熟人等等
    其次,不胆怯、脸皮厚的人一定程度上也影响着求职结果
    那么,到底是不胆怯、脸皮厚在发挥作用,还是找熟人在发挥作用
    在这种情形下,我们就不能笃定说找熟人对求职结果的影响都来自于找熟人,因为样本存在自选择,样本的内在特性也会影响结果。
    在这里,我们也可以体验到解释变量发挥作用的主体过程和个人选择的过程的牵扯~

    与此相似,根据社会趋同(socialhomophily)理论,社会网在种族、性别、社会阶层、宗教信仰、行为和价值观等方面具有更大的选择性,也即“物以类聚,人以群分”(M cPherson et al. ,2001)1。这也内生性问题的一大来源。

    2.3 样本选择偏误( sample selection bias )

    (1)样本选择偏误与自选择偏误是有所不同的。自选择偏误是变量背后附带的群体特性可能影响结果。
    而样本选择偏误主要来源于当因变量的观察仅仅局限于某个有限的非随机样本
    这种对某些观察值的非随机性排斥(exclusion)不仅源自数据收集程序,而且也来自于研究中社会现象本身所固有的特质。
    (2)照常举例子:
    照常是以“找熟人”为研究对象,来探讨使用社会资本对求职结果的影响。
    假设我们是采用采访的方式,询问自己的工作是不是通过找熟人获得的,来识别这个人是不是使用社会资本。但值得注意的是,那些具有社会资本,但不想使用,可能是高自尊心,或者是想通过自己努力来获得。我们错过了这些样本,或者说我们只是圈住了那些不自尊、不努力的样本,由此我们使用一个不自尊、不努力的样本来研究社会资本的效应,由此是会高估结果的。

    需要注意,样本选择偏误和自选择偏误的例子侧重点是不一样的。样本选择偏误是样本选择会强化结果,自选择偏误是样本属性会发挥作用。

    2.4 联立性偏误( simultaneity bias)

    (1)联立性问题( simultaneity)也是内生性的一个重要来源。其本质就是解释变量连带地由被解释变量决定,也即双向因果关系。
    (2)照常举例:
    收入与消费,可以说赚得多,花得也多,但钱花完了,又得想办法去多赚点,这时收入与消费是相互影响的,消费影响收入,收入又变着影响消费。
    所以,x已经不是本来的x,x中混杂了y的信息。既然x已经不是本来意义上的x,你又如何去估计它对Y的真实影响?这就是我们通常所说的联立性偏误(simultaneity bias),即x与y是同时变动的。
    其他举例:金融发展与经济增长 、外商直接投资FDI与经济增长、犯罪率与警备投入。

    3 内生问题的解决

    内生性问题和模型识别(modelidentification)紧密相连。
    一般而言,可以把识别某个模型理解为排除竞争性解释存在的可能,也即控制那些无法观测或者被遗漏的且和解释变量相关的因子,故解决内生性问题的术语就是模型识别。
    本节将针对四种内生性问题来源讨论相应的模型识别策略。

    3.1 解决遗漏变量偏误

    在这里插入图片描述

    (1)利用非传统数据作为遗漏变量的替代(proxy)以控制潜在
    的遗漏变量。通常我们不能穷尽控制变量,所以可以尝试利用滞后因变量( lagged dependent variable) 作为未被观察的个体异质性和历史因子的代表
    (2)依赖于变量在时间维度上的差异,运用
    时间固定效应模型
    去控制“时间固定的”(time invariant)的非观测因素。但值得注意的是,它无法控制随时间而变化的非观测因素。
    (3)利用组内策略( with- group strategy),也即用非时间性(non-time)的组内差异去估计固定效应模型,简而言之就是个体固定效应。这尤其适用于处理遗漏变量存在于组别水平( group-level。
    (4)使用工具变量(若能发现并使读者相信某个外生因素与误差项无关但又和解释变量高度相关,则其或许是-一个好的工具变量)。

    3.2 解决自选择偏误

    在实证研究中解决自选择偏误,最直观的方法就是设法使得选择
    行为不存在。因此,随机分配(Random Assigning to Treatment)是解决问题的最佳途径。这是因为,随机分配可以确保主解释变量和未观察因子之间没有任何关联性的出现。实验和自然实验(natrual experiment)可以设计出随机分配 它们显然是理想的方法。
    在这里插入图片描述

    (1)自然实验法:就是发生了某些外部突发事件,使得研究对象仿佛被随机分成了实验组或控制组。
    PS 有很多文章声称使用了自然实验,但严格来讲,并没有做到对研究对象进行了随机分组。
    (2)双重差分+倾向得分匹配法:DID+PSM,出现一次外部冲击,这次冲击影响了一部分样本,对另一部分样本则无影响,而我们想看一下这次外部冲击到底有何影响。
    双重差分法就是用来研究这次冲击的净效应的。其基本思想是,将受冲击的样本视作实验组,再按照一定标准在未受冲击的样本中寻求与实验组匹配的对照组(PSM),而后做差,做差剩下来的便是这次冲击的净效应。
    (3)建立选择过程的模型。建立基于选择模型和实质模型的联立方程组是一种校正自选择偏误的简明方法。常用的是赫克曼二阶段[ two-stage ]法,后面会抽空介绍这种方法的实现
    (4)纳入更多的控制变量。由于自选择问题也可以被看作是一种遗漏变量偏误的特殊类型,因此我们也可以通过纳入更多的控制变量、代理变量和固定效应模型等传统方法来处理这个问题。

    3.3 解决样本选择偏误

    (1)被广泛运用来解决样本选择问题的方法是赫克曼(Heckman,1976)的二阶段法
    在这里插入图片描述
    内容/图片来源于: 计量分析中的内生性问题综述,一篇不得不读的经典作品

    后面会抽空介绍这种方法的实现~

    (2)由于样本选择也可以被视为遗漏变量问题的特殊类型,工具变量方
    实际上也可以对它加以处理。

    3.4 联立性偏误的解决

    在这里插入图片描述

    关于联立性偏误的纠正方法。
    (1)首先检视一些特殊情况:即人们可以假定由相互因果关系引致的联立性是可以不予考虑的。
    (2)另外,人们还可以强加一个时间序列去打破自变量与因变量之间
    的联立性,类似于3.1中的法1。
    (3)
    总之,联立性偏误实际亦可看作是一种特殊的遗漏变量偏误。只不过它是由双向因果所导致的。因此,工具变量方法必然是适用的。
    换言之,至少要找到一个外生变量,它不出现在社会学家进行回归的互动效应方程中,但出现在代表反向因果的模型中
    在这里插入图片描述

    4 内生性解决示例

    学习自:金融学里的内生性和外生性是什么意思?
    研究:股票的流动性对经理人的激励合约的设计会产生影响。即股票流动性提高时,经理人可能选择现金比重小的激励合约;当股票流动性降低时,经理人可能选择现金比重比较大的激励合约。

    内生性:经理人选择现金比重小,股票比重大的激励合约本身可能也会促进股票流动性。

    机制1:在薪酬契约设计中更多的股权比例,意味着管理者与投资者利益的绑定,代理问题可能削弱,会吸引更多的投资者交易,这体现为良好的股票流动性;(联立性偏误)

    机制2:在薪酬契约设计中更多的股权比例自然会减少现金薪酬的比例,薪酬与股价回报的敏感性也会增强。(样本选择偏误)

    此外,文章存在遗漏信息披露质量变量。(假定公司的信息披露质量很高,投资者很放心将资金投放进入该股票,该股票逐渐具有价值贮藏功能,类似可口可乐股票,其交易流动性很高;而高的信息披露质量使得股价在反映经理人行为时成为良好的业绩指标,根据标准的代理理论,这会加强其在薪酬契约中的权重,薪酬敏感性也越强。而信息披露质量似乎并未出现在作者的变量中,这种遗漏变量也会引起内生性问题。)

    文章处理

    在这里插入图片描述

    最后:研究设计很重要,设计越巧妙越好,数据质量也很关键,模型的完善,只是在不断地补缺口~
    在这里插入图片描述

    展开全文
  • lecture 11:内生性与工具变量法

    千次阅读 2021-04-30 12:38:00
    内生性问题
  • 做条件logit遇到内生性问题,网上不是2sls就是ivprobit,关于条件logit怎么用工具变量基本没有。 看论文里说什么第一阶段得到一个预测值,第二阶段用预测值去算条件logit,但是没有具体stata代码。 是真的不懂了。
  • stata解决内生性问题--样本选择

    千次阅读 2022-03-28 19:13:01
    1、内生性:x与误差项有相关关系 2、为什么要解决内生性问题? 内生性会破坏参数估计的“一致性”。 参数估计的“一致性”就是指: 当样本量很大时,用样本估计出的参数会无限趋近于总体的真实参数。 简单...