精华内容
下载资源
问答
  • 基本概念 面板数据及分类 面板数据分类: 短面板和长面板 动态面板和静态面板 平衡面板和非平衡面板 截面数大于时间数就是短面板,反之,则为长面板 解释变量包含被解释变量的滞后值...1. 大多数面板数据分析技术都

    基本概念

    面板数据及分类在这里插入图片描述

    面板数据分类:

    • 短面板和长面板
    • 动态面板和静态面板
    • 平衡面板和非平衡面板

    截面数大于时间数就是短面板,反之,则为长面板
    解释变量包含被解释变量的滞后值则为动态面板,反之,则为静态面板
    平衡面板:每个个体在想他的时间内都有观测值记录,For any I, there are T observations. 反之,则为非平衡面板

    面板数据的优点:
    1. 可以处理有不可观测的个体异质性所导致的内生性问题
    2. 提供更多个体动态行为的信息
    不足之处:
    1. 大多数面板数据分析技术都是针对短面板
    2. 寻找面板数据结构的工具变量不是很容易

    面板数据模型

    非观测效应模型
    a.固定效应模型
    在这里插入图片描述
    在这里插入图片描述

    b.随机效应模型
    在这里插入图片描述
    混合回归模型
    在这里插入图片描述

    面板数据模型的估计和修正方法

    1. 固定效应模型的估计
      对固定效应模型的估计有两种方法:
      固定效应变换(组内变换)与LSDV(最小二乘虚拟变量法)
      a. 固定效应变换(组内变换)
      在这里插入图片描述
      在这里插入图片描述

    固定效应变换的优缺点
    优点:即使个体效应与解释变量相关也可以得到一致估计;
    缺点:无法估计不随时间而变的变量的影响。

    固定效应的STATA命令

    xtreg y x,fe
    xi:xtreg y x i.year,fe
    tab year,gen(year)
    

    b. LSDV思想
    在这里插入图片描述
    STATA命令:

    • 不存在时间效应: xi:reg y x i.code
    • 存在时间效应:xi:reg y x i.code i.year
    1. 随机效应模型
      对随机效应模型的估计方法是广义最小二乘法
      在这里插入图片描述
      STATA命令:
    • 不存在时间效应:xtreg y x ,re
    • 存在时间效应:xi: reg y x i.year,re

    第一讲案例

    1. 导入数据及查看数据描述
    . use "D:\traffic.dta" # 导入数据
    . des #查看数据描述
    

    显示:

     obs:           336                          
     vars:            54                          30 Nov 2008 15:45
    --------------------------------------------------------------------------------
                  storage   display    value
    variable name   type    format     label      variable label
    --------------------------------------------------------------------------------
    state           float   %9.0g      sid        State ID (FIPS) Code
    year            int     %9.0g                 Year
    spircons        float   %9.0g                 Spirits Consumption
    unrate          float   %9.0g                 Unemployment Rate
    perinc          float   %9.0g                 Per Capita Personal Income
    emppop          float   %9.0g                 Employment/Population Ratio
    beertax         float   %9.0g                 Tax on Case of Beer
    sobapt          float   %9.0g                 % Southern Baptist
    mormon          float   %9.0g                 % Mormon
    ....等等
    
    1. 描述性统计
      格式: sum + 变量名
    . sum beertax
    
        Variable |        Obs        Mean    Std. Dev.       Min        Max
    -------------+---------------------------------------------------------
         beertax |        336     .513256    .4778442   .0433109   2.720764
    
    twoway (scatter fatal beertax)(lfit fatal beertax) # 核心变量和被解释变量的散点图并画出回归直线
    

    在这里插入图片描述

    xtline fatal # 画出核心变量的时间序列图
    

    在这里插入图片描述
    3. 模型选择
    选择PLS 还是 FE?

    . tab year, gen(year)
    . xtreg fatal beertax spircons unrate perinck year2-year7, fe
    
    
    Fixed-effects (within) regression               Number of obs     =        336
    Group variable: state                           Number of groups  =         48
    
    R-sq:                                           Obs per group:
        within  = 0.4528                                         min =          7
        between = 0.1090                                         avg =        7.0
        overall = 0.0770                                         max =          7
    
                                                   F(10,278)         =      23.00
    corr(u_i, Xb)  = -0.8728                        Prob > F          =     0.0000
    
    ------------------------------------------------------------------------------
          fatal |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
    -------------+----------------------------------------------------------------
        beertax |     -0.435      0.154    -2.82   0.005       -0.738      -0.132
       spircons |      0.806      0.113     7.15   0.000        0.584       1.028
         unrate |     -0.055      0.010    -5.31   0.000       -0.075      -0.035
        perinck |      0.088      0.020     4.41   0.000        0.049       0.128
          year2 |     -0.053      0.030    -1.77   0.078       -0.113       0.006
          year3 |     -0.165      0.037    -4.40   0.000       -0.239      -0.091
          year4 |     -0.200      0.042    -4.80   0.000       -0.282      -0.118
          year5 |     -0.051      0.052    -0.99   0.325       -0.152       0.051
          year6 |     -0.100      0.059    -1.69   0.091       -0.216       0.016
          year7 |     -0.134      0.068    -1.98   0.049       -0.267      -0.001
          _cons |      0.129      0.431     0.30   0.765       -0.720       0.978
    -------------+----------------------------------------------------------------
        sigma_u |  1.0987683
        sigma_e |  .14570531
            rho |  .98271904   (fraction of variance due to u_i)
    ------------------------------------------------------------------------------
    F test that all u_i=0: F(47, 278) = 64.52                    Prob > F = 0.0000
    
    
    1. 模型检验
      截面相关检验
    . xtcsd, pes
    Pesaran's test of cross sectional independence =    -1.716, Pr = 1.9138
    

    如果截面相关
    在这里插入图片描述

    展开全文
  • 协整理论和面板数据分析

    万次阅读 2014-11-13 17:59:49
    面板数据分析方法步骤全解 步骤一:分析数据的平稳性(单位根检验) 按照正规程序,面板数据模型在回归前需检验数据的平稳性。李子奈曾指出,一些非平稳的经济时间序列往往表现出共同的变化趋势,而这些序列间...

    转载自:http://blog.sina.com.cn/s/blog_458bb22d0100x9rl.html

    面板数据分析方法步骤全解

     

    步骤一:分析数据的平稳性(单位根检验)
           按照正规程序,面板数据模型在回归前需检验数据的平稳性。李子奈曾指出,一些非平稳的经济时间序列往往表现出共同的变化趋势,而这些序列间本身不一定有直接的关联,此时,对这些数据进行回归,尽管有较高的R平方,但其结果是没有任何实际意义的。这种情况称为称为虚假回归或伪回归(spurious regression)。他认为平稳的真正含义是:一个时间序列剔除了不变的均值(可视为截距)和时间趋势以后,剩余的序列为零均值,同方差,即白噪声。因此单位根检验时有三种检验模式:既有趋势又有截距、只有截距、以上都无。
    因此为了避免伪回归,确保估计结果的有效性,我们必须对各面板序列的平稳性进行检验。而检验数据平稳性最常用的办法就是单位根检验。首先,我们可以先对面板序列绘制时序图,以粗略观测时序图中由各个观测值描出代表变量的折线是否含有趋势项和(或)截距项,从而为进一步的单位根检验的检验模式做准备。
    单位根检验方法的文献综述:在非平稳的面板数据渐进过程中,Levin andLin(1993) 很早就发现这些估计量的极限分布是高斯分布,这些结果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。后来经过Levin et al. (2002)的改进,提出了检验面板单位根的LLC 法。Levin et al. (2002) 指出,该方法允许不同截距和时间趋势,异方差和高阶序列相关,适合于中等维度(时间序列介于25~250 之间,截面数介于10~250 之间) 的面板单位根检验。Im et al. (1997) 还提出了检验面板单位根的IPS 法,但Breitung(2000) 发现IPS 法对限定性趋势的设定极为敏感,并提出了面板单位根检验的Breitung 法。Maddala and Wu(1999)又提出了ADF-Fisher和PP-Fisher面板单位根检验方法。
           由上述综述可知,可以使用LLC、IPS、Breintung、ADF-Fisher 和PP-Fisher5种方法进行面板单位根检验。
          其中LLC-T 、BR-T、IPS-W 、ADF-FCS、PP-FCS 、H-Z 分别指Levin, Lin & Chu t* 统计量、Breitung t 统计量、lm Pesaran & Shin W 统计量、ADF- Fisher Chi-square统计量、PP-Fisher Chi-square统计量、Hadri Z统计量,并且Levin, Lin & Chu t* 统计量、Breitung t统计量的原假设为存在普通的单位根过程,lm Pesaran & Shin W 统计量、ADF- Fisher Chi-square统计量、PP-Fisher Chi-square统计量的原假设为存在有效的单位根过程, Hadri Z统计量的检验原假设为不存在普通的单位根过程。
    有时,为了方便,只采用两种面板数据单位根检验方法,即相同根单位根检验LLC(Levin-Lin-Chu)检验和不同根单位根检验Fisher-ADF检验(注:对普通序列(非面板序列)的单位根检验方法则常用ADF检验),如果在两种检验中均拒绝存在单位根的原假设则我们说此序列是平稳的,反之则不平稳。
           如果我们以T(trend)代表序列含趋势项,以I(intercept)代表序列含截距项,T&I代表两项都含,N(none)代表两项都不含,那么我们可以基于前面时序图得出的结论,在单位根检验中选择相应检验模式。
          但基于时序图得出的结论毕竟是粗略的,严格来说,那些检验结构均需一一检验。具体操作可以参照李子奈的说法:ADF检验是通过三个模型来完成,首先从含有截距和趋势项的模型开始,再检验只含截距项的模型,最后检验二者都不含的模型。并且认为,只有三个模型的检验结果都不能拒绝原假设时,我们才认为时间序列是非平稳的,而只要其中有一个模型的检验结果拒绝了零假设,就可认为时间序列是平稳的。
          此外,单位根检验一般是先从水平(level)序列开始检验起,如果存在单位根,则对该序列进行一阶差分后继续检验,若仍存在单位根,则进行二阶甚至高阶差分后检验,直至序列平稳为止。我们记I(0)为零阶单整,I(1)为一阶单整,依次类推,I(N)为N阶单整。
          步骤二:协整检验或模型修正
          情况一:如果基于单位根检验的结果发现变量之间是同阶单整的,那么我们可以进行协整检验。协整检验是考察变量间长期均衡关系的方法。所谓的协整是指若两个或多个非平稳的变量序列,其某个线性组合后的序列呈平稳性。此时我们称这些变量序列间有协整关系存在。因此协整的要求或前提是同阶单整。
    但也有如下的宽限说法:如果变量个数多于两个,即解释变量个数多于一个,被解释变量的单整阶数不能高于任何一个解释变量的单整阶数。另当解释变量的单整阶数高于被解释变量的单整阶数时,则必须至少有两个解释变量的单整阶数高于被解释变量的单整阶数。如果只含有两个解释变量,则两个变量的单整阶数应该相同。
    也就是说,单整阶数不同的两个或以上的非平稳序列如果一起进行协整检验,必然有某些低阶单整的,即波动相对高阶序列的波动甚微弱(有可能波动幅度也不同)的序列,对协整结果的影响不大,因此包不包含的重要性不大。而相对处于最高阶序列,由于其波动较大,对回归残差的平稳性带来极大的影响,所以如果协整是包含有某些高阶单整序列的话(但如果所有变量都是阶数相同的高阶,此时也被称作同阶单整,这样的话另当别论),一定不能将其纳入协整检验。
         协整检验方法的文献综述:(1)Kao(1999)、Kao and Chiang(2000)利用推广的DF和ADF检验提出了检验面板协整的方法,这种方法零假设是没有协整关系,并且利用静态面板回归的残差来构建统计量。(2)Pedron(1999)在零假设是在动态多元面板回归中没有协整关系的条件下给出了七种基于残差的面板协整检验方法。和Kao的方法不同的是,Pedroni的检验方法允许异质面板的存在。(3)Larsson et al(2001)发展了基于Johansen(1995)向量自回归的似然检验的面板协整检验方法,这种检验的方法是检验变量存在共同的协整的秩。
    我们主要采用的是Pedroni、Kao、Johansen的方法。
    通过了协整检验,说明变量之间存在着长期稳定的均衡关系,其方程回归残差是平稳的。因此可以在此基础上直接对原方程进行回归,此时的回归结果是较精确的。
    这时,我们或许还想进一步对面板数据做格兰杰因果检验(因果检验的前提是变量协整)。但如果变量之间不是协整(即非同阶单整)的话,是不能进行格兰杰因果检验的,不过此时可以先对数据进行处理。引用张晓峒的原话,“如果y和x不同阶,不能做格兰杰因果检验,但可通过差分序列或其他处理得到同阶单整序列,并且要看它们此时有无经济意义。”
    下面简要介绍一下因果检验的含义:这里的因果关系是从统计角度而言的,即是通过概率或者分布函数的角度体现出来的:在所有其它事件的发生情况固定不变的条件下,如果一个事件X的发生与不发生对于另一个事件Y的发生的概率(如果通过事件定义了随机变量那么也可以说分布函数)有影响,并且这两个事件在时间上又有先后顺序(A前B后),那么我们便可以说X是Y的原因。考虑最简单的形式,Granger检验是运用F-统计量来检验X的滞后值是否显著影响Y(在统计的意义下,且已经综合考虑了Y的滞后值;如果影响不显著,那么称X不是Y的“Granger原因”(Granger cause);如果影响显著,那么称X是Y的“Granger原因”。同样,这也可以用于检验Y是X的“原因”,检验Y的滞后值是否影响X(已经考虑了X的滞后对X自身的影响)。
           Eviews好像没有在POOL窗口中提供Granger causality test,而只有unit root test和cointegration test。说明Eviews是无法对面板数据序列做格兰杰检验的,格兰杰检验只能针对序列组做。也就是说格兰杰因果检验在Eviews中是针对普通的序列对(pairwise)而言的。你如果想对面板数据中的某些合成序列做因果检验的话,不妨先导出相关序列到一个组中(POOL窗口中的Proc/Make Group),再来试试。
          情况二:如果如果基于单位根检验的结果发现变量之间是非同阶单整的,即面板数据中有些序列平稳而有些序列不平稳,此时不能进行协整检验与直接对原序列进行回归。但此时也不要着急,我们可以在保持变量经济意义的前提下,对我们前面提出的模型进行修正,以消除数据不平稳对回归造成的不利影响。如差分某些序列,将基于时间频度的绝对数据变成时间频度下的变动数据或增长率数据。此时的研究转向新的模型,但要保证模型具有经济意义。因此一般不要对原序列进行二阶差分,因为对变动数据或增长率数据再进行差分,我们不好对其冠以经济解释。难道你称其为变动率的变动率?
           步骤三:面板模型的选择与回归
           面板数据模型的选择通常有三种形式:
           一种是混合估计模型(Pooled Regression Model)。如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数。一种是固定效应模型(Fixed Effects Regression Model)。如果对于不同的截面或不同的时间序列,模型的截距不同,则可以采用在模型中添加虚拟变量的方法估计回归参数。一种是随机效应模型(Random Effects Regression Model)。如果固定效应模型中的截距项包括了截面随机误差项和时间随机误差项的平均效应,并且这两个随机误差项都服从正态分布,则固定效应模型就变成了随机效应模型。
    在面板数据模型形式的选择方法上,我们经常采用F检验决定选用混合模型还是固定效应模型,然后用Hausman检验确定应该建立随机效应模型还是固定效应模型。
    检验完毕后,我们也就知道该选用哪种模型了,然后我们就开始回归:
    在回归的时候,权数可以选择按截面加权(cross-section weights)的方式,对于横截面个数大于时序个数的情况更应如此,表示允许不同的截面存在异方差现象。估计方法采用PCSE(Panel Corrected Standard Errors,面板校正标准误)方法。Beck和Katz(1995)引入的PCSE估计方法是面板数据模型估计方法的一个创新,可以有效的处理复杂的面板误差结构,如同步相关,异方差,序列相关等,在样本量不够大时尤为有用。

     

     

    单位根检验、协整、格兰杰因果检验有什么关系?

     

    单位根检验、协整检验格兰杰因果关系检验三者之间的关系

       实证检验步骤:先做单位根检验,看变量序列是否平稳序列,若平稳,可构造回归模型等经典计量经济学模型;若非平稳,进行差分,当进行到第i次差分时序列平稳,则服从i阶单整(注意趋势、截距不同情况选择,根据P值和原假设判定)。若所有检验序列均服从同阶单整,可构造VAR模型,做协整检验(注意滞后期的选择),判断模型内部变量间是否存在协整关系,即是否存在长期均衡关系。如果有,则可以构造VEC模型或者进行Granger因果检验,检验变量之间“谁引起谁变化”,即因果关系。

    一、讨论一

    1、单位根检验是序列的平稳性检验,如果不检验序列的平稳性直接OLS容易导致伪回归。

    2、当检验的数据是平稳的(即不存在单位根),要想进一步考察变量的因果联系,可以采用格兰杰因果检验,但要做格兰杰检验的前提是数据必须是平稳的,否则不能做。

    3、当检验的数据是非平稳(即存在单位根),并且各个序列是同阶单整(协整检验的前提),想进一步确定变量之间是否存在协整关系,可以进行协整检验,协整检验主要有EG两步法和JJ检验

    A、EG两步法是基于回归残差的检验,可以通过建立OLS模型检验其残差平稳性

    B、JJ检验是基于回归系数的检验,前提是建立VAR模型(即模型符合ADL模式)

    4、当变量之间存在协整关系时,可以建立ECM进一步考察短期关系,Eviews这里还提供了一个Wald-Granger检验,但此时的格兰杰已经不是因果关系检验,而是变量外生性检验,请注意识别

     

    二、讨论二

    1、格兰杰检验只能用于平稳序列!这是格兰杰检验的前提,而其因果关系并非我们通常理解的因与果的关系,而是说x的前期变化能有效地解释y的变化,所以称其为“格兰杰原因”。

    2、非平稳序列很可能出现伪回归,协整的意义就是检验它们的回归方程所描述的因果关系是否是伪回归,即检验变量之间是否存在稳定的关系。所以,非平稳序列的因果关系检验就是协整检验。

    3、平稳性检验有3个作用:1)检验平稳性,若平稳,做格兰杰检验,非平稳,作协正检验。2)协整检验中要用到每个序列的单整阶数。3)判断时间学列的数据生成过程。

     

    三、讨论三

    其实很多人存在误解。有如下几点,需要澄清:

    第一,格兰杰因果检验是检验统计上的时间先后顺序,并不表示而这真正存在因果关系,是否呈因果关系需要根据理论、经验和模型来判定。

    第二,格兰杰因果检验的变量应是平稳的,如果单位根检验发现两个变量是不稳定的,那么,不能直接进行格兰杰因果检验,所以,很多人对不平稳的变量进行格兰杰因果检验,这是错误的。

    第三,协整结果仅表示变量间存在长期均衡关系,那么,到底是先做格兰杰还是先做协整呢?因为变量不平稳才需要协整,所以,首先因对变量进行差分,平稳后,可以用差分项进行格兰杰因果检验,来判定变量变化的先后时序,之后,进行协整,看变量是否存在长期均衡。

    第四,长期均衡并不意味着分析的结束,还应考虑短期波动,要做误差修正检验。

     

    单位根检验、协整检验有用吗?——欢迎大家讨论单位根检验(单整检验)、同积过程检验(即,协整检验)有用吗??——欢迎大家讨论[原创]


    首先,我得承认,我对这部分知识并不十分了解(只知道这个工具是干什么用的,但并不知道这个工具是怎么做成的)所以难免有可笑之处。
    下面就是我想不通的地方:
    (1)单位根检验的意义。
    我看了半天,感觉它的目的就是为了验证某一个模型中所选择的自变量、因变量是否平稳,如果不平稳,就给它弄平稳了,从而避免“伪回归”的出现。可是,我们在做经典回归或者AR、ARMA等模型之前,不都是要对原始数据进行平稳化处理吗(标准化、归一化、差分)?并且在判断某一序列是否平稳时,肉眼观察不是更方便吗?画出图来,直观地看看是否围绕着均值上下波动,并且一般来说不超过N倍的标准差,不就行了吗,还需要什么单位根检验阿?
    唯一觉得有点意义的是:通过检验某个貌似有趋势的序列,发现它是个带常数项的维纳过程,然后得出结论——无法预测。
    (2)协整检验的意义。
    说是可以得到两个变量(而且是存量)之间的长期均衡关系。但看了半天,感觉绕了一大圈,最后还是做了个普通的回归。有种被愚弄的感觉。原先,我还以为,有了协整这个工具之后,宏观经济学会少了很多争论,可是好像并没有:(
    (3)检验了半天,仍然只是以线性关系作为假设前提。如果两个变量之间是非线性的关系,你检验了半天不是瞎忙活吗?

    其实我也认为这个问题是合理的,但楼主的问题似乎与此无关, 而且缺乏基本的统计常识。 比如容肉眼观察是否平稳,这是很荒谬的,若是如此, 人们为什么要用t-test 来检验两个均知是否相等,这似乎比这个问题更容易用肉眼看出来吧。所以楼主提的问题是无稽之谈啊。
    另外其后两个问题也是很幼稚的,没错协整是做了一个普通回归,但是这个普通回归在一般情况下是spurious的,只有在经过协整检验才能说明他是正确的,这是科学性的体现。
    另外关于线性于非线性, 在没有十分精确的理论知道的时候, 计量的处理一般会假设线性关系,因此第三个问题本身不成其为一个问题。

    在只有一两个变量时,均值检验确实不如“肉眼”观察的方便(准确性则差不多),只有多变量时才有意义。而对某一个序列的平稳性问题,就很类似。而且好像很多时间序列的书都有这么一句话“一般来说,经济变量经过1、2次差分就平稳了”“观察平稳之后,再作AR,ARMA...
    模型”。。。当然我不否认,单位根检验的理论贡献,但对于像我这样一个功利色彩非常重的人来说,学习它的投入产出太不划算了:)
    经过1、2次差分后的再作回归一般都不再是“伪回归了”吧?我想谁也不会闭者眼睛作回归吧
    .而且我发现,经过协整检验之后的回归与经济理论的结果都是一致的,这让我很失望,因为早知如此,还不如学习经济理论知识,简单的多啊:)

    什么是伪回归

    从提出“伪回归”的历史看定义为:
    单位根检验由于传统的经济计量学方法对非平稳的时间序列不再适用,利用传统方法对计量模型进行统计推断时,许多参数的统计量的分布不再是标准分布,所作的回归被称为“伪回归”

    比如利用最小二乘法对非平稳的各个变量进行回归就是伪回归
    如各个非平稳变量都是同阶单整,就可以作协整分析

    所谓伪回归是指理论上自变量是不能完全解释变量,或者不因该解释。可当在对进行线性回归的时候得出肯定的结论,虽然通过单位根检验。这个时候就说得出的回归是伪回归。
    举例子就用上面的例子很好:GDP每年都增长和旁边的树每年都长高,如果你直接用数据回归,那肯定存在正相关,而其实这个是没有意义的回归。


    关于虚假回归(伪回归)的困惑

     

    经典计量经济学理论是建立在时间序列平稳的基础上的,所假设的变量间的相关系数服从的是正态分布。现代计量经济学研究发现,大部分经济变量是非平稳的。用蒙特卡洛模拟方法分析非平稳时间序列的相关系数的分布情况,研究结果表明:当时间序列非平稳是,相关系数实际上服从的是倒U和U自行分布,因此增加了拒绝解释变量系数为零假设的概率,并且该概率随着样本容量和时间序列单整阶数的增加而增加。这样就降低了检验的功效,增加了那伪的可能性。也就是说,在大样本和较高单整阶数的条件下,随意检验本来独立的两个变量的相关系数的显著性,结论都是肯定的,直接结果是导致不相关的两个非平稳变量在相关系数的分布呈现倒U和U自行的情况下,被检验出两者具有相关关系。即是说,用非平稳变量进行回归分析,尤其在大样本和较高单整阶数的情况下,结论全部都是变量之间有相关关系,讲实际上不相关的两个非平稳变量来回归分析,是一种虚假回归。所以,对非平稳变量间进行回归分析,首先应该考虑和检验变量的平稳性。

    也就是说,对于非平稳时间序列直接建立回归,很容易产生虚假回归,拿简单的一元线性回归来说,比如1978年-2008年的人均消费支出Yt与人均可支配收入Xt之间的回归,首先Yt与Xt肯定都是非平稳的时间序列,但是在做这两者的回归的时候,也没提平稳性检验的事就直接建立了两者之间的回归模型。虽然我们知道他们之间的回归肯定不是虚假回归,是有实际意义的。但是很多情况下我们对于两组时间序列数据之间存在的回归是否属于虚假回归是不知道的,那该怎样区分呢??

     

    至于为什么没有做平稳性分析就可以拿上面两个量来做回归,这是因为有伟大的“协整理论”存在,他的横空出世虽然先震傻了许多计量的人,但是很快人们就又可以嘘一口气,因为在我们现实生活中,很多时候许多非平稳的变量是具有协整关系的~因此我们可以继续做这个回归,不过在做这个回归之前,需要协整检验一下,给我们一个“心理安慰”后,我们就可以更放心的做回归了。(这个之前看过一个讲协整的让人醍醐灌顶的文章,去不知道到哪去了...)

    至于伪回归分辨的问题,这个,个人觉得需要看你的理论假设前提了。如果有比较坚实的理论支持,应该就可以使用。比如前两天我看的一篇论文,谈“足球比赛对股市的影响”(我是没有看完,因为感觉挺扯淡的),他就提出了有力的假设前提,这两者是可以用来做回归,作分析的。。所以你懂得,这个得看分析看理论看经验了

    Spurious Regression:伪回归/虚假回归

    计量经济学中提到过伪回归的问题,那么什么是伪回归呢? 

    举个例子,中国的GDP随时间是呈增长趋势;美国森林覆盖率w也是随时间呈增长趋势。那么对这两个变量做回归。比如假设模型为GDP=α+ßw+ε,ε为随机误差项,服从N(0,σ^2)。

    假设根据1990年-2010年20年间的数据,通过最小二乘估计得到参数的估计值,并计算R^2,可以发现R^2较大,表示出数据拟合较好,两个变量之间有很好的拟合程度,因为是两者有共同趋势,但是,这两个变量之间可以说是没有任何关系。 

    这就是时间序列中出现的伪回归问题,解决方法很简单,除了通过变量的具体含义判断,还可以在模型中加入时间参数t,这样就可以消除伪回归的问题。

     

     

    伪回归 发表评论(0) 编辑词条

      单位根检验由于传统的经济计量学方法对非平稳的时间序列不再适用,利用传统方法对计量模型进行统计推断时,许多参数的统计量的分布不再是标准分布,所作的回归被称为“伪回归”。

            残差序列是一个非平稳序列的回归被称为伪回归,这样的一种回归有可能拟合优度、显著性水平等指标都很好,但是由于残差序列是一个非平稳序列,说明了这种回归关系不能够真实的反映因变量和解释变量之间存在的均衡关系,而仅仅是一种数字上的巧合而已。伪回归的出现说明模型的设定出现了问题,有可能需要增加解释变量或者减少解释变量,抑或是把原方程进行差分,以使残差序列达到平稳。

     

    什么是伪回归方程?

     

    就是假的回归方程
    回归方程是:
    对变量之间统计关系进行定量描述的一种数学表达式。

    指具有相关的随机变量和固定变量之间关系的方程。 

     

     

    伪回归和误差修正模型的实证分析

    一、问题的提出在金融数据分析和计量经济学中,经常会使用时间序列数据,特别是在线性回归模型中,即使yt=xt日十拌:(t=1,2,A,T)解释变量和被解释变量有一定的相关关系,但是往往会出现令人意外的结果,比如说,t检验和F检验都通过,且参数具有明显的经济意义,从统计学的角度我们不拒绝y:和x:之间存在线性关系的假设,但模型在预测时,会出现较大的偏误,这时就很可能出现伪回归(suspiciousre罗s-sion)现象。葛兰杰和纽博尔德(Gmllger and New-bold)曾经提出一个良好的经验规则:当呼>DW(扩和DW分别为复相关系数及Duthin二研怡怡。n统计量)时,所估计的回归就有伪回归之嫌。有时y,和xt之间根本不存在任何的线性关系,但相关的检验量却十分地显著,这种现象就称之为伪回归现象。其实这种现象早为经济学家们所认识,但在怎样的条件下会产生伪回归现象,长期以来没有统一的认识,直到20世纪70年代中期,上述两位学者用蒙特卡罗模拟的方法表明,当y:和x:都服从单位根过程时,即使它们之间不存在任何的线性相关关系,以yt对x:作回归得到俘的最小...... 

     


    Y是平稳的,X是不平稳的,那用Y对X回归是伪回归吗?
    我是这么认为的:伪回归是指由于X,Y都随时间自动变化而造成的Y与X看似能回归的表面现象,既然Y是平稳的了,那就不存在这个问题了吧?

     

     

    协整理论

    经典的计量经济模型是在一定的假定的基础上的,例如随机误差项零均值和相同方差,随机误差项在不同样本点之间是独立的,不存在序列相关,随机误差项与解释变量之间不相关,随机误差项服从0均值、同方差的正态分布。
    但在我们的实际的社会经济现象中,变量往往不满足上述的条件,特别是对于时间序列数据,如果它们往往是序列相关的。时间序列数据如果是平稳的,即,对于时间一个时间序列x,如果它的均值与时间t无关,其方差是有限的,即随着时间的推移,时间序列数据以一种相对不变的振幅围绕均值波动,对于这样的一个序列,我们可能用自回归移动平均模型ARMA(p,q)来表示和估计。
    一个时间序列如果不是平稳的,由很难由变量之间的统计关系来推断计量经济模型的形式,由此得到的模型往往不能反映实际情况,用于预测决策等也会有较大的失真,通常被称为“伪回归”问题。20世纪70年代以来,变量的非平稳性问题和伪回归问题越来越引起人们的注意。当变量属于非平稳过程时,要由经济变量间的统计关系推断它们之间是否存在因果关系是相当困难的,恩格尔(Engle)和格兰杰(Granger)提出了协整理论和误差修正模型,协整理论的作用在于正确地解释了经济现象和预测现象,误差修正模型(ECM)将影响变化的因素有效地分解成长期静态关系和短期动态关系之和。其中格兰杰定理证明了协整关系与误差修正模型之间的关系,指出若干个一阶非平稳经济变量间若存在协整关系,那么这些变量一定存在误差修正模型表达式,反之也成立。

     

     

    【简介】 

    时间序列计量经济学:协整与有条件的异方差自回归
        ——2003年诺贝尔经济学奖获奖者研究成果简介
        
        瑞典皇家科学院10月8日在斯德哥尔摩宣布,将2003年的诺贝尔经济学奖授予美国经济学家罗伯特·恩格尔和英国经济学家克莱夫·格兰杰,以表彰他们分别用“随时间变化的变动性(time-varyingvolatility)”和“共同趋势(commontrends)”这两种新方法分析经济时间序列,从而为经济学研究和经济发展做出了巨大贡献。格兰杰和恩格尔的研究成果目前已经成为世界各国中央银行、财政部、金融市场经常使用的分析工具,特别是在评估投资组合的系统风险方面,更具有现实的应用价值。在中国,经济学家特别是计量经济学家对恩格尔和格兰杰的理论建树同样不陌生。在上世纪90年代初,恩格尔的“有条件的异方差自回归模型(ARCH模型)”就作为“现代经济学前沿”被详细地介绍到国内;格兰杰在谱分析(经济周期分析)、因果分析、经济预测、协整等方面的开拓性贡献也早为人们所熟知。不仅如此,他们的理论和方法已经在我国经济学的研究和教学中被广泛地应用。
         人们在进行关系估计和经济预测以及对经济理论进行假设检验时,通常是以时间序列的形式来使用数据,进而对宏观经济变量进行研究。尽管对这种关系可以简单地通过一个静态、线性、只有两个变量的表达式(模型)进行描述,但要得出正确的估计和结论,就要求模型必须能够很好地适用时间序列的具体特征。而对许多经济时间序列来说,最重要的两个关键特征是“非平稳性”(nonstationarity)和“随时间变化的变动性”。正是恩格尔和格兰杰在80年代发明了新的统计方法来处理这两个关键特征。
         一、非平稳性、共同趋势与协整从理论上说,许多宏观经济时间序列都是非平稳的,因此某个经济变量会遵循一个长期趋势,但一次暂时的失调会产生长期持续的影响。例如,净收入与消费、工资与价格、进口与出口、政府支出与税收等经济时间序列存在一种长期均衡关系,但一般来说,这些时间序列属于非平稳序列,其变动性会随着时间的变化而变化。与平稳时间序列不同的是,非平稳时间序列不能表现出任何清晰的趋势,因此也不能得到某个固定数值或某种特定趋势。格兰杰在20世纪80年代提出的“协整(cointe鄄gration)”理论发现,把两个或两个以上非平稳的时间序列进行特殊组合后可能呈现出平稳性。协整理论的主要研究对象是在两个(或多个)非平稳时间序列中寻找一种均衡关系,该理论的提出对于用非平稳经济变量建立计量经济模型,以及检验这些变量之间的长期均衡关系具有非常重要的意义,而且其应用也远远超出了对线性回归的诊断。在许多情况下,经济理论告诉我们两个变量应该是协整的,对协整性的检验也就是对经济理论正确与否的检验。例如,股票市场,如果对股票价格的估计是理性的,那么公司股票的价格应该等于预期未来股息流的现值。这事实上意味着,尽管股息和股票价格这两个变量都是非平稳的,但这两个序列应该是协整的,其协整参数等于投资者在计算盈利现值时所采用的贴现率。
         格兰杰又从几个方面对协整分析进行了拓展,如处理具有季节性模式的序列。另外,在协整概念的基础上,他还进一步提出了著名的“格兰杰协整定理”,用来解决协整与误差修正模型之间的关系问题。这个定理的重要意义在于它证明了协整概念与误差修正模型之间存在的必然联系。即如果非平稳变量之间存在协整关系,那么必然可以建立误差修正模型;而如果非平稳变量可以建立误差修正模型,那么该变量之间必然存在着协整关系。除了在理论上建立了协整的概念,格兰杰在实际经济分析中也作了大量极有贡献的实证性研究,如对季节性模式的单整与协整分析;对产出、销售以及存货之间的多因素协整分析;对美国国债的产出协整分析等。
         二、随时间变化的变动性和ARCH模型
         在现代金融理论中,对资产收益的风险和价格不确定性的度量通常是采用方差(或标准差)来描述。根据传统的计量经济理论,研究人员往往假设方差是不变的,即方差在不同时期都固定在一个常数上。但金融理论的后续发展和对价格行为的大量经验研究结果都表明这一假设是不合理的,也就是说,用来描述不确定性和风险的方差并不是固定不变的,而是会随着时间的变化而变化。进一步研究表明,内生变量一次大的变化(向上或向下)之后往往会跟随着一次更进一步的大波动,而小的变化之后则会出现小的波动,并且许多金融数据时间序列都表现出这种类似特征。由于传统线性回归模型中关于独立同方差的假设并不适合用来描述金融市场中的价格与收益行为,所以,许多计量经济学家和金融学家都开始尝试用改进的方法来更好地定量描述各种金融市场活动。在这些模型中,恩格尔提出的ARCH模型能够有效预测经济数据从一个时期到另一个时期的变化,因而被广泛应用于金融数据的时间序列问题上。
         由于ARCH模型展示了变量之间的一种特殊的不确定性形式:变动性会随着时间的变化而变化,所以,它已被广泛用于验证市场的有效性和计算市场变化的系统风险。另外,在宏观经济范围内,该模型还可以被用于建立一国的最优负债组合以及衡量通货膨胀的不确定性,或者考察外贸与汇率的关系、央行货币政策与股票市场的关系等等。在实际应用方面,1996年以来,巴塞尔协议在控制银行资本要求时规定必须使用风险价值。银行和其他金融机构在计算它们证券组合的市场风险时,其风险分析过程中对风险价值的计算至关重要,这其中就需要用到ARCH模型。透过这些应用可以看出,在对金融领域的风险进行评估时,ARCH的分析框架已经是一个不可或缺而又非常有效的工具。



     

     

     

     

    协整关系

      协整关系存在的条件是:只有当两个变量的时间序列{x}和{y}是同阶单整序列即I(d)时,才可能存在协整关系(这一点对多变量协整并不适用)。因此在进行y和x两个变量协整关系检验之前,先用ADF单位根检验对两时间序列{x}和{y}进行平稳性检验。平稳性的常用检验方法是图示法与单位根检验法。  图示法即对所选各个时间序列变量及其一阶差分作时序图,从上图中可以看到,y变量和x变量的时序图均表现出明显的非平稳性。对y和x进行一阶差分变换,并用iy和ix分别表示y和x经一阶差分后的时间序列,不难看出,经过一阶差分后y和x均表现出平稳性的特征。  y和x均表现出平稳性的特征走势图。
     
     
     
     
    【讨论】:
    【1】
    请问计量高手, 在对两个时间序列进行协整检验时,首先是检验两序列的平稳性,如果是同阶的,就可以用OLS进行回归,然后再检验残差的平稳性,我想请教的问题是:在对两变量进行OLS回归时,要不要考虑残差的异方差性。另外,在检验残差的平稳性时,是否就不要检验残差的序列相关性?
    什么是平稳性,什么是序列相关性,两者关系如何?
    平衡性指的是:如果一个时间序列的均值是常数,方差是常数,不同观测值之间的协方差仅仅依赖于观测值之间的滞后阶数,那么就可以说此时间序列是平衡的。而残差的序列相关,我的理解就是残差间的自相关,在通常的OLS模型中,通常要求考虑三个方面:异方差性,自相关,多重共线性。所以我不懂的是:在做协整检验时,残差的自相关问题是否也要考虑,如果考虑,是否也能用检验普通模型的方法进行处理?
    那协整的内涵是什么呢?平稳性在协整中含义又是什么?如果残差是一个平稳序列但有序列相关性,这能说明什么呢?
    请问高按照协整理论,如果对于两个不同阶的变量进行回归,得到的可能是虚假回归。协整理论认为只有两个(或多个)同阶单整的变量才可能存在长期稳定的某种关系即协整关系。手若两个变量不是同阶的,是否意味着这两个变量不能回归,若想做回归应怎样处理?还有怎样找到月度和季度数据资料?
    你当然可以考虑异方差性,这个在EVIEWS中是很简单的,只要点一个鼠标就能做到啦。
    在古扎拉蒂的书上,他对序列相关和自相关并没有区别。他的意思就是残差间是否存在相关关系。真的希望高手能告知我在对两变量求协整关系时,需不需要考虑残差的相关问题。 cov(ui,uj)是否必须保证等于零?
    协整关系指的是长期稳定关系.
    SPSS 能进行,协整检验,df,adf检验吗?各位高手,不知在SPSS中怎么用??他们的怎么判定??比如用看t或其他值??还有怎么消除呢?EVIEWS是AR(n)???还有EVIEWS中有因果分析是不是和spss中的person一样??在SPSS中怎么因果分析??那位高手知道spss中的应用方法?
    序列相关和自相关应该是有区别的,自相关可能指序列相关在时间序列下的情景。
    在做检验残差的平稳性之前要先保证残差的无序列相关性.你可以给残差项加一个AR项就可以去除序列相关性.
    我做了几个练习,发现如果消除了序列相关问题后,再来检验残差时,残差都变平稳了。我也不知道在检验残差的平稳前是否需要序列相关处理。有没有理论依据来说明这个问题。否则不同的处理方式导致不同的结果。
    我刚看到一篇做实证的文章,他检验协整模型的时候检验了序列相关,异方差,用检验多重共线形的方法选择自回归阶数。明这个问题。否则不同的处理方式导致不同的结果。
    我理解的序列相关是针对横截面数据而言的,自相关是针对时间序列数据而言的.
     
    【2】
    在两个变量的这种简单情况下,按照你的方法,在进行cointegartion检验时,对残差的平稳性检验,就是检验残差是否是I(0)。就是应用df或adf检验。在进行OLS中你如何考虑残差的异方差呢?不可能的。在逻辑上,你要首先考虑残差的异方差性,你必须要知道残差的性质,而在cointegartion中,你想要得到的是残差的性质即是不是平稳的。
    平稳性是指时间序列是否为I(0)
    的adf检验就是为了消除或减少时间序列的自相关而发展起来的
     
    【3】
    这里有篇解释还挺详细,可以看看
    单位根检验、协整检验和格兰杰因果关系检验三者之间的关系
      实证检验步骤:先做单位根检验,看变量序列是否平稳序列,若平稳,可构造回归模型等经典计量经济学模型;若非平稳,进行差分,当进行到第i次差分时序列平稳,则服从i阶单整(注意趋势、截距不同情况选择,根据P值和原假设判定)。若所有检验序列均服从同阶单整,可构造VAR模型,做协整检验(注意滞后期的选择),判断模型内部变量间是否存在协整关系,即是否存在长期均衡关系。如果有,则可以构造VEC模型或者进行Granger因果检验,检验变量之间“谁引起谁变化”,即因果关系。
    一、讨论一
    1、单位根检验是序列的平稳性检验,如果不检验序列的平稳性直接OLS容易导致伪回归。
    2、当检验的数据是平稳的(即不存在单位根),要想进一步考察变量的因果联系,可以采用格兰杰因果检验,但要做格兰杰检验的前提是数据必须是平稳的,否则不能做。
    3、当检验的数据是非平稳(即存在单位根),并且各个序列是同阶单整(协整检验的前提),想进一步确定变量之间是否存在协整关系,可以进行协整检验,协整检验主要有EG两步法和JJ检验
    A、EG两步法是基于回归残差的检验,可以通过建立OLS模型检验其残差平稳性
    B、JJ检验是基于回归系数的检验,前提是建立VAR模型(即模型符合ADL模式)
    4、当变量之间存在协整关系时,可以建立ECM进一步考察短期关系,Eviews这里还提供了一个Wald-Granger检验,但此时的格兰杰已经不是因果关系检验,而是变量外生性检验,请注意识别
     
    二、讨论二
    1、格兰杰检验只能用于平稳序列!这是格兰杰检验的前提,而其因果关系并非我们通常理解的因与果的关系,而是说x的前期变化能有效地解释y的变化,所以称其为“格兰杰原因”。
    2、非平稳序列很可能出现伪回归,协整的意义就是检验它们的回归方程所描述的因果关系是否是伪回归,即检验变量之间是否存在稳定的关系。所以,非平稳序列的因果关系检验就是协整检验。
    3、平稳性检验有3个作用:1)检验平稳性,若平稳,做格兰杰检验,非平稳,作协正检验。2)协整检验中要用到每个序列的单整阶数。3)判断时间学列的数据生成过程。
     
    三、讨论三
    其实很多人存在误解。有如下几点,需要澄清:
    第一,格兰杰因果检验是检验统计上的时间先后顺序,并不表示而这真正存在因果关系,是否呈因果关系需要根据理论、经验和模型来判定。
    第二,格兰杰因果检验的变量应是平稳的,如果单位根检验发现两个变量是不稳定的,那么,不能直接进行格兰杰因果检验,所以,很多人对不平稳的变量进行格兰杰因果检验,这是错误的。
    第三,协整结果仅表示变量间存在长期均衡关系,那么,到底是先做格兰杰还是先做协整呢?因为变量不平稳才需要协整,所以,首先因对变量进行差分,平稳后,可以用差分项进行格兰杰因果检验,来判定变量变化的先后时序,之后,进行协整,看变量是否存在长期均衡。
    第四,长期均衡并不意味着分析的结束,还应考虑短期波动,要做误差修正检验。
    本文来自: 人大经济论坛 Eviews专版 版,详细出处参考:http://www.pinggu.org/bbs/viewthread.php?tid=13470&page=1
     
     
    协整理论、误差修正模型和向量自回归

     

    展开全文
  • 面板数据分析plm

    千次阅读 2015-06-27 15:05:51
    采用plm包,固定、随机效应模型,Hausman过度识别检验(原假设是...> #载入面板数据分析包 library("plm", lib.loc="D:/R/R/R-3.1.2/library") p_csy = plm.data(csy_zero, indexes = c("industry", "year")) #fix_e

    采用plm包,固定、随机效应模型,Hausman过度识别检验(原假设是两个模型一致);

    加入截面变系数,即是按个体分别进行回归分析。

    > #载入面板数据分析包
    library("plm", lib.loc="D:/R/R/R-3.1.2/library")
    
    p_csy = plm.data(csy_zero, indexes = c("industry", "year"))
    
    #fix_e = plm(data = p_csy, export ~ human, model = "within")
    #summary(fix_e)
    
    #取对数
    p_csy$export = log(p_csy$export)
    p_csy$human = log(p_csy$human)
    
    #固定效应模型
    fix_e = plm(data = p_csy, export ~ human, model = "within")
    
    summary(fix_e)
    
    ##判断随机效应模型是否与固定效应模型有区别,采用Hausman检验;
    random_e = plm(data = p_csy, export ~ human, model = "random")
    
    phtest(random_e, fix_e)
    
    **结果与固定效应模型相同** #test = lm(export ~ human + factor(industry) - 1, data = p_csy)
    #summary(test)
    
    ##截面变系数模型
    
    #按行业分类
    list_csy = dlply(p_csy, .variables = "industry")
    
    #导出结果
    for(i in 1:length(list_csy)){
        test = lm(data = list_csy[[i]], formula = export ~ human)
        print(rep("====", 12))
        print(rep("====", 12))
        print(names(list_csy[i]))
        print(summary(test))
      }

    fix与random效应的区别

    固定效应与随机效应的选择:豪斯曼检验
    固定效应与随机效应的区别

    • 区别一:
      FE / RE 模型可统一表述为: y_it = u_i + x_it*b + e_it
      对于FE,个体效应 u_i 被视为一组解释变量,为非随机变量,即 N-1 个虚拟变量;对于RE,个体效应 u_i被视为干扰项的一部分,因此是随机变量,假设其服从正态分布,即 u_i~N(0, sigma_u^2); 在上述两个模型的设定中,e_it都被视为“干干净净的”干扰项,也就是OLS时那个背负着众多假设条件,但长相极为俊俏的干扰项,e_it~N(0,sigma_e^2)。 需要注意的是,在 FE 模型中,只有一个干扰项 e_it,它可以随公司和时间而改变,所有个体差异都采用 u_i 来捕捉。而在 RE 模型中,其实有两个干扰项:u_i 和 e_it,差别在于,第一种干扰项不随时间改变(这也是所谓的“个体效应”的含义),而第二类干扰项可以随时间改变。 因为上述对 FE 和 RE 中个体效应 u_i 的假设之差异,二者的估计方法亦有差异。FE可直接采用OLS估计,而RE则必须使用GLS才能获得更为有效的估计量。
      固定效应模型中的个体差异反映在每个个体都有一个特定的截距项上;随机效应模型则假设所有的个体具有相同的截距项,个体的差异主要反应在随机干扰项的设定上 。

    • 区别二:
      固定效应更适合研究样本之间的区别,而随机效应适合由样本来推断总体特征。

    展开全文
  • 小白学统计|面板数据分析与Stata应用笔记(一)

    千次阅读 多人点赞 2020-04-25 14:13:11
    小白学统计|面板数据分析与Stata应用笔记(一) 文章首发于公众号 「如风起」。 原文链接: 小白学统计|面板数据分析与Stata应用笔记(一) 面板数据分析与Stata应用笔记整理自慕课上浙江大学方红生教授的面板数据...

    小白学统计|面板数据分析与Stata应用笔记(一)

    文章首发于公众号 「如风起」
    如风起原文链接: 小白学统计|面板数据分析与Stata应用笔记(一)

    面板数据分析与Stata应用笔记整理自慕课上浙江大学方红生教授的面板数据分析与Stata应用课程,笔记中部分图片来自课程截图。
    笔记内容还参考了陈强教授的《高级计量经济学及Stata应用(第二版)》

    一、面板数据的定义

    面板数据(panel data或longitudinaldata),指的是在一段时间内跟踪同一组个体(individual)的数据。它既有横截面的维度(n个个体),又有时间维度(T个时期)。是同时在时间和截面上取得的二维数据,又称时间序列与截面混合数据(polled timeseries and cross section data)。
    一个T=3的面板数据结构如下所示在这里插入图片描述

    二、面板数据的分类

    面板数据类型通常分为三类,分别为:

    a.短面板数据与长面板数据
    b.动态面板数据和静态面板数据
    c.平衡面板和非平衡面板

    (1)短面板数据与长面板数据

    当截面数n大于T时,即为短面板数据;
    当截面数n小于T时,即为长面板数据.

    (2)动态面板数据和静态面板数据

    如果解释变量包含别解释变量的滞后值,则为动态面板数据,反之则为静态面板。

    (3)平衡面板和非平衡面板

    当每个个体在相同的时间内都有观察值记录,即为平衡面板,反之则为非平衡面板。

    三、面板数据的优缺点

    1、面板数据的优点

    (1)可以处理由不可观察的个体异质性所导致的内生性问题。
    (2)提供更多个体动态行为的信息。
    (3)样本量较大,可以提高估计的精确度。

    2、面板数据的不足之处

    (1)大多数面板数据分析技术都针对的是短面板。
    (2)寻找面板数据结构工具变量不是很容易。

    四、面板数据模型

    面板数据模型分为非观测效应模型混合回归模型两类
    存在不可观测的个体效应模型即为非观测效应模型,反之则为混合回归模型。

    (1)非观测效应模型

    a.固定效应模型
    b.随机效应模型
    Yit=βxit+αi+εiti=1,,n;t=1,,T \begin{array}{l} {Y_{it}} = \beta {x_{it}} + {\alpha _i} + {\varepsilon _{it}}\\ i = 1, \cdots ,n;t = 1, \cdots ,T \end{array}
    其中, αi\alpha _i是不可观测的个体效应。
    如果 αi\alpha _i与某个解释变量相关,就是固定效应模型;
    如果 αi\alpha _i与所有解释变量不相关,则为随机效应模型。

    固定效应模型又分为:单向固定效应模型双向固定效应模型
    单向固定效应模型: 只考虑个体效应不考虑时间效应;
    双向固定效应模型: 同时考虑个体效应和时间效应,即
    yit=βxit+λt+αi+εit {y_{it}} = \beta {x_{it}} + {\lambda _t} + {\alpha _i} + {\varepsilon _{it}}
    (2)混合回归模型

    如果αi\alpha _i=0,即不存在个体效应,则为混合回归模型,即
    Yit=βxit+εiti=1,,n;t=1,,T \begin{array}{l} {Y_{it}} = \beta {x_{it}} + {\varepsilon _{it}}\\ i = 1, \cdots ,n;t = 1, \cdots ,T \end{array}

    五、面板数据模型的估计

    1、固定效应模型的估计

    对固定效应模型的估计有两种方法:
    固定效应变换(组内变换)LSDV(最小二乘虚拟变量法)

    a.固定效应变换(组内变换)

    在这里插入图片描述
    在这里插入图片描述
    固定效应变换的优缺点

    优点: 即使个体效应与解释变量相关也可以得到一致估计;

    缺点: 无法估计不随时间而变的变量的影响。

    #对固定效应变换无法估计不随时间而变的变量的影响的解决

    在这里插入图片描述
    固定效应模型的Stata的实现命令为:xtreg y x, fe
    引入时间效应的双向固定效应的Stata的实现命令为:xi: xtreg y x i.year, fe

    数据来自慕课浙江大学方红生教授的面板数据分析与Stata应用课程(xtreg y x, fe)
    数据来自慕课浙江大学方红生教授的面板数据分析与Stata应用课程(xi: xtreg y x i.year, fe)
    == b.LSDV(最小二乘虚拟变量法)==
    LSDV的基本思想
    在这里插入图片描述
    LSDV的Stata的实现命令为:
    不存在时间效应:reg y x i.code
    存在时间效应:xi: reg y x i.code i.year
    数据来自慕课浙江大学方红生教授的面板数据分析与Stata应用课程(reg y x i.code)
    数据来自慕课浙江大学方红生教授的面板数据分析与Stata应用课程(xi: reg y x i.code i.year)

    2、随机效应模型

    对随机效应模型的估计方法是广义最小二乘法
    在这里插入图片描述
    随机效应模型估计的Stata命令

    不存在时间效应:xtreg y x ,re
    存在时间效应:xi: reg y x i.year,re

    短面板数据估计的同时,还需要考虑三大问题

    即,误差项的异方差误差项的自相关截面相关问题
    在这里插入图片描述

    • 通过在命令中加入选项“robust”可以获得White稳健标准误,可以解决异方差的问题。
    • 在命令中加入选项“cluster”可以获得Rogers标准误或聚类稳健的标准误,可以同时解决异方差和自相关两大问题。
    • 使用命令xtscc可以同时解决三大问题,提供Driscoll-Kraay标准误。
    展开全文
  • 协整理论与面板数据分析

    千次阅读 2018-06-10 23:53:11
    转载自:http://blog.sina.com.cn/s/blog_458bb22d0100x9rl.html面板数据分析方法步骤全解 步骤一:分析数据的平稳性(单位根检验) 按照正规程序,面板数据模型在回归前需检验数据的平稳性。李子奈曾指出,一些非...
  • 深入浅出面板数据分析

    万次阅读 2014-11-13 21:09:23
    面板数据分析方法或许我们已经了解许多了,但是到底有没有一个基本的步骤呢?那些步骤是必须的?这些都是我们在研究的过程中需要考虑的,而且又是很实在的问题。面板单位根检验如何进行?协整检验呢?什么情况下要...
  • 面板数据模型的估计方法 第一种:使用OLS估计这个特殊的双向固定效应模型,并对误差项的自相关、异方差和截面相关的问题只提供面板校正的标准误(使用命令xtscc或xtpcse命令实现),这种估计方法最为稳健。 第二...
  • R语言-面板数据分析步骤及流程-

    千次阅读 2019-09-11 21:57:12
    面板数据分析步骤及流程-R语言 2016年08月16日 16:49:55饭饭认认米阅读数 47093文章标签:r语言面板数据分析预测更多 分类专栏:R语言预测模型 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请...
  • R语言1-面板数据分析全过程 附代码

    千次阅读 2020-05-30 11:44:07
    R语言1-面板数据分析全过程 附代码 用途 面板数据常见于计量经济学领域,本质上是一种线性回归方法。截面数据和时间序列数据的组合可以更多的反应数据情况,同时也需要克服二者都存在的问题。 数据初步处理 在Excel...
  • 文本主要阐述了R语言中如何用plm包做面板数据分析,几种模型的具体实现。 包括pool模型,LSDV模型,组内模型(within),时间固定效应Panel模型 和个体和时间双维固定效应模型。 提供了一个数据集供读者以复现
  • 面板数据分析步骤及流程-R语言

    万次阅读 多人点赞 2016-08-16 16:49:55
    面板数据模型选择及分析步骤;附R语言代码
  • 国际顶级期刊的编辑非常重视内生性问题,一定要处理好内生性问题,03讲了工具变量,本讲中通过动态面板数据能够较好处理内生性问题。 动态面板数据 动态面板数据(Dynamic Panel Data,DPD):是指在面板模型中,...
  • 本文针对面板数据主要有三种模型: 1. pool模型 2. 固定效应模型 3. 随机效应模型 介绍了数据检验和模型检验用R语言实现过程,包括F test, Hausman test和 LM test。承接系列一部分,在模型检验确定如何使用模型后...
  • 《R语言 面板数据分析 plm包实现(固定效应模型和组内模型)》 目录1.模型描述数据导入2.假定γt =0,直接估计随机 “Individual effects” 模型3.假定ui =0,直接估计随机“Time effects”模型; 1.模型描述 有数据...
  • 一、面板数据与模型 1.面板数据分类 (1)短面板(N>T)和长面板(N<T) (2)动态面板(解释变量包含被解释变量的滞后值)和静态面板 (3)平衡面板(每个个体在相同的时间内都有观测值)和非平衡面板 2.面板...
  • xtset county year //设置面板数据格式 ##结果 panel variable: county (strongly balanced) time variable: year, 81 to 87 delta: 1 unit xtdes //查看数据 ##结果 county: 1, 3, ..., 197 n = 90 year: 81, 82, ...
  • Pandas的名称来自于面板数据(panel data)和Python数据分析(data analysis)。 Pandas是一个强大的分析结构化数据的工具集,基于NumPy构建,提供了 高级数据结构 和 数据操作工具,它是使Python成为强大而高效的...
  • 本篇是本人整理的统计学中使用Stata做面板数据分析的相关命令指南,希望与各位多多交流~
  • 横截面数据、时间序列数据、面板数据

    万次阅读 多人点赞 2018-03-20 15:12:40
    面板数据(Panel Data)是将“截面数据”和“时间序列数据”综合起来的一种数据类型。具有“横截面”和“时间序列”两个维度,当这类数据按两个维度进行排列时,数据都排在一个平面上,与排在一条线上的一维数据有着...
  • R语言空间面板数据统计分析

    千次阅读 2019-03-21 18:12:32
    GM=spgm(log(gsp)~log(pcap)+log(pc)+log(emp)+unemp,data=Produc,listw = usaww,moments = “fullweights”,spatial.error = TRUE) #空间面板数据的广义矩估计 summary(GM) fm=log(gsp)~log(pcap)+log(pc)+log...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 61,913
精华内容 24,765
关键字:

面板数据分析