精华内容
下载资源
问答
  • 利用EViews软件进行面板数据数据,有详细的操作步骤,和参数设置说明,有固定效应,随机效应模型,存在异方差和序列相关性的面板数据说明等
  • 横截面数据、时间序列数据、面板数据

    万次阅读 多人点赞 2018-03-20 15:12:40
    面板数据(Panel Data)是将“截面数据”和“时间序列数据”综合起来的一种数据类型。具有“横截面”和“时间序列”两个维度,当这类数据按两个维度进行排列时,数据都排在一个平面上,与排在一条线上的一维数据有着...

            面板数据(Panel Data)是将“截面数据”和“时间序列数据”综合起来的一种数据类型。具有“横截面”和“时间序列”两个维度,当这类数据按两个维度进行排列时,数据都排在一个平面上,与排在一条线上的一维数据有着明显的不同,整个表格像是一个面板,所以称为面板数据(Panel Data)。

            实际上如果从数据结构内在含义上,应该把Panel Data称为“时间序列-截面数据”,更能体现数据结构本质上的特点。该数据为也被称为“纵向数据(Longitudinal Data)”,“平行数据”,“TS-CS数据(Time Series-Cross Section)”。它是截面上个体在不同时间点的重复测量数据。面板数据从横截面(cross section)看,是由若干个体(entity,unit,individual)在某一时点构成的截面观测值,从纵剖面(longitudinal section)看每个个体都是一个时间序列。

         从时空维度来看,可将计量经济学中应用的数据分三类:

    1、横截面数据(Cross-sectional data)

      横截面数据是指在某一时点收集的不同对象的数据。它对应同一时点上不同空间(对象)所组成的一维数据集合,研究的是某一时点上的某种经济现象,突出空间(对象)的差异。横截面数据的突出特点就是离散性高。横截面数据体现的是个体的个性,突出个体的差异,通常横截面数据表现的是无规律的而非真正的随机变化。即计量经济学中所谓的“无法观测的异质性”。在分析横截面数据时,应主要注意两个问题:一是异方差问题,由于数据是在某一时期对个体或地域的样本的采集,不同个体或地域本身就存在差异;二是数据的一致性,主要包括变量的样本容量是否一致、样本的取样时期是否一致、数据的统计标准是否一致。

    图片来源于网络

    2、时间序列数据(Time-series data)

      时间序列数据是指对同一对象在不同时间连续观察所取得的数据。它着眼于研究对象在时间顺序上的变化,寻找空间(对象)历时发展的规律。利用时间序列作样本时,要注意几个问题:一是所选择的样本区间内经济行为的一致性问题;二是样本数据在不同样本点之间不可比,需要对原始数据进行调整,消除其不可比因素;三是样本观测值过于集中,因而时间序列数据不适宜于对模型中反映长期变化关系的结构参数的估计;四是模型随机误差的序列相关问题。

    图片来源于网络

    3、纵向数据(Longitudinal data)或面板数据(Panel data)

      面板数据,即Panel Data,是截面数据与时间序列综合起来的一种数据资源。 在分析时,多用PanelData模型,故也被称为面板数据模型. 它可以用于分析各样本在时间序列上组成的数据的特征,它能够综合利用样本信息,通过模型中的参数,既可以分析个体之间的差异情况,又可以描述个体的动态变化特征。

    图片来源于网络

     

    举栗一个,栗子来源于网络! 

    时间序列数据:北京一年来每天的平均温度。 

    截面数据:北京,上海,深圳,广州某一天的平均温度。 

    面板数据:北京,上海,深圳,广州这一年来每天的平均温度。  

    适用范围:

            时间序列数据:某一个个体随时间变化产生的数据。 

            截面数据:许多个个体在同一个时间下由于个体不同而产生的数据。 

            面板数据:前两个的综合——许多个个体由于个体不同以及时间变化产生的数据。  

    分析方法:

            时间序列数据:主要围绕时间变化,可看总体趋势,季节性,周期性,ARIMA(自回归,滑动平均,差分)等。 

            截面数据:主要围绕统计个体区别,可用线性回归,主元分析等。 面板数据:前两个的综合。

     

     

    举栗二个,栗子来源于网络! 

    如:城市名:北京、上海、重庆、天津的GDP分别为10、11、9、8(单位亿元)。这就是截面数据,在一个时间点处切开,看各个城市的不同就是截面数据。

    如:2000、2001、2002、2003、2004各年的北京市GDP分别为8、9、10、11、12(单位亿元)。这就是时间序列,选一个城市,看各个样本时间点的不同就是时间序列。

    如:2000、2001、2002、2003、2004各年中国所有直辖市的GDP分别为:

    北京市分别为8、9、10、11、12;

    上海市分别为9、10、11、12、13;

    天津市分别为5、6、7、8、9;

    重庆市分别为7、8、9、10、11(单位亿元)。

    这就是面板数据。

    展开全文
  • 面板数据回归_13.1.2 面板数据回归模型及解释.pdf
  • 面板数据计量经济分析面板数据计量经济分析面板数据计量经济分析
  • 面板数据,计算单位根检验,stata操作的代码
  • Panel Data Toolbox v2.0 是 MATLAB 的一个新包,其中包括估计面板数据分析的主要计量经济学方法的函数。 该软件包涵盖了标准的固定、组间和随机效应方法,这些方法经过扩展以允许工具变量以及空间面板数据规范。 ...
  • stata分析面板数据

    2011-10-07 00:25:56
    stata分析面板数据stata分析面板数据stata分析面板数据stata分析面板数据stata分析面板数据stata分析面板数据stata分析面板数据stata分析面板数据
  • 面板数据分析

    千次阅读 2020-09-02 21:52:33
    文章目录前言一、面板数据数据性质变量相关性二、三大问题截面相关自相关异方差三、FE VS RE 前言 面板数据(panel data)在现代社会中十分重要,常见在计量经济学之中。截面数据与时间序列数据,是其退化版本,本文...

    本文是浙江大学方红生教授的课堂笔记,来自

    https://www.icourse163.org/course/ZJU-1206581810


    前言

    面板数据(panel data)在现代社会中十分重要,常见于计量经济学之中。截面数据与时间序列数据,是其退化版本,本文通过stata软件对此类数据进行分析。


    一、面板数据

    数据性质

    面板数据拥有双重下标,如 y i t y_{it} yit
    i = 1 , 2 , . . . , N 代 表 N 个 不 同 的 个 体 t = 1 , 2 , . . . , T 代 表 T 个 观 测 时 间 点 i=1,2,...,N代表N个不同的个体 \\ t=1,2,...,T代表T个观测时间点 i=1,2,...,NNt=1,2,...,TT
    可分为:短面板与长面板,动态面板与静态面板,平衡与非平衡面板。

    stata命令:(请注意,stata更多的类似于图形界面软件,因而其代码大多是逐行输入并运行)

    * 导入数据
    use "D:\data.dta"
    import delimited "D:\data.dta"
    
    * 设置时间与个体变量, 不可颠倒
    xtset i year
    * 如果i不是stata支持的变量类型,可以使用如下命令进行重新编码
    encode i, gen(newi)
    
    * 查看数据类型
    des 
    * 指定变量
    des varlist
    # 查看每个截面的数据个数
    tab year, gen(year)
    
    * 描述性分析
    sum varlist
    tabstat varlist, s(min p25 p50 p75 max) format(%6.3f) c(s)
    
    * 修改变量值
    replace x = 2
    * 修改变量的第五个观测值
    replace x = 2 if _n=5
    

    变量相关性

    确定每个解释变量和被解释变量之间的关系是十分重要的,

    * 画散点图,添加拟合曲线
    twoway (scatter y lgb)(lfit y lgb)
    
    * 在查看之间必须进行ols估计,才可以查看偏自相关图
    reg depvar varlist
    avplot varlist
    avplots
    
    * 时间序列图
    xtline y
    

    二、短面板数据(short panels)

    1)三大问题

    对于每一个面板数据来说,必须正视三大问题(即异方差、自相关和截面相关问题),否则估计结果将没有说服力。本节我们主要探讨短面板数据的相关问题。

    截面相关

    对于不同的面板类型来说,估计方法不尽相同。当不同的方法出现矛盾时,应该观察数据的种类,如下表:

    commandsblancedunblanceddynamiccommon
    pes+++--------
    fri+------------------------
    fre+------------------+

    p 值 < α p值 < \alpha p<α时,表示拒绝 H 0 H_0 H0,即认为存在截面自相关。

    * 进行估计时,必须先选定模型进行估计,这里使用固定效应模型
    xtreg depvar varlist, fe 
    
    * 使用xtcsd命令,必须先安装它
    . xtcsd, pes
    
    Pesaran's test of cross sectional independence =     
    
    . xtcsd, fri
     
    Friedman's test of cross sectional independence =  
    
    . xtcsd, fre 
     
      Frees' test of cross sectional independence =     
    |-------------------------------------------------|
      Critical values from Frees' Q distribution
                          alpha = 0.10 :   0.4127
                          alpha = 0.05 :   0.5676
                          alpha = 0.01 :   0.9027
    

    对于不同的面板数据来说,截面自相关的存在与否决定着估计的方法,影响着估计的精度。

    * 存在截面自相关
    xi:xtscc depvar varlist, i.state 
    
    * 对虚拟变量进行F检验
    testparm _Istate*
    
    * 不存在截面自相关
    xi:reg depvar varlist, i.state, cluster(state)
    
    * 对虚拟变量进行F检验
    testparm _Istate*
    

    自相关

    xtreg depvar varlist, re
    * 检查序列是否存在一阶自相关
    xttest0/xttest1
    
    . xttest0
    Test:   Var(u) = 0
    	chibar2(01) =   338.52
    	Prob > chibar2 =   0.0000
    

    异方差

    xtreg depvar varlist, fe
    * 检查序列是否存在异方差
    . xttest3
    
    H0: sigma(i)^2 = sigma^2 for all i
    
    chi2 (31)  =   52663.93
    Prob>chi2 =      0.0000
    

    2)FE and RE

    混合效应模型:
    y i t = α + β x i t + ε i t , ε i t ∼ N ( 0 , σ 2 ) y_{it}=\alpha+\beta x_{it}+\varepsilon_{it}, \quad \varepsilon_{it}\sim N(0, \sigma^2) yit=α+βxit+εit,εitN(0,σ2)

    单向固定效应模型:
    y i t = α + β x i t + μ i + ε i t , ε i t ∼ N ( 0 , σ 2 ) y_{it}=\alpha+\beta x_{it}+\mu_{i}+\varepsilon_{it}, \quad \varepsilon_{it}\sim N(0, \sigma^2) yit=α+βxit+μi+εit,εitN(0,σ2)

    双向固定效应模型:
    y i t = α + β x i t + μ i + λ t + ε i t , ε i t ∼ N ( 0 , σ 2 ) y_{it}=\alpha+\beta x_{it}+\mu_{i}+\lambda_t + \varepsilon_{it}, \quad \varepsilon_{it}\sim N(0, \sigma^2) yit=α+βxit+μi+λt+εit,εitN(0,σ2)

    随机效应模型:
    y i t = α i t + β x i t + ε i t , ε i t ∼ N ( 0 , σ 2 ) y_{it}=\alpha_{it}+\beta x_{it} + \varepsilon_{it}, \quad \varepsilon_{it}\sim N(0, \sigma^2) yit=αit+βxit+εit,εitN(0,σ2)

    stata代码如下:

    * 混合效应模型:
    reg depvar varlist
    * 单向固定效应模型
    xtreg depvar varlist, fe
    * 双向固定效应模型
    xtreg depvar varlist i.year, fe
    * 随机效应模型
    xtreg depvar varlist, re
    

    3)Hausmans Test

    在实际生活中,常常需要对固定效应模型(fixed effect model)和随机效应模型(random effect model)进行选择,其标准为Huasman test。然而,对于不同的数据,Huasman test的形式是不相同的。

    不存在截面相关和自相关

    若原假设成立时,则FE与RE共同收敛于真实参数值,而且RE是更有效的。
    在原假设不成立时,FE估计是一致的,RE估计是有偏的。
    缺点,在异方差时,检验是失效的。

    xtreg depvar varlist, fe
    est store fe
    xtreg depvar varlist, re
    est store re
    hausman fe re, sigmamore
    

    不存在截面相关

    在异方差存在时,要使用聚类稳健标准误处理问题。
    为此我们需要构建辅助回归方程:
    y i t − θ ^ y i ˉ = ( x i t − θ ^ x i ˉ ) β + ( 1 − θ ^ ) z i ′ δ + ( x i t − x i ˉ ) γ + [ ( 1 − θ ^ ) μ i + ( ε i t − θ ^ ε i ) ˉ ] y_{it}-\hat {\theta} \bar{y_i} =(x_{it}-\hat {\theta} \bar{x_i}) \beta +(1-\hat{\theta})z^{'}_i\delta +(x_{it}-\bar{x_i})\gamma +[(1-\hat{\theta})\mu_i+(\varepsilon_{it}-\hat{\theta} \bar{\varepsilon_i)}] yitθ^yiˉ=(xitθ^xiˉ)β+(1θ^)ziδ+(xitxiˉ)γ+[(1θ^)μi+(εitθ^εi)ˉ]

    如果RE成立,则OLSE是一致的,即 p ( lim ⁡ n → ∞ γ ^ ) = γ = 0 p(\lim\limits_{n\to \infty}\hat{\gamma})=\gamma =0 p(nlimγ^)=γ=0
    如果FE成立,则 [ ( 1 − θ ^ ) μ i + ( ε i t − θ ^ ε i ) ˉ ] [(1-\hat{\theta})\mu_i+(\varepsilon_{it}-\hat{\theta} \bar{\varepsilon_i)}] [(1θ^)μi+(εitθ^εi)ˉ] ( x i t − θ ^ x i ˉ ) (x_{it}-\hat {\theta} \bar{x_i}) (xitθ^xiˉ)相关,OLSE估计时不一致的,即 p ( lim ⁡ n → ∞ γ ^ ) ≠ γ = 0 p(\lim\limits_{n\to \infty}\hat{\gamma})\neq \gamma =0 p(nlimγ^)=γ=0

    * huasman test2
    quietly xtreg depvar varlist year1-t, re
    scalar theta = e(theta)
    global yand depvar varlist year1-t
    sort id *按照id排序,对应xtset state year中的state
    * 这只是个循环,如果出错可以手动设置,不必太过纠结
    foreach x of varlist $yand{
    	by id: egen mean`x' = mean(`x')
    			gen md`x'=`x'-mean`x'
    			gen red`x'=`x'-theta*mean`x'
    			}
    drop mdy
    quietly regdepvar redvarlist mdvarlist, vce(cluster id) *可采用md*, 注意没有mdy
    test mdvarlist
    

    存在截面相关和自相关

    用xtscc命令代替reg命令即可,但是会降低参数估计的精度

    xtscc reddepvar redvarlist mdvarlist
    test mdvarlist
    

    如何将上面的结果合并到一起呢?请看下文

    结果输出

    * 存在截面相关和异方差
    xtreg depvar varlist, fe
    est store Dris_Kraay
    * 不存在截面相关
    xtreg dep varlist, fe robust
    est store White
    * 啥都没有
    xtreg dep varlist, fe cluster(i)
    est store Rogers
    
    * 制成表格
    esttab Dris_Kraay Rogers White, b(%9.2f) p mtitle (Dris_Kraay Rogers White)
    * 输出csv文件
    esttab Dris_Kraay Rogers White using tab.csv , b(%9.2f) p mtitle (Dris_Kraay Rogers White)
    

    三、长面板数据

    上面所讲的都是对于短面板数据而言的,现在让我们进入长面板数据。
    对于short panels,不可观测的个体效应和三大问题是十分重要的。而对于long panels,需要关注时间效应和个体效应。

    1)三大问题

    主要使用xtpcse, xtscc, xtgls进行估计

    Testlong panelsshort panels
    截面相关xttest2xtcsd
    自相关xtserialxtserial
    异方差xttest3xttest3
    * 需要先对year 使用tab year, gen(year)构造year1到yearn共n个变量。
    * 原假设是没有一阶自相关
    xtserial depvar varlist year1-yearn
    
    * 异方差
    xtreg depvar varlist year1-yearn, fe
    * or
    xtgls depvar varlist year1-yearn
    xttest3
    
    * 截面相关
    xtreg depvar varlist year1-yearn, fe
    xttest2
    

    2)三种估计

    xtpcse命令,应当注意每一个估计的精度都是不同的。

    * 三大问题都不考虑
    xtpcse depvar varlist, independent
    * 仅考虑异方差
    xtpcse depvar varlist, hetonly
    * 考虑异方差和截面相关
    xtpcse depvar varlist
    
    * 考虑自相关
    xtpcse depvar varlist, corr(ar1)
    xtpcse depvar varlist, corr(psar1)
    xtpcse depvar varlist, corr(ind)
    
    * 都考虑
    xtpcse depvar varlist, corr(ar1)
    

    xtgls命令

    * 不存在三大问题
    xtgls depvar varlist, panels(iid)
    * 仅考虑异方差
    xtgls depvar varlist, panels(heteroskedastic)
    * 考虑异方差和截面相关
    xtgls depvar varlist, panels(correlated)
    
    * 考虑自相关
    xtpcse depvar varlist, corr(ar1)
    xtpcse depvar varlist, corr(psar1)
    xtpcse depvar varlist, corr(ind)
    
    * 都考虑
    xtgls depvar varlist, panels(correlated) corr(ar1)
    

    四、内生性变量

    在实际生活中,被解释变量和解释变量常常是互为因果的。比如在计量经济学之中,国民消费支出和经济发展就是如此,经济发展会促进国民消费支出的提高,国民消费支出的提高反过来又促进了经济发展,这些除了被解释变量之外的变量称为内生性变量。
    因而,使用单一的模型进行估计常常会高估或者低估参数,是不可靠的。

    联立方程组

    单一的方程估计,容易忽略格方程之间的联系,因而出现了联立方程组一起进行估计。

    通过建立内生性变量的方程,考虑内生性变量和被解释变量之间复杂的因果关系,从而更好的估计模型的参数。但两阶段最小二乘估计(2SLS)是一致的,但不是最有效的,我们需要采用3SLS。

    这是对3SLS的一个解释:https://bbs.pinggu.org/thread-2504611-1-1.html
    第一,利用最小二乘法估计结构模型对应的简化模型,得到各内生变量的拟合值。第二,将结构方程右边的内生变量用第一步得到的拟合值代替,再用最小二乘法估计替代后的方程,得到结构参数的估计值,然后计算各方程的残差值,利用残差值求得误差项方差以及跨方差协方差的一致估计值。第三,把第二步得到的误差项方差协方差矩阵作为加权阵,应用广义最小二乘法估计得到三阶段最小二乘估计值 。

    * SUR
    xi:reg3 (depvar instrument varlist_one)(instrument varlist_two), sure
    
    * 手动设置内生性变量
    * 请注意varlist_two 和varlist_one中的变量不能完全相同
    * endog包含没有在方程中提及的外生性变量
    * exdog包含方程右侧的内生性变量,不知道这个选项调用为何错误。
    xi:reg3(depvar1 varlist_one)(depvar2 varlist_two), endog(varlist)
    

    工具变量

    真实的model:
    y ∗ = α + β x ∗ + ε C o v ( x ∗ , ε ) = 0 y^* = \alpha+\beta x^* + \varepsilon \quad Cov(x^*,\varepsilon) = 0 y=α+βx+εCov(x,ε)=0只能观测到 x = x ∗ + μ x=x^*+\mu x=x+μ, 得到模型 y ∗ = α + β x + ( ε − μ ) y^* = \alpha+\beta x + (\varepsilon-\mu) y=α+βx+(εμ),此时 C o v ( x , ( ε − μ ) ) ≠ 0 Cov(x, (\varepsilon-\mu)) \neq 0 Cov(x,(εμ))=0
    只能观测到 y = y ∗ + μ y=y^*+\mu y=y+μ, 得到模型 y ∗ = α + β x + ( ε + v ) y^* = \alpha+\beta x + (\varepsilon+v) y=α+βx+(ε+v),此时 C o v ( x , ( ε − v ) ) ≠ 0 Cov(x, (\varepsilon-v)) \neq 0 Cov(x,(εv))=0
    在这种情况下,OLSE都不是有效的,因而我们需要使用必要的工具变量(Instruments)。

    Instruments 的使用条件:
    1.核心解释变量与误差项相关
    2.工具变量与核心解释变量高度相关
    3.工具变量与误差项不相关

    两阶段最小二乘(2SLS)
    内 生 性 变 量 = f ( 工 具 变 量 , 外 生 性 变 量 ) + ε y = f ( 内 生 性 变 量 , 外 生 性 变 量 ) + ε 内生性变量 = f(工具变量,外生性变量)+\varepsilon \\ y = f(内生性变量, 外生性变量)+\varepsilon =f()+εy=f(,)+ε

    reg endog_var varlist1
    predict endog_var*
    red depvar endog_var* varlist2 
    

    IV估计

    Testlong panels
    C o v ( 核 心 解 释 变 量 , 误 差 项 ) ≠ 0 Cov(核心解释变量,误差项) \neq 0 Cov()=0OLSE不是一致估计量
    C o v ( 工 具 变 量 , 误 差 项 ) ≠ 0 C o v ( 核 心 解 释 变 量 , 工 具 变 量 ) = 0 Cov(工具变量,误差项) \neq0\\Cov(核心解释变量,工具变量) =0 Cov()=0Cov()=0IV是一致估计量
    C o v ( 核 心 解 释 变 量 , 工 具 变 量 ) ≠ 0 Cov(核心解释变量,工具变量) \neq0 Cov()=0IV不是一致估计量,存在渐进误差

    iv估计

    ivreg depvar (endog_evar = instrument) varlist, first
    
    ivreg2 depvar (endog_evar = instrument) varlist
    

    相关性检验

    弱工具变量不仅会影响估计的精度,还会使接下来的Hausman Test变得不再可靠,因此对其进行检验是十分有必要的。

    method one:
    内 生 性 变 量 = f ( 工 具 变 量 , 外 生 性 变 量 ) + ε 内生性变量 = f(工具变量,外生性变量)+\varepsilon =f()+ε

    reg reg endog_var varlist1
    * 查看方程的F值,大于10代表强相关
    

    method two:
    Stock-Yogo检验规则:弱识别检验的最小特征值 > Stock-Yogo的15% maximal IV size 的临界值

    . ivreg2 depvar (endog_evar = instrument) varlist
    reg reg endog_var varlist1
    Weak identification test (Cragg-Donald Wald F statistic):               86.008
    Stock-Yogo weak ID test critical values: 10% maximal IV size             16.38
                                             15% maximal IV size              8.96
                                             20% maximal IV size              6.66
                                             25% maximal IV size              5.53
    Source: Stock-Yogo (2005).  Reproduced by permission.
    

    method three:
    如果有更多的工具变量,则删除弱工具变量

    ivreg2 depvar (endog_evar = instrument) varlist, liml
    

    内生性检验

    假设存在内生性,做2SLS
    Hausman Test
    假设不存在内生性,做OLS
    ivreg depvar (endog_var = instrument) varlist
    * 此处可换成ivreg2, or xtivreg
    est store ivreg
    reg depvar endog_var varlist
    est store reg
    hausmna iv reg
    

    外生性检验

    检验外生性问题,需要先检验内生性问题,而且工具变量的数量要大于内生性变量。

    实例

    固定效应 VS 随机效应

    * 双向固定效应的两阶段最小二乘估计
    xtivreg depvar (endog_vars = instruments) varlist, fe
    est store FE2SLS
    
    * 随机效应的两阶段最小二乘估计
    * ec2sls
    xtivreg depvar (endog_vars = instruments) varlist, ec2sls
    est store EC2SLS
    
    hausman FE2SLS EC2SLS
    * 小于0.05,选择随机效应模型
    

    检验内生性问题

    * 随机效应的两阶段最小二乘估计
    xtivreg depvar (endog_vars = instruments) varlist, ec2sls
    est store EC2SLS
    
    * 随机效应的两阶段最小二乘估计
    xtreg depvar endog_vars varlist, re
    est store RE2SLS
    
    hausman EC2SLS RE2SLS, sigmamore
    * p值为1, 说明没有内生性问题
    在将ec2sls替换为re,看是否稳健
    xtivreg depvar (endog_vars = instruments) varlist, re
    est store re
    hausman re RE2SLS, sigmamore
    

    若选择FE,则观察三种估计的结果

    xtivreg depvar (endog_vars = instruments) varlist, fe first
    
    xtivreg depvar (endog_vars = instruments) varlist, fe endog(endog_vars)
    
    xtivreg depvar (endog_vars = instruments) varlist, fe endog(endog_vars) liml
    * 小于0.05,选择随机效应模型
    

    五、动态面板数据

    DIF-GMM

    一般说来,差分广义矩估计法(DIF-GMM)是对基本模型进行一阶差分来消除个体效应,但这有严重的内生性问题。
    这时,我们需要将滞后解释变量作为工具变量来消除内生性问题,而前提是解释变量是一阶自相关的,而且没有二阶自相关。

    前定变量:
    x i t x_{it} xit为前定变量,则其与 ε i t \varepsilon_{it} εit不相关,与 ε i , t − 1 \varepsilon_{i,t-1} εi,t1相关,可以使用 x i , t − 1 x_{i,t-1} xi,t1作为工具变量。
    x i t x_{it} xit为内生性变量,则 x i , t − 1 x_{i,t-1} xi,t1为前定变量, x i , t − 2 x_{i,t-2} xi,t2为外生性变量, 可以作为工具变量。

    几个例子

    model:
    y i t ∼ Δ y i t + Δ 2 y i t + x i t + Δ x i t + Δ 2 x i t + X + λ t y_{it} \sim \Delta y_{it} +\Delta^2 y_{it} + x_{it}+\Delta x_{it} +\Delta^2x_{it} + X+\lambda_t yitΔyit+Δ2yit+xit+Δxit+Δ2xit+X+λt

    xi:reg y l(1 2).y l(0 1 2).x varlist i.year
    

    LSDV估计:
    y i t ∼ Δ y i t + Δ 2 y i t + x i t + Δ x i t + Δ 2 x i t + X + μ i + λ t y_{it} \sim \Delta y_{it} +\Delta^2 y_{it} + x_{it}+\Delta x_{it} +\Delta^2x_{it} + X+\mu_i+\lambda_t yitΔyit+Δ2yit+xit+Δxit+Δ2xit+X+μi+λt

    xi:reg y l(1 2).y l(0 1 2).x varlist i.year
    

    DIF-GMM估计

    * gmm中为前定变量,iv中为外生性变量
    xtabond2 depvar l(0 2).depvar l(0 1 2).varlist1 varlist2, gmm(l.depvar) iv(l2.depvar l(0 1 2).varlist1 varlist2) nolevel robust small nomata
    * 加入参数two,则进行两阶段最小二乘估计
    

    SYS-GMM

    xtabond2 depvar l(0 2).depvar l(0 1 2).varlist1 varlist2, gmmstyle(l.depvar) ivstyle(l2.depvar l(0 1 2).varlist1 varlist2) nolevel robust small nomata
    * 加入参数two,则进行两阶段最小二乘估计
    

    BCFE

    BCFE适用于小样本高阶滞后项动态面板数据模型,能够解决一般化异方差与当期截面自相关,优于DIF-GMM和SYS-GMM,不适用于大样本情况下(T<kN)。

    xtvcfe depvar varlist [, options]
    
    options参数
    resampling 默认mcho, 考虑截面相关时使用csd
    bicires 自助采样,需要大于50
    infiters 推测bootstrap样本的数量
    

    六、面板门限模型

    单门限模型

    y i t = μ i + β 1 c i t I ( q i t ⩽ γ ) + β 2 c i t I ( q i t > γ ) + e i t y_{it} = \mu_{i} +\beta_1c_{it}I(q_{it}\leqslant \gamma) + \beta_2c_{it}I(q_{it}>\gamma)+e_{it} yit=μi+β1citI(qitγ)+β2citI(qit>γ)+eit

    xthreg depvar varlist, rx(c) qx(q) thnum(1) grid(300) trim(0.01) bs(300)
    * thnum 表示门阈个数
    * trim 上下各删减1%
    * bs自助抽样
    
    * 加入时间因素
    xi:xthreg depvar varlist i.year, rx(c) qx(q) thnum(1) grid(300) trim(0.01) bs(300)
    
    * 观察
    _matplot e(LR), columns(1 2) yline(7.35, lpattern(dash)) connect(direct) msize(small) mlabp(0) mlabs(zero) ytitle("LR Statistics") xtitle("Threshold") recast(line) name(LR) 
    

    双门限模型

    y i t = μ i + β 1 c i t I ( q i t ⩽ γ 1 ) + β 2 c i t I ( γ 1 < q i t ⩽ γ 2 ) + β 3 c i t I ( q i t > γ 2 ) + e i t y_{it} = \mu_{i} +\beta_1c_{it}I(q_{it}\leqslant\gamma_1) + \beta_2c_{it}I(\gamma_1<q_{it}\leqslant\gamma_2)+\beta_3c_{it}I(q_{it}>\gamma_2)+e_{it} yit=μi+β1citI(qitγ1)+β2citI(γ1<qitγ2)+β3citI(qit>γ2)+eit

    请注意必须先估计面板单门限模型

    xthreg depvar varlist, rx(c) qx(q) thnum(2) grid(300) trim(0.01 0.01) bs(300 300)
    

    七、双重差分模型(DID)

    groupBefore changeAfter change
    处理组 E ( Y t 1 ) E(Y_{t1}) E(Yt1) E ( Y t 2 ) E(Y_{t2}) E(Yt2)
    对照组 E ( Y c 1 ) E(Y_{c1}) E(Yc1) E ( Y c 2 ) E(Y_{c2}) E(Yc2)

    共同趋势假定:
    y i t = β 0 + β 1 t r e a t i + β 2 P t + β s t r e a t i × P t + ε i t y_{it} = \beta_0+\beta_1treat_i+\beta_2P_{t}+\beta_streat_i\times P_t+\varepsilon_{it} yit=β0+β1treati+β2Pt+βstreati×Pt+εit

    多组多期model:
    y i s t = β 1 D s t + β 2 X i s t + μ s + λ t + ε i t y_{ist} = \beta_1D_{st}+\beta_2X_{ist}+\mu_s + \lambda_t +\varepsilon_{it} yist=β1Dst+β2Xist+μs+λt+εit
    注意点:
    DID不仅能估计政策效应,还能够识别出固定效应与时间效应。
    DID反映政策冲击的即时效应,但有时政策有滞后效应,需要使用 l a g ( D s t ) lag(D_{st}) lag(Dst)
    DID需要共同趋势假定——安慰剂检验,若不能满足共同趋势假定,需要合成一个虚拟对照组。

    stata代码如下:

    diff depvar, var(treat) p(var)
    

    八、合成控制法

    donor pool 选择标准:
    同样受到此政策影响的地区,删除
    在样本期间受到很大特殊冲击,删除
    限定为与处理地区具有相似特征的控制地区
    干预前的时间观测要足够长

    安慰剂检验:
    从donor pool构建一个虚拟对照组,进行安慰剂检验。
    基本思想是,合成的对照组在干预前能够很好的预测处理组的结果,而在干预后两者较大。
    M S P E p r e = 1 T 0 ∑ t = 1 T ( y i t − ∑ j = 2 J + 1 w j ∗ y j t ) 2 MSPE_{pre} = \frac{1}{T_0} \sum_{t=1}^{T}(y_{it}- \sum_{j=2}^{J+1}w^*_jy_{jt})^2 MSPEpre=T01t=1T(yitj=2J+1wjyjt)2

    九、断点回归设计(EDD)

    可以将其看作面板门限模型的退化版本。
    L A T E = E ( y 1 t − y 0 t ∣ x = c ) = lim ⁡ x → c + E ( y i t ∣ x ) − lim ⁡ x → c − E ( y i t ∣ x ) D i = I ( x i ⩾ c ) LATE = E(y_{1t}-y_{0t}|x=c)=\lim_{x\to c^+}E(y_{it}|x)-\lim_{x\to c^-}E(y_{it}|x) \\ D_i = I(x_i \geqslant c) LATE=E(y1ty0tx=c)=xc+limE(yitx)xclimE(yitx)Di=I(xic)
    model:
    y i = α + β ( x i − c ) + τ D i + γ ( x i − c ) D i + ε i y_i=\alpha+\beta(x_i-c)+\tau D_i+\gamma(x_i-c)D_i+\varepsilon_i yi=α+β(xic)+τDi+γ(xic)Di+εi

    rdbobust *断点回归
    rdbselect *最优带宽
    rdbinselect *箱体
    
    rdrobust depvar var, c(var.mean) *采用平均值
    rdrobust depvar var, c(var.mean) bwselect(mserd)
    rdrobust depvar var, c(var.mean) bwselect(cerrd)
    
    展开全文
  • 动态面板数据模型及Eviews实现 Eviews常用面板回归模型案例实战 Eviews写入面板数据② Eviews写入面板数据① 模型介绍 动态面板数据模型,即面板数据模型的解释项 中纳入 被解释变量 的滞后项,以反映动态滞后效应。...
  • 面板数据stata.pdf

    2019-08-06 15:15:52
    使用stata软件进行面板数据logit模型的估计程序,含有详细的do文件。
  • 面板数据回归方法及案例
  • 云南省面板数据.xlsx

    2021-03-17 19:02:50
    云南省面板数据.xlsx
  • Eviews写入面板数据① Eviews写入面板数据① Eviews写入面板数据② Eviews写入面板数据② Eviews常用面板回归模型案例实战 Eviews常用面板回归模型案例实战

    Eviews写入面板数据①
    Eviews写入面板数据①

    Eviews写入面板数据②
    Eviews写入面板数据②

    Eviews常用面板回归模型案例实战
    Eviews常用面板回归模型案例实战

    展开全文
  • 对于面板数据,首先将面板数据投射为时间维度离散曲线和指标维度离散曲线;然后,基于离散曲率思想分别从时间维度和指标维度构建时间维度和指标维度关联系数公式,并以此构建面板数据灰色曲率关联模型,新的模型具有规范...
  • 面板数据回归分析.ppt

    2021-09-15 20:23:16
    面板数据回归分析.ppt
  • 面板数据模型经典-PPT.ppt
  • 面板数据模型

    2013-03-11 17:37:50
    面板数据模型操作指南, 张晓桐的精美作品,希望对大家有用
  • 面板数据聚类分析MATLAB代码
  • 随机效应与固定效应&面板数据回归

    万次阅读 多人点赞 2014-11-13 21:07:45
    单位根检验方法的文献综述:在非平稳的面板数据渐进过程中,Levin andLin(1993) 很早就发现这些估计量的极限分布是高斯分布,这些结果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。...

    转载自:http://cjx06xj03.blog.163.com/blog/static/114987428201281610274587/

    随机效应与固定效应

    方差分析主要有三种模型:即固定效应模型(fixed effects model),随机效应模型(random effects model),混合效应模型(mixed effects model)。

    所谓的固定、随机、混合,主要是针对分组变量而言的。

    固定效应模型,表示你打算比较的就是你现在选中的这几组。例如,我想比较3种药物的疗效,我的目的就是为了比较这三种药的差别,不想往外推广。这三种药不是从很多种药中抽样出来的,不想推广到其他的药物,结论仅限于这三种药。“固定”的含义正在于此,这三种药是固定的,不是随机选择的。

    随机效应模型,表示你打算比较的不仅是你的设计中的这几组,而是想通过对这几组的比较,推广到他们所能代表的总体中去。例如,你想知道是否名牌大学的就业率高于普通大学,你选择了北大、清华、北京工商大学、北京科技大学4所学校进行比较,你的目的不是为了比较这4所学校之间的就业率差异,而是为了说明他们所代表的名牌和普通大学之间的差异。你的结论不会仅限于这4所大学,而是要推广到名牌和普通这样的一个更广泛的范围。“随机”的含义就在于此,这4所学校是从名牌和普通大学中随机挑选出来的。

     

     

     

    混合效应模型就比较好理解了,就是既有固定的因素,也有随机的因素。

    一般来说,只有固定效应模型,才有必要进行两两比较,随机效应模型没有必要进行两两比较,因为研究的目的不是为了比较随机选中的这些组别。

     

    固定效应和随机效应的选择是大家做面板数据常常要遇到的问题,一个常见的方法是做huasman检验,即先估计一个随机效应,然后做检验,如果拒绝零假设,则可以使用固定效应,反之如果接受零假设,则使用随机效应。但这种方法往往得到事与愿违的结果。另一个想法是在建立模型前根据数据性质确定使用那种模型,比如数据是从总体中抽样得到的,则可以使用随机效应,比如从N个家庭中抽出了M个样本,则由于存在随机抽样,则建议使用随机效应,反之如果数据是总体数据,比如31个省市的Gdp,则不存在随机抽样问题,可以使用固定效应。同时,从估计自由度角度看,由于固定效应模型要估计每个截面的参数,因此随机效应比固定效应有较大的自由度.

     


    固定效应模型
      固定效应模型(fixed effects model)的应用前提是假定全部研究结果的方向与效应大小基本相同,即各独立研究的结果趋于一致,一致性检验差异无显著性。因此固定效应模型适用于各独立研究间无差异,或差异较小的研究。 
      固定效应模型是指实验结果只想比较每一自变项之特定类目或类别间的差异及其与其他自变项之特定类目或类别间交互作用效果,而不想依此推论到同一自变项未包含在内的其他类目或类别的实验设计。例如:研究者想知道教师的认知类型在不同教学方法情境中,对儿童学习数学的效果有何不同,其中教师和学生的认知类型,均指场地依赖型和场地独立型,而不同的教学方法,则指启发式、讲演式、编序式。当实验结束时,研究者仅就两种类型间的交互作用效果及类型间的差异进行说明,而未推论到其他认知类型,或第四种教学方法。象此种实验研究模式,即称为固定效果模式。与本词相对者是随机效应模型(random effect model)、混合效应模型(mixed effect model)。

    随机效应模型 random effects models
      随机效应模型(random effects models)是经典的线性模型的一种推广,就是把原来(固定)的回归系数看作是随机变量,一般都是假设是来自正态分布。如果模型里一部分系数是随机的,另外一些是固定的,一般就叫做混合模型(mixed models)。 
      虽然定义很简单,对线性混合模型的研究与应用也已经比较成熟了,但是如果从不同的侧面来看,可以把很多的统计思想方法综合联系起来。概括地来说,这个模型是频率派和贝叶斯模型的结合,是经典的参数统计到高维数据分析的先驱,是拟合具有一定相关结构的观测的典型工具。 
      随机效应最直观的用处就是把固定效应推广到随机效应。注意,这时随机效应是一个群体概念,代表了一个分布的信息 or 特征,而对固定效应而言,我们所做的推断仅限于那几个固定的(未知的)参数。例如,如果要研究一些水稻的品种是否与产量有影响,如果用于分析的品种是从一个很大的品种集合里随机选取的,那么这时用随机效应模型分析就可以推断所有品种构成的整体的一些信息。这里,就体现了经典的频率派的思想-任何样本都来源于一个无限的群体(population)。 
      同时,引入随机效应就可以使个体观测之间就有一定的相关性,所以就可以用来拟合非独立观测的数据。经典的就有重复观测的数据,多时间点的记录等等,很多时候就叫做纵向数据(longitudinal data),已经成为很大的一个统计分支。 
      上述两点基本上属于频率派,分析的工具也很经典,像极大似然估计,似然比检验,大样本的渐近性等。但是,应该注意到把固定的参数看做是随机变量,可是贝叶斯学派的观念。当然,mixed models 不能算是完全的贝叶斯模型,因为贝叶斯学派要把所有的未知的参数都看作是随机的。所以有人把它看做是半贝叶斯的 or 经验贝叶斯的。在这个模型上,我们可以看到两个学派很好的共存与交流,在现代的统计方法里两种学派互相结合的例子也越来越多。 
      众所周知,随机效应有压缩(shrinkage)的功能, 而且可以使模型的自由度(df) 变小。这个简单的结果,对现在的高维数据分析的发展起到了至关重要的作用。事实上,随机效应模型就是一个带惩罚(penalty)的一个线性模型,有引入正态随机效应就等价于增加的一个二次惩罚。有趣的是,著名的岭回归(ridge regression) 就是一个二次惩罚,它的提出解决了当设计矩阵不满秩时最小二乘估计(LSE)无法计算以及提高了预测能力。于是,引入随机效应或者二次惩罚就可以处理当参数个数p 大于观测个数n的情形,这是在分析高维数据时必须面对的问题。当然,二次惩罚还有一个特性,如:计算简便,能选择相关的predictors,对前面的几个主成分压缩程度较小等。




    根据面板数据的特性,在回归模型的设定的有效性问题上,我们需要检验混合估计模型、固定效应模型(Fixed-Effect Model)以及随机效应模型(Random-Effect Model)的有效性[1],其中固定效应又包括个体固定效应和时间固定效应(如果同时具备个体固定效应和时间固定效应,则称之为双向固定效应)。对于混合估计模型和固定效应模型,我们可以使用F检验来判别其有效性;对于混合估计模型和随机效应模型,通常可以用LM检验判别其有效性;对于固定效应模型和随机效应模型,通常用Hausman检验判断其适用性。有关模型设定和检验的细节可以参考Baltagi(2005)
    所以,你需要分别检验是否加入时间固定效应、是否需要加入个体固定效应。
    [1] 简言之,混合估计模型就是假定所有公司年度都具有相同的截距项;固定效应模型假定截距项随公司和年度而变;随机效应模型不但假定截距项随公司和年度而变,而且假定这些不同的截距项和其它解释变量不相关。更为具体的模型设定问题可以参见李子奈、叶阿忠(2000),Wooldridge(2003),以及Baltagi(2005)。



    面板数据分析方法步骤

     

    步骤一:分析数据的平稳性(单位根检验)

     

    按照正规程序,面板数据模型在回归前需检验数据的平稳性。李子奈曾指出,一些非平稳的经济时间序列往往表现出共同的变化趋势,而这些序列间本身不一定有直接的关联,此时,对这些数据进行回归,尽管有较高的R平方,但其结果是没有任何实际意义的。这种情况称为称为虚假回归或伪回归(spurious regression)。他认为平稳的真正含义是:一个时间序列剔除了不变的均值(可视为截距)和时间趋势以后,剩余的序列为零均值,同方差,即白噪声。因此单位根检验时有三种检验模式:既有趋势又有截距、只有截距、以上都无。

    因此为了避免伪回归,确保估计结果的有效性,我们必须对各面板序列的平稳性进行检验。而检验数据平稳性最常用的办法就是单位根检验。首先,我们可以先对面板序列绘制时序图,以粗略观测时序图中由各个观测值描出代表变量的折线是否含有趋势项和(或)截距项,从而为进一步的单位根检验的检验模式做准备。

    单位根检验方法的文献综述:在非平稳的面板数据渐进过程中,Levin andLin(1993) 很早就发现这些估计量的极限分布是高斯分布,这些结果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。后来经过Levin et al. (2002)的改进,提出了检验面板单位根的LLC 法。Levin et al. (2002) 指出,该方法允许不同截距和时间趋势,异方差和高阶序列相关,适合于中等维度(时间序列介于25~250 之间,截面数介于10~250 之间) 的面板单位根检验。Im et al. (1997) 还提出了检验面板单位根的IPS 法,但Breitung(2000) 发现IPS 法对限定性趋势的设定极为敏感,并提出了面板单位根检验的Breitung 法。Maddala and Wu(1999)又提出了ADF-Fisher和PP-Fisher面板单位根检验方法。

    由上述综述可知,可以使用LLC、IPS、Breintung、ADF-Fisher 和PP-Fisher5种方法进行面板单位根检验。

    其中LLC-T 、BR-T、IPS-W 、ADF-FCS、PP-FCS 、H-Z 分别指Levin, Lin & Chu t* 统计量、Breitung t 统计量、lm Pesaran & Shin W 统计量、ADF- Fisher Chi-square统计量、PP-Fisher Chi-square统计量、Hadri Z统计量,并且Levin, Lin & Chu t* 统计量、Breitung t统计量的原假设为存在普通的单位根过程,lm Pesaran & Shin W 统计量、ADF- Fisher Chi-square统计量、PP-Fisher Chi-square统计量的原假设为存在有效的单位根过程, Hadri Z统计量的检验原假设为不存在普通的单位根过程。

    有时,为了方便,只采用两种面板数据单位根检验方法,即相同根单位根检验LLC(Levin-Lin-Chu)检验和不同根单位根检验 Fisher-ADF检验(注:对普通序列(非面板序列)的单位根检验方法则常用ADF检验),如果在两种检验中均拒绝存在单位根的原假设则我们说此序列是平稳的,反之则不平稳。

    如果我们以T(trend)代表序列含趋势项,以I(intercept)代表序列含截距项,T&I代表两项都含,N(none)代表两项都不含,那么我们可以基于前面时序图得出的结论,在单位根检验中选择相应检验模式。

    但基于时序图得出的结论毕竟是粗略的,严格来说,那些检验结构均需一一检验。具体操作可以参照李子奈的说法:ADF检验是通过三个模型来完成,首先从含有截距和趋势项的模型开始,再检验只含截距项的模型,最后检验二者都不含的模型。并且认为,只有三个模型的检验结果都不能拒绝原假设时,我们才认为时间序列是非平稳的,而只要其中有一个模型的检验结果拒绝了零假设,就可认为时间序列是平稳的。

    此外,单位根检验一般是先从水平(level)序列开始检验起,如果存在单位根,则对该序列进行一阶差分后继续检验,若仍存在单位根,则进行二阶甚至高阶差分后检验,直至序列平稳为止。我们记I(0)为零阶单整,I(1)为一阶单整,依次类推,I(N)为N阶单整。

     

    步骤二:协整检验或模型修正

    情况一:如果基于单位根检验的结果发现变量之间是同阶单整的,那么我们可以进行协整检验。协整检验是考察变量间长期均衡关系的方法。所谓的协整是指若两个或多个非平稳的变量序列,其某个线性组合后的序列呈平稳性。此时我们称这些变量序列间有协整关系存在。因此协整的要求或前提是同阶单整。

    但也有如下的宽限说法:如果变量个数多于两个,即解释变量个数多于一个,被解释变量的单整阶数不能高于任何一个解释变量的单整阶数。另当解释变量的单整阶数高于被解释变量的单整阶数时,则必须至少有两个解释变量的单整阶数高于被解释变量的单整阶数。如果只含有两个解释变量,则两个变量的单整阶数应该相同。

    也就是说,单整阶数不同的两个或以上的非平稳序列如果一起进行协整检验,必然有某些低阶单整的,即波动相对高阶序列的波动甚微弱(有可能波动幅度也不同)的序列,对协整结果的影响不大,因此包不包含的重要性不大。而相对处于最高阶序列,由于其波动较大,对回归残差的平稳性带来极大的影响,所以如果协整是包含有某些高阶单整序列的话(但如果所有变量都是阶数相同的高阶,此时也被称作同阶单整,这样的话另当别论),一定不能将其纳入协整检验。

    协整检验方法的文献综述:(1)Kao(1999)、Kao and Chiang(2000)利用推广的DF和ADF检验提出了检验面板协整的方法,这种方法零假设是没有协整关系,并且利用静态面板回归的残差来构建统计量。(2)Pedron(1999)在零假设是在动态多元面板回归中没有协整关系的条件下给出了七种基于残差的面板协整检验方法。和Kao的方法不同的是,Pedroni的检验方法允许异质面板的存在。(3)Larsson et al(2001)发展了基于Johansen(1995)向量自回归的似然检验的面板协整检验方法,这种检验的方法是检验变量存在共同的协整的秩。

    我们主要采用的是Pedroni、Kao、Johansen的方法。

    通过了协整检验,说明变量之间存在着长期稳定的均衡关系,其方程回归残差是平稳的。因此可以在此基础上直接对原方程进行回归,此时的回归结果是较精确的。
    这时,我们或许还想进一步对面板数据做格兰杰因果检验(因果检验的前提是变量协整)。但如果变量之间不是协整(即非同阶单整)的话,是不能进行格兰杰因果检验的,不过此时可以先对数据进行处理。引用张晓峒的原话,“如果y和x不同阶,不能做格兰杰因果检验,但可通过差分序列或其他处理得到同阶单整序列,并且要看它们此时有无经济意义。”

    下面简要介绍一下因果检验的含义:这里的因果关系是从统计角度而言的,即是通过概率或者分布函数的角度体现出来的:在所有其它事件的发生情况固定不变的条件下,如果一个事件X的发生与不发生对于另一个事件Y的发生的概率(如果通过事件定义了随机变量那么也可以说分布函数)有影响,并且这两个事件在时间上又有先后顺序(A前B后),那么我们便可以说X是Y的原因。考虑最简单的形式,Granger检验是运用F-统计量来检验X的滞后值是否显著影响 Y(在统计的意义下,且已经综合考虑了Y的滞后值;如果影响不显著,那么称X不是Y的“Granger原因”(Granger cause);如果影响显著,那么称X是Y的“Granger原因”。同样,这也可以用于检验Y是X的“原因”,检验Y的滞后值是否影响X(已经考虑了X 的滞后对X自身的影响)。

    Eviews好像没有在POOL窗口中提供Granger causality test,而只有unit root test和cointegration test。说明Eviews是无法对面板数据序列做格兰杰检验的,格兰杰检验只能针对序列组做。也就是说格兰杰因果检验在Eviews中是针对普通的序列对(pairwise)而言的。你如果想对面板数据中的某些合成序列做因果检验的话,不妨先导出相关序列到一个组中(POOL窗口中的Proc/Make Group),再来试试。

    情况二:如果如果基于单位根检验的结果发现变量之间是非同阶单整的,即面板数据中有些序列平稳而有些序列不平稳,此时不能进行协整检验与直接对原序列进行回归。但此时也不要着急,我们可以在保持变量经济意义的前提下,对我们前面提出的模型进行修正,以消除数据不平稳对回归造成的不利影响。如差分某些序列,将基于时间频度的绝对数据变成时间频度下的变动数据或增长率数据。此时的研究转向新的模型,但要保证模型具有经济意义。因此一般不要对原序列进行二阶差分,因为对变动数据或增长率数据再进行差分,我们不好对其冠以经济解释。难道你称其为变动率的变动率?

     

    步骤三:面板模型的选择与回归

    面板数据模型的选择通常有三种形式:

    一种是混合估计模型(Pooled Regression Model)。如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数。一种是固定效应模型(Fixed Effects Regression Model)。如果对于不同的截面或不同的时间序列,模型的截距不同,则可以采用在模型中添加虚拟变量的方法估计回归参数。一种是随机效应模型(Random Effects Regression Model)。如果固定效应模型中的截距项包括了截面随机误差项和时间随机误差项的平均效应,并且这两个随机误差项都服从正态分布,则固定效应模型就变成了随机效应模型。

    在面板数据模型形式的选择方法上,我们经常采用F检验决定选用混合模型还是固定效应模型,然后用Hausman检验确定应该建立随机效应模型还是固定效应模型。

    检验完毕后,我们也就知道该选用哪种模型了,然后我们就开始回归:

    在回归的时候,权数可以选择按截面加权(cross-section weights)的方式,对于横截面个数大于时序个数的情况更应如此,表示允许不同的截面存在异方差现象。估计方法采用PCSE(Panel Corrected Standard Errors,面板校正标准误)方法。Beck和Katz(1995)引入的PCSE估计方法是面板数据模型估计方法的一个创新,可以有效的处理复杂的面板误差结构,如同步相关,异方差,序列相关等,在样本量不够大时尤为有用。



    原文:http://hi.baidu.com/acleo/blog/item/e80684bf6a5bad0318d81f25.html



     

     

    固定效应模型分为三种:个体固定效应模型、时刻固定效应模型和个体时刻固定效应模型)。如果我们是对个体固定,则应选择个体固定效用模型。但是,我们还需作个体固定效应模型和混合估计模型的选择。所以,就要作F值检验。
    相对于混合估计模型来说,是否有必要建立个体固定效应模型可以通过F检验来完成。
    H0:对于不同横截面模型截距项相同(建立混合估计模型)。SSEr
    H1:对于不同横截面模型的截距项不同(建立时刻固定效应模型)。SSEu
    F统计量定义为:

     

    F=[( SSEr - SSEu)/(T+k-2)]/[ SSEu/(NT-T-k)]

    其中,SSEr,SSEu分别表示约束模型(混合估计模型的)和非约束模型(个体固定效应模型的)的残差平方和(Sum squared resid)。非约束模型比约束模型多了T–1个被估参数。需要指出的是:当模型中含有k个解释变量时,F统计量的分母自由度是NT-T- k。通过对F统计量我们将可选择准确、最佳的估计模型。
    在作回归时也是四步:

    第一步,先作混合效应模型: 在cross-section 一栏选择None ,Period也是None;Weights是cross-section Weights,然后把回归结果的Sum squared resid值复制出来,就是SSEr
    第二步:作个体固定效用模型:在cross-section 一栏选择Fixed ,Period也是None;Weights是cross-section Weights,然后把回归结果的Sum squared resid值复制出来,就是SSEu
    第三步:根据公式F=[( SSEr - SSEu)/(T+k-2)]/[ SSEu/(NT-T-k)]。计算出结果。其中,T为年数,不管我们的数据是unbalance还是balance看observations就行了,也即Total pool (balanced) observations:的值,但是如果是balance我们也可以计算,也即是每一年的企业数的总和。比如说我们研究10年,每一年又500加企业,则NT=10×500=5000。K为解释变量,不含被解释变量。
    第四步,根据计算出来的结果查F值分布表。看是否通过检验。检验准则:当F> Fα(T-1, NT-T-k) , α=0.01,0.05或0.1时,拒绝原假设,则结论是应该建立个体固定效应模型,反之,接受原假设,则不能建立个体固定效应模型。

     

     

     


            面板数据确定采用固定效应还是随机效应需要做hausman test(豪斯曼检验)。过程是,先对面板数据做随机性检验,在结果窗口的PROC菜单下选择hausman test就可以了,检验的原假设是应该采用随机效应,备则假设是固定效应。 
           豪斯曼检验是确定常数项的固定或者随机效应的。F检验是判断方程是混合方程、变截距方程还是变系数方程,需要求解三个方程的残差平方和。两个是不同的问题。 
             具体方法是:用EVIEWS先对回归方程做混合模型求解,在结果中有一项Sum squared resid(在结果的下面,R平方值的旁边),这个就是残差平方和,这个值就是S3;然后在用变截距模型求解,得出S3,最后是变系数模型,得出S1。有了这三个值,F值自己手算就可以了。 


    面板数据模型(PANEL DATA)F检验,固定效应检验
    1.面板数据定义。

    时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据。面板数据(panel data)也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。面板数据是同时在时间和截面空间上取得的二维数据。面板数据示意图见图1。面板数据从横截面(cross section)上看,是由若干个体(entity, unit, individual)在某一时刻构成的截面观测值,从纵剖面(longitudinal section)上看是一个时间序列。

    面板数据用双下标变量表示。例如

    yi t, i = 1, 2, …, N; t = 1, 2, …, T

    N表示面板数据中含有N个个体。T表示时间序列的最大长度。若固定t不变,yi ., ( i = 1, 2, …, N)是横截面上的N个随机变量;若固定i不变,y. t, (t = 1, 2, …, T)是纵剖面上的一个时间序列(个体)。

     

    图1 N=7,T=50的面板数据示意图

     

    例如1990-2000年30个省份的农业总产值数据。固定在某一年份上,它是由30个农业总产总值数字组成的截面数据;固定在某一省份上,它是由11年农业总产值数据组成的一个时间序列。面板数据由30个个体组成。共有330个观测值。

    对于面板数据yi t, i = 1, 2, …, N; t = 1, 2, …, T来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data)。若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data)。

    注意:EViwes 3.1、4.1、5.0既允许用平衡面板数据也允许用非平衡面板数据估计模型。

    例1(file:panel02):1996-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费(不变价格)和人均收入数据见表1和表2。数据是7年的,每一年都有15个数据,共105组观测值。

    人均消费和收入两个面板数据都是平衡面板数据,各有15个个体。人均消费和收入的面板数据从纵剖面观察分别见图2和图3。从横截面观察分别见图4和图5。横截面数据散点图的表现与观测值顺序有关。图4和图5中人均消费和收入观测值顺序是按地区名的汉语拼音字母顺序排序的。

    表1 1999-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费数据(不变价格)

     

    地区人均消费

    1996

    1997

    1998

    1999

    2000

    2001

    2002

    CP-AH(安徽)

    3282.466

    3646.150

    3777.410

    3989.581

    4203.555

    4495.174

    4784.364

    CP-BJ(北京)

    5133.978

    6203.048

    6807.451

    7453.757

    8206.271

    8654.433

    10473.12

    CP-FJ(福建)

    4011.775

    4853.441

    5197.041

    5314.521

    5522.762

    6094.336

    6665.005

    CP-HB(河北)

    3197.339

    3868.319

    3896.778

    4104.281

    4361.555

    4457.463

    5120.485

    CP-HLJ(黑龙江)

    2904.687

    3077.989

    3289.990

    3596.839

    3890.580

    4159.087

    4493.535

    CP-JL(吉林)

    2833.321

    3286.432

    3477.560

    3736.408

    4077.961

    4281.560

    4998.874

    CP-JS(江苏)

    3712.260

    4457.788

    4918.944

    5076.910

    5317.862

    5488.829

    6091.331

    CP-JX(江西)

    2714.124

    3136.873

    3234.465

    3531.775

    3612.722

    3914.080

    4544.775

    CP-LN(辽宁)

    3237.275

    3608.060

    3918.167

    4046.582

    4360.420

    4654.420

    5402.063

    CP-NMG(内蒙古)

    2572.342

    2901.722

    3127.633

    3475.942

    3877.345

    4170.596

    4850.180

    CP-SD(山东)

    3440.684

    3930.574

    4168.974

    4546.878

    5011.976

    5159.538

    5635.770

    CP-SH(上海)

    6193.333

    6634.183

    6866.410

    8125.803

    8651.893

    9336.100

    10411.94

    CP-SX(山西)

    2813.336

    3131.629

    3314.097

    3507.008

    3793.908

    4131.273

    4787.561

    CP-TJ(天津)

    4293.220

    5047.672

    5498.503

    5916.613

    6145.622

    6904.368

    7220.843

    CP-ZJ(浙江)

    5342.234

    6002.082

    6236.640

    6600.749

    6950.713

    7968.327

    8792.210

     

     

    资料来源:《中国统计年鉴》1997-2003。

     

    表2 1999-2002年中国东北、华北、华东15个省级地区的居民家庭人均收入数据(不变价格)

     

    地区人均收入

    1996

    1997

    1998

    1999

    2000

    2001

    2002

    IP-AH(安徽)

    4106.251

    4540.247

    4770.470

    5178.528

    5256.753

    5640.597

    6093.333

    IP-BJ(北京)

    6569.901

    7419.905

    8273.418

    9127.992

    9999.700

    11229.66

    12692.38

    IP-FJ(福建)

    4884.731

    6040.944

    6505.145

    6922.109

    7279.393

    8422.573

    9235.538

    IP-HB(河北)

    4148.282

    4790.986

    5167.317

    5468.940

    5678.195

    5955.045

    6747.152

    IP-HLJ(黑龙江)

    3518.497

    3918.314

    4251.494

    4747.045

    4997.843

    5382.808

    6143.565

    IP-JL(吉林)

    3549.935

    4041.061

    4240.565

    4571.439

    4878.296

    5271.925

    6291.618

    IP-JS(江苏)

    4744.547

    5668.830

    6054.175

    6624.316

    6793.437

    7316.567

    8243.589

    IP-JX(江西)

    3487.269

    3991.490

    4209.327

    4787.606

    5088.315

    5533.688

    6329.311

    IP-LN(辽宁)

    3899.194

    4382.250

    4649.789

    4968.164

    5363.153

    5797.010

    6597.088

    IP-NMG(内蒙古)

    3189.414

    3774.804

    4383.706

    4780.090

    5063.228

    5502.873

    6038.922

    IP-SD(山东)

    4461.934

    5049.407

    5412.555

    5849.909

    6477.016

    6975.521

    7668.036

    IP-SH(上海)

    7489.451

    8209.037

    8773.100

    10770.09

    11432.20

    12883.46

    13183.88

    IP-SX(山西)

    3431.594

    3869.952

    4156.927

    4360.050

    4546.785

    5401.854

    6335.732

    IP-TJ(天津)

    5474.963

    6409.690

    7146.271

    7734.914

    8173.193

    8852.470

    9375.060

    IP-ZJ(浙江)

    6446.515

    7158.288

    7860.341

    8530.314

    9187.287

    10485.64

    11822.00

     

     

    资料来源:《中国统计年鉴》1997-2003。

     

     

    图2 15个省级地区的人均消费序列(纵剖面) 图3 15个省级地区的人均收入序列(file:4panel02)

     

    图4 15个省级地区的人均消费散点图 图5 15个省级地区的人均收入散点图(7个横截面叠加)

    (每条连线表示同一年度15个地区的消费值) (每条连线表示同一年度15个地区的收入值)

     

    用CP表示消费,IP表示收入。AH, BJ, FJ, HB, HLJ, JL, JS, JX, LN, NMG, SD, SH, SX, TJ, ZJ分别表示安徽省、北京市、福建省、河北省、黑龙江省、吉林省、江苏省、江西省、辽宁省、内蒙古自治区、山东省、上海市、山西省、天津市、浙江省。

    15个地区7年人均消费对收入的面板数据散点图见图6和图7。图6中每一种符号代表一个省级地区的7个观测点组成的时间序列。相当于观察15个时间序列。图7中每一种符号代表一个年度的截面散点图(共7个截面)。相当于观察7个截面散点图的叠加。

     

    图6 用15个时间序列表示的人均消费对收入的面板数据

     

    图7 用7个截面表示的人均消费对收入的面板数据(7个截面叠加)

     

    为了观察得更清楚一些,图8给出北京和内蒙古1996-2002年消费对收入散点图。从图中可以看出,无论是从收入还是从消费看内蒙古的水平都低于北京市。内蒙古2002年的收入与消费规模还不如北京市1996年的大。图9给出该15个省级地区1996和2002年的消费对收入散点图。可见6年之后15个地区的消费和收入都有了相应的提高。

     

    图8 北京和内蒙古1996-2002年消费对收入时序图 图9 1996和2002年15个地区的消费对收入散点图

     

    2.面板数据的估计。

    用面板数据建立的模型通常有3种。即混合估计模型、固定效应模型和随机效应模型。

    2.1 混合估计模型。

    如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数。

    如果从时间和截面看模型截距都不为零,且是一个相同的常数,以二变量模型为例,则建立如下模型,

    yit = a +b1 xit +eit, i = 1, 2, …, N; t = 1, 2, …, T (1)

    a 和b1不随i,t变化。称模型(1)为混合估计模型。

    以例1中15个地区1996和2002年数据建立关于消费的混合估计模型,得结果如下:

     

    图10

    EViwes估计方法:在打开工作文件窗口的基础上,点击主功能菜单中的Objects键,选New Object功能,从而打开New Object(新对象)选择窗。在Type of Object选择区选择Pool(混合数据库),点击OK键,从而打开Pool(混合数据)窗口。在窗口中输入15个地区标识AH(安徽)、BJ(北京)、…、ZJ(浙江)。工具栏中点击Sheet键,从而打开Series List(列写序列名)窗口,定义变量CP?和IP?,点击OK键,Pool(混合或合并数据库)窗口显示面板数据。在Pool窗口的工具栏中点击Estimate键,打开Pooled Estimation(混合估计)窗口如下图。

     

    图11

    在Dependent Variable(相依变量)选择窗填入CP?;在Common coefficients(系数相同)选择窗填入IP?;Cross section specific coefficients(截面系数不同)选择窗保持空白;在Intercept(截距项)选择窗点击Common;在Weighting(权数)选择窗点击No weighting。点击Pooled Estimation(混合估计)窗口中的OK键。得输出结果如图10。相应表达式是

    = 129.6313 +0.7587 IPit

    (2.0) (79.7) R2 = 0.98, SSEr = 4824588, t0.05 (103) = 1.99

    15个省级地区的人均支出平均占收入的76%。

    如果从时间和截面上看模型截距都为零,就可以建立不含截距项的(a = 0)的混合估计模型。以二变量模型为例,建立混合估计模型如下,

    yit = b1 xit +eit, i = 1, 2, …, N; t = 1, 2, …, T (2)

    对于本例,因为上式中的截距项有显著性(t = 2.0 > t0.05 (103) = 1.99),所以建立截距项为零的混合估计模型是不合适的。

    EViwes估计方法:在Pooled Estimation(混合估计)对话框中Intercept(截距项)选择窗中选None,其余选项同上。

    2.2 固定效应模型。

    在面板数据散点图中,如果对于不同的截面或不同的时间序列,模型的截距是不同的,则可以采用在模型中加虚拟变量的方法估计回归参数,称此种模型为固定效应模型(fixed effects regression model)。

    固定效应模型分为3种类型,即个体固定效应模型(entity fixed effects regressionmodel)、时刻固定效应模型(time fixed effects regression model)和时刻个体固定效应模型(time and entity fixed effects regression model)。下面分别介绍。

    (1)个体固定效应模型。

    个体固定效应模型就是对于不同的个体有不同截距的模型。如果对于不同的时间序列(个体)截距是不同的,但是对于不同的横截面,模型的截距没有显著性变化,那么就应该建立个体固定效应模型,表示如下,

    yit = b1 xit +g1 W1 + g2 W2 + … +g N WN +eit, t = 1, 2, …, T (3)

    其中

    Wi =

    eit, i = 1, 2, …, N; t = 1, 2, …, T,表示随机误差项。yit, xit, i = 1, 2, …, N; t = 1, 2, …, T分别表示被解释变量和解释变量。

    模型(3)或者表示为

    y1t = g1 +b1 x1t +e1t, i = 1(对于第1个个体,或时间序列),t = 1, 2, …, T

    y2t = g2 +b1 x2t +e2 t, i = 2(对于第2个个体,或时间序列),t = 1, 2, …, T

    yN t = gN +b1 xN t +e N t, i = N(对于第N个个体,或时间序列),t = 1, 2, …, T

    写成矩阵形式,

    y1 = (1 x1) +e1 = g1 + x1 b +e1

    yN = (1 xN) +eN = gN + xN b +eN

    上式中yi,gi,ei,xi都是N?1阶列向量。b为标量。当模型中含有k个解释变量时,b为k?1阶列向量。进一步写成矩阵形式,

    = + b +

    上式中的元素1,0都是T?1阶列向量。

    面板数据模型用OLS方法估计时应满足如下5个假定条件:

    (1)E(eit|xi1, xi2, …, xiT, ai) = 0。以xi1, xi2, …, xiT, ai为条件的eit的期望等于零。

    (2)(xi1, xi2, …, xiT), ( yi1, yi2, …, yiT), i = 1, 2, …, N分别来自于同一个联合分布总体,并相互独立。

    (3)(xit, eit)具有非零的有限值4阶矩。

    (4)解释变量之间不存在完全共线性。

    (5)Cov(eit eis|xit,xis, ai) = 0, t ? s。在固定效应模型中随机误差项eit在时间上是非自相关的。其中xit代表一个或多个解释变量。

    对模型(1)进行OLS估计,全部参数估计量都是无偏的和一致的。模型的自由度是N T –1–N。

    当模型含有k个解释变量,且N很大,相对较小时,因为模型中含有k + N个被估参数,一般软件执行OLS运算很困难。在计量经济学软件中是采用一种特殊处理方式进行OLS估计。

    估计原理是,先用每个变量减其组内均值,把数据中心化(entity-demeaned),然后用变换的数据先估计个体固定效应模型的回归系数(不包括截距项),然后利用组内均值等式计算截距项。这种方法计算起来速度快。具体分3步如下。

    (1)首先把变量中心化(entity-demeaned)。

    仍以单解释变量模型(3)为例,则有

    = gi + b1 + , i = 1, 2, …, N (4)

    其中 = , = , = , i = 1, 2, …, N。公式(1)、(4)相减得,

    (yit - ) = b1(xit - ) + (eit - ) (5)

    令(yit - ) = ,(xit - ) = ,(eit - ) = ,上式写为

    = b1 + (6)

    用OLS法估计(1)、(6)式中的b1,结果是一样的,但是用(6)式估计,可以减少被估参数个数。

    (2)用OLS法估计回归参数(不包括截距项,即固定效应)。

    在k个解释变量条件下,把 用向量形式 表示,则利用中心化数据,按OLS法估计公式计算个体固定效应模型中回归参数估计量的方差协方差矩阵估计式如下,

    ( ) = ( ' )-1 (7)

    其中 = , 是相对于 的残差向量。

    (3)计算回归模型截距项,即固定效应参数gi。

    = - (8)

    以例1(file:panel02)为例得到的个体固定效应模型估计结果如下:

     

    注意:个体固定效应模型的EViwes输出结果中没有公共截距项。

    图12

    EViwes估计方法:在EViwes的Pooled Estimation对话框中Intercept选项中选Fixed effects。其余选项同上。

    注意:

    (1)个体固定效应模型的EViwes输出结果中没有公共截距项。

    (2)EViwes输出结果中没有给出描述个体效应的截距项相应的标准差和t值。不认为截距项是模型中的重要参数。

    (3)当对个体固定效应模型选择加权估计时,输出结果将给出加权估计和非加权估计两种统计量评价结果。

    (4)输出结果的联立方程组形式可以通过点击View选Representations功能获得。

    (5)点击View选Wald Coefficient Tests…功能可以对模型的斜率进行Wald检验。

    (6)点击View选Residuals/Table, Graphs, Covariance Matrix, Correlation Matrix功能可以分别得到按个体计算的残差序列表,残差序列图,残差序列的方差协方差矩阵,残差序列的相关系数矩阵。

    (7)点击Procs选Make Model功能,将会出现估计结果的联立方程形式,进一步点击Solve键,在随后出现的对话框中可以进行动态和静态预测。

    输出结果的方程形式是

    = 安徽+ x1t = 479.3 + 0.70 x1t

    (55.0)

    = 北京+ x2t = 1053.2 + 0.70 x2t

    … (55.0)

    = 浙江+ x15t = 714.2 + 0.70 x15t

    (55.0)

    R2 = 0.99, SSEr = 2270386, t0.05 (88) = 1.98

    从结果看,北京、上海、浙江是消费函数截距(自发消费)最大的3个地区。

    相对于混合估计模型来说,是否有必要建立个体固定效应模型可以通过F检验来完成。

    原假设H0:不同个体的模型截距项相同(建立混合估计模型)。

    备择假设H1:不同个体的模型截距项不同(建立个体固定效应模型)。

    F统计量定义为:

    F= = (9)

    其中SSEr,SSEu分别表示约束模型(混合估计模型)和非约束模型(个体固定效应模型)的残差平方和。非约束模型比约束模型多了N-1个被估参数。

    (混合估计模型给出公共截距项。)

    注意:当模型中含有k个解释变量时,F统计量的分母自由度是NT-N-k。

    用上例计算,已知SSEr = 4824588,SSEu = 2270386,

    F= = = = 7.15

    F0.05(14, 89) = 1.81

    因为F= 7.15> F0.05(14, 89) = 1.81,所以,拒绝原假设。结论是应该建立个体固定效应模型。

     

    (2)时刻固定效应模型。

    时刻固定效应模型就是对于不同的截面(时刻点)有不同截距的模型。如果确知对于不同的截面,模型的截距显著不同,但是对于不同的时间序列(个体)截距是相同的,那么应该建立时刻固定效应模型,表示如下,

    yit = b1 xit +a1 +

     

     

    http://blog.zol.com.cn/696/article_695413.html

     

     

     

     

    Fixed and Random Effects

    Central to the idea of variance components models is the idea of fixed and random effects. Each effect in a variance components model must be classified as either a fixed or a random effect. Fixed effects arise when the levels of an effect constitute the entire population about which you are interested. For example, if a plant scientist is comparing the yields of three varieties of soybeans, then Variety would be a fixed effect, providing that the scientist was concerned about making inferences on only these three varieties of soybeans. Similarly, if an industrial experiment focused on the effectiveness of two brands of a machine, Machine would be a fixed effect only if the experimenter's interest did not go beyond the two machine brands.

    On the other hand, an effect is classified as a random effect when you want to make inferences on an entire population, and the levels in your experiment represent only a sample from that population. Psychologists comparing test results between different groups of subjects would consider Subject as a random effect. Depending on the psychologists' particular interest, the Group effect might be either fixed or random. For example, if the groups are based on the sex of the subject, then Sex would be a fixed effect. But if the psychologists are interested in the variability in test scores due to different teachers, then they might choose a random sample of teachers as being representative of the total population of teachers, and Teacher would be a random effect. Note that, in the soybean example presented earlier, if the scientists are interested in making inferences on the entire population of soybean varieties and randomly choose three varieties for testing, then Variety would be a random effect.


    If all the effects in a model (except for the intercept) are considered random effects, then the model is called a random effects model; likewise, a model with only fixed effects is called a fixed-effects model. The more common case, where some factors are fixed and others are random, is called a mixed model. In PROC VARCOMP, by default, effects are assumed to be random. You specify which effects are fixed by using the FIXED= option in the MODEL statement. In general, if an interaction or nested effect contains any effect that is random, then the interaction or nested effect should be considered as a random effect as well.

    In the linear model, each level of a fixed effect contributes a fixed amount to the expected value of the dependent variable. What makes a random effect different is that each level of a random effect contributes an amount that is viewed as a sample from a population of normally distributed variables, each with mean 0, and an unknown variance, much like the usual random error term that is a part of all linear models. The estimate of the variance associated with the random effect is known as the variance component because it is measuring the part of the overall variance contributed by that effect. Thus, PROC VARCOMP estimates the variance of the random variables that are associated with the random effects in your model, and the variance components tell you how much each of the random factors contributes to the overall variability in the dependent variable.

     

    混合效应模型与纵向数据分析 Mixed Models and Longitudinal Data Analysis

    第一章混合效益模型与纵向数据分析简介

    线性模型与线性混合效应模型,固定效应模型、随机效应模型、纵向数据例子

    第二章统计推断方法

    极大似然,限制极大似然,贝叶斯方法、拟似然方法、广义估计方程(GEE),极大似然比检验、Wald’s检验、预测方法

    第三章线性混合效应模型

    固定效应估计、随机效应预测、单向分类模型、两项分类模型、检验、其他估计方法、最优线性预测、计算方法

    第四章纵向数据

    平衡数据情形、相关和不相关情形下的参数估计与预测、不平衡数据,GEE方法

    第五章广义线性混合效应模型

    广义线性模型与广义线性混合效应模型、参数估计与假设检验、随机效应预测、计算方法参考文献:

    1. Peter J. Diggle, Kung-Yee Liang, Scott L. Zeger, Analysis of Longitudinal Data, Oxford Statistical Science, 1994.

    2. Charles E. McCulloch, Shayle R. Searle. Generalized, Linear, and Mixed Models,John Wiley & Sons, 2000.

     

     

    本来随机效应的假设就是我们的样本从一个很大的母体抽取,所以大家的期望(均值)相同;如果我们的样本几乎是全部母体了,我们就不能说个体的差异是随机的,所以固定效应比较好;这是从模型的设定角度说的。但是随机效应模型有一个致命的硬伤,就是假设cov(x,ui)=0,而固定效应不要求这个假设,Hausman检验所做的工作就是检验一下这个假设对随机效应模型来说是不是成立,如果不成立,随即效应模型的估计是有偏的,即使采用B-P的LM检验表明存在随机效应,你也没有办法用了。总结:检验固定效应是否显著,采用F检验(对比模型是pooled)检验随机效应是否显著,采用LM检验(对比模型也是pooled)检验固定和随机哪个更适用,采用Hausman检验(对比fe和be)所以严格来讲,Hausman检验是检验不出随机效应的,这是多数人的误解,我认为。 进一步讨论,请进 http://jinhe.xjtu.edu.cn/bbs/list.asp?boardid=13 

     

     

    eviews计量软件总是让人头疼,本人一向不喜欢用盗版软件,面对几千美元的license真是头疼,可总得做计量回归吧。幸好在网上找到了一款免费而且功能极为强大的开源计量软件
    GRETL。wiki上面的介绍:
    http://zh.wikipedia.org/w/index.php?title=Gretl&variant=zh-cn
    gretl(Gnu Regression, Econometrics and Time-series Library)是一种可以编纂和解析计量经济学数据的开放源代码软件。它可以和X-12-ARMA、TRAMO/SEATS 和R语言一起使用。gretl用C语言写成,使用gnuplot制图。
    gretl自身的文件格式是XML,但它还可输入Excel、Gnumeric、Stata、EViews、RATS、GNU Octave、Comma Separated Values、PcGive、JMulTi和ASCII文件,也可以输出到GNU Octave、GNU R、JMulTi和PcGive文件格式。
    官方网站:http://gretl.sourceforge.net/
    这个软件另外一个特点就是可以跨平坦使用,有linux、macos、unix和windows版本,特别是debian和ubuntu都可以从官方源里直接通过apt安装。

     

     

    方法:加入时间固定效应,看是否更为有效,是的话,就设定该效应,否则不选;在此基础上,加入个体固定效应,更有效,则选,否则不选(先加时间还是个体无所谓)
    事实上,不是要选哪个的问题,而是存在该效应,就应该加上该效应。
    在确定时点还是个体固定效应的时候,不需要做什么这样那样的检验,因为有可能检验最终确定是cross section的时候,而你想研究的却是period,这不就有问题吗?
    事实上,现在也没有关于时点和固定效应的检验,更多的往往还是根据所要研究的问题而定。
    用虚拟变量的方法,分别固定时间效应、个体效应、时间个体双向固定,对比三组回归的结果就可以了。

     

    伍德里奇(2003,P438)和古扎拉蒂(2005,P611)先后指出,如果样本中的横截面是从一个非常大的总体中随机抽取的,那么采用随机效应模型是合适的。但是,当不能把观察值当做从一个大总体中随机抽样时,或者关注的是所选择样本的规律特征时,就得使用固定效应。因为本人做的是关于某一行业的上市公司的财务研究,是一个典型的“大N小T”的非平衡面板数据,因此只考虑使用混合效应模型和固定效应模型。我的问题如下:(1)要不要考虑多重共线性和序列相关问题?
    A: 如果T很小,我想不必考虑序列相关问题,你可以在计算s.e.的时候采用稳健性标准误即可(如采用xtscc)。当然,为了稳妥起见,你可以采用视频中介绍的方法检验一下序列相关是否存在,并采用 xtregar 估计一下考虑序列相关的模型,与此前的结果做个对比。
    (2)采用xtscc是不是已经考虑了异方差和截面相关问题?如果采用xtscc命令应该如何与混合效应做F检验?
    A: xtscc 主要考虑异方差、序列相关和截面相关。主要是通过对干扰项的方差-协方差矩阵来设定,其基本思想类似于 White(1980) 的异方差稳健性估计量。
    若采用 xtscc y x,fe 估计,只有系数的标准误(以及t值)会发生变化。此时,你仍然可以采用 xtreg y x, fe 命令最后一行报告的F统计量来检验个体效果是否显著。
    (3)如果采用命令:xi: y x1 x2 x3, i.year(i.company或者i.year i.company)命令回归得到三种固定效应模型,如何与混合效应进行F检验,得出更优的模型?
    A: 这个我在视频中有详细讲解。参见B7_panel 中第二个视频“7.2 时间效应、模型的筛选和常见问题 ”。在“ *- 检验时间效应是否显著”小节中,我介绍了如何采用wald或LR检验来确认时间效应是否显著。你所问的问题在这里可以找到答案。
    (4)如果在命令:xi: y x1 x2 x3, i.year(i.company或者i.year i.company)和混合效应回归模型后面附加robust和bootstrap,这两个命令是不是已经考虑了异方差和截面相关问题?
    A: 附加robust选项,可以在一定程度上控制异方差,如果希望控制截面相关,你还需附加 cluster(id) 选项。至于 bootstrap 选项,则主要是为了计算系数的标准误,进而计算 t 值。传统的方法是基于大样本,并假设干扰项服从正态分布,进而推断出系数的标准误的表达式。当这一假设无法满足时,得到的标准误可能是有偏的。采用 bootstrap 获取标准误并不需要这一假设,因此相对而言更加稳健。通常而言,bootstrap 选项能够克服异方差和截面相关,与 robust 的作用效果相似。
    以上问题好像在视频中没有很好的讲解,
    A: 这些内容在视频中都有讲解,我个人认为也比较清晰。要深入理解,还需有个不断熟练的过程,需要反复研读相关理论推倒过程。

    广义线性混合效应模型(GLMM)与复杂抽样的logistic回归模型在分层整群抽样数据分析中的比较

    在公共卫生领域的抽样调查中为了减少抽样误差,提高抽样的精度,经常会采用如分层整群抽样这类复杂的抽样方法。由于这类抽样方法所得到数据往往是具有多层次的结构特点的,这就使得在同一较低层次的各个个体之间具有一定的相关性,即结局变量的分布在个体间不具备独立性。因而不满足传统的统计分析方法的应用条件,而多层统计分析模型和复杂抽样的统计分析方法均可以处理这类数据。目的研究和分析广义线性混合效应模型和复杂抽样的logistic回归方法在分层整群抽样数据中的应用,通过实例数据分析以及数据模拟的研究方法,结合国际通用统计分析软件SAS中相应的模块GLIMMIX与SURVEY模块来进行这两种方法在分层整群抽样数据中的比较应用。并通过改变模拟数据的参数组合,来比较在不同的内部相关系数(ICC),给定个体水平变量系数,抽样比以及样本量的情况下二者的适用性。同时,为了验证传统的统计分析方法在分层整群抽样数据分析中的局限性,也将传统的logistic回归模型纳入到比较分析中。方法首先将三种统计方法应用到实例数据的分析中,参考其分析结果设定模拟数据的参数值。数据模拟分两个部分:模拟一研究,模拟还原实...
    第一章 绪论 9-14
    1. 分层整群抽样的背景及特点 9-10
    1.1 分层整群抽样背景 9-10
    1.2 分层整群抽样的特点 10
    2. 分层整群抽样数据统计分析方法回顾 10-12
    3. 研究设想 12-14
    第二章 原理和方法 14-23
    1 抽样技术 14-17
    1.1 抽样技术基本概念 14-16
    1.2 分层整群抽样原理 16-17
    2 传统统计分析方法——固定效应logistic回归模型 17-19
    3 复杂抽样的logistic回归模型 19-20
    4 广义线性混合效应模型(GLMM) 20-21
    5 模拟研究 21-23
    第三章 实例分析 23-34
    1 引言 23-24
    2 模型的介绍及其应用 24-26
    3 实例的流行病学研究 26-27
    4 实例分析 27-34
    第四章 模拟研究结果 34-62
    1 引言 34
    2 模拟一研究 34-38
    3 模拟二研究 38-60
    4 小结 60-62
    第五章 总结和讨论 62-67
    1 广义线性混合效应模型模型的应用 62-63
    2 复杂抽样的logistic回归模型的应用 63-65
    3 存在的不足 65
    4 小结 65-67
    参考文献 67-72

     

     

    1) linear mixed effects model
    线性混合效应模型
    1.According the characteristics of the bivariate repeated measurement data,using the MIXED procedure of SAS software to fit linear mixed effects model.
    为了探讨环境医学研究中不满足独立性要求资料相关性分析的方法,针对双反应变量重复测量资料的特点,采用SAS软件的MIXED过程,建立线性混合效应模型。
    2) Linear mixed-effects model
    线性混合效应模型
    1.In this paper, the linear mixed-effects model of repeated measurements is discussed, and the repeated measurements data obtain reasonable results by the fixed and random effects along with efficient estimate of covariance matrix.
    本文阐述了重复测量资料的特点,对一般线性模型及线性混合效应模型进行了简要对比;并探讨了重复测量数值型变量线性混合效应模型拟合方法,通过对固定效应、随机效应及协方差矩阵的估计,使重复测量数据得以更合理的分析。
    3) linear mixed-effects models
    线性混合效应模型
    1.This paper considers the sensitivity of the predictors in linear mixed-effects models to co- variance misspecification using the local sensitivity analysis proposed by Banerjee and Magnus.
    本文应用Banerjee和Magnus于1999年提出的局部敏感性分析方法讨论了线性混合效应模型中预测值关于误差项白噪声偏离的敏感性问题,提出了敏感性度量统计量,并在AR(1)和MA(1)误差项条件下数值模拟了这些统计量的表现。
    4) generalized linear mixed models
    广义线性混合效应模型
    1.Objective :To discuss generalized linear mixed models(GLMMs) of categorical repeated measurement datas in clinical curative effect evaluation,implementing with GLIMMIX macro in SAS8.
    目的:探讨临床疗效评价中分类重复测量资料的广义线性混合效应模型(GLMMs)及SAS8。
    5) Nonlinear mixed effect model
    非线性混合效应模型
    1.Estimation of relative clearance of cyclosporin A with nonlinear mixed effect model in kidney transplant patients;
    非线性混合效应模型法估算肾移植患者环孢素A的相对清除率
    2.Evaluation of relative bioavailability and pharmacokinetic parameters of ciclosporin preparations by nonlinear mixed effect model;
    非线性混合效应模型估算环孢素在人体相对生物利用度和药动学参数
    3.Estimation of relative clearance of cyclosprine A in patients after renal transplantation using nonlinear mixed effect model;
    非线性混合效应模型法估算肾移植患者环孢素A清除率
    6) Nonlinear mixed effect model(NONMEM)
    非线性混合效应模型法
    1.Nonlinear mixed effect model(NONMEM) has been widely used in estimating population pharmacokinetics parameters of various drugs.
    非线性混合效应模型法广泛应用于临床各类药物的群体药动学参数估算。

    补充资料:多元线性回归模型

    性质:假定从理论上或经验上已经知道输出变量y是输入变x1,x2,…,xm的线性函数,但表达其线性关系的系数是未知的,要根据输入输出的n次观察结果(c11,x21,…,xml,yi)(i=1,n)来确定系数的值。按最小二乘法原理来求出系数值,所得到的模型为多元线性回归模型。

     

     


    线性混合效应模型影响分析
    ~ 费宇, 潘建新
    出版社: 科学出版社; 第1版 (2005年7月19日)
    平装: 204页
    正文语种: 汉语
    开本: 16
    ISBN: 7030154908
    《线性混合效应模型影响分析》研究了线性混合效应模型的影响分析问题,将近两年刚刚发展起来的Q函数方法全面系统地应用于该模型的统计诊断,对6种协方差结构的模型给出了Cook型诊断统计量,并提出基于Q函数的二阶导数期望的Cook型诊断统计量,发展和推广了原有的Q函数方法;还讨论了方差结构对统计诊断的影响,指出方差结构的误定可能引起影响点的误判,最后讨论了个体水平和观测值水平影响分析的关系。
    《线性混合效应模型影响分析》可供大专院校的学生、教师、科研人员及统计工作者参考。
    编辑推荐
    线性混合效应模型是最重要的一种常见回归模型。但是现有文献大都从传统的似然函数出发来讨论,而对于稍具复杂而常用的非独立方差结构,如一阶自回归结构,从似然函数出发则难以获得相应的影响诊断统计量;而《线性混合效应模型影响分析》就弥补了这点不足。
    目录
    第1章 引论
    1.1 基本概念
    1.1.1 统计诊断的概念
    1.1.2 强影响观测值和强影响个体
    1.1.3 Cook距离
    1.2 线性混合效应模型
    1.3 本书的结构
    1.3.1 似然函数框架下的统计诊断
    1.3.2 Q函数框架下的统计诊断
    1.3.3 方差结构对统计诊断的影响
    1.3.4 两水平的影响分析
    1.4 预备知识
    第2章 基于似然函数的影响分析
    2.1 影响分析简介
    2.2 基于Hessian阵的影响度量
    2.2.1 基于Hessian阵的影响度量的定义
    2.2.2 广义Cook距离Ci和C*i的计算
    2.3 基于Fisher信息阵的影响度量
    2.3.1 基于Fisher信息阵的影响度量的定义
    2.3.2 广义Cook距离Di和D*i的计算
    第3章 基于Q函数的影响分析
    3.1 引言
    3.2 基于国的Cook型统计量QDi
    3.2.1 IC结构的QDi
    3.2.2 AR(1)Ⅰ结构的QDi
    3.2.3 AR(1)Ⅱ结构的QDi
    3.2.4 AR(1)Ⅲ结构的QDi
    3.2.5 UCⅠ结构的QD。
    3.2.6 UCⅡ结构的QDi
    3.3 基于EQ的cook型统计量QD*i
    3.3.1 IC结构的QD*i
    3.3.2 AR(1)Ⅰ结构的QD*i
    3.3.3 AR(1)Ⅱ结构的QD*i
    3.3.4 AR(1)Ⅲ结构的QD*i
    3.3.5 UCⅠ结构的QD*i
    3.3.6 UCⅡ结构的QD*i
    第4章 协方差阵结构对统计诊断的影响
    4.1 IC结构
    4.2 AR(1)Ⅰ结构(最佳结构)
    4.3 AR(1)Ⅱ结构
    4.4 AR(1)Ⅲ结构
    4.5 UCⅠ结构
    4.6 UCⅡ结构
    4.7 六种协方差结构的对比
    4.7.1 QD*i(θ)的比较
    4.7.2 QD*i(β)的比较
    4.8 小结
    第5章 个体水平和观测值水平影响分析的关系
    5.1 观测值水平影响分析
    5.1.1 基于Q的广义Cook统计量QDij
    5.1.2 基于EQ的Cook统计量QD*ij
    5.2 两个水平的影响度量之间的关系
    5.2.1 QDi与QDij之间的关系
    5.2.2 QD*i与QD*ij之间的关系
    5.3 结论和最后的注
    参考文献
    附录 本书用到的数据

     

     

    !!!!!!!计量经济模型
    http://doc.mbalib.com/view/b53e13ce9277729d5d8fddd258e2c98b.html


    !!!!!!!!随机效应模型
    http://www.docin.com/p-21713479.html

    http://www.pinggu.org/bbs/viewthread.php?tid=692449&page=1

     

     

     

     

    http://blog.sina.com.cn/s/blog_4b700c4c0100opha.html

     

    展开全文
  • 本文针对面板数据主要有三种模型: 1. pool模型 2. 固定效应模型 3. 随机效应模型 介绍了数据检验和模型检验用R语言实现过程,包括F test, Hausman test和 LM test。承接系列一部分,在模型检验确定如何使用模型后...
  • eviews面板数据操作

    2014-10-16 12:57:41
    eviews面板数据操作,简单易懂,容易上手。
  • eviews面板数据模型详解eviews面板数据模型详解eviews面板数据模型详解
  • 非常好的资源,内容详细.是介绍怎么用eviews来对面板数据进行操作的的,适合初学者。我觉得比论坛里其他资源好的多,有需要就下载吧,我觉得十分实用,特此来分享。
  • 一图看懂横截面数据、时间序列数据以及面板数据区别:
  • 面板数据及分类 面板数据分类: 短面板和长面板 动态面板和静态面板 平衡面板和非平衡面板 截面数大于时间数就是短面板,反之,则为长面板 解释变量包含被解释变量的滞后值则为动态面板,反之,则为静态面板 平衡...
  • 用于面板数据分析,可进行固定效应和随机效应的分析
  • 对于面板数据, 首先给出面板数据的空间投射方法, 将面板数据投射为空间的向量序列. 然后, 基于空间向量的夹角和距离分别构建相似性和接近性关联度模型. 具体方法为: 利用向量夹角构建面板数据的相似性关联度模型; ...
  • 包含的面板数据处理stata命令。包含连老师的课堂讲义适合自学。
  • 动态面板数据分析算法 1. 面板数据简介 面板数据 (Panel Data, Longitudinal Data ) 也称为时间序列截面数据混 合数据是指同一截面单元数据集上以不同时间段的重复观测值是同时具有时间 和截面空间两个维度的数据...
  • 面板数据分析方法 反 alysis of Pane 面板数据分析 SEARCH INSIDE[黑幽 Econometric Analysis 0 面板数据计量经济分析 Panel Data Econometric Analysis of Panel Data 法Ha Thr rdia Baltagi Baltagi著白仲林主译 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 205,161
精华内容 82,064
关键字:

面板数据