精华内容
下载资源
问答
  • 面板模型混合效应模型This article shows how tree-boosting (sometimes also referred to as “gradient tree-boosting”) can be combined with mixed effects models using the GPBoost algorithm. Background is...

    面板模型混合效应模型

    This article shows how tree-boosting (sometimes also referred to as “gradient tree-boosting”) can be combined with mixed effects models using the GPBoost algorithm. Background is provided on both the methodology as well as on how to apply the GPBoost library using Python. We show how (i) models are trained, (ii) parameters tuned, (iii) model are interpreted, and (iv) predictions are made. Further, we do a comparison of several alternative approaches.

    本文展示了如何使用GPBoost算法将树增强(有时也称为“梯度树增强”)与混合效果模型结合使用。 提供了方法论以及如何使用Python应用GPBoost库背景知识 。 我们展示了如何(i)训练模型,(ii)调整参数,(iii)解释模型,以及(iv)进行预测。 此外,我们对几种替代方法进行了比较。

    介绍 (Introduction)

    Tree-boosting with its well-known implementations such as XGBoost, LightGBM, and CatBoost, is widely used in applied data science. Besides state-of-the-art predictive accuracy, tree-boosting has the following advantages:

    借助XGBoost,LightGBM和CatBoost等著名的实现来增强树性能在应用数据科学中得到了广泛的应用。 除具有最新的预测准确性外,增强树功能还具有以下优点:

    • Automatic modeling of non-linearities, discontinuities, and complex high-order interactions

      自动建模非线性,不连续和复杂的高阶相互作用
    • Robust to outliers in and multicollinearity among predictor variables

      稳健的预测变量中的异常值和多重共线性
    • Scale-invariance to monotone transformations of the predictor variables

      尺度不变性到预测变量的单调变换
    • Automatic handling of missing values in predictor variables

      自动处理预测变量中的缺失值

    Mixed effects models are a modeling approach for clustered, grouped, longitudinal, or panel data. Among other things, they have the advantage that they allow for more efficient learning of the chosen model for the regression function (e.g. a linear model or a tree ensemble).

    混合效果模型是针对聚类,分组,纵向或面板数据的建模方法。 除其他优点外,它们还具有以下优点:允许更有效地学习所选的回归函数模型(例如线性模型或树集合)。

    As outlined in Sigrist (2020), combined gradient tree-boosting and mixed effects models often performs better than (i) plain vanilla gradient boosting, (ii) standard linear mixed effects models, and (iii) alternative approaches for combing machine learning or statistical models with mixed effects models.

    Sigrist(2020)所述, 结合梯度树增强和混合效应模型的性能通常比(i)普通香草梯度增强,(ii)标准线性混合效应模型和(iii)结合机器学习或统计的替代方法要好。具有混合效果模型的模型。

    建模分组数据 (Modeling grouped data)

    Grouped data (aka clustered data, longitudinal data, panel data) occurs naturally in many applications when there are multiple measurements for different units of a variable of interest. Examples include:

    当对感兴趣变量的不同单位进行多次测量时,在许多应用程序中自然会出现分组数据(又名聚类数据,纵向数据,面板数据) 。 示例包括:

    • One wants to investigate the impact of some factors (e.g. learning technique, nutrition, sleep, etc.) on students’ test scores and every student does several tests. In this case, the units, i.e. the grouping variable, are the students and the variable of interest is the test score.

      一个人想调查某些因素(例如学习技术,营养,睡眠等)对学生考试成绩的影响,而每个学生都进行几次考试。 在这种情况下,单位,即分组变量,是学生,而感兴趣的变量是测试分数。
    • A company gathers transaction data about its customers. For every customer, there are several transactions. The units are then the customers and the variable of interest can be any attribute of the transactions such as prices.

      公司收集有关其客户的交易数据。 对于每个客户,都有几笔交易。 单位就是客户,兴趣变量可以是交易的任何属性,例如价格。

    Basically, such grouped data can be modeled using four different approaches:

    基本上,可以使用四种不同的方法对此类分组数据进行建模:

    1. Ignore the grouping structure. This is rarely a good idea since important information is neglected.

      忽略分组结构 。 因为忽略了重要信息,所以这很少是一个好主意。

    2. Model each group (i.e. each student or each customer) separately. This is also rarely a good idea as the number of measurements per group is often small relative to the number of different groups.

      分别对每个小组(即每个学生或每个客户)建模 。 这也不是一个好主意,因为每组的测量数量相对于不同组的数量通常很小。

    3. Include the grouping variable (e.g. student or customer ID) in your model of choice and treat it as a categorical variable. While this is a viable approach, it has the following disadvantages. Often, the number of measurements per group (e.g. number of tests per student, number of transactions per customer) is relatively small and the number of different groups is large (e.g. number of students, customers, etc.). In this case, the model needs to learn many parameters (one for every group) based on relatively little data which can make the learning inefficient. Further, for trees, high cardinality categorical variables can be problematic.

      在您选择的模型中包括分组变量(例如,学生或客户ID),并将其视为分类变量。 尽管这是一种可行的方法,但它具有以下缺点。 通常,每组的测量数量(例如,每个学生的测试数量,每个客户的交易数量)相对较小,而不同组的数量却很大(例如,学生,客户数量等)。 在这种情况下,模型需要基于相对较少的数据来学习许多参数(每组一个),这会使学习效率低下。 此外,对于树木,高基数类别变量可能会出现问题。

    4. Model the grouping variable using so-called random effects in a mixed effects model. This is often a sensible compromise between the approaches 2. and 3. above. In particular, as illustrated below and in Sigrist (2020), this is beneficial compared to the other approaches in the case of tree-boosting.

      在混合效应模型中使用所谓的随机效应对分组变量进行建模。 这通常是上述方法2和方法3之间的明智折衷。 尤其是,如下面和Sigrist(2020)中所示,与在树增强情况下的其他方法相比这是有益的。

    方法论背景 (Methodological background)

    For the GPBoost algorithm, it is assumed that the response variable y is the sum of a non-linear mean function F(X) and so-called random effects Zb:

    对于GPBoost算法,假定响应变量y是非线性均值函数F(X)与所谓的随机效应Zb的和

    y = F(X) + Zb + e

    y = F(X)+ Zb + e

    where

    哪里

    • y the response variable (aka label)

      y响应变量(也称为标签)
    • X contains the predictor variables (aka features) and F() is a potentially non-linear function. In linear mixed effects models, this is simply a linear function. In the GPBoost algorithm, this is an ensemble of trees.

      X包含预测变量(又称特征),F()是潜在的非线性函数。 在线性混合效果模型中,这只是线性函数。 在GPBoost算法中,这是一棵树木。
    • Zb are the random effects which are assumed to follow a multivariate normal distribution

      Zb是假定遵循多元正态分布的随机效应
    • e is an error term

      e是错误项

    The model is trained using the GPBoost algorithm, where trainings means learning the (co-)variance parameters (aka hyper-parameters) of the random effects and the regression function F(X) using a tree ensemble. The random effects Zb can be estimated (or predicted, as it is often called) after the model has been learned. In brief, the GPBoost algorithm is a boosting algorithm that iteratively learns the (co-)variance parameters and adds a tree to the ensemble of trees using a gradient and/or a Newton boosting step. The main difference to existing boosting algorithms is that, first, it accounts for dependency among the data due to clustering and, second, it learns the (co-)variance of the random effects. See Sigrist (2020) for more details on the methodology. In the GPBoost library, (co-)variance parameters can be learned using (accelerated) gradient descent or Fisher scoring, and trees are learned using the LightGBM library. In particular, this means that the full functionality of LightGBM is available.

    使用GPBoost算法对模型进行训练,其中训练意味着 使用树集合 学习 随机效应 的(共)方差参数(aka超参数) 和回归函数F(X) 。 在学习模型之后,可以估计(或预测,通常称为)随机效应Zb。 简而言之,GPBoost算法是一种增强算法,它迭代地学习(协)方差参数,并使用梯度和/或牛顿增强步骤将一棵树添加到树的集合中。 与现有增强算法的主要区别在于,首先,它考虑了由于聚类导致的数据之间的依赖性,其次,它学习了随机效应的(协)方差。 有关该方法的更多详细信息,请参见Sigrist(2020) 。 在GPBoost库中,可以使用(加速)梯度下降或Fisher评分来学习(协)方差参数,而可以使用LightGBM库来学习树。 特别是,这意味着可以使用LightGBM的全部功能。

    如何在Python中使用GPBoost库 (How to use the GPBoost library in Python)

    In the following, we show how combined tree-boosting and mixed effects models can be applied using the GPBoost library from Python. Note that there is also an equivalent R package. More information on this can be found here.

    在下面的内容中,我们展示了如何使用Python的GPBoost库应用组合的树加速和混合效果模型。 请注意,还有一个等效的R包。 有关此的更多信息,请参见此处

    安装 (Installation)

    pip install gpboost -U

    模拟数据 (Simulate data)

    We use simulated data here. We adopt a well known non-linear function F(X). For simplicity, we use one grouping variable. But one could equally well use several random effects including hierarchically nested ones, crossed ones, or random slopes. The number of samples is 5'000 and the number of different groups or clusters is 500. We also generate test data for evaluating the predictive accuracy. For the test data, we include both known, observed groups as well as novel, unobserved groups.

    我们在这里使用模拟数据。 我们采用了众所周知的非线性函数F(X) 。 为简单起见,我们使用一个分组变量。 但是同样可以很好地使用几种随机效果,包括层次嵌套的效果,交叉效果或随机斜率。 样本数量为5,000,不同组或群集的数量为500。我们还生成测试数据以评估预测准确性。 对于测试数据,我们既包括已知的观察组,也包括新颖的未观察组。

    import gpboost as gpb
    import numpy as np
    import sklearn.datasets as datasets
    import time
    import pandas as pd# Simulate data
    ntrain = 5000 # number of samples for training
    n = 2 * ntrain # combined number of training and test data
    m = 500 # number of categories / levels for grouping variable
    sigma2_1 = 1 # random effect variance
    sigma2 = 1 ** 2 # error variance
    # Simulate non-linear mean function
    np.random.seed(1)
    X, F = datasets.make_friedman3(n_samples=n)
    X = pd.DataFrame(X,columns=['variable_1','variable_2','variable_3','variable_4'])
    F = F * 10**0.5 # with this choice, the fixed-effects regression function has the same variance as the random effects
    # Simulate random effects
    group_train = np.arange(ntrain) # grouping variable
    for i in range(m):
    group_train[int(i * ntrain / m):int((i + 1) * ntrain / m)] = i
    group_test = np.arange(ntrain) # grouping variable for test data. Some existing and some new groups
    m_test = 2 * m
    for i in range(m_test):
    group_test[int(i * ntrain / m_test):int((i + 1) * ntrain / m_test)] = i
    group = np.concatenate((group_train,group_test))
    b = np.sqrt(sigma2_1) * np.random.normal(size=m_test) # simulate random effects
    Zb = b[group]
    # Put everything together
    xi = np.sqrt(sigma2) * np.random.normal(size=n) # simulate error term
    y = F + Zb + xi # observed data
    # split train and test data
    y_train = y[0:ntrain]
    y_test = y[ntrain:n]
    X_train = X.iloc[0:ntrain,]
    X_test = X.iloc[ntrain:n,]

    学习和做出预测 (Learning and making predictions)

    The following code shows how one trains a model and makes predictions. As can be seen below, the learned variance parameters are close to the true ones. Note that when making predictions, one can make separate predictions for the mean function F(X) and the random effects Zb.

    以下代码显示了如何训练模型并进行预测。 如下所示,学习的方差参数接近真实参数。 注意,进行预测时,可以对均值函数F(X)和随机效应Zb进行单独的预测。

    # Define and train GPModel
    gp_model = gpb.GPModel(group_data=group_train)
    # create dataset for gpb.train function
    data_train = gpb.Dataset(X_train, y_train)
    # specify tree-boosting parameters as a dict
    params = { 'objective': 'regression_l2', 'learning_rate': 0.1,
    'max_depth': 6, 'min_data_in_leaf': 5, 'verbose': 0 }
    # train model
    bst = gpb.train(params=params, train_set=data_train, gp_model=gp_model, num_boost_round=32)
    gp_model.summary() # estimated covariance parameters
    # Covariance parameters in the following order:
    # ['Error_term', 'Group_1']
    # [0.9183072 1.013057 ]
    # Make predictions
    pred = bst.predict(data=X_test, group_data_pred=group_test)
    y_pred = pred['fixed_effect'] + pred['random_effect_mean'] # sum predictions of fixed effect and random effect
    np.sqrt(np.mean((y_test - y_pred) ** 2)) # root mean square error (RMSE) on test data. Approx. = 1.25

    参数调整 (Parameter tuning)

    A careful choice of the tuning parameters is important for all boosting algorithms. Arguably the most important tuning parameter is the number of boosting iterations. A too large number will often result in over-fitting in regression problems and a too small value in “under-fitting”. In the following, we show how the number of boosting iterations can be chosen using cross-validation. Other important tuning parameters include the learning rate, the tree-depth, and the minimal number of samples per leaf. For simplicity, we do not tune them here but use some default values.

    仔细选择调整参数对于所有升压算法都很重要。 可以说,最重要的调整参数是加速迭代的次数。 数量太大通常会导致回归问题过度拟合,而“欠拟合”值太小。 在下面,我们展示了如何使用交叉验证来选择增强迭代的次数。 其他重要的调整参数包括学习率,树深度和每片叶子的最少样本数。 为简单起见,我们在这里不对其进行调整,而是使用一些默认值。

    # Parameter tuning using cross-validation (only number of boosting iterations)
    gp_model = gpb.GPModel(group_data=group_train)
    cvbst = gpb.cv(params=params, train_set=data_train,
    gp_model=gp_model, use_gp_model_for_validation=False,
    num_boost_round=100, early_stopping_rounds=5,
    nfold=4, verbose_eval=True, show_stdv=False, seed=1)
    best_iter = np.argmin(cvbst['l2-mean'])
    print("Best number of iterations: " + str(best_iter))
    # Best number of iterations: 32

    特征重要性和部分依赖图 (Feature importance and partial dependence plots)

    Feature importance plots and partial dependence plots are tools for interpreting machine learning models. These can be used as follows.

    特征重要性图和偏相关图是解释机器学习模型的工具。 这些可以如下使用。

    # Plotting feature importances
    gpb.plot_importance(bst)
    Image for post
    Feature importance plot
    特征重要性图

    Univariate partial dependence plots

    单变量偏相关图

    from pdpbox import pdp
    # Single variable plots
    pdp_dist = pdp.pdp_isolate(model=bst, dataset=X_train,
    model_features=X_train.columns,
    feature='variable_2',
    num_grid_points=100)
    pdp.pdp_plot(pdp_dist, 'variable_2', plot_lines=True)
    Image for post
    Partial dependence plot for variable 2
    变量2的偏相关图

    Multivariate partial dependence plots

    多元偏相关图

    # Two variable interaction plot
    inter_rf = pdp.pdp_interact(model=bst, dataset=X_train, model_features=X_train.columns,
    features=['variable_1','variable_2'])
    pdp.pdp_interact_plot(inter_rf, ['variable_1','variable_2'], x_quantile=True, plot_type='contour', plot_pdp=True)
    Image for post
    Two dimensional partial dependence plot for visualizing interactions
    二维局部依赖图,用于可视化交互

    SHAP值 (SHAP values)

    SHAP values and dependence plots are another important tool for model interpretation. These can be created as follows.

    SHAP值和依赖性图是模型解释的另一个重要工具。 这些可以如下创建。

    Edit: this is currently not yet fully supported by the shap Python package. It should be available soon (hopefully in the next days, see here for the current status). In the meantime, you have to copy-paste a few lines of code to your shap Python package. Just go to the location where your python packages are and add these green marked lines of code to the shap/tree_explainers/tree.py file.

    编辑:shap Python软件包目前尚未完全支持此功能。 它应该很快就可用(希望在接下来的几天中,请参阅 此处 了解当前状态)。 同时,您必须将几行代码复制粘贴到您的shap Python包中。 只需转到python包所在的位置,然后将 这些 带有 绿色标记的代码行 添加 到shap / tree_explainers / tree.py文件即可。

    import shap
    shap_values = shap.TreeExplainer(bst).shap_values(X_test)
    shap.summary_plot(shap_values, X_test)
    shap.dependence_plot("variable_2", shap_values, X_test)
    Image for post
    SHAP values
    SHAP值
    Image for post
    SHAP dependence plot for variable 2
    变量2的SHAP依赖图

    与替代方法的比较 (Comparison to alternative approaches)

    In the following, we compare the GPBoost algorithm to several existing approaches using the above simulated data. We consider the following alternative approaches:

    接下来,我们使用上述模拟数据将GPBoost算法与几种现有方法进行比较。 我们考虑以下替代方法:

    • A linear mixed effects model (‘Linear_ME’) where F(X) is a linear function

      线性混合效果模型('Linear_ME') ,其中F(X)是线性函数

    • Standard gradient tree-boosting ignoring the grouping structure (‘Boosting_Ign’)

      标准梯度树增强忽略分组结构('Boosting_Ign')

    • Standard gradient tree-boosting including the grouping variable as a categorical variables (‘Boosting_Cat’)

      标准梯度树增强功能,包括将分组变量作为分类变量('Boosting_Cat')

    • Mixed-effects random forest (‘MERF’) (see here and Hajjem et al. (2014) for more information)

      混合效应随机森林(“ MERF”) (有关更多信息,请参见此处Hajjem等(2014) )

    We compare the algorithms in terms of predictive accuracy measured using the root mean square error (RMSE) and computational time (clock time in seconds). The results are shown in the table below. The code for producing these results can be found below in the appendix.

    我们根据均方根误差(RMSE)和计算时间(以秒为单位的时钟时间)测得的预测准确性比较算法。 结果如下表所示。 产生这些结果的代码可以在下面的附录中找到。

    Image for post
    Comparison of GPBoost and alternative approaches.
    GPBoost与替代方法的比较。

    We see that GPBoost and MERF perform clearly best (and almost equally well) in terms of predictive accuracy. Further, the GPBoost algorithm is approximately 1000 times faster than the MERF algorithm. The linear mixed effects model (‘Linear_ME’) and tree-boosting ignoring the grouping variable (‘Boosting_Ign’) have clearly lower predictive accuracy. Tree-boosting with the grouping variable included as a categorical variable also shows lower predictive accuracy than GPBoost or MERF.

    我们看到,就预测准确性而言,GPBoost和MERF的表现明显最佳(并且几乎同样出色)。 此外,GPBoost算法比MERF算法快约1000倍。 线性混合效果模型('Linear_ME')和忽略分组变量的'boosting'(boosting_Ign')具有明显较低的预测准确性。 与GPBoost或MERF相比,将分组变量作为类别变量包括在内的树式提升也显示出较低的预测准确性。

    Note that, for simplicity, we do only one simulation run (see Sigrist (2020) for a much more detailed comparison). Except for MERF, all computations are done using the GPBoost library version 0.2.1 compiled with MSVC version 19.24.28315.0. Further, we use the MERF Python package version 0.3.

    请注意,为简单起见,我们仅进行一次模拟运行(有关 详细比较, 请参阅 Sigrist(2020) )。 除MERF外,所有计算均使用GPBoost库0.2.1版和MSVC 19.24.28315.0版进行编译。 此外,我们使用MERF Python软件包0.3版。

    结论 (Conclusions)

    GPBoost allows for combining mixed effects models and tree-boosting. If you apply linear mixed effects models, you should investigate whether the linearity assumption is indeed appropriate. The GPBoost model allows for relaxing this assumption. It may help you to find non-linearities and interactions and achieve higher predictive accuracy. If you are a frequent user of boosting algorithms such as XGBoost and LightGBM and you have categorical variables with potentially high-cardinality, GPBoost (which extends LightGBM) can make learning more efficient and result in higher predictive accuracy.

    GPBoost允许将混合效果模型和树加速结合在一起。 如果应用线性混合效应模型,则应调查线性假设是否确实合适。 GPBoost模型允许放宽此假设。 它可以帮助您发现非线性和相互作用,并获得更高的预测准确性。 如果您经常使用诸如XGBoost和LightGBM之类的增强算法,并且您的分类变量具有潜在的高基数,那么GPBoost(扩展了LightGBM)可以使学习 效率更高, 并获得更高的预测准确性。

    To the best of our knowledge, the GPBoost library is currently unmatched in terms of computational speed and predictive accuracy. Additional advantages are that GPBoost supports a range of model interpretation tools (variable importance values, partial dependence plots, SHAP values etc.). Further, it also supports other types of random effects such as Gaussian processes in addition to grouped or clustered random effects.

    据我们所知,GPBoost库目前在计算速度和预测准确性方面无与伦比。 GPBoost的其他优点是支持多种模型解释工具(可变重要性值,偏相关图,SHAP值等)。 此外,除了分组或聚类的随机效应之外,它还支持其他类型的随机效应,例如高斯过程。

    Hopefully, you have found this article useful. More information on GPBoost can be found in the companion article Sigrist (2020) and on github.

    希望您发现本文很有用。 有关GPBoost的更多信息,请参见配套文章Sigrist(2020)github

    翻译自: https://towardsdatascience.com/tree-boosted-mixed-effects-models-4df610b624cb

    面板模型混合效应模型

    展开全文
  • 单因素试验固定效应模型方差分析 观测值的线性模型 平方和与自由度分解 例题与SPSS求解 非平衡单因素试验SPSS求解 一、观测值的线性模型 单因素试验线性可加模型为: Yij为第i个处理的第j个观测值;U为所有观测值...

    单因素试验固定效应模型方差分析

    1. 观测值的线性模型
    2. 平方和与自由度分解
    3. 例题与SPSS求解
    4. 非平衡单因素试验SPSS求解

    一、观测值的线性模型
    单因素试验线性可加模型为:

    在这里插入图片描述
    Yij为第i个处理的第j个观测值;U为所有观测值的平均值;Ti为第i个处理效应;Eij为随机误差。

    二、平方和与自由度分解
    平凡和的分解这里不做介绍,因为单因素方差分析大部分统计软件都能够计算,没有必要进行手动计算;另外还有一个原因就是CSDN编辑公式比较麻烦,这里就不敲了。PS:如果大家在CSDN有好的公式展示方法,后面会补上!~~目前需要的童鞋,自行查询相应书籍。

    自由度分解:
    自由度分解比较简单,下面详细介绍一下,大家可以根据自由度判断使用的软件给出的方差分析表是否正确,这是一个比较快速的方法。
    如果一个单因素试验,一共有a个处理,每个处理重复n次,则一共有an个观测值,具有一个约束条件所有的观测值减去观测平均值后,求和结果为0,因此总自由度为an-1;a个处理之间,每个处理观测值的平均值,和所有观测平均值之差求和为0,所以处理间自由度为a-1;而每个处理内部,n个观测值与该处理下观测平均值之差求和为0,一共有a个处理,则处理内自由度为a*(n-1)。
    总的来说,就是总自由度为观测值个数减一,也就是an-1;处理间自由度为处理个数减一,a-1;处理内自由度为a(n-1)。

    三、例题与SPSS求解
    某个树种5个不同种源种子的重量比较,分别称取100粒不同种源种子的重量,每个种源称量8次(每一批种子不同),观测值如下:
    在这里插入图片描述
    SPSS求解:
    SPSS数据表格如下:
    在这里插入图片描述
    软件操作:
    在这里插入图片描述在这里插入图片描述
    结果:
    在这里插入图片描述
    组间显著性小于0.000,说明种源种子质量之间差异极显著。

    下一章会介绍利用SPSS进行单因素非平衡试验方差分析,以及多重对比

    展开全文
  • 该方法可以克服逐步检验法和 Sobel 检验法在处理小样本量,小中介效应值,或者中介效应值不呈正态分布的情况下统计功效不高的缺点,并且能有效解决变量的测量误差以及多重中介模型的问题。在对该方法的原理进行介绍...
  • 文本主要阐述了R语言中如何用plm包做面板数据分析,几种模型的具体实现。 包括pool模型,LSDV模型,组内模型(within),时间固定效应Panel模型 和个体和时间双维固定效应模型。 提供了一个数据集供读者以复现

    LSDV是虚拟变量回归。
    如果想看如何判断面板数据适用随机效应模型还是固定效应模型,参见这篇文章:
    R语言 面板数据分析 plm包实现(三)——面板数据与面板模型的检验
    如果想看随机效应模型怎么做,参见这篇文章
    R语言 面板数据分析 plm包实现(二)——随机效应模型
    使用随机效应模型,且一些时间或个体存在数据缺失,应当使用Swamy Arora估计,如何用R语言来实现,参见这篇文章:
    R语言 面板数据如何做Swamy Arora估计

    看完这篇文章,如果对你有帮助,请帮我点个赞或者star哦~

    1.安装plm包

    可能会遇到错误:
    在这里插入图片描述
    采用这个指令进行安装:

    install.packages("plm",type = "binary")
    library(plm)
    

    安装完成

    2.模型描述

    有数据集:Ex1_1.dta
    数据样式:
    点击下载在这里插入图片描述
    其中FN代表公司,总共有三家;YR代表年份;I是总投资;F是企业实际价值;C是企业实际资本存量。

    更多解释:
    在这里插入图片描述

    数据导入

    这个数据集是stata的数据集,因此在Rstudio中你可以选择文件–>导入数据集(import dataset)–>导入stata文件,即可完成导入工作

    此外,我好像在其它地方也看见过此数据集,如果你无法下载,可以在其它地方寻找数据集(我印象里是在某个面板相关的R程序包里自带的数据集)。

    很多童鞋反映数据集获取困难,我把这个数据集上传到github的一个项目里了(免费),注意,只有一个文件是数据集。如果有帮到你,请给文章点个赞哦~

    3.pool 模型

    在这里插入图片描述
    Pool模型本质上是对变量去整体均值后进行 OLS 估计,也可以用plm包提供功能实现
    首先对数据进行处理使其变为data.frame

    rankData<-pdata.frame(Ex1_1,index=c("FN","YR")) #index里是个体和时间,转化为面板数据
    pool <- plm(I~ F + C,data=rankData,model="pooling")
    summary(pool)
    

    结果:
    在这里插入图片描述
    特别的,和OLS做对比

    ols =  lm(I~ F + C,data=rankData)
    summary(ols)
    

    在这里插入图片描述

    可见,结果是一样的,从软件结果进一步证实了数学推导,即忽略个体均值和时间差异的pool模型等价于OLS模型。

    4.个体固定效应的Panel模型——不考虑时间差异,考虑公司差异的估计

    在这里插入图片描述

    4.1LSDV(虚拟变量OLS回归)模型

    增加一个factor因子即可:
    注意:factor-1才能展现出十家公司,因为事实上公司设置了虚拟变量

    LSDV = lm(I~F+C+factor(FN)-1,data = Ex1_1)#factor-1才能展现出十家公司,因为事实上公司设置了虚拟变量
    summary(LSDV)
    

    结果:

    在这里插入图片描述
    解读:

    • F,C分别代表企业流通股票总价值和企业资本存量,此外还展示了 分别以十家公司做虚拟变量的估计结果,即不同公司是否显著影响企业的投资。

      即总共估计的参数是2+9共11个(9个虚拟变量是为了防止完全的多重共线性
      可以使用

    4.2组内模型(within)

    rankData<-pdata.frame(Ex1_1,index=c("FN","YR"))#第一个参数是面板的个体,第二个参数是面板的时间
    within <- plm(I~ F + C,data=rankData,effect = "individual",model="within")
    #within组内方法,检验不同个体是否存在差异(忽视时间影响)
    summary(within) 
    

    在这里插入图片描述
    解读

    • 公司股票价值每增加一个单位,对企业投资的贡献为0.11个单位;公司实际资本存量每增加一个单位,对企业投资对贡献为0.31个单位,这两个解释变量对被解释变量对贡献程度为75.31%

    可见,回归结果4.1和4.2相同,即LSDV(虚拟变量OLS回归)和within方法结果相同。

    可以使用下面的函数打印偏离总体截距的情况(注意属于one-way model,关于one-way model 和two-way model 的区别,可以点击网页链接查看

    fixef(within)
    

    在这里插入图片描述
    如果想查看它们的标准误差以及与总体截距相等的检验等详细信息,可以这样做:

    summary(fixef(within))
    

    在这里插入图片描述
    下面展示截距项类似,我就不再赘述

    5 时间固定效应Panel模型——考虑时间差异忽略公司差异

    在这里插入图片描述
    采用组内模型进行估计(也可用4.1方法进行估计,把factor(……)中的参数FN改成YR即可,结果是一样的)

    rankData<-pdata.frame(Ex1_1,index=c("FN","YR"))#第一个参数是面板的个体,第二个参数是面板的时间
    within2 = plm(I~ F + C,data=rankData,effect = "time",model="within")
    #within组内方法,检验不同时间是否存在差异(忽视个体影响)
    summary(within2)
    

    在这里插入图片描述

    解读

    • 用第4节中相似的办法可以解读

    6.个体和时间双维固定效应模型–Panel数据

    在这里插入图片描述

    rankData<-pdata.frame(Ex1_1,index=c("FN","YR"))#第一个参数是面板的个体,第二个参数是面板的时间
    within3 <- plm(I~ F + C,data=rankData,effect = "twoways",model="within")
    #twoways参数既考虑个体效益,也考虑时间效应
    summary(within3)
    

    在这里插入图片描述

    解读
    解读类似上面。此外F,C的F检验都是显著的(F,C后面的三个星号*)。拒绝全为0的原假设。

    7.可供参考的资料

    从经管之家帖子看到的

    R计量的不多,你下载下面的书去看面板的章节把
    Applied Econometrics with R
    伍德里奇的配套的书
    Principles of Econometrics with R https://bbs.pinggu.org/thread-4805190-1-1.html

    或者看 plm包的说明文件(个人不太推荐,感觉写的不清楚)
    helphttps://www.jstatsoft.org/article/view/v027i02
    https://cran.r-project.org/web/views/Econometrics.html

    展开全文
  • 多重中介的调节模型的检验及实证分析,彭月,吴海英,在效应分析模型中,有时存在多个中介变量,因此推广了一种新模型---有多重中介的调节模型,该模型分为有多个并列中介的调节模型
  • 建立了空气孔径呈现横向线性变化的三角形网格梯度折射率光子晶体平板透镜二维模型,应用多重散射方法(MSM),对该模型在波长平面光入射的情况下, TE模式的电磁场分布进行了数值模拟,从而验证了该光子晶体透镜的聚焦...
  • 随机效应与固定效应&面板数据回归

    万次阅读 多人点赞 2014-11-13 21:07:45
    方差分析主要有三种模型:即固定效应模型(fixed effects model),随机效应模型(random effects model),混合效应模型(mixed effects model)。 所谓的固定、随机、混合,主要是针对分组变量而言的。 固定效应...

    转载自:http://cjx06xj03.blog.163.com/blog/static/114987428201281610274587/

    随机效应与固定效应

    方差分析主要有三种模型:即固定效应模型(fixed effects model),随机效应模型(random effects model),混合效应模型(mixed effects model)。

    所谓的固定、随机、混合,主要是针对分组变量而言的。

    固定效应模型,表示你打算比较的就是你现在选中的这几组。例如,我想比较3种药物的疗效,我的目的就是为了比较这三种药的差别,不想往外推广。这三种药不是从很多种药中抽样出来的,不想推广到其他的药物,结论仅限于这三种药。“固定”的含义正在于此,这三种药是固定的,不是随机选择的。

    随机效应模型,表示你打算比较的不仅是你的设计中的这几组,而是想通过对这几组的比较,推广到他们所能代表的总体中去。例如,你想知道是否名牌大学的就业率高于普通大学,你选择了北大、清华、北京工商大学、北京科技大学4所学校进行比较,你的目的不是为了比较这4所学校之间的就业率差异,而是为了说明他们所代表的名牌和普通大学之间的差异。你的结论不会仅限于这4所大学,而是要推广到名牌和普通这样的一个更广泛的范围。“随机”的含义就在于此,这4所学校是从名牌和普通大学中随机挑选出来的。

     

     

     

    混合效应模型就比较好理解了,就是既有固定的因素,也有随机的因素。

    一般来说,只有固定效应模型,才有必要进行两两比较,随机效应模型没有必要进行两两比较,因为研究的目的不是为了比较随机选中的这些组别。

     

    固定效应和随机效应的选择是大家做面板数据常常要遇到的问题,一个常见的方法是做huasman检验,即先估计一个随机效应,然后做检验,如果拒绝零假设,则可以使用固定效应,反之如果接受零假设,则使用随机效应。但这种方法往往得到事与愿违的结果。另一个想法是在建立模型前根据数据性质确定使用那种模型,比如数据是从总体中抽样得到的,则可以使用随机效应,比如从N个家庭中抽出了M个样本,则由于存在随机抽样,则建议使用随机效应,反之如果数据是总体数据,比如31个省市的Gdp,则不存在随机抽样问题,可以使用固定效应。同时,从估计自由度角度看,由于固定效应模型要估计每个截面的参数,因此随机效应比固定效应有较大的自由度.

     


    固定效应模型
      固定效应模型(fixed effects model)的应用前提是假定全部研究结果的方向与效应大小基本相同,即各独立研究的结果趋于一致,一致性检验差异无显著性。因此固定效应模型适用于各独立研究间无差异,或差异较小的研究。 
      固定效应模型是指实验结果只想比较每一自变项之特定类目或类别间的差异及其与其他自变项之特定类目或类别间交互作用效果,而不想依此推论到同一自变项未包含在内的其他类目或类别的实验设计。例如:研究者想知道教师的认知类型在不同教学方法情境中,对儿童学习数学的效果有何不同,其中教师和学生的认知类型,均指场地依赖型和场地独立型,而不同的教学方法,则指启发式、讲演式、编序式。当实验结束时,研究者仅就两种类型间的交互作用效果及类型间的差异进行说明,而未推论到其他认知类型,或第四种教学方法。象此种实验研究模式,即称为固定效果模式。与本词相对者是随机效应模型(random effect model)、混合效应模型(mixed effect model)。

    随机效应模型 random effects models
      随机效应模型(random effects models)是经典的线性模型的一种推广,就是把原来(固定)的回归系数看作是随机变量,一般都是假设是来自正态分布。如果模型里一部分系数是随机的,另外一些是固定的,一般就叫做混合模型(mixed models)。 
      虽然定义很简单,对线性混合模型的研究与应用也已经比较成熟了,但是如果从不同的侧面来看,可以把很多的统计思想方法综合联系起来。概括地来说,这个模型是频率派和贝叶斯模型的结合,是经典的参数统计到高维数据分析的先驱,是拟合具有一定相关结构的观测的典型工具。 
      随机效应最直观的用处就是把固定效应推广到随机效应。注意,这时随机效应是一个群体概念,代表了一个分布的信息 or 特征,而对固定效应而言,我们所做的推断仅限于那几个固定的(未知的)参数。例如,如果要研究一些水稻的品种是否与产量有影响,如果用于分析的品种是从一个很大的品种集合里随机选取的,那么这时用随机效应模型分析就可以推断所有品种构成的整体的一些信息。这里,就体现了经典的频率派的思想-任何样本都来源于一个无限的群体(population)。 
      同时,引入随机效应就可以使个体观测之间就有一定的相关性,所以就可以用来拟合非独立观测的数据。经典的就有重复观测的数据,多时间点的记录等等,很多时候就叫做纵向数据(longitudinal data),已经成为很大的一个统计分支。 
      上述两点基本上属于频率派,分析的工具也很经典,像极大似然估计,似然比检验,大样本的渐近性等。但是,应该注意到把固定的参数看做是随机变量,可是贝叶斯学派的观念。当然,mixed models 不能算是完全的贝叶斯模型,因为贝叶斯学派要把所有的未知的参数都看作是随机的。所以有人把它看做是半贝叶斯的 or 经验贝叶斯的。在这个模型上,我们可以看到两个学派很好的共存与交流,在现代的统计方法里两种学派互相结合的例子也越来越多。 
      众所周知,随机效应有压缩(shrinkage)的功能, 而且可以使模型的自由度(df) 变小。这个简单的结果,对现在的高维数据分析的发展起到了至关重要的作用。事实上,随机效应模型就是一个带惩罚(penalty)的一个线性模型,有引入正态随机效应就等价于增加的一个二次惩罚。有趣的是,著名的岭回归(ridge regression) 就是一个二次惩罚,它的提出解决了当设计矩阵不满秩时最小二乘估计(LSE)无法计算以及提高了预测能力。于是,引入随机效应或者二次惩罚就可以处理当参数个数p 大于观测个数n的情形,这是在分析高维数据时必须面对的问题。当然,二次惩罚还有一个特性,如:计算简便,能选择相关的predictors,对前面的几个主成分压缩程度较小等。




    根据面板数据的特性,在回归模型的设定的有效性问题上,我们需要检验混合估计模型、固定效应模型(Fixed-Effect Model)以及随机效应模型(Random-Effect Model)的有效性[1],其中固定效应又包括个体固定效应和时间固定效应(如果同时具备个体固定效应和时间固定效应,则称之为双向固定效应)。对于混合估计模型和固定效应模型,我们可以使用F检验来判别其有效性;对于混合估计模型和随机效应模型,通常可以用LM检验判别其有效性;对于固定效应模型和随机效应模型,通常用Hausman检验判断其适用性。有关模型设定和检验的细节可以参考Baltagi(2005)
    所以,你需要分别检验是否加入时间固定效应、是否需要加入个体固定效应。
    [1] 简言之,混合估计模型就是假定所有公司年度都具有相同的截距项;固定效应模型假定截距项随公司和年度而变;随机效应模型不但假定截距项随公司和年度而变,而且假定这些不同的截距项和其它解释变量不相关。更为具体的模型设定问题可以参见李子奈、叶阿忠(2000),Wooldridge(2003),以及Baltagi(2005)。



    面板数据分析方法步骤

     

    步骤一:分析数据的平稳性(单位根检验)

     

    按照正规程序,面板数据模型在回归前需检验数据的平稳性。李子奈曾指出,一些非平稳的经济时间序列往往表现出共同的变化趋势,而这些序列间本身不一定有直接的关联,此时,对这些数据进行回归,尽管有较高的R平方,但其结果是没有任何实际意义的。这种情况称为称为虚假回归或伪回归(spurious regression)。他认为平稳的真正含义是:一个时间序列剔除了不变的均值(可视为截距)和时间趋势以后,剩余的序列为零均值,同方差,即白噪声。因此单位根检验时有三种检验模式:既有趋势又有截距、只有截距、以上都无。

    因此为了避免伪回归,确保估计结果的有效性,我们必须对各面板序列的平稳性进行检验。而检验数据平稳性最常用的办法就是单位根检验。首先,我们可以先对面板序列绘制时序图,以粗略观测时序图中由各个观测值描出代表变量的折线是否含有趋势项和(或)截距项,从而为进一步的单位根检验的检验模式做准备。

    单位根检验方法的文献综述:在非平稳的面板数据渐进过程中,Levin andLin(1993) 很早就发现这些估计量的极限分布是高斯分布,这些结果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。后来经过Levin et al. (2002)的改进,提出了检验面板单位根的LLC 法。Levin et al. (2002) 指出,该方法允许不同截距和时间趋势,异方差和高阶序列相关,适合于中等维度(时间序列介于25~250 之间,截面数介于10~250 之间) 的面板单位根检验。Im et al. (1997) 还提出了检验面板单位根的IPS 法,但Breitung(2000) 发现IPS 法对限定性趋势的设定极为敏感,并提出了面板单位根检验的Breitung 法。Maddala and Wu(1999)又提出了ADF-Fisher和PP-Fisher面板单位根检验方法。

    由上述综述可知,可以使用LLC、IPS、Breintung、ADF-Fisher 和PP-Fisher5种方法进行面板单位根检验。

    其中LLC-T 、BR-T、IPS-W 、ADF-FCS、PP-FCS 、H-Z 分别指Levin, Lin & Chu t* 统计量、Breitung t 统计量、lm Pesaran & Shin W 统计量、ADF- Fisher Chi-square统计量、PP-Fisher Chi-square统计量、Hadri Z统计量,并且Levin, Lin & Chu t* 统计量、Breitung t统计量的原假设为存在普通的单位根过程,lm Pesaran & Shin W 统计量、ADF- Fisher Chi-square统计量、PP-Fisher Chi-square统计量的原假设为存在有效的单位根过程, Hadri Z统计量的检验原假设为不存在普通的单位根过程。

    有时,为了方便,只采用两种面板数据单位根检验方法,即相同根单位根检验LLC(Levin-Lin-Chu)检验和不同根单位根检验 Fisher-ADF检验(注:对普通序列(非面板序列)的单位根检验方法则常用ADF检验),如果在两种检验中均拒绝存在单位根的原假设则我们说此序列是平稳的,反之则不平稳。

    如果我们以T(trend)代表序列含趋势项,以I(intercept)代表序列含截距项,T&I代表两项都含,N(none)代表两项都不含,那么我们可以基于前面时序图得出的结论,在单位根检验中选择相应检验模式。

    但基于时序图得出的结论毕竟是粗略的,严格来说,那些检验结构均需一一检验。具体操作可以参照李子奈的说法:ADF检验是通过三个模型来完成,首先从含有截距和趋势项的模型开始,再检验只含截距项的模型,最后检验二者都不含的模型。并且认为,只有三个模型的检验结果都不能拒绝原假设时,我们才认为时间序列是非平稳的,而只要其中有一个模型的检验结果拒绝了零假设,就可认为时间序列是平稳的。

    此外,单位根检验一般是先从水平(level)序列开始检验起,如果存在单位根,则对该序列进行一阶差分后继续检验,若仍存在单位根,则进行二阶甚至高阶差分后检验,直至序列平稳为止。我们记I(0)为零阶单整,I(1)为一阶单整,依次类推,I(N)为N阶单整。

     

    步骤二:协整检验或模型修正

    情况一:如果基于单位根检验的结果发现变量之间是同阶单整的,那么我们可以进行协整检验。协整检验是考察变量间长期均衡关系的方法。所谓的协整是指若两个或多个非平稳的变量序列,其某个线性组合后的序列呈平稳性。此时我们称这些变量序列间有协整关系存在。因此协整的要求或前提是同阶单整。

    但也有如下的宽限说法:如果变量个数多于两个,即解释变量个数多于一个,被解释变量的单整阶数不能高于任何一个解释变量的单整阶数。另当解释变量的单整阶数高于被解释变量的单整阶数时,则必须至少有两个解释变量的单整阶数高于被解释变量的单整阶数。如果只含有两个解释变量,则两个变量的单整阶数应该相同。

    也就是说,单整阶数不同的两个或以上的非平稳序列如果一起进行协整检验,必然有某些低阶单整的,即波动相对高阶序列的波动甚微弱(有可能波动幅度也不同)的序列,对协整结果的影响不大,因此包不包含的重要性不大。而相对处于最高阶序列,由于其波动较大,对回归残差的平稳性带来极大的影响,所以如果协整是包含有某些高阶单整序列的话(但如果所有变量都是阶数相同的高阶,此时也被称作同阶单整,这样的话另当别论),一定不能将其纳入协整检验。

    协整检验方法的文献综述:(1)Kao(1999)、Kao and Chiang(2000)利用推广的DF和ADF检验提出了检验面板协整的方法,这种方法零假设是没有协整关系,并且利用静态面板回归的残差来构建统计量。(2)Pedron(1999)在零假设是在动态多元面板回归中没有协整关系的条件下给出了七种基于残差的面板协整检验方法。和Kao的方法不同的是,Pedroni的检验方法允许异质面板的存在。(3)Larsson et al(2001)发展了基于Johansen(1995)向量自回归的似然检验的面板协整检验方法,这种检验的方法是检验变量存在共同的协整的秩。

    我们主要采用的是Pedroni、Kao、Johansen的方法。

    通过了协整检验,说明变量之间存在着长期稳定的均衡关系,其方程回归残差是平稳的。因此可以在此基础上直接对原方程进行回归,此时的回归结果是较精确的。
    这时,我们或许还想进一步对面板数据做格兰杰因果检验(因果检验的前提是变量协整)。但如果变量之间不是协整(即非同阶单整)的话,是不能进行格兰杰因果检验的,不过此时可以先对数据进行处理。引用张晓峒的原话,“如果y和x不同阶,不能做格兰杰因果检验,但可通过差分序列或其他处理得到同阶单整序列,并且要看它们此时有无经济意义。”

    下面简要介绍一下因果检验的含义:这里的因果关系是从统计角度而言的,即是通过概率或者分布函数的角度体现出来的:在所有其它事件的发生情况固定不变的条件下,如果一个事件X的发生与不发生对于另一个事件Y的发生的概率(如果通过事件定义了随机变量那么也可以说分布函数)有影响,并且这两个事件在时间上又有先后顺序(A前B后),那么我们便可以说X是Y的原因。考虑最简单的形式,Granger检验是运用F-统计量来检验X的滞后值是否显著影响 Y(在统计的意义下,且已经综合考虑了Y的滞后值;如果影响不显著,那么称X不是Y的“Granger原因”(Granger cause);如果影响显著,那么称X是Y的“Granger原因”。同样,这也可以用于检验Y是X的“原因”,检验Y的滞后值是否影响X(已经考虑了X 的滞后对X自身的影响)。

    Eviews好像没有在POOL窗口中提供Granger causality test,而只有unit root test和cointegration test。说明Eviews是无法对面板数据序列做格兰杰检验的,格兰杰检验只能针对序列组做。也就是说格兰杰因果检验在Eviews中是针对普通的序列对(pairwise)而言的。你如果想对面板数据中的某些合成序列做因果检验的话,不妨先导出相关序列到一个组中(POOL窗口中的Proc/Make Group),再来试试。

    情况二:如果如果基于单位根检验的结果发现变量之间是非同阶单整的,即面板数据中有些序列平稳而有些序列不平稳,此时不能进行协整检验与直接对原序列进行回归。但此时也不要着急,我们可以在保持变量经济意义的前提下,对我们前面提出的模型进行修正,以消除数据不平稳对回归造成的不利影响。如差分某些序列,将基于时间频度的绝对数据变成时间频度下的变动数据或增长率数据。此时的研究转向新的模型,但要保证模型具有经济意义。因此一般不要对原序列进行二阶差分,因为对变动数据或增长率数据再进行差分,我们不好对其冠以经济解释。难道你称其为变动率的变动率?

     

    步骤三:面板模型的选择与回归

    面板数据模型的选择通常有三种形式:

    一种是混合估计模型(Pooled Regression Model)。如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数。一种是固定效应模型(Fixed Effects Regression Model)。如果对于不同的截面或不同的时间序列,模型的截距不同,则可以采用在模型中添加虚拟变量的方法估计回归参数。一种是随机效应模型(Random Effects Regression Model)。如果固定效应模型中的截距项包括了截面随机误差项和时间随机误差项的平均效应,并且这两个随机误差项都服从正态分布,则固定效应模型就变成了随机效应模型。

    在面板数据模型形式的选择方法上,我们经常采用F检验决定选用混合模型还是固定效应模型,然后用Hausman检验确定应该建立随机效应模型还是固定效应模型。

    检验完毕后,我们也就知道该选用哪种模型了,然后我们就开始回归:

    在回归的时候,权数可以选择按截面加权(cross-section weights)的方式,对于横截面个数大于时序个数的情况更应如此,表示允许不同的截面存在异方差现象。估计方法采用PCSE(Panel Corrected Standard Errors,面板校正标准误)方法。Beck和Katz(1995)引入的PCSE估计方法是面板数据模型估计方法的一个创新,可以有效的处理复杂的面板误差结构,如同步相关,异方差,序列相关等,在样本量不够大时尤为有用。



    原文:http://hi.baidu.com/acleo/blog/item/e80684bf6a5bad0318d81f25.html



     

     

    固定效应模型分为三种:个体固定效应模型、时刻固定效应模型和个体时刻固定效应模型)。如果我们是对个体固定,则应选择个体固定效用模型。但是,我们还需作个体固定效应模型和混合估计模型的选择。所以,就要作F值检验。
    相对于混合估计模型来说,是否有必要建立个体固定效应模型可以通过F检验来完成。
    H0:对于不同横截面模型截距项相同(建立混合估计模型)。SSEr
    H1:对于不同横截面模型的截距项不同(建立时刻固定效应模型)。SSEu
    F统计量定义为:

     

    F=[( SSEr - SSEu)/(T+k-2)]/[ SSEu/(NT-T-k)]

    其中,SSEr,SSEu分别表示约束模型(混合估计模型的)和非约束模型(个体固定效应模型的)的残差平方和(Sum squared resid)。非约束模型比约束模型多了T–1个被估参数。需要指出的是:当模型中含有k个解释变量时,F统计量的分母自由度是NT-T- k。通过对F统计量我们将可选择准确、最佳的估计模型。
    在作回归时也是四步:

    第一步,先作混合效应模型: 在cross-section 一栏选择None ,Period也是None;Weights是cross-section Weights,然后把回归结果的Sum squared resid值复制出来,就是SSEr
    第二步:作个体固定效用模型:在cross-section 一栏选择Fixed ,Period也是None;Weights是cross-section Weights,然后把回归结果的Sum squared resid值复制出来,就是SSEu
    第三步:根据公式F=[( SSEr - SSEu)/(T+k-2)]/[ SSEu/(NT-T-k)]。计算出结果。其中,T为年数,不管我们的数据是unbalance还是balance看observations就行了,也即Total pool (balanced) observations:的值,但是如果是balance我们也可以计算,也即是每一年的企业数的总和。比如说我们研究10年,每一年又500加企业,则NT=10×500=5000。K为解释变量,不含被解释变量。
    第四步,根据计算出来的结果查F值分布表。看是否通过检验。检验准则:当F> Fα(T-1, NT-T-k) , α=0.01,0.05或0.1时,拒绝原假设,则结论是应该建立个体固定效应模型,反之,接受原假设,则不能建立个体固定效应模型。

     

     

     


            面板数据确定采用固定效应还是随机效应需要做hausman test(豪斯曼检验)。过程是,先对面板数据做随机性检验,在结果窗口的PROC菜单下选择hausman test就可以了,检验的原假设是应该采用随机效应,备则假设是固定效应。 
           豪斯曼检验是确定常数项的固定或者随机效应的。F检验是判断方程是混合方程、变截距方程还是变系数方程,需要求解三个方程的残差平方和。两个是不同的问题。 
             具体方法是:用EVIEWS先对回归方程做混合模型求解,在结果中有一项Sum squared resid(在结果的下面,R平方值的旁边),这个就是残差平方和,这个值就是S3;然后在用变截距模型求解,得出S3,最后是变系数模型,得出S1。有了这三个值,F值自己手算就可以了。 


    面板数据模型(PANEL DATA)F检验,固定效应检验
    1.面板数据定义。

    时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据。面板数据(panel data)也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。面板数据是同时在时间和截面空间上取得的二维数据。面板数据示意图见图1。面板数据从横截面(cross section)上看,是由若干个体(entity, unit, individual)在某一时刻构成的截面观测值,从纵剖面(longitudinal section)上看是一个时间序列。

    面板数据用双下标变量表示。例如

    yi t, i = 1, 2, …, N; t = 1, 2, …, T

    N表示面板数据中含有N个个体。T表示时间序列的最大长度。若固定t不变,yi ., ( i = 1, 2, …, N)是横截面上的N个随机变量;若固定i不变,y. t, (t = 1, 2, …, T)是纵剖面上的一个时间序列(个体)。

     

    图1 N=7,T=50的面板数据示意图

     

    例如1990-2000年30个省份的农业总产值数据。固定在某一年份上,它是由30个农业总产总值数字组成的截面数据;固定在某一省份上,它是由11年农业总产值数据组成的一个时间序列。面板数据由30个个体组成。共有330个观测值。

    对于面板数据yi t, i = 1, 2, …, N; t = 1, 2, …, T来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data)。若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data)。

    注意:EViwes 3.1、4.1、5.0既允许用平衡面板数据也允许用非平衡面板数据估计模型。

    例1(file:panel02):1996-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费(不变价格)和人均收入数据见表1和表2。数据是7年的,每一年都有15个数据,共105组观测值。

    人均消费和收入两个面板数据都是平衡面板数据,各有15个个体。人均消费和收入的面板数据从纵剖面观察分别见图2和图3。从横截面观察分别见图4和图5。横截面数据散点图的表现与观测值顺序有关。图4和图5中人均消费和收入观测值顺序是按地区名的汉语拼音字母顺序排序的。

    表1 1999-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费数据(不变价格)

     

    地区人均消费

    1996

    1997

    1998

    1999

    2000

    2001

    2002

    CP-AH(安徽)

    3282.466

    3646.150

    3777.410

    3989.581

    4203.555

    4495.174

    4784.364

    CP-BJ(北京)

    5133.978

    6203.048

    6807.451

    7453.757

    8206.271

    8654.433

    10473.12

    CP-FJ(福建)

    4011.775

    4853.441

    5197.041

    5314.521

    5522.762

    6094.336

    6665.005

    CP-HB(河北)

    3197.339

    3868.319

    3896.778

    4104.281

    4361.555

    4457.463

    5120.485

    CP-HLJ(黑龙江)

    2904.687

    3077.989

    3289.990

    3596.839

    3890.580

    4159.087

    4493.535

    CP-JL(吉林)

    2833.321

    3286.432

    3477.560

    3736.408

    4077.961

    4281.560

    4998.874

    CP-JS(江苏)

    3712.260

    4457.788

    4918.944

    5076.910

    5317.862

    5488.829

    6091.331

    CP-JX(江西)

    2714.124

    3136.873

    3234.465

    3531.775

    3612.722

    3914.080

    4544.775

    CP-LN(辽宁)

    3237.275

    3608.060

    3918.167

    4046.582

    4360.420

    4654.420

    5402.063

    CP-NMG(内蒙古)

    2572.342

    2901.722

    3127.633

    3475.942

    3877.345

    4170.596

    4850.180

    CP-SD(山东)

    3440.684

    3930.574

    4168.974

    4546.878

    5011.976

    5159.538

    5635.770

    CP-SH(上海)

    6193.333

    6634.183

    6866.410

    8125.803

    8651.893

    9336.100

    10411.94

    CP-SX(山西)

    2813.336

    3131.629

    3314.097

    3507.008

    3793.908

    4131.273

    4787.561

    CP-TJ(天津)

    4293.220

    5047.672

    5498.503

    5916.613

    6145.622

    6904.368

    7220.843

    CP-ZJ(浙江)

    5342.234

    6002.082

    6236.640

    6600.749

    6950.713

    7968.327

    8792.210

     

     

    资料来源:《中国统计年鉴》1997-2003。

     

    表2 1999-2002年中国东北、华北、华东15个省级地区的居民家庭人均收入数据(不变价格)

     

    地区人均收入

    1996

    1997

    1998

    1999

    2000

    2001

    2002

    IP-AH(安徽)

    4106.251

    4540.247

    4770.470

    5178.528

    5256.753

    5640.597

    6093.333

    IP-BJ(北京)

    6569.901

    7419.905

    8273.418

    9127.992

    9999.700

    11229.66

    12692.38

    IP-FJ(福建)

    4884.731

    6040.944

    6505.145

    6922.109

    7279.393

    8422.573

    9235.538

    IP-HB(河北)

    4148.282

    4790.986

    5167.317

    5468.940

    5678.195

    5955.045

    6747.152

    IP-HLJ(黑龙江)

    3518.497

    3918.314

    4251.494

    4747.045

    4997.843

    5382.808

    6143.565

    IP-JL(吉林)

    3549.935

    4041.061

    4240.565

    4571.439

    4878.296

    5271.925

    6291.618

    IP-JS(江苏)

    4744.547

    5668.830

    6054.175

    6624.316

    6793.437

    7316.567

    8243.589

    IP-JX(江西)

    3487.269

    3991.490

    4209.327

    4787.606

    5088.315

    5533.688

    6329.311

    IP-LN(辽宁)

    3899.194

    4382.250

    4649.789

    4968.164

    5363.153

    5797.010

    6597.088

    IP-NMG(内蒙古)

    3189.414

    3774.804

    4383.706

    4780.090

    5063.228

    5502.873

    6038.922

    IP-SD(山东)

    4461.934

    5049.407

    5412.555

    5849.909

    6477.016

    6975.521

    7668.036

    IP-SH(上海)

    7489.451

    8209.037

    8773.100

    10770.09

    11432.20

    12883.46

    13183.88

    IP-SX(山西)

    3431.594

    3869.952

    4156.927

    4360.050

    4546.785

    5401.854

    6335.732

    IP-TJ(天津)

    5474.963

    6409.690

    7146.271

    7734.914

    8173.193

    8852.470

    9375.060

    IP-ZJ(浙江)

    6446.515

    7158.288

    7860.341

    8530.314

    9187.287

    10485.64

    11822.00

     

     

    资料来源:《中国统计年鉴》1997-2003。

     

     

    图2 15个省级地区的人均消费序列(纵剖面) 图3 15个省级地区的人均收入序列(file:4panel02)

     

    图4 15个省级地区的人均消费散点图 图5 15个省级地区的人均收入散点图(7个横截面叠加)

    (每条连线表示同一年度15个地区的消费值) (每条连线表示同一年度15个地区的收入值)

     

    用CP表示消费,IP表示收入。AH, BJ, FJ, HB, HLJ, JL, JS, JX, LN, NMG, SD, SH, SX, TJ, ZJ分别表示安徽省、北京市、福建省、河北省、黑龙江省、吉林省、江苏省、江西省、辽宁省、内蒙古自治区、山东省、上海市、山西省、天津市、浙江省。

    15个地区7年人均消费对收入的面板数据散点图见图6和图7。图6中每一种符号代表一个省级地区的7个观测点组成的时间序列。相当于观察15个时间序列。图7中每一种符号代表一个年度的截面散点图(共7个截面)。相当于观察7个截面散点图的叠加。

     

    图6 用15个时间序列表示的人均消费对收入的面板数据

     

    图7 用7个截面表示的人均消费对收入的面板数据(7个截面叠加)

     

    为了观察得更清楚一些,图8给出北京和内蒙古1996-2002年消费对收入散点图。从图中可以看出,无论是从收入还是从消费看内蒙古的水平都低于北京市。内蒙古2002年的收入与消费规模还不如北京市1996年的大。图9给出该15个省级地区1996和2002年的消费对收入散点图。可见6年之后15个地区的消费和收入都有了相应的提高。

     

    图8 北京和内蒙古1996-2002年消费对收入时序图 图9 1996和2002年15个地区的消费对收入散点图

     

    2.面板数据的估计。

    用面板数据建立的模型通常有3种。即混合估计模型、固定效应模型和随机效应模型。

    2.1 混合估计模型。

    如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数。

    如果从时间和截面看模型截距都不为零,且是一个相同的常数,以二变量模型为例,则建立如下模型,

    yit = a +b1 xit +eit, i = 1, 2, …, N; t = 1, 2, …, T (1)

    a 和b1不随i,t变化。称模型(1)为混合估计模型。

    以例1中15个地区1996和2002年数据建立关于消费的混合估计模型,得结果如下:

     

    图10

    EViwes估计方法:在打开工作文件窗口的基础上,点击主功能菜单中的Objects键,选New Object功能,从而打开New Object(新对象)选择窗。在Type of Object选择区选择Pool(混合数据库),点击OK键,从而打开Pool(混合数据)窗口。在窗口中输入15个地区标识AH(安徽)、BJ(北京)、…、ZJ(浙江)。工具栏中点击Sheet键,从而打开Series List(列写序列名)窗口,定义变量CP?和IP?,点击OK键,Pool(混合或合并数据库)窗口显示面板数据。在Pool窗口的工具栏中点击Estimate键,打开Pooled Estimation(混合估计)窗口如下图。

     

    图11

    在Dependent Variable(相依变量)选择窗填入CP?;在Common coefficients(系数相同)选择窗填入IP?;Cross section specific coefficients(截面系数不同)选择窗保持空白;在Intercept(截距项)选择窗点击Common;在Weighting(权数)选择窗点击No weighting。点击Pooled Estimation(混合估计)窗口中的OK键。得输出结果如图10。相应表达式是

    = 129.6313 +0.7587 IPit

    (2.0) (79.7) R2 = 0.98, SSEr = 4824588, t0.05 (103) = 1.99

    15个省级地区的人均支出平均占收入的76%。

    如果从时间和截面上看模型截距都为零,就可以建立不含截距项的(a = 0)的混合估计模型。以二变量模型为例,建立混合估计模型如下,

    yit = b1 xit +eit, i = 1, 2, …, N; t = 1, 2, …, T (2)

    对于本例,因为上式中的截距项有显著性(t = 2.0 > t0.05 (103) = 1.99),所以建立截距项为零的混合估计模型是不合适的。

    EViwes估计方法:在Pooled Estimation(混合估计)对话框中Intercept(截距项)选择窗中选None,其余选项同上。

    2.2 固定效应模型。

    在面板数据散点图中,如果对于不同的截面或不同的时间序列,模型的截距是不同的,则可以采用在模型中加虚拟变量的方法估计回归参数,称此种模型为固定效应模型(fixed effects regression model)。

    固定效应模型分为3种类型,即个体固定效应模型(entity fixed effects regressionmodel)、时刻固定效应模型(time fixed effects regression model)和时刻个体固定效应模型(time and entity fixed effects regression model)。下面分别介绍。

    (1)个体固定效应模型。

    个体固定效应模型就是对于不同的个体有不同截距的模型。如果对于不同的时间序列(个体)截距是不同的,但是对于不同的横截面,模型的截距没有显著性变化,那么就应该建立个体固定效应模型,表示如下,

    yit = b1 xit +g1 W1 + g2 W2 + … +g N WN +eit, t = 1, 2, …, T (3)

    其中

    Wi =

    eit, i = 1, 2, …, N; t = 1, 2, …, T,表示随机误差项。yit, xit, i = 1, 2, …, N; t = 1, 2, …, T分别表示被解释变量和解释变量。

    模型(3)或者表示为

    y1t = g1 +b1 x1t +e1t, i = 1(对于第1个个体,或时间序列),t = 1, 2, …, T

    y2t = g2 +b1 x2t +e2 t, i = 2(对于第2个个体,或时间序列),t = 1, 2, …, T

    yN t = gN +b1 xN t +e N t, i = N(对于第N个个体,或时间序列),t = 1, 2, …, T

    写成矩阵形式,

    y1 = (1 x1) +e1 = g1 + x1 b +e1

    yN = (1 xN) +eN = gN + xN b +eN

    上式中yi,gi,ei,xi都是N?1阶列向量。b为标量。当模型中含有k个解释变量时,b为k?1阶列向量。进一步写成矩阵形式,

    = + b +

    上式中的元素1,0都是T?1阶列向量。

    面板数据模型用OLS方法估计时应满足如下5个假定条件:

    (1)E(eit|xi1, xi2, …, xiT, ai) = 0。以xi1, xi2, …, xiT, ai为条件的eit的期望等于零。

    (2)(xi1, xi2, …, xiT), ( yi1, yi2, …, yiT), i = 1, 2, …, N分别来自于同一个联合分布总体,并相互独立。

    (3)(xit, eit)具有非零的有限值4阶矩。

    (4)解释变量之间不存在完全共线性。

    (5)Cov(eit eis|xit,xis, ai) = 0, t ? s。在固定效应模型中随机误差项eit在时间上是非自相关的。其中xit代表一个或多个解释变量。

    对模型(1)进行OLS估计,全部参数估计量都是无偏的和一致的。模型的自由度是N T –1–N。

    当模型含有k个解释变量,且N很大,相对较小时,因为模型中含有k + N个被估参数,一般软件执行OLS运算很困难。在计量经济学软件中是采用一种特殊处理方式进行OLS估计。

    估计原理是,先用每个变量减其组内均值,把数据中心化(entity-demeaned),然后用变换的数据先估计个体固定效应模型的回归系数(不包括截距项),然后利用组内均值等式计算截距项。这种方法计算起来速度快。具体分3步如下。

    (1)首先把变量中心化(entity-demeaned)。

    仍以单解释变量模型(3)为例,则有

    = gi + b1 + , i = 1, 2, …, N (4)

    其中 = , = , = , i = 1, 2, …, N。公式(1)、(4)相减得,

    (yit - ) = b1(xit - ) + (eit - ) (5)

    令(yit - ) = ,(xit - ) = ,(eit - ) = ,上式写为

    = b1 + (6)

    用OLS法估计(1)、(6)式中的b1,结果是一样的,但是用(6)式估计,可以减少被估参数个数。

    (2)用OLS法估计回归参数(不包括截距项,即固定效应)。

    在k个解释变量条件下,把 用向量形式 表示,则利用中心化数据,按OLS法估计公式计算个体固定效应模型中回归参数估计量的方差协方差矩阵估计式如下,

    ( ) = ( ' )-1 (7)

    其中 = , 是相对于 的残差向量。

    (3)计算回归模型截距项,即固定效应参数gi。

    = - (8)

    以例1(file:panel02)为例得到的个体固定效应模型估计结果如下:

     

    注意:个体固定效应模型的EViwes输出结果中没有公共截距项。

    图12

    EViwes估计方法:在EViwes的Pooled Estimation对话框中Intercept选项中选Fixed effects。其余选项同上。

    注意:

    (1)个体固定效应模型的EViwes输出结果中没有公共截距项。

    (2)EViwes输出结果中没有给出描述个体效应的截距项相应的标准差和t值。不认为截距项是模型中的重要参数。

    (3)当对个体固定效应模型选择加权估计时,输出结果将给出加权估计和非加权估计两种统计量评价结果。

    (4)输出结果的联立方程组形式可以通过点击View选Representations功能获得。

    (5)点击View选Wald Coefficient Tests…功能可以对模型的斜率进行Wald检验。

    (6)点击View选Residuals/Table, Graphs, Covariance Matrix, Correlation Matrix功能可以分别得到按个体计算的残差序列表,残差序列图,残差序列的方差协方差矩阵,残差序列的相关系数矩阵。

    (7)点击Procs选Make Model功能,将会出现估计结果的联立方程形式,进一步点击Solve键,在随后出现的对话框中可以进行动态和静态预测。

    输出结果的方程形式是

    = 安徽+ x1t = 479.3 + 0.70 x1t

    (55.0)

    = 北京+ x2t = 1053.2 + 0.70 x2t

    … (55.0)

    = 浙江+ x15t = 714.2 + 0.70 x15t

    (55.0)

    R2 = 0.99, SSEr = 2270386, t0.05 (88) = 1.98

    从结果看,北京、上海、浙江是消费函数截距(自发消费)最大的3个地区。

    相对于混合估计模型来说,是否有必要建立个体固定效应模型可以通过F检验来完成。

    原假设H0:不同个体的模型截距项相同(建立混合估计模型)。

    备择假设H1:不同个体的模型截距项不同(建立个体固定效应模型)。

    F统计量定义为:

    F= = (9)

    其中SSEr,SSEu分别表示约束模型(混合估计模型)和非约束模型(个体固定效应模型)的残差平方和。非约束模型比约束模型多了N-1个被估参数。

    (混合估计模型给出公共截距项。)

    注意:当模型中含有k个解释变量时,F统计量的分母自由度是NT-N-k。

    用上例计算,已知SSEr = 4824588,SSEu = 2270386,

    F= = = = 7.15

    F0.05(14, 89) = 1.81

    因为F= 7.15> F0.05(14, 89) = 1.81,所以,拒绝原假设。结论是应该建立个体固定效应模型。

     

    (2)时刻固定效应模型。

    时刻固定效应模型就是对于不同的截面(时刻点)有不同截距的模型。如果确知对于不同的截面,模型的截距显著不同,但是对于不同的时间序列(个体)截距是相同的,那么应该建立时刻固定效应模型,表示如下,

    yit = b1 xit +a1 +

     

     

    http://blog.zol.com.cn/696/article_695413.html

     

     

     

     

    Fixed and Random Effects

    Central to the idea of variance components models is the idea of fixed and random effects. Each effect in a variance components model must be classified as either a fixed or a random effect. Fixed effects arise when the levels of an effect constitute the entire population about which you are interested. For example, if a plant scientist is comparing the yields of three varieties of soybeans, then Variety would be a fixed effect, providing that the scientist was concerned about making inferences on only these three varieties of soybeans. Similarly, if an industrial experiment focused on the effectiveness of two brands of a machine, Machine would be a fixed effect only if the experimenter's interest did not go beyond the two machine brands.

    On the other hand, an effect is classified as a random effect when you want to make inferences on an entire population, and the levels in your experiment represent only a sample from that population. Psychologists comparing test results between different groups of subjects would consider Subject as a random effect. Depending on the psychologists' particular interest, the Group effect might be either fixed or random. For example, if the groups are based on the sex of the subject, then Sex would be a fixed effect. But if the psychologists are interested in the variability in test scores due to different teachers, then they might choose a random sample of teachers as being representative of the total population of teachers, and Teacher would be a random effect. Note that, in the soybean example presented earlier, if the scientists are interested in making inferences on the entire population of soybean varieties and randomly choose three varieties for testing, then Variety would be a random effect.


    If all the effects in a model (except for the intercept) are considered random effects, then the model is called a random effects model; likewise, a model with only fixed effects is called a fixed-effects model. The more common case, where some factors are fixed and others are random, is called a mixed model. In PROC VARCOMP, by default, effects are assumed to be random. You specify which effects are fixed by using the FIXED= option in the MODEL statement. In general, if an interaction or nested effect contains any effect that is random, then the interaction or nested effect should be considered as a random effect as well.

    In the linear model, each level of a fixed effect contributes a fixed amount to the expected value of the dependent variable. What makes a random effect different is that each level of a random effect contributes an amount that is viewed as a sample from a population of normally distributed variables, each with mean 0, and an unknown variance, much like the usual random error term that is a part of all linear models. The estimate of the variance associated with the random effect is known as the variance component because it is measuring the part of the overall variance contributed by that effect. Thus, PROC VARCOMP estimates the variance of the random variables that are associated with the random effects in your model, and the variance components tell you how much each of the random factors contributes to the overall variability in the dependent variable.

     

    混合效应模型与纵向数据分析 Mixed Models and Longitudinal Data Analysis

    第一章混合效益模型与纵向数据分析简介

    线性模型与线性混合效应模型,固定效应模型、随机效应模型、纵向数据例子

    第二章统计推断方法

    极大似然,限制极大似然,贝叶斯方法、拟似然方法、广义估计方程(GEE),极大似然比检验、Wald’s检验、预测方法

    第三章线性混合效应模型

    固定效应估计、随机效应预测、单向分类模型、两项分类模型、检验、其他估计方法、最优线性预测、计算方法

    第四章纵向数据

    平衡数据情形、相关和不相关情形下的参数估计与预测、不平衡数据,GEE方法

    第五章广义线性混合效应模型

    广义线性模型与广义线性混合效应模型、参数估计与假设检验、随机效应预测、计算方法参考文献:

    1. Peter J. Diggle, Kung-Yee Liang, Scott L. Zeger, Analysis of Longitudinal Data, Oxford Statistical Science, 1994.

    2. Charles E. McCulloch, Shayle R. Searle. Generalized, Linear, and Mixed Models,John Wiley & Sons, 2000.

     

     

    本来随机效应的假设就是我们的样本从一个很大的母体抽取,所以大家的期望(均值)相同;如果我们的样本几乎是全部母体了,我们就不能说个体的差异是随机的,所以固定效应比较好;这是从模型的设定角度说的。但是随机效应模型有一个致命的硬伤,就是假设cov(x,ui)=0,而固定效应不要求这个假设,Hausman检验所做的工作就是检验一下这个假设对随机效应模型来说是不是成立,如果不成立,随即效应模型的估计是有偏的,即使采用B-P的LM检验表明存在随机效应,你也没有办法用了。总结:检验固定效应是否显著,采用F检验(对比模型是pooled)检验随机效应是否显著,采用LM检验(对比模型也是pooled)检验固定和随机哪个更适用,采用Hausman检验(对比fe和be)所以严格来讲,Hausman检验是检验不出随机效应的,这是多数人的误解,我认为。 进一步讨论,请进 http://jinhe.xjtu.edu.cn/bbs/list.asp?boardid=13 

     

     

    eviews计量软件总是让人头疼,本人一向不喜欢用盗版软件,面对几千美元的license真是头疼,可总得做计量回归吧。幸好在网上找到了一款免费而且功能极为强大的开源计量软件
    GRETL。wiki上面的介绍:
    http://zh.wikipedia.org/w/index.php?title=Gretl&variant=zh-cn
    gretl(Gnu Regression, Econometrics and Time-series Library)是一种可以编纂和解析计量经济学数据的开放源代码软件。它可以和X-12-ARMA、TRAMO/SEATS 和R语言一起使用。gretl用C语言写成,使用gnuplot制图。
    gretl自身的文件格式是XML,但它还可输入Excel、Gnumeric、Stata、EViews、RATS、GNU Octave、Comma Separated Values、PcGive、JMulTi和ASCII文件,也可以输出到GNU Octave、GNU R、JMulTi和PcGive文件格式。
    官方网站:http://gretl.sourceforge.net/
    这个软件另外一个特点就是可以跨平坦使用,有linux、macos、unix和windows版本,特别是debian和ubuntu都可以从官方源里直接通过apt安装。

     

     

    方法:加入时间固定效应,看是否更为有效,是的话,就设定该效应,否则不选;在此基础上,加入个体固定效应,更有效,则选,否则不选(先加时间还是个体无所谓)
    事实上,不是要选哪个的问题,而是存在该效应,就应该加上该效应。
    在确定时点还是个体固定效应的时候,不需要做什么这样那样的检验,因为有可能检验最终确定是cross section的时候,而你想研究的却是period,这不就有问题吗?
    事实上,现在也没有关于时点和固定效应的检验,更多的往往还是根据所要研究的问题而定。
    用虚拟变量的方法,分别固定时间效应、个体效应、时间个体双向固定,对比三组回归的结果就可以了。

     

    伍德里奇(2003,P438)和古扎拉蒂(2005,P611)先后指出,如果样本中的横截面是从一个非常大的总体中随机抽取的,那么采用随机效应模型是合适的。但是,当不能把观察值当做从一个大总体中随机抽样时,或者关注的是所选择样本的规律特征时,就得使用固定效应。因为本人做的是关于某一行业的上市公司的财务研究,是一个典型的“大N小T”的非平衡面板数据,因此只考虑使用混合效应模型和固定效应模型。我的问题如下:(1)要不要考虑多重共线性和序列相关问题?
    A: 如果T很小,我想不必考虑序列相关问题,你可以在计算s.e.的时候采用稳健性标准误即可(如采用xtscc)。当然,为了稳妥起见,你可以采用视频中介绍的方法检验一下序列相关是否存在,并采用 xtregar 估计一下考虑序列相关的模型,与此前的结果做个对比。
    (2)采用xtscc是不是已经考虑了异方差和截面相关问题?如果采用xtscc命令应该如何与混合效应做F检验?
    A: xtscc 主要考虑异方差、序列相关和截面相关。主要是通过对干扰项的方差-协方差矩阵来设定,其基本思想类似于 White(1980) 的异方差稳健性估计量。
    若采用 xtscc y x,fe 估计,只有系数的标准误(以及t值)会发生变化。此时,你仍然可以采用 xtreg y x, fe 命令最后一行报告的F统计量来检验个体效果是否显著。
    (3)如果采用命令:xi: y x1 x2 x3, i.year(i.company或者i.year i.company)命令回归得到三种固定效应模型,如何与混合效应进行F检验,得出更优的模型?
    A: 这个我在视频中有详细讲解。参见B7_panel 中第二个视频“7.2 时间效应、模型的筛选和常见问题 ”。在“ *- 检验时间效应是否显著”小节中,我介绍了如何采用wald或LR检验来确认时间效应是否显著。你所问的问题在这里可以找到答案。
    (4)如果在命令:xi: y x1 x2 x3, i.year(i.company或者i.year i.company)和混合效应回归模型后面附加robust和bootstrap,这两个命令是不是已经考虑了异方差和截面相关问题?
    A: 附加robust选项,可以在一定程度上控制异方差,如果希望控制截面相关,你还需附加 cluster(id) 选项。至于 bootstrap 选项,则主要是为了计算系数的标准误,进而计算 t 值。传统的方法是基于大样本,并假设干扰项服从正态分布,进而推断出系数的标准误的表达式。当这一假设无法满足时,得到的标准误可能是有偏的。采用 bootstrap 获取标准误并不需要这一假设,因此相对而言更加稳健。通常而言,bootstrap 选项能够克服异方差和截面相关,与 robust 的作用效果相似。
    以上问题好像在视频中没有很好的讲解,
    A: 这些内容在视频中都有讲解,我个人认为也比较清晰。要深入理解,还需有个不断熟练的过程,需要反复研读相关理论推倒过程。

    广义线性混合效应模型(GLMM)与复杂抽样的logistic回归模型在分层整群抽样数据分析中的比较

    在公共卫生领域的抽样调查中为了减少抽样误差,提高抽样的精度,经常会采用如分层整群抽样这类复杂的抽样方法。由于这类抽样方法所得到数据往往是具有多层次的结构特点的,这就使得在同一较低层次的各个个体之间具有一定的相关性,即结局变量的分布在个体间不具备独立性。因而不满足传统的统计分析方法的应用条件,而多层统计分析模型和复杂抽样的统计分析方法均可以处理这类数据。目的研究和分析广义线性混合效应模型和复杂抽样的logistic回归方法在分层整群抽样数据中的应用,通过实例数据分析以及数据模拟的研究方法,结合国际通用统计分析软件SAS中相应的模块GLIMMIX与SURVEY模块来进行这两种方法在分层整群抽样数据中的比较应用。并通过改变模拟数据的参数组合,来比较在不同的内部相关系数(ICC),给定个体水平变量系数,抽样比以及样本量的情况下二者的适用性。同时,为了验证传统的统计分析方法在分层整群抽样数据分析中的局限性,也将传统的logistic回归模型纳入到比较分析中。方法首先将三种统计方法应用到实例数据的分析中,参考其分析结果设定模拟数据的参数值。数据模拟分两个部分:模拟一研究,模拟还原实...
    第一章 绪论 9-14
    1. 分层整群抽样的背景及特点 9-10
    1.1 分层整群抽样背景 9-10
    1.2 分层整群抽样的特点 10
    2. 分层整群抽样数据统计分析方法回顾 10-12
    3. 研究设想 12-14
    第二章 原理和方法 14-23
    1 抽样技术 14-17
    1.1 抽样技术基本概念 14-16
    1.2 分层整群抽样原理 16-17
    2 传统统计分析方法——固定效应logistic回归模型 17-19
    3 复杂抽样的logistic回归模型 19-20
    4 广义线性混合效应模型(GLMM) 20-21
    5 模拟研究 21-23
    第三章 实例分析 23-34
    1 引言 23-24
    2 模型的介绍及其应用 24-26
    3 实例的流行病学研究 26-27
    4 实例分析 27-34
    第四章 模拟研究结果 34-62
    1 引言 34
    2 模拟一研究 34-38
    3 模拟二研究 38-60
    4 小结 60-62
    第五章 总结和讨论 62-67
    1 广义线性混合效应模型模型的应用 62-63
    2 复杂抽样的logistic回归模型的应用 63-65
    3 存在的不足 65
    4 小结 65-67
    参考文献 67-72

     

     

    1) linear mixed effects model
    线性混合效应模型
    1.According the characteristics of the bivariate repeated measurement data,using the MIXED procedure of SAS software to fit linear mixed effects model.
    为了探讨环境医学研究中不满足独立性要求资料相关性分析的方法,针对双反应变量重复测量资料的特点,采用SAS软件的MIXED过程,建立线性混合效应模型。
    2) Linear mixed-effects model
    线性混合效应模型
    1.In this paper, the linear mixed-effects model of repeated measurements is discussed, and the repeated measurements data obtain reasonable results by the fixed and random effects along with efficient estimate of covariance matrix.
    本文阐述了重复测量资料的特点,对一般线性模型及线性混合效应模型进行了简要对比;并探讨了重复测量数值型变量线性混合效应模型拟合方法,通过对固定效应、随机效应及协方差矩阵的估计,使重复测量数据得以更合理的分析。
    3) linear mixed-effects models
    线性混合效应模型
    1.This paper considers the sensitivity of the predictors in linear mixed-effects models to co- variance misspecification using the local sensitivity analysis proposed by Banerjee and Magnus.
    本文应用Banerjee和Magnus于1999年提出的局部敏感性分析方法讨论了线性混合效应模型中预测值关于误差项白噪声偏离的敏感性问题,提出了敏感性度量统计量,并在AR(1)和MA(1)误差项条件下数值模拟了这些统计量的表现。
    4) generalized linear mixed models
    广义线性混合效应模型
    1.Objective :To discuss generalized linear mixed models(GLMMs) of categorical repeated measurement datas in clinical curative effect evaluation,implementing with GLIMMIX macro in SAS8.
    目的:探讨临床疗效评价中分类重复测量资料的广义线性混合效应模型(GLMMs)及SAS8。
    5) Nonlinear mixed effect model
    非线性混合效应模型
    1.Estimation of relative clearance of cyclosporin A with nonlinear mixed effect model in kidney transplant patients;
    非线性混合效应模型法估算肾移植患者环孢素A的相对清除率
    2.Evaluation of relative bioavailability and pharmacokinetic parameters of ciclosporin preparations by nonlinear mixed effect model;
    非线性混合效应模型估算环孢素在人体相对生物利用度和药动学参数
    3.Estimation of relative clearance of cyclosprine A in patients after renal transplantation using nonlinear mixed effect model;
    非线性混合效应模型法估算肾移植患者环孢素A清除率
    6) Nonlinear mixed effect model(NONMEM)
    非线性混合效应模型法
    1.Nonlinear mixed effect model(NONMEM) has been widely used in estimating population pharmacokinetics parameters of various drugs.
    非线性混合效应模型法广泛应用于临床各类药物的群体药动学参数估算。

    补充资料:多元线性回归模型

    性质:假定从理论上或经验上已经知道输出变量y是输入变x1,x2,…,xm的线性函数,但表达其线性关系的系数是未知的,要根据输入输出的n次观察结果(c11,x21,…,xml,yi)(i=1,n)来确定系数的值。按最小二乘法原理来求出系数值,所得到的模型为多元线性回归模型。

     

     


    线性混合效应模型影响分析
    ~ 费宇, 潘建新
    出版社: 科学出版社; 第1版 (2005年7月19日)
    平装: 204页
    正文语种: 汉语
    开本: 16
    ISBN: 7030154908
    《线性混合效应模型影响分析》研究了线性混合效应模型的影响分析问题,将近两年刚刚发展起来的Q函数方法全面系统地应用于该模型的统计诊断,对6种协方差结构的模型给出了Cook型诊断统计量,并提出基于Q函数的二阶导数期望的Cook型诊断统计量,发展和推广了原有的Q函数方法;还讨论了方差结构对统计诊断的影响,指出方差结构的误定可能引起影响点的误判,最后讨论了个体水平和观测值水平影响分析的关系。
    《线性混合效应模型影响分析》可供大专院校的学生、教师、科研人员及统计工作者参考。
    编辑推荐
    线性混合效应模型是最重要的一种常见回归模型。但是现有文献大都从传统的似然函数出发来讨论,而对于稍具复杂而常用的非独立方差结构,如一阶自回归结构,从似然函数出发则难以获得相应的影响诊断统计量;而《线性混合效应模型影响分析》就弥补了这点不足。
    目录
    第1章 引论
    1.1 基本概念
    1.1.1 统计诊断的概念
    1.1.2 强影响观测值和强影响个体
    1.1.3 Cook距离
    1.2 线性混合效应模型
    1.3 本书的结构
    1.3.1 似然函数框架下的统计诊断
    1.3.2 Q函数框架下的统计诊断
    1.3.3 方差结构对统计诊断的影响
    1.3.4 两水平的影响分析
    1.4 预备知识
    第2章 基于似然函数的影响分析
    2.1 影响分析简介
    2.2 基于Hessian阵的影响度量
    2.2.1 基于Hessian阵的影响度量的定义
    2.2.2 广义Cook距离Ci和C*i的计算
    2.3 基于Fisher信息阵的影响度量
    2.3.1 基于Fisher信息阵的影响度量的定义
    2.3.2 广义Cook距离Di和D*i的计算
    第3章 基于Q函数的影响分析
    3.1 引言
    3.2 基于国的Cook型统计量QDi
    3.2.1 IC结构的QDi
    3.2.2 AR(1)Ⅰ结构的QDi
    3.2.3 AR(1)Ⅱ结构的QDi
    3.2.4 AR(1)Ⅲ结构的QDi
    3.2.5 UCⅠ结构的QD。
    3.2.6 UCⅡ结构的QDi
    3.3 基于EQ的cook型统计量QD*i
    3.3.1 IC结构的QD*i
    3.3.2 AR(1)Ⅰ结构的QD*i
    3.3.3 AR(1)Ⅱ结构的QD*i
    3.3.4 AR(1)Ⅲ结构的QD*i
    3.3.5 UCⅠ结构的QD*i
    3.3.6 UCⅡ结构的QD*i
    第4章 协方差阵结构对统计诊断的影响
    4.1 IC结构
    4.2 AR(1)Ⅰ结构(最佳结构)
    4.3 AR(1)Ⅱ结构
    4.4 AR(1)Ⅲ结构
    4.5 UCⅠ结构
    4.6 UCⅡ结构
    4.7 六种协方差结构的对比
    4.7.1 QD*i(θ)的比较
    4.7.2 QD*i(β)的比较
    4.8 小结
    第5章 个体水平和观测值水平影响分析的关系
    5.1 观测值水平影响分析
    5.1.1 基于Q的广义Cook统计量QDij
    5.1.2 基于EQ的Cook统计量QD*ij
    5.2 两个水平的影响度量之间的关系
    5.2.1 QDi与QDij之间的关系
    5.2.2 QD*i与QD*ij之间的关系
    5.3 结论和最后的注
    参考文献
    附录 本书用到的数据

     

     

    !!!!!!!计量经济模型
    http://doc.mbalib.com/view/b53e13ce9277729d5d8fddd258e2c98b.html


    !!!!!!!!随机效应模型
    http://www.docin.com/p-21713479.html

    http://www.pinggu.org/bbs/viewthread.php?tid=692449&page=1

     

     

     

     

    http://blog.sina.com.cn/s/blog_4b700c4c0100opha.html

     

    展开全文
  • 多重线性回归模型的最终建立不仅仅拟合个方程就完事了,还需要进行适用条件的考察、模型的诊断以及改进模型的再评估等。 (1)拟合多重线性回归模型; (2)适用条件考察:线性、独立性、正态性、同方差性; (3...
  • 线性模型是一类统计模型的总称,它包括了线性回归模型、方差分析模型、协方差分析模型和线性混合效应模型(或称方差分量模型)等。许多生物、医学、经济、管理、地质、气象、农业、工业、工程技术等领域的现象都可以...
  • 基于多重运移机制的页岩气藏有限导流压裂井试井模型,王海涛,郭晶晶,页岩储层中烃类运移受多重机制的作用:既有渗流,也有解吸和扩散;此外,应力敏感效应在页岩储层中也很明显,而各向异性也是储层
  • 结构方程模型-中介效应检验(Amos)

    万次阅读 热门讨论 2020-04-23 20:55:29
    一、中介效应含义 考虑自变量X对因变量Y的影响,如果X通过影响变量M、N等其它变量而对Y产生影响,则称M、N等为中介变量。 下图展示了X通过M最终到Y的过程,a表示X到M的系数,b表示M到Y的系数,c表示X到Y的总效果...
  • 利用不动点指数理论给出了一类带有加法Allee效应的捕食-食饵模型正解存在的充分条件,讨论了正解的惟一性和稳定性,运用扰动理论研究了参数b2充分大时正解的多重性。结果表明在一定条件下系统存在多重解和惟一解。
  • 一、问题 最近有人问我怎么 Eviews 做回归总是奇异矩阵,一般都是变量问题,毕竟 Eviews 处理面板数据很无力,我就推荐他用 stata ,结果 stata 也不行。...若个体固定效应模型是采用Within回归(xtreg , fe),...
  • 在实际的计量经济学问题中,完全满足回归的基本假设的情况并不多见。不满足基本假定的情况...线性模型的基本假设中有var(u|x1,x2...xk)=d,即随机干扰项的方差不因自变量的不同而不同。表现在现实的经济生活中,以消费
  • 在方差分量模型中,把既含有固定效应,又含有随机效应模型,称为混合线性模型【信息来源:百度】一般线性模型中仅包含固定效应和噪声两项影响因素,也就是不会考虑随机因素对模型的影响。数据集:R的MASS包中oast...
  • 除此之外,SEM还能评估构面是否具有信效度、处理复杂的模型或理论(如,模型中有中介、调节效应等)、有效率的处理Missing Data(SEM的多重插补法比用平均值取代缺失值更有优势);最后,使用Mplus跑结构方程模型的...
  • 回归模型的自我理解

    千次阅读 2019-06-28 21:23:06
    一元线性回归模型 多元线性回归模型 逐步回归 多重共线性 多重共线性和最小二乘法 岭回归(RR) LASSO回归 最小角回归 广义线性回归模型 逻辑回归模型 回归:数据有“回归到平均数的趋势” 回归分析研究...
  • 中介效应理论 Process插件没有检验总效应的Bootstrap,可以在用回归中的自助抽样进行检验。 解释流程 多重中介效应 链式中介
  • 滞后变量模型

    千次阅读 2018-10-09 22:31:28
    滞后变量模型 滞后变量模型 自动估值模型 [编辑] 目录 [隐藏] 1 滞后变量模型的概述 2 滞后效应与产生滞后效应的原因 3 滞后变量模型的分类 4 滞后变量模型估计时存在的问...
  • 结构方程模型(SEM)简介自然或社会现象是复杂的,但在研究中经常将其简化为简单的模型,类似y~x这样的形式。当然并不是说这种简单模型有什么问题,只是有些情况下y实际上并非x的直接作用结果,y通常受到许多直接和...
  •  为了解决因页岩气在基质-缝网系统中的多重输运机制和多尺度流动效应导致的数学描述复杂、耦合求解困难等问题,综合考虑页岩气解吸附、扩散、渗流等特征因素,基于系列实验创建的页岩气高压等温吸附模型、广义渗透率...
  • 模型有几个基本假设:自变量之间无多重共线性;随机误差随从0均值,同方差的正态分布;随机误差项之间无相关关系。 参数使用最小二乘法进行估计。 假设检验有两个,一个是参数的检验,使用t检验;...
  • 第一部分 模型发展历史Tobit模型从最初的结构式模型扩展到时间序列模型、面板数据模型以及非参数模型等形式,无论Tobit模型的结构形式如何变化,现有的估计方法基本上都是在Heckman(1976)两步法的基础上扩展的。...
  • 回归中的多重共线性是一个当模型中一些预测变量与其他预测变量相关时发生的条件。严重的多重共线性可能会产生问题,因为它可以增大回归系数的方差,使它们变得不稳定。以下是不稳定系数导致的一些后果: 即使预测...
  • 一般线性模型和混合线性模型 生命科学的数学统计和机器学习 (Mathematical Statistics and Machine Learning for Life Sciences) This is the seventeenth article from my column Mathematical Statistics and ...
  • 决策树模型 朴素贝叶斯模型Decision Trees are one of the highly interpretable models and can perform both classification and regression tasks. As the name suggests Decision Trees are tree-like structure...
  • 本博客为主要学习《视觉SLAM十四讲》第5讲、《机器人学的状态估计》第6章6.4.1透视相机、《多视图几何》第5章摄像头模型等SLAM内容的总结与整理。 主要包括: 1、针孔相机模型、相机畸变、相机标定 2、双目相机模型...
  • 机器学习模型可解释性的详尽介绍

    千次阅读 多人点赞 2019-11-26 12:22:00
    机器之心平台来源:腾讯技术工程模型可解释性方面的研究,在近两年的科研会议上成为关注热点,因为大家不仅仅满足于模型的效果,更对模型效果的原因产生更多的思考,这样的思考有助于模型和特征的优化,更能够帮助更...
  • 文章目录分布滞后与自回归模型@[toc]1 滞后效应与滞后变量模型1.1 什么是滞后效应1.2 滞后效应产生的原因1.3 滞后变量模型1.31 分布滞后模型1.32 自回归模型2 分布滞后模型的估计2.1 分布滞后模型估计的问题2.2 经验...
  • 一般线性模型和线性回归模型Interpretability is one of the biggest challenges in machine learning. A model has more interpretability than another one if its decisions are easier for a human to ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,763
精华内容 1,505
关键字:

多重效应模型