精华内容
下载资源
问答
  • 2020-01-13 16:09:15

    原文链接:http://tecdat.cn/?p=10076

    原文出处:拓端数据部落公众号


    除非我们打算提出因果主张,否则我们应该像描述虚拟变量那样解释连续变量的回归系数。

    一条有用建议是,以预测的方式解释回归系数 。要了解它们的含义,让我们考虑一个示例。

    预测学生表现

     

    hsb <- read.csv("datasets/hsb_comb_full.csv")
    names(hsb)
    [1] "schoolid" "minority" "female"   "ses"      "mathach"  "size"     "sector"   
    [8] "pracad"   "disclim"  "himinty"  "MEANSES"  "N_BREAK"  "sesdev"   "myschool"
    
    # Let's go with the first school, and the first 5 student-level variables
    hsb <- hsb[hsb$schoolid == hsb$schoolid[1], 1:5]
    summary(hsb)
    schoolid       minority           female            ses             mathach      
    Min.   :1224   Min.   :0.00000   Min.   :0.0000   Min.   :-1.6580   Min.   :-2.832  
    1st Qu.:1224   1st Qu.:0.00000   1st Qu.:0.0000   1st Qu.:-0.8830   1st Qu.: 3.450  
    Median :1224   Median :0.00000   Median :1.0000   Median :-0.4680   Median : 8.296  
    Mean   :1224   Mean   :0.08511   Mean   :0.5957   Mean   :-0.4344   Mean   : 9.715  
    3rd Qu.:1224   3rd Qu.:0.00000   3rd Qu.:1.0000   3rd Qu.:-0.0330   3rd Qu.:16.370  
    Max.   :1224   Max.   :1.00000   Max.   :1.0000   Max.   : 0.9720   Max.   :23.584  
    
    # Mathach, ses and female seem to have some variability
    # Let's predict math achievement using female (dummy), ses (continuous)
    lm(mathach ~ female + ses, hsb)
    
    Call:
    lm(formula = mathach ~ female + ses, data = hsb)
    
    Coefficients:
    (Intercept)       female          ses  
         12.092       -2.062        2.643  
    

    现在,解释其系数的典型方法female是:

    在保持SES不变的情况下,男性和女性在数学成绩上平均相差2.06点,其中男性表现更好。

     但是要澄清语言,我们可以说:

    对于拥有相同SES的学生,我们期望男性和女性之间的数学成绩相差2.06点,而男性的成绩更好。

    问题出现在对的解释上ses,通常是:

    保持性别不变,SES的提高与数学成绩提高2.64有关。

    我们通常声称这是一个相关陈述,没有因果关系。但是,它具有因果关系。这暗示着,在一个人中,如果我们可以将他们的SES提高1点,我们可以期望数学成绩提高2.64点。

    盖尔曼和希尔的措辞解释如下:

    对于相同性别的学生,我们期望在SES中有分数差异的学生之间的数学成绩有2.64分的差异。

    这就是所谓的回归系数的预测解释。它没有因果关系,并传达出我们正在对不同个体之间的差异进行预测或描述。

    更多相关内容
  • 运用Python的数组和矩阵操作模拟验证一阶自回归模型中,自回归系数OLS估计量的有限样本偏差问题。
  • 【原创】R语言关于回归系数解释数据分析报告论文(代码数据).docx
  • 清风数学建模--回归系数解释

    千次阅读 2020-06-08 19:50:17
    回归系数解释 yi=β0+β1x1i+β2x2i+⋯+βkxki+μiyi=β0^+β2^x2i+⋯+βk^xkiβ0^的数值意义一般不考虑,因为所有的自变量一般不会同时全为0.βm^(m=1,2,⋯ ,k):控制其他自变量不变的情况下,xmi每增加一个单位...

    回归系数的解释

    y i = β 0 + β 1 x 1 i + β 2 x 2 i + ⋯ + β k x k i + μ i y i = β 0 ^ + β 2 ^ x 2 i + ⋯ + β k ^ x k i β 0 ^ 的 数 值 意 义 一 般 不 考 虑 , 因 为 所 有 的 自 变 量 一 般 不 会 同 时 全 为 0. β m ^ ( m = 1 , 2 , ⋯   , k ) : 控 制 其 他 自 变 量 不 变 的 情 况 下 , x m i 每 增 加 一 个 单 位 , 对 y i 造 成 的 变 化 。 实 际 上 可 以 用 数 学 中 的 偏 导 数 来 定 义 : β m ^ = ∂ y i ∂ x m i y_i=\beta_0+\beta_1x_{1i}+\beta_2x_{2i}+\cdots+\beta_kx_{ki}+\mu_i\\y_i=\hat{\beta_0}+\hat{\beta_2}x_{2i}+\cdots+\hat{\beta_k}x_{ki}\\\hat{\beta_0}的数值意义一般不考虑,因为所有的自变量一般不会同时全为0.\\\hat{\beta_m}(m=1,2,\cdots,k):控制其他自变量不变的情况下,x_{mi}每增加一个单位,对y_i造成的变化。\\ 实际上可以用数学中的偏导数来定义:\hat{\beta_m}=\frac{\partial{y_i}}{\partial x_{mi}} yi=β0+β1x1i+β2x2i++βkxki+μiyi=β0^+β2^x2i++βk^xkiβ0^0.βm^(m=1,2,,k):xmiyi:βm^=xmiyi
    因 此 多 元 线 性 回 归 模 型 中 的 回 归 系 数 , 也 常 被 称 为 偏 回 归 系 数 。 因此多元线性回归模型中的回归系数,也常被称为偏回归系数。 线

    什么时候取对数

    1. 与市场价值相关的,例如,价格、销售额、工资等都可以取对数;
    2. 以年度量的变量,如受教育年限、工作经历等通常不取对数;
    3. 比例变量,如失业率、参与率等,两者均可;
    4. 变量取值必须是非负数,如果包含0,则可以对y取对数ln(1+y);

    取对数的好处

    1. 减弱数据的异方差性。
    2. 如果变量本身不符合正态分布,取了对数后可能渐近服从正态分布。
    3. 模型形式的需要,让模型具有经济学意义。

    四种模型回归系数的解释

    在这里插入图片描述
    在这里插入图片描述

    特殊的自变量:虚拟变量x

    如果自变量中又定性变量,例如性别、地域等,在回归中需要如何处理呢?
    在这里插入图片描述
    虚拟变量的解释
    在这里插入图片描述

    为了避免完全多重共线性的影响,引入虚拟变量的个数一般是分类数减1

    含有交互项的自变量

    在这里插入图片描述

    展开全文
  • 机器学习之逻辑斯蒂回归;参考书籍李航《统计学习方法》
  • 运用Python的数组和矩阵操作模拟验证一阶自回归模型中,自回归系数OLS估计量的有限样本偏差问题。
  • 多元回归系数:我们都解释错了?

    千次阅读 2020-12-29 16:26:05
    2.2 多元线性回归系数的图形解释 我们运用 Stata 自带的 1978 汽车数据集 auto.dta 中的进口汽车 (foreign) 数据来解释多元回归系数估计值的含义。 首先,我们把汽车的百英里油耗 (100/mpg) 当作被响应变量,汽车的...

    作者:金钊 (中山大学)

    E-Mail:

    Note: 助教招聘信息请进入「课程主页」查看。因果推断-内生性 专题 ⌚ 2020.11.12-15

    主讲:王存同 (中央财经大学);司继春(上海对外经贸大学)空间计量 专题 ⌚ 2020.12.10-13

    主讲:杨海生 (中山大学);范巧 (兰州大学)

    目录编者按: 在 Stata Journal (吵架」论文。其中,首篇为 David Hoaglin 撰写的长文 (p.5-22),题为「Regressions are Commonly Misinterpreted」。从标题上来看,这无异于「挑战」我们的常识。三位知名的计量经济学家 (James Hardin, Scott Long, David Drukker) 撰写了两篇短文对此进行评论/批评。而同期第四篇论文刊登的就是 David Hoaglin 的「反驳 (Rejoinder)」。显然,这四篇文章是 Stata Journal 的编辑们蓄意之作,同时,也凸显出此问题的重要性。本文对其中的一些核心观点进行梳理,感兴趣的读者可以阅读原文以便品尝原味红茶。Hoaglin David C., 2016, Regressions are Commonly Misinterpreted, Stata Journal, 16(1): 5–22.

    Hardin James W. , 2016, Regressions are Commonly Misinterpreted: Comments on the Article, Stata Journal, 16(1): 23–24.

    Long J. Scott, David M. Drukker, 2016, Regressions are Commonly Misinterpreted: Comments on the Article, Stata Journal, 16(1): 25–29.

    Hoaglin David C., 2016, Regressions are Commonly Misinterpreted: A Rejoinder, Stata Journal, 16(1): 30–36.同主题阅读:

    1. 引言

    多元回归模型一直被广泛运用,也是最常见和最基础的计量模型。多元回归模型中各个变量间关系相对复杂,其回归系数惯常解释为:当其他变量保持不变或控制其他变量不变时,

    每改变一个单位时因变量

    的平均变化量。

    然而,Hoaglin (2016) 指出,这种常见的解读存在错误。这些问题常常出现在 OLS 回归、logistic 回归和其他广义线性模型以及生存分析、纵向分析和层次分析回归中。

    Hoaglin (2016) 认为,这些解释既没有体现多元回归的基本原理,也不符合现实情况。他从图形、多元正态分布和最小二乘几何特征等角度解释「控制」和「保持不变」的不适性。为此,他们提出一直全新的解释「调整

    和其他预测因子对

    的共同线性影响后,

    每改变一个单位时因变量

    的平均变化量」。

    2. 多元线性回归系数的常见误解

    2.1 多元线性回归计量模型

    我们常见的多元回归的总体 (population) 模型为:

    其中,

    为解释变量或预测因子;

    为被解释变量或响应变量。我们通常令第一个解释变量为单位向量,即

    为待估参数,称为「回归系数」(regression coefficients)。

    在多元回归中,预测因子间不可能是完全独立的,每个回归系数的下标应该包含方程中的其他预测因子。为此,预测因子

    的回归系数可以写为:

    ,第一个下标表示响应变量,第二个下标表示系数所附的预测因子,而在「·」之后的下标表示其他预测因子。则回归模型可以变为:

    运用数据可以对回归系数

    进行估计,可以得到估计值

    。则 (2) 的拟合方程为:

    为残差,

    的观测值。在多元回归中,每个预测因子的系数都说明了其他预测因子的贡献,也就是说,它反映了对这些预测因子的调整。

    2.2 多元线性回归系数的图形解释

    我们运用 Stata 自带的 1978 汽车数据集 auto.dta 中的进口汽车 (foreign) 数据来解释多元回归系数估计值的含义。

    首先,我们把汽车的百英里油耗 (100/mpg) 当作被响应变量,汽车的重量 (weight) 和排量 (displacement) 为预测因子。通过散点图 (图 1),我们可以看到汽车油耗与重量和排量的相关性很高,汽车的重量和排量的相关性也很强。

    . sysuse auto, clear

    (1978 Automobile Data)

    . generate gp100m = 100/mpg

    . label var gp100m "Gallons per 100 miles"

    *-相关系数

    . pwcorr gp100m weight displacement if foreign==1

    | gp100m weight displa~t

    -------------+---------------------------

    gp100m | 1.0000

    weight | 0.8172 1.0000

    displacement | 0.8444 0.9507 1.0000

    *-散点图矩阵

    . graph matrix gp100m weight displacement if foreign==1

    图 1 汽车油耗、重量和排量的散点图矩阵

    首先,我们看二元回归的估计结果如下,可以发现汽车重量回归系数的估计值为 0.396,而汽车排量回归系数的估计值为 0.032。

    . regress gp100m weight displacement if foreign == 1

    Source | SS df MS Number of obs = 22

    ----------+------------------------------ F(2, 19) = 23.86

    Model | 19.6704568 2 9.83522842 Prob > F = 0.0000

    Residual | 7.83165119 19 .412192168 R-squared = 0.7152

    ----------+------------------------------ Adj R-squared = 0.6853

    Total | 27.502108 21 1.30962419 Root MSE = .64202

    -----------------------------------------------------------------------

    gp100m | Coef. Std. Err. t P>|t| [95% Conf. Interval]

    -------------+---------------------------------------------------------

    weight | 0.396 1.044 0.38 0.708 -1.788 2.580

    displacement | 0.032 0.018 1.78 0.091 -0.006 0.070

    _cons | -0.196 0.811 -0.24 0.812 -1.893 1.501

    -----------------------------------------------------------------------

    其次,我们单独对汽车重量进行回归,可以发现,在第 (1) 列中,汽车重量回归系数的估计值为 2.160,比第二列所呈现的二元回归的系数估计值高 (0.396):

    . regress gp100m weight if foreign == 1

    . est store m1

    . regress gp100m weight displacement if foreign == 1

    . est store m2

    . esttab m1 m2, nogap b(%6.3f) s(N r2_a)

    --------------------------------------------

    (1) (2)

    gp100m gp100m

    --------------------------------------------

    weight 2.160*** 0.396

    (6.34) (0.38)

    displacement 0.032

    (1.78)

    _cons -0.689 -0.196

    (-0.86) (-0.24)

    --------------------------------------------

    N 22.000 22.000

    r2_a 0.651 0.685

    --------------------------------------------

    t statistics in parentheses

    * p<0.05, ** p<0.01, *** p<0.001

    接着,我们用图示显示在一元回归后加入汽车重量的估计结果。

    图 2 显示了,汽车油耗 (gp100m) 对排量 (displacement) 回归后的残差,与汽车重量 (weight) 对排量 (displacement) 回归后的残差之间的关系。可以发现,两类残差的相关性与二元回归中汽车重量 (weight) 的系数估计值和

    值完全一致。命令如下:

    *-部分回归图

    . ssc install reganat, replace //下载外部命令

    . reganat gp100m weight displacement if foreign == 1, dis(weight) biline

    . graph export "图2-reganat部分回归图.png", replace //保存图片

    我们也可以手动计算上述残差,并进而用这两个残差做回归,得到与二元回归中一样的系数估计值

    。在这段命令中,第 [1]-[2] 行的目的在于从 gp100m 中「滤掉」displacement 的影响 (也就是前文反复提及的「调整」);第 [3]-[4] 行的目的相似:从 weight 中「调整掉」displacement 的影响。调整后的的两个残差 e_y_x2 和 e_x1_x2 中已经不再包含 displacement 变量的信息了,因此,我们执行 reg e_y_x2 e_x1_x2 时,产生的效果与 regress gp100m weight displacement 是完全一致的。

    *-手动计算二元回归的系数

    . keep if foreign==1

    . reg gp100m displacement // [1]

    . predict e_y_x2, res // [2]

    . reg weight displacement // [3]

    . predict e_x1_x2, res // [4]

    . reg e_y_x2 e_x1_x2

    Source | SS df MS Number of obs = 22

    ----------+---------------------------------- F(1, 20) = 0.15

    Model | .059470475 1 .059470475 Prob > F = 0.7009

    Residual | 7.83165211 20 .391582605 R-squared = 0.0075

    ----------+---------------------------------- Adj R-squared = -0.0421

    Total | 7.89112258 21 .375767742 Root MSE = .62577

    ---------------------------------------------------------------------------

    e_y_x2 | Coef. Std. Err. t P>|t| [95% Conf. Interval]

    ----------+----------------------------------------------------------------

    e_x1_x2 | 0.396 1.017 0.39 0.701 -1.725 2.518

    _cons | 0.000 0.133 0.00 1.000 -0.278 0.278

    ---------------------------------------------------------------------------编者注:有关这部分内容的详情,参见reganat 命令绘制的图形是编者自行添加的。

    由此,我们可以清晰的知道,二元回归中汽车重量 (

    ) 的系数估计值

    是指汽车油耗 (

    ) 和重量 (

    ) 同时调整了汽车排量 (

    ) 对其的线性变化后的关系。从一元和二元回归结果中汽车重量的系数来看(分别为 2.160 和 0.396),这个调整的影响是很大的。图 2 增加变量后的散点图

    已上线:可随时购买学习+全套课件,

    2.3 多元线性回归系数的代数和矩阵解释

    我们从简单的二元回归模型来看系数的代数解释。首先,我们假设回归计量模型为:

    通过最小二乘估计,我们可以得到系数的代数表达式如下。可以发现,系数

    正是

    回归的斜率。也就是说,

    的回归系数

    回归后的残差再回归的结果。可以理解为是调整了

    的共同线性变化后,

    变动一单位对

    的平均变化。_

    对于多元回归系数,可以写成矩阵的形式,

    。令

    的预测值为

    ,则

    ,其中

    被称为「投影矩阵」,也就是说

    超平面上的投影。

    2.4 常见的错误解读

    在拟合方程中,预测因子的系数估计值

    不仅仅代表斜率,其包含更复杂的关系。

    常见的对

    的解释为:控制其他解释变量不变,

    变化一单位,

    的平均变化。

    然而,这样的解释只有当

    为虚拟变量,即其值由 0 变 1 时才成立。这样运用「控制」来描述

    与其他预测因子之间的关系显然存在问题

    (1) 「控制」的描述可能意味着在数据收集中对预测因子运用了随机化原则 (randomization rules),即总体或样本中每个个体发生的概率均等。

    (2) 「控制」的描述并不能反映多元回归的工作原理,即忽视了其它预测因子对回归系数的影响。「控制」的解释通常是从偏导数的定义来的。简单说,

    的偏导数,即

    。然而,运用偏导数的概念来解释

    存在两方面缺陷,一方面,实际数据是无法观测的,

    的偏导只是形式上的;另一方面,在微积分中的「保持不变」是偏导的假设,而这里是把假设当作结论。偏导数并不能解释系数在多大程度上反映其他预测因子的贡献。

    (3) 在很多模型中,我们没法保证

    的变动不会引起其它预测因子的变动。可以从两个例子来进一步理解「保持不变」的说法是不合理的。第一个例子,在模型 (6) 中,我们不可能要求在

    不变的情况下仅让

    变动。第二个例子,在模型 (7) 中,在改变

    时,若想保持

    不变,就必须让

    能够变动。

    (4) 允许一个预测因子变化而其他预测因子固定在其平均值所获得的预测值可能没有意义。一方面,某些预测因子的均值可能缺乏实际经济意义;另一方面,在数据中预测时使用的任何特定预测因子模式都可能没法显示。

    2.5 正确的解释

    为此,Hoaglin (2016) 提出对于多元回归系数的「正确解释」应该为: 表示,调整了

    和其他预测因子对

    的共同线性影响后,

    变化一单位,

    的平均变化。

    他们运用「调整」来代替「控制」,同时突出预测因子间对响应变量的共同线性影响。 Long and Drukker(2016)

    3. Stata 命令:margins 运用问题

    温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。

    对多元回归系数估计值的重新解读会对 margins 命令的运用带来重要影响。下面是 margins 命令官方说明文档中的一个例子,所使用的数据为虚构的网络数据 margex.dta:

    . webuse margex, clear

    (Artificial data for margins)

    . tab group sex,column

    +-------------------+

    | Key |

    | ----------------- |

    | frequency |

    | column percentage |

    +-------------------+

    | sex

    group | male female | Total

    -----------+----------------------+----------

    1 | 215 984 | 1,199

    | 14.35 65.51 | 39.97

    -----------+----------------------+----------

    2 | 666 452 | 1,118

    | 44.46 30.09 | 37.27

    -----------+----------------------+----------

    3 | 617 66 | 683

    | 41.19 4.39 | 22.77

    -----------+----------------------+----------

    Total | 1,498 1,502 | 3,000

    | 100.00 100.00 | 100.00

    可以看到样本在不同组别中的性别分布是截然不同的,接下来我们做因变量

    对性别

    和组别

    的简单回归,数据中并未说明

    的具体含义,不妨假设其代表小时工资.

    . reg y i.sex i.group

    Source | SS df MS Number of obs = 3,000

    -------------+---------------------------------- F(3, 2996) = 152.06

    Model | 183866.077 3 61288.6923 Prob > F = 0.0000

    Residual | 1207566.93 2,996 403.059723 R-squared = 0.1321

    -------------+---------------------------------- Adj R-squared = 0.1313

    Total | 1391433.01 2,999 463.965657 Root MSE = 20.076

    ------------------------------------------------------------------------------

    y | Coef. Std. Err. t P>|t| [95% Conf. Interval]

    -------------+----------------------------------------------------------------

    sex |

    female | 18.322 0.893 20.52 0.000 16.571 20.073

    |

    group |

    2 | 8.038 0.914 8.80 0.000 6.246 9.829

    3 | 18.639 1.160 16.08 0.000 16.366 20.913

    |

    _cons | 53.321 0.935 57.06 0.000 51.489 55.154

    ------------------------------------------------------------------------------

    在不加任何选项的情况下, margins 命令默认计算的是平均调整过的预测值 (Average adjusted predictions, AAPs) ,将样本视为每个人都是男性 (或是女性) , margins 命令的结果如下:

    . margins sex

    Predictive margins Number of obs = 3,000

    Model VCE : OLS

    Expression : Linear prediction, predict()

    ------------------------------------------------------------------------------

    | Delta-method

    | Margin Std. Err. t P>|t| [95% Conf. Interval]

    -------------+----------------------------------------------------------------

    sex |

    male | 60.560 0.578 104.74 0.000 59.427 61.694

    female | 78.882 0.577 136.65 0.000 77.751 80.014

    ------------------------------------------------------------------------------

    从结果可以看出,两个 AAPs 之差刚好等于性别的估计系数 (78.88−60.56 = 18.32) 。然而,如果让 AAPs 有意义,就必须假定每个个体刚好以 39.97%,37.27%​ 和 22.77% 的概率分布在 group1、group2 和 group3。

    并且,在这三个群体中,男性和女性都应该具有相同的分布。然而,样本的「预测空间」为六个点,分别对应为

    。在交叉表中可以看出,三个组中的男性和女性的分布有显著差异。

    以上分析属于线性回归,接着,我们运用 nhanes2f.dta 数据集,讨论 logistic 回归的情况。

    . webuse nhanes2f, clear

    . logit diabetes black female age

    Iteration 0: log likelihood = -1999.0668

    Iteration 1: log likelihood = -1841.3525

    Iteration 2: log likelihood = -1812.3671

    Iteration 3: log likelihood = -1811.9834

    Iteration 4: log likelihood = -1811.9828

    Iteration 5: log likelihood = -1811.9828

    Logistic regression Number of obs = 10,335

    LR chi2(3) = 374.17

    Prob > chi2 = 0.0000

    Log likelihood = -1811.9828 Pseudo R2 = 0.0936

    ------------------------------------------------------------------------------

    diabetes | Coef. Std. Err. z P>|z| [95% Conf. Interval]

    -------------+----------------------------------------------------------------

    black | 0.718 0.127 5.66 0.000 0.469 0.966

    female | 0.155 0.094 1.64 0.101 -0.030 0.339

    age | 0.059 0.004 15.93 0.000 0.052 0.067

    _cons | -6.405 0.237 -27.00 0.000 -6.870 -5.940

    ------------------------------------------------------------------------------

    我们知道,logit 回归的系数并不代表边际效应。对于非线性模型,边际效应不是常数,而是随着解释变量而变化。

    我们接下来看年龄 (age) 在 20、30、40、50、60 和 70 处,性别 (female) 和种族 (black) 在样本均值处的边际效应。

    可以发现,当性别和种族处于均值时 (0.525 和 0.105) ,70 年龄组的边际效应是 20 年龄组的 18 倍 (11% 和 0.6%) 。样本的「预测空间」为四个点:

    。要使这个结果有解释意义,我们必须假定 20 岁年龄组和 70 岁年龄组的女性占比为 0.525,黑人占比为 0.105。然而,实际上,在nhanes2f.dta 数据集中,20 岁年龄组的女性占比为 0.578,而黑人占比 0.123;70 岁年龄组的女性占比 0.5,而黑人占比 0.064。

    . margins, at(age=(20 30 40 50 60 70)) atmeans

    Adjusted predictions Number of obs = 10,335

    Model VCE : OIM

    Expression : Pr(diabetes), predict()

    1._at : black = .1050798 (mean)

    female = .5250121 (mean)

    age = 20

    2._at : black = .1050798 (mean)

    female = .5250121 (mean)

    age = 30

    3._at : black = .1050798 (mean)

    female = .5250121 (mean)

    age = 40

    4._at : black = .1050798 (mean)

    female = .5250121 (mean)

    age = 50

    5._at : black = .1050798 (mean)

    female = .5250121 (mean)

    age = 60

    6._at : black = .1050798 (mean)

    female = .5250121 (mean)

    age = 70

    ------------------------------------------------------------------------------

    | Delta-method

    | Margin Std. Err. z P>|z| [95% Conf. Interval]

    -------------+----------------------------------------------------------------

    _at |

    1 | 0.006 0.001 6.38 0.000 0.004 0.008

    2 | 0.011 0.001 8.25 0.000 0.009 0.014

    3 | 0.020 0.002 11.42 0.000 0.017 0.024

    4 | 0.036 0.002 16.99 0.000 0.032 0.041

    5 | 0.064 0.003 22.50 0.000 0.059 0.070

    6 | 0.110 0.006 18.82 0.000 0.099 0.122

    ------------------------------------------------------------------------------

    样本取不同值的边际效应差别会很大。然而,一般文献里常计算样本均值处的边际效应。从下图我们可以发现,当性别和人种取不同值时,20 岁年龄组和 70 岁年龄组的边际效应差别非常大。尽管 margins 可以为很多模型的预测提供更大的灵活性,然而,在分析时不能一味的选择「样本均值处边际效应」,而是应该详细分析样本的预测区间,谨慎选取样本代表值。

    . margins, at(age=(20 70) black=(0 1) female=(0 1))

    Adjusted predictions Number of obs = 10,335

    Model VCE : OIM

    Expression : Pr(diabetes), predict()

    1._at : black = 0

    female = 0

    age = 20

    2._at : black = 0

    female = 0

    age = 70

    3._at : black = 0

    female = 1

    age = 20

    4._at : black = 0

    female = 1

    age = 70

    5._at : black = 1

    female = 0

    age = 20

    6._at : black = 1

    female = 0

    age = 70

    7._at : black = 1

    female = 1

    age = 20

    8._at : black = 1

    female = 1

    age = 70

    ------------------------------------------------------------------------------

    | Delta-method

    | Margin Std. Err. z P>|z| [95% Conf. Interval]

    -------------+----------------------------------------------------------------

    _at |

    1 | 0.005 0.001 5.99 0.000 0.004 0.007

    2 | 0.096 0.007 13.51 0.000 0.082 0.110

    3 | 0.006 0.001 6.10 0.000 0.004 0.008

    4 | 0.110 0.007 15.05 0.000 0.096 0.125

    5 | 0.011 0.002 5.24 0.000 0.007 0.015

    6 | 0.179 0.020 9.08 0.000 0.140 0.217

    7 | 0.013 0.002 5.32 0.000 0.008 0.018

    8 | 0.203 0.021 9.66 0.000 0.161 0.244

    ------------------------------------------------------------------------------

    4. 小结

    总的来说,Hoaglin (2016) 认为在解释多元回归系数时,文献和教科书中常用的「保持不变」,「控制」和「固定」等词语均不能很好的反应多元回归的基本原理,也不符合现实情况。

    他认为,「调整共同线性影响」的表述会更适合。此外,在运用 margins 命令时应该谨慎选择「样本均值处」的边际效应。需要根据实际情况,弄清楚「样本预测空间」,并据此在合适的「点位」上求取边际效应,才能保证我们所着力解释的系数有真正的经济含义。

    参考文献Hoaglin David C., 2016, Regressions are Commonly Misinterpreted, Stata Journal, 16(1): 5–22.

    Hardin James W. , 2016, Regressions are Commonly Misinterpreted: Comments on the Article, Stata Journal, 16(1): 23–24.

    Long J. Scott, David M. Drukker, 2016, Regressions are Commonly Misinterpreted: Comments on the Article, Stata Journal, 16(1): 25–29.

    Hoaglin David C., 2016, Regressions are Commonly Misinterpreted: A Rejoinder, Stata Journal, 16(1): 30–36.

    附:文中所用代码

    . sysuse auto, clear

    . generate gp100m = 100/mpg

    . label var gp100m "Gallons per 100 miles"

    . replace weight = weight/1000

    *-相关系数

    . pwcorr gp100m weight displacement if foreign==1

    *-散点图矩阵

    . graph matrix gp100m weight displacement if foreign==1

    *-多元回归分析

    regress gp100m weight displacement if foreign == 1

    *-一元和多元回归结果对比

    . regress gp100m weight if foreign==1

    . est store m1

    . regress gp100m weight displacement if foreign==1

    . est store m2

    . esttab m1 m2, nogap b(%6.3f) s(N r2_a)

    *-部分回归图

    . ssc install reganat, replace

    . reganat gp100m weight displacement if foreign == 1, dis(weight) biline

    . graph export "图2-reganat部分回归图.png", replace

    *-手动计算二元回归的系数

    . keep if foreign==1

    . reg gp100m displacement

    . predict e_y_x2, res

    . reg weight displacement

    . predict e_x1_x2, res

    . reg e_y_x2 e_x1_x2

    *-3. Stata 命令:margins 运用问题

    . webuse margex, clear

    . tab group sex,column

    . reg y i.sex i.group

    . margins sex

    . webuse nhanes2f, clear

    . logit diabetes black female age

    . margins, at(age=(20 30 40 50 60 70)) atmeans

    . margins, at(age=(20 70) black=(0 1) female=(0 1))

    相关课程部分直播课

    课程一览

    支持回看,所有课程可以随时购买观看。Note: 部分课程的资料,PPT 等可以前往关于我们Stata 连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。

    公众号推文分类:计量专题 | 内生性 | 空间计量 | 时序面板 | 结果输出 | 交乘调节 五类,主流方法介绍一目了然:DID, RDD, IV, GMM, FE, Probit 等。连享会小程序:扫一扫,看推文,看视频……扫码加入连享会微信群,提问交流更方便

    展开全文
  • 数据回归-线性回归模型回归系数的平衡LS估计及预测.pdf
  • 数据回归-线性回归系数的Stein估计.pdf
  • 在前期内容中,我们介绍了如何对数据进行标准化处理,将...那么,提到不同变量的效应大小,大家一定会联想到在多因素回归模型中所得到的回归系数。例如,我们假设自变量分别为身高和体重,根据回归系数很容易就知...

    在前期内容中,我们介绍了如何对数据进行标准化处理,将原始的连续型变量转化为一个无量纲的标准化数值,消除不同变量之间因性质、量纲、数量级等属性的差异而带来的影响,从而使不同变量的效应大小具有可比性,因此数据的标准化处理在实际的统计分析中也得到了较为广泛的应用。

    那么,提到不同变量的效应大小,大家一定会联想到在多因素回归模型中所得到的回归系数。例如,我们假设自变量分别为身高和体重,根据回归系数很容易就知道每增加1cm的身高或每增加1kg的体重,引起的对因变量Y的影响大小,但是两者相比之下,到底谁的作用大谁的作用小呢?

    原始的回归系数已经无法回答这样的问题,我们需要借助标准化回归系数来进行判断,今天我们就来向大家介绍一下,在回归模型中这个标准化回归系数到底是个什么鬼?

    标准化回归系数

    VS

    未标准化回归系数

    1、未标准化回归系数

    通常我们在构建多因素回归模型时,方程中呈现的是未标准化回归系数,它是方程中不同自变量对应的原始的回归系数。它反映了在其他因素不变的情况下,该自变量每变化一个单位对因变量的作用大小。通过未标准化回归系数和常数项构建的方程,便可以对因变量进行预测,并得出结论。

    2、标准化回归系数

    而对于标准化回归系数,它是在对自变量和因变量同时进行标准化处理后所得到的回归系数,数据经过标准化处理后消除了量纲、数量级等差异的影响,使得不同变量之间具有可比性,因此可以用标准化回归系数来比较不同自变量对因变量的作用大小。

    通常我们主要关注的是标准化回归系数的绝对值大小,绝对值越大,可认为它对因变量的影响就越大

    3、两者的区别

    未标准化回归系数体现的是自变量变化对因变量的绝对作用大小,而标准化回归系数反映的是不同自变量对因变量的相对作用大小,可以显示出不同自变量对因变量影响的重要性。

    如果用标准化回归系数构建方程,得到的结论是有偏差的,因为此时自变量和因变量的数据都发生了转化,成为了标准化数据,因此标准化回归系数不能用于构建回归方程。

    标准化回归系数

    VS

    每变化1个标准差的回归系数

    我们在前期文章《回归模型中引入连续变量,还有哪些玩法?》中,介绍到对于连续型变量,在纳入多因素回归模型中时,可以将其转变为每变化1个标准差的形式,具体的操作方法是对原始的自变量进行标准化处理,然后再带入到回归模型中,所得到的回归系数即为该自变量每变化1个标准差对应的回归系数。

    那么,我们假设此时有两个自变量,一个自变量的标准差为1,另一个自变量的标准差为100,两者对因变量都具有一定的影响。如果用上述每增加1个标准差对应的回归系数,来判断哪个自变量对因变量的影响更大的话,当同样变化1个标准差时,第一个自变量只需要改变1个单位,而第二个自变量则需要改变100个单位,因此标准差大的自变量改变起来就显得比较困难。此时,我们就需要用标准化回归系数来救场。

    每增加1个标准差对应的回归系数,反映的是自变量每变化1个标准差时对因变量原始值变化产生的影响。而标准化回归系数,它反映的是自变量每变化1个标准差时,对因变量变化1个标准差产生的影响。

    在计算每增加1个标准差对应的回归系数时,我们只需要对原始自变量进行标准化处理;而如果要计算标准化回归系数,则需要对原始的自变量和因变量同时进行标准化处理,标准化为标准正态分布对应的值后再构建回归模型。

    SPSS操作

    一、研究实例

    某研究人员收集了100名研究对象的最大摄氧量(VO2 max),并记录了他们的年龄、体重、心率等信息,拟探讨年龄、体重、心率对VO2 max的作用大小,同时评价上述哪一个因素对VO2 max的影响作用更大。

    e81554fa3fa7a6d58bfac4fde92b73f6.png

    二、操作步骤

    1、多重线性回归

    (操作步骤参考文章《SPSS实例教程:多重线性回归,你用对了么?》)

    4e3261c47bf83d2fd6862c91c4cd6529.png

    根据多重线性回归分析的结果,回归方程可写为:

    VO2 max = 72.581 – 0.188 * age – 0.184 * weight – 0.059 * heart_rate

    其实不难发现,在SPSS的回归结果中,不仅展示了未标准化回归系数(Unstandardized Coefficients),同时也得出了标准化回归系数(Standardized Coefficients)。

    注意,未标准化回归系数更大的自变量,其标准化回归系数不一定更大。例如本例中,age的未标准化回归系数绝对值为0.188,大于weight的绝对值0.184,但是weight的标准化回归系数绝对值为0.325,却大于age的标准化回归系数绝对值0.200,说明weight对于VO2 max的影响较age更大。

    2、数据标准化处理

    (操作步骤参考前期推送文章《你听说过数据标准化处理吗?》)

    虽然SPSS在回归结果中可以直接输出标准化回归系数,但为了加深对它的理解,我们可以亲自对数据进行一遍标准化处理,对上述结果进行一下验证。

    Analyze → Descriptive Statistics → Descriptives → Save standardized values as variables

    通过上述步骤分别生成4个标准化处理后的新变量。

    f0abc1f94b885cb86162bb5a999efc43.png

    3、标准化回归系数

    在进行多重线性回归时,以VO2 max的标准化形式作为因变量,以age、 weight、 heart_rate的标准化形式作为自变量构建模型。结果发现,所得的结果与上述结果一致。

    50ce5eb2c189d25da6cdede590c9a234.png 30fca3bb9acb7c0ab05551cc65d7df93.png

    相互转换关系

    今天我们介绍了未标准化回归系数、每变化1个标准差的回归系数、以及标准化回归系数,最后再跟大家补充一下三者之间的相互转换关系。

    每变化1个标准差的回归系数= 未标准化回归系数 * 该自变量的标准差

    标准化回归系数= 未标准化回归系数 * 该自变量的标准差 / 因变量的标准差

    大家可以根据上述转换关系自行进行验证哈。

    哦,对了,细心的同学会发现,在SPSS中多重线性回归可以直接输出标准化回归系数,但是在logistic回归中,SPSS只能输出原始的未标准化的回归系数,如果我们想要计算logistic回归的标准化回归系数,比较不同自变量对因变量的相对作用大小,应该怎么办呢?

    根据上述标准化回归系数的转换关系,在logistic回归中随机变量分布函数的标准差为π / √3 = 1.8138[1],故标准化回归系数 = 未标准化回归系数 * 该自变量的标准差 / 1.8138,即可计算logistic回归的标准化回归系数。

    参考文献

    [1] 宋娜. 多元Logistic分布及其参数估计[D]. 北京工业大学, 2007.

    医咖会微信:medieco-ykh

    关注医咖会,及时获取最新统计教程

    展开全文
  • 数据回归-基于分组数据回归系数的估计.pdf
  • 数据回归-多元线性模型回归系数的主成分估计.pdf
  • Logistics回归系数解读

    千次阅读 2021-03-09 05:29:47
    Logistic回归虽然名字叫”回归” ,但却是一种分类学习方法。使用场景大概有两个:第一用来预测,第...并通过最小二乘法估计各个β系数的值。 如果y为二分类变量,只能取值0或1,那么线性回归方程就会遇到困难: 方程右
  • 数据回归-生长曲线模型中回归系数的参数估计.pdf
  • Logistic回归结果的回归系数和OR值解读。Logistic回归虽然名字叫”回归”,但却是一种分类学习方法。使用场景大概有两个:第一用来预测,第二寻找因变量的影响因素。一 从线性回归到Logistic回归线性回归和Logistic...
  • 回归方程及回归系数的显著性检验.docx回归方程及回归系数的显著性检验.docx回归方程及回归系数的显著性检验.docx回归方程及回归系数的显著性检验.docx回归方程及回归系数的显著性检验.docx回归方程及回归系数的显著...
  • 回归方程及回归系数的显著性检验.pdf回归方程及回归系数的显著性检验.pdf回归方程及回归系数的显著性检验.pdf回归方程及回归系数的显著性检验.pdf回归方程及回归系数的显著性检验.pdf回归方程及回归系数的显著性检验...
  • python中的回归系数计算

    千次阅读 2020-12-11 09:54:02
    我想用下面的公式找出每个术语的回归系数Y = C1aX1a C1bX1b ... C2aX2a C2bX2b .... C0,其中Y是活动Cna,残差选择a在位置n的回归系数,X虚拟变量编码(xna = 1或0)对应于位置n处残差选择a的存在与否,以及C0的平均...
  • excel多元回归-系数参数解读

    千次阅读 2018-02-24 10:56:00
    sklearn实战-乳腺癌细胞数据挖掘 ...amp;utm_campaign=commission&amp;utm_source=cp-400000000398149&amp;utm_medium=share Excel多元回归 http://blog.sina.com...
  • 数据回归-平衡损失下线性回归模型回归系数的估计理论.pdf
  • 线性回归的方差分析和回归系数的t检验.docx线性回归的方差分析和回归系数的t检验.docx线性回归的方差分析和回归系数的t检验.docx线性回归的方差分析和回归系数的t检验.docx线性回归的方差分析和回归系数的t检验.docx...
  • 线性回归的方差分析和回归系数的t检验.pdf线性回归的方差分析和回归系数的t检验.pdf线性回归的方差分析和回归系数的t检验.pdf线性回归的方差分析和回归系数的t检验.pdf线性回归的方差分析和回归系数的t检验.pdf线性...
  • 为了改进存在复共线性的回归模型中回归系数的最小二乘估计的不足,利用构造岭估计的思想,只修正非常接近于零的那部分特征值,从而给出了回归系数的部分岭估计.在均方误差意义下,存在岭参数,使得回归系数的部分岭估计...
  • 利用c#语言实现多元统计分析一元线性回归方程系数计算,可执行。
  • 线性回归是使用最为广泛的一种研究方法,其可用于研究X对于Y的研究。...与分层回归相比,分组回归的结果含义更明确,也更容易解释。调节作用一、研究背景当前有一项研究,收集了200份调查问卷,用于研究工作忠诚度...
  • 数据回归-平衡损失下回归系数线性估计的可容许性及最优平衡估计.pdf
  • 深入解读Logistic回归结果(一):回归系数,OR关键词:Logistic回归分析、lasso回归系数解读、回归系数解读Logistic回归虽然名字叫”回归”,但却是一种分类学习方法。使用场景大概有两个:第一用来预测,第二寻找因...
  • 机器学习——回归系数的计算(2)

    千次阅读 2020-01-12 12:09:05
    1、最小二乘法(min square)求解回归系数 将训练特征表示为 X 矩阵,结果表示成 y 向量,仍然是线性回归模型,误差函数不变。那么 θ 可以直接由下面公式得出 用矩阵可表示为 因为要求函数的极小值,对θ求导...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 76,440
精华内容 30,576
关键字:

如何解释回归系数