精华内容
下载资源
问答
  • 目录 1. 简介 2.... 3.... 3.1 无条件固定效应面板分位数回归 3.2 基于 RIF 回归的 UQR ... 4. 部分无条件分位数回归 ...Koenker and Bassett (1978) 提出了条件分位数回归 (CQR) 方法,从此开启了大家对

    全文阅读:https://www.lianxh.cn/news/62f094a52171d.html

    目录

    1. 简介

    Koenker and Bassett (1978) 提出了条件分位数回归 (CQR) 方法,从此开启了大家对均值回归以外的新天地。然而,由于 QCR 的结果基于过多甚至是不必要的个体特征,当我们想要知道解释变量对被解释变量的一般边际影响而无所谓样本个体的其他观测特征时,继续用 QCR 显然无法得到我们想要的结果。由此,无条件分位数回归 (UQR) 应运而生。UQR 是对 CQR 的补充和拓展,在劳动经济学与政策评估中具有重要应用价值 (朱平芳和张征宇,2012)。

    全文阅读:https://www.lianxh.cn/news/62f094a52171d.html

    展开全文
  • 对于点回归,我们从两个分位数Q0:05和Q0:95之间的范围中选择Y的预测值,而不是回归随机森林中使用的条件均值。我们的实验结果表明,具有这些扩展的随机森林要优于回归随机森林和分位数回归森林减少均方根残差。
  • 分位数回归(Stata)

    万次阅读 多人点赞 2020-01-08 20:53:30
    (1)线性回归模型得到的是一种条件均值,并未考虑到因变量总体上的分布特征,在需要了解因变量位置(分位数)上的信息时,线性回归就显示出了不足。 (2)线性(均值)回归模型最基本的假设之一正态分布,随机误差...

    基于分位数回归的成都空气质量指数的数据分析

    空气质量指数计算公式为:

    I=\frac{I_{high}-I_{low}}{C_{high}-C_{low}}(C-C_{low})+I_{low}

    1)线性回归模型得到的是一种条件均值,并未考虑到因变量总体上的分布特征,在需要了解因变量位置(分位数)上的信息时,线性回归就显示出了不足。

    2)线性(均值)回归模型最基本的假设之一正态分布,随机误差且独立时,通过最小二乘法得到的参数估计值是最小方差无偏估计。但是现实生活中大多数数据是不满足正态分布的,这时如果仍然用线性回归模型进行分析,由于在假设检验中值的计算依赖正态性假设,可能会造成值的有偏性,从而导致假设检验无效。若样本数据中存在异方差性或数据的分布是尖峰厚尾的,最小二乘估计量则不具有上述的良好性质。

    3)当样本数据中有离群点存在时,用线性回归模型计算得到的参数估计值可能有较大的偏差,因此,在进行回归拟合时通常会是在去掉离群点后建立线性(均值)回归模型,但这会使离群点在一些社会科学研究中丧失研究意义。

    而分位数回归模型相对于一般的线性(均值)回归模型来说,条件更为宽泛,可以描述因变量的全局特征,而不只是均值。另一方面,分位数回归模型具有稳健性,模型的估计值通常不受离群点的影响,从这一角度来说,分位数回归有较强的稳健性。

    Q_{\theta }(y|x)=X^T\beta (\theta )+b(\theta )

    模型检验:

    模型显著性检验(Wald检验)、系数的显著性检验(t统计量)、不同分位数模型的联合相等检验、拟合优度检验(R方)

    实证分析

    对AQI作描述性分析,画出箱线图和QQ图

     

    样本数据中AQI的中位数较小,且有较大的离群点,QQ图为一条曲线且不是对称的,与正态QQ线相差较大,综合来说,样本数据中的AQI并不满足正态分布,而分位数回归模型对数据的分布没有要求,因此可以用分位数回归模型来分析样本数据。

    为了消除由于量纲不同对数据的分析结果造成影响,对数据进行归一化处理,将数据固定在了(0,1)范围内。

    PM2.5PM10SO2CONO2O3浓度为自变量,以AQI为因变量,建立分位数分别为0.250.500.75的位数回归模型(QRM)。

    不同分位数回归模型下系数的显著性不同,但基本都是有4个变量对AQI的影响是显著的,并且每个模型中PM2.5浓度对应的系数绝对值最大,说明它对AQI的影响程度最大。

    0.05显著性水平下,只有O3浓度对应的系数在3个模型中是不联合相等的,即在不同的分位数模型中O3浓度对AQI的影响程度不同,不能随意剔除,而其他的变量在0.05显著性水平下是联合相等的,即在不同的分位数回归模型中对AQI影响效果在一定程度上相同,存在剔除的可能。

    模型优化:向后剔除法剔除系数不显著的变量。

    下图描述了在不同分位数水平下的回归模型系数的置信区间,分位数从0.010.99上等距变化。图中深色的曲线表示不同分位数水平下各自变量对应的系数估计值,灰色区域表示系数的95%置信区间,深色虚线表示均值回归模型中各系数的估计值,两侧的浅色虚线之间为均值回归模型中系数的95%置信区间。

    随着分位数的增大,各系数的置信区间在逐渐变宽,O3浓度对应的系数估计值的置信区间先变宽后变窄。系数的置信区间变宽说明系数估计值的标准差在逐渐变大,系数估计值的波动性在增强。以上系数置信区间图中,只有O3浓度对应的系数估计值是具有单调性,不存在“分位数交叉问题”,即在不同的分位数水平下,O3浓度对AQI的影响不同,其余变量在不同分位数水平下对AQI的影响效果在一定程度上相同。另外,除PM2.5浓度对应的系数估计值基本在均值回归模型的系数置信区间内之外,其余系数的估计值基本不在均值回归模型的系数置信区间之内,尤其是低分位数和高分位数上,差别较大,这也进一步说明了均值回归模型在一定程度上具有不合理性,分位数回归模型可以更好地解释变量间的关系。

    1788个样本平均分为3等份,分别为第1-596597-11921193-1788个样本数据。对新组成的3个样本数据重新进行分位数为0.250.500.75的分位数回归模型。

    总结:

    线性(均值)回归模型只是通过拟合均值表达数据的集中趋势,无法刻画数据的位置(分位点)上的变化,在满足假设的情况下,线性(均值)回归具有较好的拟合效果,但是分位数回归模型具有较好的稳健性,并且能描述数据不同位置(分位点)上的估计值,当数据不满足假设条件时尤其是数据呈偏态分布时,分位数回归模型拟合效果更好。

    部分Stata代码:
    *读取数据,数据处理
    insheet using E:\计量论文\成都市空气质量指数.csv
    rename o3_8h o3
    *描述性统计
    asdoc sum
    *QQ图
    qnorm aqi
    *箱线图
    graph box aqi
    *相关系数
    asdoc pwcorr aqi pm25 pm10 so2 co no2 o3, star(all) nonum replace
    *归一化处理
    egen maqi =min(aqi)
    egen Maqi =max(aqi)
    gen aqi_=(aqi-maqi)/(Maqi-maqi)
    
    egen mpm25 =min(pm25)
    egen Mpm25 = max(pm25)
    gen pm25_=(pm25-mpm25)/(Mpm25-mpm25)
    
    egen mpm10 =min(pm10)
    egen Mpm10 =max(pm10)
    gen pm10_=(pm10-mpm10)/(Mpm10-mpm10)
    
    egen mso2 =min(so2)
    egen Mso2 =max(so2)
    gen so2_=(so2-mso2)/(Mso2-mso2)
    
    egen mco =min(co)
    egen Mco =max(co)
    gen co_=(co-mco)/(Mco-mco)
    
    egen mno2 =min(no2)
    egen Mno2 =max(no2)
    gen no2_=(no2-mno2)/(Mno2-mno2)
    
    egen mo3 =min(o3)
    egen Mo3 =max(o3)
    gen o3_=(o3-mo3)/(Mo3-mo3)
    
    *分位数回归
    eststo : quietly regress aqi_ pm25_ pm10_ so2_ co_ no2_ o3_
    eststo : quietly qreg aqi_ pm25_ pm10_ so2_ co_ no2_ o3_ ,quantile(.25)
    eststo : quietly qreg aqi_ pm25_ pm10_ so2_ co_ no2_ o3_ ,quantile(.50)
    eststo : quietly qreg aqi_ pm25_ pm10_ so2_ co_ no2_ o3_ ,quantile(.75)
    asdoc esttab est2 est3 est4 est5, b p t staraux
    *Wald检验
    qreg aqi_ pm25_ pm10_ so2_ co_ no2_ o3_ ,quantile(.25)
    test pm25_ pm10_ so2_ co_ no2_ o3_
    qreg aqi_ pm25_ pm10_ so2_ co_ no2_ o3_ ,quantile(.50)
    test pm25_ pm10_ so2_ co_ no2_ o3_
    qreg aqi_ pm25_ pm10_ so2_ co_ no2_ o3_ ,quantile(.75)
    test pm25_ pm10_ so2_ co_ no2_ o3_
    *联合相等检验
    sqreg aqi_ pm25_ pm10_ so2_ co_ no2_ o3_,q(.25,.50,.75)
    test[q25=q50=q75]:pm25_
    test[q25=q50=q75]:pm10_
    test[q25=q50=q75]:so2_
    test[q25=q50=q75]:co_
    test[q25=q50=q75]:no2_
    test[q25=q50=q75]:o3_
    *向后剔除(最终)
    eststo : quietly qreg aqi_ pm25_ pm10_ o3_ ,quantile(.25)
    eststo : quietly qreg aqi_ pm25_ pm10_ o3_ ,quantile(.50)
    eststo : quietly qreg aqi_ pm25_ pm10_ o3_ ,quantile(.75)
    asdoc esttab est1 est2 est3 , b p t staraux
    *检验过程代码同上
    *稳健性检验(归一化代码同上)
    insheet using E:\计量论文\数据1.csv
    eststo : quietly qreg aqi1_ pm251_ pm101_ o31_ ,quantile(.25)
    eststo : quietly qreg aqi_ pm251_ pm101_ o31_ ,quantile(.50)
    eststo : quietly qreg aqi_ pm251_ pm101_ o31_ ,quantile(.75)
    asdoc esttab est1 est2 est3 , b p t staraux
    insheet using E:\计量论文\数据2.csv
    eststo : quietly qreg aqi1_ pm252_ pm102_ o32_ ,quantile(.25)
    eststo : quietly qreg aqi_ pm252_ pm102_ o32_ ,quantile(.50)
    eststo : quietly qreg aqi_ pm252_ pm102_ o32_ ,quantile(.75)
    asdoc esttab est1 est2 est3 , b p t staraux
    insheet using E:\计量论文\数据3.csv
    eststo : quietly qreg aqi1_ pm253_ pm103_ o33_ ,quantile(.25)
    eststo : quietly qreg aqi_ pm253_ pm103_ o33_ ,quantile(.50)
    eststo : quietly qreg aqi_ pm253_ pm103_ o33_ ,quantile(.75)
    asdoc esttab est1 est2 est3 , b p t staraux
    

     

     

     

    展开全文
  • 分位数回归(Quantile Regression)

    千次阅读 2020-06-29 14:56:31
    数据采用分位数回归 在执行回归分析时,仅对问题进行数值预测还不够,您还需要...与常规线性回归不同,常规线性回归使用最小二乘法来计算不同特征值之间目标的条件均值,分位数回归估计条件 中位数 目标的。分位数回.

    在这里插入图片描述

    数据采用分位数回归
    在执行回归分析时,仅对问题进行数值预测还不够,您还需要表达您对该预测是否正确的信心。例如,如果您正在查看特定市场中房屋的价格,并且您的模型预测房屋的售价为262,458.45美元,那么您对模型的预测是否正确的信心如何?希望您的直觉会说这是真的,而且可能性很小,但是也许您的模型很接近实际答案。我们需要一种在一定范围内具有一定置信度,同时也能预测值范围的方法。

    分位数回归。与常规线性回归不同,常规线性回归使用最小二乘法来计算不同特征值之间条件概率的均值(conditional mean),分位数回归估计条件概率的中位数(conditional median)。分位数回归是线性回归的扩展,当不满足线性回归的条件(即线性,均方差,独立性或正态性)时使用。 传统上,用于计算均值的线性回归模型采用以下形式

    在这里插入图片描述

    线性回归模型方程

    其中p等于方程式中的特征数量,n是训练数据点的数量。最佳线性回归线是通过最小化均方误差来计算的,该均方根误差可通过以下公式找到
    在这里插入图片描述

    线性回归的均方误差

    现在,对于分位数回归,您不仅可以找到中位数,还可以为特征中的特定值计算任何分位数(百分比)。例如,如果我们要找到特定房屋价格的第25个分位数,则意味着房屋的实际价格有25%的机会低于预测值,而价格有75%的机会高于预测值。

    采用与线性回归模型相似的结构,五分位数的分位数回归模型方程为

    在这里插入图片描述

    分位数回归模型

    这意味着β贝塔系数现在不是常数,而是与分位数相关的函数。在特定分位数下找到这些β的值类似于常规线性回归的过程,只是现在我们必须减少绝对中位差(median absolute deviation)。

    在这里插入图片描述

    分位数回归的绝对中位差

    在此,函数𝜌是检查函数,该函数根据误差的分位数和整体符号为误差赋予不对称权重。在数学上,𝜌采用以下形式

    在这里插入图片描述

    检查函数方程

    在这里插入图片描述

    检查功能图

    在这种情况下,u是单个数据点的误差,并且max函数返回括号中的最大值。这意味着如果误差为正,则检查功能将误差乘以𝜏,如果误差为负,则检查功能将误差乘以(1- 𝜏)。

    例如,如果您想要第10个百分位数的中位数,则意味着您希望90%的误差为正,而10%的误差为负。为了在使该语句为真的同时找到最小的MAD,必须将权重添加到错误中。在第十个分位数的情况下,负数权重为0.9,负数为正数。

    让我们看看实际的分位数回归。让我们研究QuantReg的python statsmodels示例,该示例查看1857年比利时工人阶级家庭样本中食品收入与支出之间的关系,并了解我们可以进行什么样的统计分析。
    import statsmodels.api as sm
    import statsmodels.formula.api as smf
    data = sm.datasets.engel.load_pandas().data
    data.head()
    

    在这里插入图片描述

    1857年比利时家庭数据

    mod = smf.quantreg('foodexp ~ income', data)
    res = mod.fit(q=.5)
    print(res.summary())
    

    在这里插入图片描述
    如您所见,您可以为特定分位数创建回归线,并对其进行统计分析,方法与使用常规线性回归模型相同。

    补充材料:

    如何通俗地理解分位数?
    https://www.zhihu.com/question/67763556

    分位数回归(Quantile Regression)
    https://blog.csdn.net/jesseyule/article/details/95247155

    什么是“绝对中位差”(median absolute deviation)?
    https://www.zhihu.com/question/56537218

    【强化学习 48】Quantile Regression
    https://zhuanlan.zhihu.com/p/60912847

    展开全文
  • 初学者难免困惑于计量经济学中诸多的 “条件” 与 “无条件”,比如条件概率与无条件概率,条件分布与无条件分布,条件期望与无条件期望,条件方差与无条件方差,条件中位数与无条件中位数,条件分位数与无条件分...

    初学者难免困惑于计量经济学中诸多的 “条件” 与 “无条件”,比如条件概率与无条件概率,条件分布与无条件分布,条件期望与无条件期望,条件方差与无条件方差,条件中位数与无条件中位数,条件分位数与无条件分位数。这些 “条件” 与 “无条件” 的概念,究竟有什么区别与联系,在实践中又该如何应用呢?本文将为你逐一辨析。

    条件概率 vs 无条件概率

    什么是概率?简单说,概率(probability)就是在大量重复试验下,随机事件发生的频率趋向的某个稳定值。比如,记随机事件 “下雨” 为

    98680505_1,则其发生的概率一般记为

    98680505_2。“无条件概率”(unconditional probability)其实就是我们一般所说的概率,只是为了与 “条件概率” 相区别,有时才强调它是 “无条件的”。

    事实上,计量经济学更关心条件概率。比如,记事件 “出太阳” 为

    98680505_3,则在出太阳的前提条件下降雨的 “条件概率” (conditional probability) 可定义为

    98680505_4

    其中,

    98680505_5

    98680505_1

    98680505_3同时发生的概率,参见下面的维恩图(Venn diagram)。

    98680505_6

    在此图中,矩形的方框表示整个世界(包括所有可能的随机试验结果,即样本空间),不妨将其面积标准化为 1。圆形

    98680505_1 的面积即为事件 

    98680505_1 发生的(无条件)概率,而圆形 

    98680505_3 的面积则为事件 98680505_3发生的(无条件)概率。

    考虑在给定

    98680505_3 发生情况下,

    98680505_1 发生的条件概率 。此时,世界所处的状态只能是

    98680505_3,而 

    98680505_3 之外的状态均为不可能。进一步,在 

    98680505_3 发生的情况下,如果 

    98680505_1 也发生,则表明 

    98680505_1 与 

    98680505_3 同时发生,故为集合 

    98680505_1 与集合 

    98680505_3 的交集,即 

    98680505_7 。因此,将此交集的概率

    98680505_5 除以 “全集”

    98680505_3的发生概率

    98680505_8,即为在给定

    98680505_3发生情况下,

    98680505_1发生的条件概率。

    在实践中,究竟应该使用(无条件)概率还是条件概率呢?看一个简单例子就能明白。

    比如,假设股市崩盘的(无条件)概率为万分之一;而在经济陷入严重萧条的情况下,股市崩盘的条件概率为百分之一。此时,如果已知经济已陷入严重萧条,你会使用哪种概率来预测股市崩盘的可能性呢?如果仍使用万分之一的无条件概率,就显得过于僵化,因为既然经济已经严重萧条,自然应将此条件考虑在内,而使用百分之一的条件概率。

    由此可知,无条件概率是仅在你对世界的状态一无所知时,才使用的一种粗糙度量。而如果已知世界处于某种状态(比如,事件

    98680505_3 已经发生),则条件概率

    98680505_9提供了对于随机事件

    98680505_1发生可能性的更为细致而精确的度量。

    事实上,无条件概率可看成是条件概率的加权平均,而权重就是每种 “条件” 发生的概率,这便是概率统计中的 “全概公式”(law of total probability):

    98680505_10

    其中,

    98680505_11 为完备事件组,即这些随机事件互相排斥,但必然有某个

    98680505_12发生。

    条件分布 vs 无条件分布

    通常使用概率分布来描述随机变量的取值特征。以一维的连续型随机变量

    98680505_13 为例(

    98680505_13 的取值可为任意实数),其概率密度函数 (probability density function,简记 pdf) 为非负函数

    98680505_14 满足:

    98680505_15

    参见下图:

    98680505_16

    类似地,二维连续型随机向量

    98680505_17 的联合密度函数 (joint pdf)  为非负函数

    98680505_18  满足:

    98680505_19

    二维随机向量的联合密度函数

    98680505_18 就像倒扣的草帽,参见下图。落入平面某区域 

    98680505_20 的概率就是此草帽下在区域

    98680505_20 之上的体积。

    98680505_21

    条件分布又是怎么回事呢?比如,考虑在

    98680505_22 条件下

    98680505_23 的条件分布,记为

    98680505_24 或

    98680505_25。直观上,此条件分布相当于在 “草帽” (联合密度函数) 上

    98680505_22 的位置垂直地切一刀所得的截面,参见下图。

    98680505_26

    在此,有一个技术细节,即由于

    98680505_13 为连续型随机变量,事件

    98680505_22 发生的概率为 0,应如何计算

    98680505_24 的条件概率密度 (conditional pdf)?解决方法是,考虑

    98680505_27 附近的小邻域

    98680505_28,计算在

    98680505_29 条件下 

    98680505_23 的概率分布,然后让

    98680505_30,则可证明条件密度函数为

    98680505_31

    其中,

    98680505_32 为随机变量 

    98680505_13 的边缘密度(marginal density),即 

    98680505_13 作为一维随机变量的概率密度。直观上,条件密度的公式与条件概率的定义式类似。

    计量经济学为何如此关心给定

    98680505_22 情况下 

    98680505_23 的条件分布

    98680505_24 呢?这是因为,实证研究主要关心 

    98680505_13 对

    98680505_23 的作用,而此信息很多体现在条件分布

    98680505_24 中,即随着

    98680505_13 的取值变化,

    98680505_23的条件分布将如何变化。

    以 Stata 自带的数据集 auto.dta 为例。比较汽车重量 weight 的无条件分布,与在给定为外国车(虚拟变量 foreign = 1)的情况下,weight 的条件分布。

    . sysuse auto

    . kdensity weight

    此命令将画变量 weight 的核密度图(kernel density),即对其概率密度函数的估计,相当于光滑版的直方图。

    98680505_33

    从上图可知,变量 weight 的(全样本)无条件分布呈双峰形状。下面考察在给定为外国车(虚拟变量 foreign = 1)的情况下,weight 的条件分布。

    . kdensity weight if foreign

    98680505_34

    由上图可知,在给定外国车(虚拟变量 foreign = 1)的情况下,变量 weight 的(子样本)条件分布呈单峰形状。为便于比较,将以上两个图画在一起。

    . twoway kdensity weight || kdensity weight if foreign, lp(dash)

    其中,选择项 “lp(dash)” 表示将外国车 weight 的核密度图用虚线(dash)来画。

    98680505_35

    在上图中,实线为全样本的无条件分布,而虚线则为外国车的条件分布,可见二者差别之大。为何外国车的 weight 分布为单峰,而全部车的 weight 分布变为双峰?原因很简单,因为美国国产车的 weight 分布也是单峰,但山峰的位置不同。下面将外国车与国产车的两个条件分布画在一起:

    . twoway kdensity weight if foreign || kdensity weight if !foreign, lp(dash)

    98680505_36

    显然,相对于外国车,美国国产车的车身重量分布更偏向右边,说明美国车通常更重些(与常识相符)。

    条件期望 vs 无条件期望

    当然,要把握整个概率分布并不容易,故常使用随机变量的数字特征,比如期望。假设连续型随机变量

    98680505_13 的概率密度函数为 

    98680505_14,则其期望(expectation)为

    98680505_37

    直观上,求期望就是对

    98680505_13 进行加权平均,而权重为其概率密度(取值可能性)。显然,在上式的积分结果中,已将

    98680505_27 积掉,故 

    98680505_38 只是一个常数,也就是 “无条件期望”(unconditional probability)。

    如果理解了条件分布,那么条件期望就容易理解了。其实,条件期望(conditional expectation)不过是条件分布的期望而已,简称 “条件期望” 。在给定

    98680505_13 的情况下,

    98680505_23 的条件期望可表达为

    98680505_39

    在上式中,由于

    98680505_40 已被积分积掉,故

    98680505_41 只是

    98680505_27的函数,称为 “条件期望函数”(conditional mean function),参见上文的条件分布图示(图中假设条件期望函数为

    98680505_27的线性函数)。

    事实上,计量经济学经常估计的回归函数(regression function),正是在给定解释变量

    98680505_27(可以是向量)情况下的条件期望函数。这也凸显了条件期望函数在计量经济学的核心地位。

    仍以数据集 auto.dta 为例,考察变量 weight 的(无条件)期望与条件期望。

    . sum weight

    98680505_42

    . sum weight if foreign

    98680505_43

    其中,变量 weight 的(全样本)无条件期望为 3019.459,而(外国车子样本)的条件期望为 2315.909,有很大区别。由于外国车通常更轻些,故外国车weight 的条件期望也低于 weight 的(全样本)无条件期望。

    关于条件期望与无条件期望的关系,有如下重要的迭代期望定律 (Law of iterated expectation):

    98680505_44

    直观上,这意味着(左边的)无条件期望等于(右边的)条件期望

    98680505_41 之加权平均,而权重为条件 “

    98680505_22” 的概率(取值可能性),证明参见陈强(2014,2015)。

    条件方差 vs 无条件方差

    如果期望是寻找随机变量的中心位置(或集中趋势),方差则为对此中心位置的偏离程度之度量。连续型随机变量

    98680505_13 的方差(variance)可写为

    98680505_45

    显然,方差越大,则随机变量取值的波动幅度越大。在上式中,方差也是一个常数,即 “无条件方差”(unconditional variance)。

    另一方面,条件方差(conditional variance)则为条件分布的方差,简称条件方差;其数学表达式为

    98680505_46

    在上式中,

    98680505_40 已被积分积掉,故条件方差 

    98680505_47 也只是

    98680505_27的函数,称为 “条件方差函数” (conditional variance function)。

    在上文的条件分布图示中,较为矮胖之分布的方差较大,而较为高瘦之分布的方差较小,故存在 “条件异方差”(conditional heteroskedasticity),常简称 “异方差”。

    仍以数据集 auto.dta 为例,考察变量 weight 的(无条件)方差与条件方差。

    . sum weight,detail

    98680505_48

    . sum weight if foreign,detail

    98680505_49

    由以上结果可知,变量 weight 的(全样本)无条件方差为 604029.8,而(外国车子样本)的条件方差仅为 187492,有很大区别,即美国国产车的车身重量波动幅度更大。

    在计量经济学中,回归方程的扰动项存在异方差是比较普遍的现象。比如,在企业数据中,大企业与小企业的扰动项之波动幅度可能很不相同。另一方面,计量经济学常用的大样本理论(large sample theory)一般假设样本数据为 “严格平稳过程”(strictly stationary process),即概率分布不随着时间推移而改变,故其方差也是常数。平稳过程的假设是否与异方差现象矛盾呢?

    要解决此表面上的 “矛盾”,关键在于认识到,计量经济学所说的异方差一般均指 “条件异方差”(conditional heteroskedasticity),即条件方差不同,而非“无条件异方差”(无条件方差不同)。因此,条件异方差与平稳过程的假定其实并不抵触。平稳过程只是保证在给定解释变量的情况下,条件方差函数的函数形式(functional form)

    98680505_47 相同,但此条件方差的具体取值则仍取决于解释变量 

    98680505_27 的取值,故可以有所不同。

    显然,在已知解释变量样本观测值的条件下,真正起作用的应该是条件方差,而非(无条件)方差。在金融中常用的自回归条件方差模型(Autoregressive Conditional Heteroskedastiticy,简记 ARCH)及其推广形式 GARCH 模型,就是以自回归形式来定义条件方差函数,以此刻画金融市场的波动性集聚(volatility clustering)现象。

    条件中位数 vs 无条件中位数

    明白了条件期望与无条件期望、以及条件方差与无条件方差的区别,对于条件中位数与无条件中位数的区别也可迎刃而解。

    给定随机变量

    98680505_13 的无条件分布,则其中位数(median),即无条件中位数(unconditional median),指的是比它更小的概率正好等于比它更大的概率,皆为二分之一。换言之,中位数正好将总体分为两个相等的部分,一半在中位数之上,而另一半在中位数之下,故也称为50%的百分位数(50% percentile):

    98680505_50

    另一方面,条件中位数(conditional median)则为条件分布的中位数,即条件中位数正好将条件分布分为相等的两部分。仍以数据集 auto.dta 为例,从以上结果可知,变量 weight 的 (无条件) 中位数为 3190,而条件中位数则为 2180,也有明显不同。

    条件分位数 vs 无条件分位数

    中位数的概念很容易推广到一般的分位数(quantile)。比如,给定随机变量

    98680505_13的无条件分布,则随机变量 

    98680505_13 的10%(无条件)分位数,记为 

    98680505_51,可以定义为

    98680505_52

    因此,10%分位数

    98680505_51 把总体分为两部分,其中比

    98680505_51 更小的那部分占总体的比重正好为10%。推而广之,随机变量 

    98680505_13 的 

    98680505_53 分位数(qth quantile)

    98680505_54,可以定义为

    98680505_55

    另一方面,在给定

    98680505_22 情况下,

    98680505_23 的条件分布

    98680505_24 之分位数,记为

    98680505_56,则称为 “条件分位数”(conditional quantile)。仍以数据集 auto.dta 为例,从前面结果可知,变量 weight 的(无条件)10%分位数为 2020,而其10%条件中位数为 1930。

    正如条件期望

    98680505_41 是

    98680505_27的函数,条件分位数

    98680505_56 也是解释变量

    98680505_27的函数,称为 “条件分位数函数”(conditional quantile function)。而对于条件分位数函数

    98680505_56 的估计,则为近年流行的 “分位数回归”(quantile regression),其优点在于可以更全面地刻画条件分布

    98680505_24 的特征(可考虑感兴趣的不同分位数),而且不像 OLS 回归那样容易受极端值(outlier)的影响。

    总之,在计量经济学中,当 “条件” 遇到 “无条件”,几乎总是 “条件” 胜出,因为“条件” 意味着给定了某种状态,故更有信息量,可以对世界进行更为准确而精细的度量。

    参考文献陈强,《高级计量经济学及Stata应用》,第2版,高等教育出版社,2014年。

    展开全文
  • 基于神经网络分位数回归及核密度估计的概率密度预测方法,闻才喜,何耀耀,本文引入神经网络分位数回归和核密度估计方法,把神经网络强大的非线性自适应能力及分位数回归能更加细致刻画解释变量的优点结合
  • 本文通过引入一种基于全局梯度的模型不可知方法为该文献做出贡献,我们将其称为分位数条件下的边际归因 (MACQ)。 我们的方法基于分析预测(输出)对单个特征(输入)的边际属性。 具体而言,我们通过混合(全局)...
  • 分位数回归及其Python源码

    千次阅读 2020-12-06 14:51:03
    分位数回归及其Python源码天朗气清,惠风和畅。赋闲在家,正宜读书。前人文章,不得其解。代码开源,无人注释。你们不来,我行我上。废话少说,直入主题。o( ̄︶ ̄)o我们要探测自变量 与因变量 的关系,最简单的方法...
  • 这种理论也可以在预测统计中为我们服务,这正是分位数回归的意义所在——估计中位数(或其他分位数)而不是平均值。 通过选择任何特定的分位数阈值,我们既可以缓和异常值,也可以调整错误的正/负权衡。我们还可以...
  • 摘要 ...回归分位数(RQ)由(Koenker和Gilbert,1978)提出,将感兴趣的结果的条件分位数作为预测因子的函数来建模。自引入以来,分位数回归一直是理论界非常关注的话题,也在许多研究领域得到了.
  • 分位数回归及其实例

    千次阅读 2021-04-22 02:53:01
    是计量经济学的研究前沿方向之一,它利用解释变量的多个分位数(例如四分位、十分位、百分位等)来得到被解释变量的条件分布的相应的分位数方程。与传统的OLS 只得到均值方程相比,它可以更详细地描述变量的统计分布。...
  • 分位数回归 CAViaR

    2014-10-06 22:12:05
    CAViaR:基于分位数回归和条件自回归风险价值模型计算风险价值
  • 目标是分位数回归学习的误差分析。 除了连续性和有界性之外,内核函数没有任何正则化条件。 基于图的半监督算法会导致一个额外的误差项,称为流形误差。 新的错误边界和收敛速度的一部分是使用由l1经验覆盖数和边界...
  • 分位数回归简介

    万次阅读 2019-06-01 15:04:40
    分位数回归简介 同步于音尘杂记;Buracag的博客 最近在做一个比较有意思(难搞…)的项目。大致介绍一下相关背景:根据历史的一个工作情况(历史表现,也就是有多少人做了多少工作量),以及未来的一个预估工作量(预测值)...
  • 分位数回归森林

    2020-12-06 14:51:01
    分位数回归森林(Quantile Regression Forests),一般回归模型预测均值,但该算法预测数据的分布。它可以用来预测给定输入的价格分布,例如,给定一些属性,汽车价格分布的第25和75百分位是多少。大多数预测器在预测...
  • 然后,对每一经验模式序列分别构建分位数回归森林预测模型,得到任意分位点条件下的预测结果,通过叠加不同经验模式预测结果获得最终的短期风电功率预测值;最后,对预测值条件分布采用核密度估计获得任意时刻概率...
  • 对于高维分位数回归模型提出了一种两步变量选择方法,这里协变量的维数pn远远大于样本量n.在第一步中,使用ι1惩罚,并且证明第一步由LASSO惩罚所得到的惩罚估计量能够把模型从超高维降到同真实模型同阶的维数,...
  • 该方法采用Adam随机梯度下降法在不同分位数条件下对长短期记忆神经网络(LSTM)的输入、遗忘、记忆、输出参数进行估计,得出未来200 h内各个时刻风电功率的概率密度函数。根据美国PJM网上的风电功率实际数据的仿真结果...
  • p分位数的原理及计算

    万次阅读 多人点赞 2018-07-17 16:54:08
    目录 1.统计上的分位数概念 ... 统计上,分位数亦称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等。分位数指的就是连续...
  • 张晓峒分位数回归讲义解析.doc

    千次阅读 2021-01-17 16:51:44
    位数的估计.3 分位数回归.4 分位数回归模型的估计.5 分位数回归模型的15.6 分位数的计算分位数回归的15.7 分位数回归的以往回归模型是研究被解释变量的条件期望。人们解释变量被解释变量分布的。就是分位数回归,它...
  • 分位数回归--基于R

    千次阅读 2019-10-16 17:21:39
    分位数回归 分位数回归是估计一组回归变量X与被解释变量Y的分位数之间线性关系的建模方法。以往的回归模型实际上是研究被解释变量的条件期望。而人们也关心解释变量与被解释变量分布的中位数、分位数呈何种关系。它...
  • 本文开发了一个条件分位数模型,可以学习序列数据的长期和短期记忆。 它建立在顺序神经网络上,但输出可解释的动态。 我们使用 1960 年代至 2018 年的历史数据将该模型应用于 11 个资产类别的资产回报时间序列。我们...
  • 在一定条件下,得到了Φ-混合样本条件t-分位数的核估计强收敛速度,即 定理 对同分布的Φ-混合样本(X1,Y1),…(Xn,Yn) ∈ Rd x R1,若 (ⅰ)X1具有边际密度函数f; (ⅱ)条件分布函数F(y︱x)在(x,θx(t))的邻域内具有连续的...
  • 基于所有数据都是在相同条件下测量/分析的假设,分位数归一化将有助于纠正这种可变性。 它将返回一个标准化的数据集。 蛋白质组学/基因组学应用分位数归一化 全局归一化 - 强制芯片具有相等的平均(中值)强度...
  • 本节内容:分位数的基本概念、-pctile-命令、-xtile-命令、-pctile- 命令1 分位数的基本概念(了解)例 1:​例 2:​定义和公式第p_th 百分位数值,记为 x_|p|,设 p = N_p/100例如,若求取第 25 百分位的数值,则 N_...
  • 分位数

    千次阅读 2019-01-21 21:30:14
    分位数(Quantile),亦称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有...1,随机变量X或它的概率分布的分位数Za,是指满足条件p(X≤Za)=α的实数 [1]  分位分箱应该就是等距分箱。...
  • 目录 1. 简介 2.... 4.1 使用 `qreg` 的简单条件分位数回归 4.2 使用 `bsqreg` 估计 4.3 使用 `qrprocess` 估计 4.4 使用 `qreg2` 估计 4.5 使用 `ivqreg2` 估计 4.6 使用 `xtqreq`
  • 探讨了分位数回归理论相对于传统最小二乘回归模型在金融时间序列建模和风险测量方面的应用特点,分别采用滞后收益率、星期虚拟变量、滞后收益率的均值和方差作为解释变量的条件分位数回归模型,对1996-2004年期间...
  • 分位数回归模型学习笔记

    万次阅读 多人点赞 2018-03-09 11:10:54
    我读硕士老师给我的第一篇论文就是一个分位数回归的文章,当时觉得这个模型很简单,我很快就用R的示例文件写了一个例子,但是,在后面的研究中,我越来越觉得,这个模型没有我想的那么简单,而且有着非常丰富的内涵...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 79,659
精华内容 31,863
关键字:

条件分位数