精华内容
下载资源
问答
  • stata多元线性回归
    千次阅读
    2021-04-26 18:51:11

    对t p>[t]  F R^2 置信区间的值做出相应解释   因变量是新生儿体重birth weight  主题是产前护理及父母恶习对新生儿健康的影响 此外hypothesis假设应该怎么写.

    3d4ee323f37c6b8f86a96a52b9f5be0d.png

    首先说觉得你这个方程回归的不好,R系数太小,显著性不好。F值应该大于该自由度下查表的值才行,所有的t值大于查表得到的值,这样从方程到参量全部显著。不过受制于原始数据,一般都不完美,回归的方程都这样鸟样,能凑合用。F值代表整个方程的显著程度,F>F(P,n-P-1),n为数据组数,P为自变量个数。F,t可以查表或者用函数求解。置信区间严格说不能包括0的,包括0表明该自变量对因变量不显著,需要剔除重新回归的。p值需要小于默认的alpha值,也就是p<0.05才表明方程显著。

    可是,我很疑惑你的主题。如果只是想要得到劣习的影响程度顺序,只需要做一下灰色关联分析就行,可以很简单的得到各个影响因素的排序,分清楚主要影响和次要影响。多元线性回归数据不好的话出来的误差很大,而且不做-5%~5%敏感度浮动分析也看不出来谁的影响更大,除非你自己编程能一直自动的判定显著性并且会自动重新回归。

    小弟也是工作需要,最近自学的这部分内容,不知道说的对不,互通有无吧。

    另外,hypothesis假设没看懂。我是用MATLAB和EXCEL做的多元线性回归,EXCEL做的灰色关联分析。

    追问:

    就是原假设应该怎么写啊 不能给分析下这几个数据吗

    追答:

    我没用过你这个软件,用matlab回归程序很简单,可以直接从EXCEL导入然后直接进行矩阵引用。

    我的意思是,这里面明显的R可以说很差,F和t你的查表对照一下才可以判定,属于比较大小,没有查表的值无法说你这个F和t是好是坏。

    p值不知道为啥有3个?一般回归出来貌似就一个p吧,只要小于默认的alpha就行。置信区间这个你有2个都是包括0的,明显不好啊。

    说实话,我做回归的时候没特别在意这个,因为数据不好,怎么回归都是R很小,线性相关差,我也不想去删数据点来造假拟合。

    如果你只是想要得到影响程度的排序,推荐灰色关联排序分析。

    喜欢 (5)or分享 (0)

    更多相关内容
  • 多元线性回归分析(Stata

    万次阅读 多人点赞 2022-01-14 10:12:47
    线性回归:因变量Y为连续性数值变量,例如GDP的增长率 0-1回归:因变量Y为0-1型变量,例如P2P公司研究借款人是否能按时还贷,那么Y可以设计为二值变量,Y=0时代表可以还贷,Y=1时代表不能还贷 定序回归:...

    目录

    一、回归分析的介绍与分类

    二、多元线性回归模型的条件

    1. 线性理解与内生性问题研究

    2. 异方差问题

    3. 多重共线性问题


    一、回归分析的介绍与分类

    回归分析的任务是:通过研究自变量X和因变量Y的关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的

    三个关键字:相关性、因变量Y、自变量X

    常见的回归分析有五类(划分的依据是因变量Y的类型):

    • 线性回归:因变量Y为连续性数值变量,例如GDP的增长率

    • 0-1回归:因变量Y为0-1型变量,例如P2P公司研究借款人是否能按时还贷,那么Y可以设计为二值变量,Y=0时代表可以还贷,Y=1时代表不能还贷

    • 定序回归:因变量Y为定序变量 ,例如1表示不喜欢,2表示一般般,3表示喜欢

    • 计数回归:因变量Y为计数变量,例如管理学中的RFM模型,F代表一定时间内,客户到访的次数,次数其实就是一个非负整数

    • 生存回归:因变量Y为生存变量(截断数据),例如研究产品寿命,企业寿命和人的寿命,假设做吸烟对寿命的影响,选取的样本中老王60岁,但是老王此时身体很健康 ,不能等老王去世再做研究,所以只能记他的寿命为60+,这种数据就是截断的数据

    回归分析的使命

    1. 识别重要变量,那些自变量X是同Y真的相关

    2. 判断相关性的方向,正相关还是反相关

    3. 要估计权重

    回归分析的分类

    数据的分类

    • 横截面数据:在某一时点收集的不同对象的数据,eg:全国各省份2021年GDP数据

    • 时间序列数据:在同一对象在不同时间连续观察所得的数据,eg:某地方每隔一小时测得的温度数据

    • 面板数据:横截面数据和时间序列数据综合在一起的一种数据

    二、多元线性回归模型的条件

    • 模型符合线性模式

    • X满秩(无多重共线性)

    • 零均值价值 E(ξi​∣Xi​)=0 (自变量外生)无内生性问题

    • 同方差:Var(ξi​∣Xi​)=σ

    • 无自相关:Cov(ξi​,Xi​)=0

    1. 线性理解与内生性问题研究

    回归分析中对线性的理解

    回归分析中的线性假定并不要求初始模型都呈严格的线性关系,自变量和因变量可以通过变量替换来转换成线性模型

    例如:

    标准化回归系数

    我们通常得到的回归方程中的回归系数都是非标准化回归系数,表示的是在其他自变量不变的时候,该系数对应的自变量每增加一个单位的量,因变量就增加该系数的值,体现的是对因变量绝对的影响,并不能去判断不同自变量之间谁对因变量的影响大;而标准化回归系数就是指对数据进行标准化处理

    标准化处理:讲原始数据减去它的均数后除以它的标准差,计算得到新的变量值,消除了量纲、数量级等差异的影响

    标准化处理后得到的回归方程即为标准化回归方程,使得不同变量间具有可变性,标准回归系数的绝对值越大即对因变量的影响最大(只关注显著的回归系数)

    stata操作:在regress 后添加参数b

    regress y x1 x2 ... xk, b

    对数据进行描述性统计的方法

    • excel数据分析

    • stata-summarize

    Stata工具的使用

    1. 数据的描述性统计

      • 定量数据:summarize 变量1 变量2 ...

      • 定性数据:tabulate 变量名, (gen(A))

        返回对应这个变量的频率分布表,可选择并生成对应的虚拟变量(以A开头)

        虚拟变量是针对定性数据而设置的特殊变量详细解释看Chapter7

    2. 回归分析

      regression y x1 x2 ... xk(默认采用的是OLS普通最小二乘法)

    利用Stata对数据进行回归分析的注意点

    解释

    1. 上表格第一行依次为SS(sum of squares),df(degree of freedom),MS(mean square)

    2. 右边的F(df of model, df of residual) = MS of Model / MS of Residual = 7.7543e+10/5.1386e+9 = 15.09

    3. F值的H0假设是:所有的自变量predictor都对y不会产生影响,即所有predictor的coef都=0,所有的predictor都不significant

    4. 下面的prob > F是指上述H0成立的可能性。当其趋于0时表示至少会有一些predictor的coef不为0(即相关)——模型合理

    5. Adj R-squared 由于R2存在一个问题:无论什么predictor加到模型中,R2都会变大。为了避免这个问题,adjR2惩罚了模型的复杂度

    6. 下面这张表格的第一列为coef回归系数

    7. 第二列为Coef的Std.Err,值越小说明Coef的值越可信

    8. 第三列t值=Coef / Std.Err,|t-statistics| > 2对应的predictor就是significant

    9. 第三列是p > |t|,表示prob > |t|,值小于0.05一般就是significant

    核心关注点

    模型是否合理:联合显著性检验,如果P值<0.05说明存在相关性,否则不存在

    置信度高低(系数显著与否):如果P值(蓝色)<0.1说明置信度>90%,<0.05说明置信度大于95%,Regession coeffient显著

    2. 异方差问题

    第一张为同方差:生成的线性模型到每个数据的垂直水平距离相差无几就是同方差; 后面三张即为不同类型的异方差

    异方差的检验

    1. 残差图检验(应该是稳定的平行于X轴) Stata中的操作:

      • rvfplot (画残差与拟合值的散点图)

      • rvpplot x (画残差与自变量X的散点图)

    2. 怀特检验(white检验) Stata中的操作: 

      estat imtest, white

            怀特检验的原假设:不存在异方差         若p值<0.05说明在置信度95%以上认为原假设不成立

    异方差的纠正

    1. OLS+稳健的标准差

      如果发现存在异方差,一 种处理方法是,仍然进行OLS 回归,但使用稳健标准误。这是最简单,也是目前通用的方法。只要样本容量较大,即使在异方差的情况下,若使用稳健标准误,则所 有参数估计、假设检验均可照常进行。换言之,只要使用了稳健标准误,就可以与异方差“和平共处”了。

      Stata的操作: 

      regress y x1 x2 ... xk, robust
    2. 广义最小二乘法GLS

    Stock and Watson (2011)推荐,在大多数情况下应该使用“OLS + 稳健标准误”

    3. 多重共线性问题

    表现:

    • 系数估计值符号相反

    • 某些重要的解释变量t值低但是R2不低

    • 当一不太重要的解释变量被删除后,回归结果显著变化

    原因

    • 某一解释遍历可以由其他解释变量线性表示

    • 解释变量享有共同的时间趋势

    • 由于数据收集的基础不够宽,某些解释变量可能会一起变动

    • 一个解释变量是另一个的滞后,二者往往遵循一个趋势

    检验(VIF)

    Stata操作: 

    estat vif

    Soution

    逐步回归分析

    较好在生成线性模型时就能避免多重共线性问题

    • 向前逐步回归Forward selection:将自变量逐个引入模型,每引入一个后都要进行检验,显著时才加入回归模型 
      缺点:随着以后的自变量的引入,原来显著的自变量也可能变成不显著
    • 向后逐步回归Backward elimination:与向前逐步回归相反,先将所有自变量添加,之后一个个地尝试将自变量从模型中剔除,看整个模型解释因变量的变异是否有显著变化,之后将最没有解释力的剔除,不断迭代,直到没有需要被剔除的

    Stata操作:

    Forward selection:

    stepwise regress y x1 x2 ... xk, pe(#1)

    pe(#1) specifies the significance level for addition to the model; terms with p<#1 are eligible for addition(eg#1=0.05,当p值小于0.05时,认为显著,才可以被添加到模型中)

    Backward elimination:

    stepwise regress y x1 x2 .. xk, pr(#2)

    pr(#2) specifies thr significance level for removal from the model; terms with p>#2 are eligible for removal(eg#2=0.75,当p值大于0.75时,认为不显著,剔除模型)

    注意:在stata中,只有regress才会自动排除完全多重共线性,而采用逐步回归stepwise regress则不会,所以需要手动剔除掉造成完全多重共线性的自变量;可以在后面添加参加b和r,即标准化回归系数或稳健标准误

    展开全文
  • 多元线性回归 stata

    万次阅读 多人点赞 2019-09-16 09:43:18
    回归的思想,任务,使命 可以看到0-1回归的因变量自变量都是0-1变量 因变量y可以分为 解释y的形成机制就是通过建立x,y的数学关系式 感觉相关分析就是回归分析的前两步, 数据的分类 ...


    回归分为解释性回归和预测性回归

    预测型回归对预测精度要求较高,可以在模型中添加平方项和交互项甚至高次项进行改进模型,不一定只有线性项

    但是加入的自变量如果过多,比如4个变量,再加上他们的平方项,8个变量对于小样本的话很容易出现过拟合,和NN很像,对这些样本的表示已经特别完备了,预测能力很好,但是对于样本外的数据预测效果很差

    在这里插入图片描述

    因变量如果是0-1变量则为0-1回归

    回归的思想,任务,使命,分类

    在这里插入图片描述因变量y可以分为
    在这里插入图片描述所以回归可以分类为
    在这里插入图片描述
    下面这个0-1回归的例子中的因变量自变量都是0-1变量
    在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

    回归就是拟合的后续
    回归就是拟合的后续
    回归就是拟合的后续

    但是多元线性回归指定了函数形式是多元线性函数,拟合的时候不能随便采用别的多项式函数或其他自定义函数

    用最小二乘法计算出公式(函数的形式可以由经验、先验知识或对数据的直观观察决定,或者直接使用多项式)里的系数,拟合就完成了,但是回归的工作还没有结束,还需要去研究这些系数(这个公式)的可信度,每个系数对因变量的影响,因为回归分析认为真正的拟合系数应该是一个随机变量而非确值,拟合用最小二乘求出来的这些系数只是对真正系数的一个点估计,所以有必要继续去研究区间估计或者假设检验。总之,拟合只是求出一条曲线能反映数据的趋势就行了,但是回归的要求是更高的更精确的。

    对拟合得到的系数进行进一步估计和检验
    在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

    解释y的形成机制就是通过建立x,y的数学关系式
    在这里插入图片描述

    感觉相关分析就是回归分析的前两步,但是使用的方法不是通过相关

    逐步回归后面讲,筛选最有效的几个变量,剔除不重要的变量,简化回归模型

    在这里插入图片描述

    线性回归一定只能用于有线性关系的变量吗

    首先必须明确,多元线性回归中的“线性”是一个假定。是需要去检验的!
    在这里插入图片描述
    在这里插入图片描述
    非线性关系,如对数关系也是可以用线性回归的,只要先化成这个形式

    数据的预处理主要是注意异常值,异常值,离群点对回归模型的影响是非常大的
    在这里插入图片描述
    可以在excel中求出变量的对数项,平方项,交互项(x1*x2),然后用spss画散点图看看有没有线性关系
    在这里插入图片描述在这里插入图片描述在这里插入图片描述

    数据的分类

    在这里插入图片描述在这里插入图片描述在这里插入图片描述
    在这里插入图片描述在这里插入图片描述
    用回归找出所有指标中最重要的几个

    那么受到启发的我们就可以用回归去找和患某病最相关的基因位点(2016年研究生国赛B题)
    在这里插入图片描述

    数据的标准化处理

    不管干啥,主成分分析啦,回归啦,要想消除量纲的影响,就要对数据进行标准化处理,这算数据预处理的内容
    在这里插入图片描述

    最小二乘法拟合一元线性回归方程的几个结论

    在这里插入图片描述在这里插入图片描述

    回归系数的解释

    在这里插入图片描述在这里插入图片描述多元线性回归模型中的回归系数

    在这里插入图片描述
    比如
    在这里插入图片描述

    遗漏变量会造成内生性(扰动项和变量相关)

    多元线性回归一定要避免内生性,使得模型具有外生性

    所以如果要使用多元线性回归,是一定要检验模型是否具有外生性的,这可以通过检验每一元变量和扰动项的相关系数
    在这里插入图片描述

    弱化完全无内生性的条件

    在这里插入图片描述

    虚拟变量

    虚拟变量对于有定性变量的问题是非常重要的,很多现实问题都有定性变量,并且定性变量一般还比定量变量多呢

    有的时候让你研究工资的高低是否和性别有关,贷款申请成功与否是否和申请人所处地域有关,你一般只能想到做相关性分析,算相关系数啥的,但是其实也可以通过设置虚拟变量进行回归分析,获得更准确的公式表达,从另一个角度解决问题

    虚拟变量是0-1变量,指示变量

    既然主要探究的就是性别和地域分别对于工资和贷款申请成功率的影响,那么这两个因素在各自的模型里就是核心解释变量,其他变量都是控制变量

    虚拟变量的回归系数表示的是其他因素相同且一定的情况下,由虚拟变量带来的对y的影响/变化,即虚拟变量两种取值的差异程度,如女性工资和男性工资的平均差异
    在这里插入图片描述在这里插入图片描述
    虚拟变量的数目是分类数-1
    在这里插入图片描述

    下图中的定性变量都是要用虚拟变量建模的,在stata中也可以用代码生成虚拟变量
    在这里插入图片描述

    在这里插入图片描述
    stata示例

    在这里插入图片描述
    在这里插入图片描述
    自变量还有这种复杂形式的关系,随着x1的增大,y随x2增大的更多,即y跟x2的关系不是独立于x1的
    在这里插入图片描述

    怎么评估回归质量/拟合效果分析——判定系数(拟合优度)

    通过评估残差的样本标准差或者样本方差,进行方差分析,越小则回归模型的解释性越好,精度越高

    最小二乘拟合的求解决定了残差和必须是0,所以残差的样本均值也是0

    由于有两个限制条件,所以残差平方和自由度少了2个,即当有n-2个残差已知时,另外2个也就确定了。

    这里样本方差是除以n-2,不是n-1,更不是n,也一样是为了保证样本方差是总体方差的无偏估计。
    在这里插入图片描述

    我们用样本方差度量样本的变异程度
    在这里插入图片描述

    在这里插入图片描述

    判定系数在这里插入图片描述在这里插入图片描述

    调整的拟合优度(引入自变量的个数到判定系数的计算中)

    调整后的拟合优度更有参考意义

    在这里插入图片描述

    扰动项必须是“同方差”和“无自相关”的球型扰动项

    在这里插入图片描述

    稳健标准误处理数据异方差

    一般数据都是异方差的,这时候用最小二乘估计的回归系数是不可靠的,针对他们的假设检验也不可靠,我们可以用稳健标准误解决

    数据
    定量的指标已经在excel中标准化了

    在这里插入图片描述在stata中把定性变量设置为虚拟变量,然后直接多元线性回归
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    所以可以写出回归方程

    高 考 总 分 = − 0.0024 ∗ A 1 + 0.1186 ∗ 平 时 成 绩 − 0.1287 ∗ 期 末 成 绩 + 0.0368 ∗ 高 考 数 学 + 0.9246 高考总分=-0.0024*A1+0.1186*平时成绩-0.1287*期末成绩+0.0368*高考数学+0.9246 =0.0024A1+0.11860.1287+0.0368+0.9246

    根据后面的解读可以知道,这个结果的F值不大,回归结果并不好,从最后的回归结果看,期末成绩竟然和高考总分负相关了,肯定不对

    stata回归结果解读

    (model,SS)是回归平方和SSR
    (RESIDUAL,ss)是剩余平方和SSE
    (total,ss)是SST,等于SSR+SSE
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    最关键的回归结果,即回归系数在第一列,后面还给了每个系数的标准差(越小越好),t检验值,t检验的p值(越小说明这个系数越显著不为0),以及置信区间
    在这里插入图片描述
    上图上面的红框,一个定性变量的n个虚拟变量(n为这个定性变量的取值总类数),有一个会因为多重共线性被stata自动检测到并忽略,这是因为我们本类就只需要设置n-1个虚拟变量,上面也讲来的

    右边的F值越大,prob越小,则表示所有系数的联合显著性越大,即所有变量都为0的概率很低SSE

    在这里插入图片描述

    obs,观测数目,即样本总数

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    异方差是什么,怎么检验和处理

    回归结束后一定要见检验异方差,也算检验回归结果

    在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

    用残差的平方表示随机误差项的方差
    在这里插入图片描述
    有六两种图示检验法检验异方差

    一是用每个解释变量和被解释变量的散点图看
    在这里插入图片描述
    而是解释变量和残差平方的图像
    在这里插入图片描述
    所以画这个散点图
    在这里插入图片描述

    bp检验

    原假设是同方差
    在这里插入图片描述
    原假设:扰动项不存在异方差
    P值大于0.05,说明在95%的置信水平下接受原假设,即我们认为扰动项不存在异方差。

    这大概就是为啥上面加了robust得到的回归结果相同的理由了,因为不存在异方差

    white检验

    在这里插入图片描述

    怀特检验原假设:
    不存在异方差

    结果p大于0.05,接受原假设,不存在异方差

    这个例子就是有异方差的咯
    在这里插入图片描述
    画出回归的残差
    在这里插入图片描述
    在这里插入图片描述在这里插入图片描述

    多重共线性的表现

    在这里插入图片描述

    梳理横截面数据的回归步骤

    这里只研究截面数据的多元回归

    excel数据导入stata会自动认为是截面数据

    先检验各个自变量的相关性(更好地做法是,一上来先把所有变量都放在回归模型中,然后观察结果,然后再检验自变量的相关性,根据相关性剔除一些变量再次回归查看结果)

    所有回归必须用robust
    在这里插入图片描述

    在这里插入图片描述
    在这里插入图片描述

    pwcorr CAR HOUSE, sig //计算pearson相关系数
    pwcorr CAR HOUSE, star(.05) // 用星标表示显著性,喜欢这个一些
    

    在这里插入图片描述

    发现house和car有相关性以后,就剔除了car变量,再次回归得到的F值变大了
    在这里插入图片描述

    多重共线性检验
    在这里插入图片描述在这里插入图片描述
    在这里插入图片描述在这里插入图片描述

    逐步回归

    向前逐步回归

    在这里插入图片描述

    向后逐步回归

    在这里插入图片描述

    比较

    所有变量一起回归,只有部分结果

    在这里插入图片描述
    方差膨胀系数,说明有明显的多重共线性
    在这里插入图片描述

    向后

    在这里插入图片描述在这里插入图片描述

    向前

    在这里插入图片描述在这里插入图片描述

    可以看到,向前回归得到了22个变量,向后得到了21个变量,向后逐步回归的F值最大,向前和向后的方差膨胀系数几乎相等,所以对多重共线性的解决是不错的,二者的判定系数也几乎一样。

    基本上剔除的变量都是地域的分类变量,说明多重共线性也主要是他们引起的

    代码:

    clear
    //import excel "E:\BOOKS\数模\清风\数模基础模型和代码\清风数模视频配套的代码讲义以及拓展资料\第7讲.多元回归分析7.27\拓展资料\毕业论文的数据和代码\model1\model1_data.xlsx", sheet("Sheet1") firstrow
    //save "E:\BOOKS\数模\清风\数模基础模型和代码\清风数模视频配套的代码讲义以及拓展资料\第7讲.多元回归分析7.27\拓展资料\毕业论文的数据和代码\model1\model1_data.dta"
    // ssc install outreg2 首次使用outreg2要先安装
    use "E:\BOOKS\数模\清风\数模基础模型和代码\清风数模视频配套的代码讲义以及拓展资料\第7讲.多元回归分析7.27\拓展资料\毕业论文的数据和代码\model1\model1_data.dta"
    tab ADDRESS,gen(A)  
    set matsize 2000
    //reg SUCCESS INTEREST MONTHS HOUSE CAR Year AGE LNAMOUNT INCOME CREDIT WORKTIME MARRY EDUCATION A1 A2 A4-A31,r
    //异方差检验,BP检验,但bp检验不适用于鲁邦回归
    //estat hettest CREDIT INCOME AGE  //检验这几个变量是否引起异方差
    //estat hettest ,rhs iid
    //异方差检验,怀特检验
    //estat imtest,white
    //est store m1 //把刚跑完的回归取名m1
    //outreg2 [m1] using model1.doc,replace  //输出回归表m1到word,后缀改为xls则输出到excel
    //outreg2 [m1] using model1.xls
    //回归结束后对系数进行检验,检验这些变量的系数是否显著(不为0)
    //test A1=1  检验A1的系数是否为1
    //test A1 A2 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 A14 A15 A16 A17 A18 A19 A20 A21 A22 A23 A24 A25 A26 A27 A28 A29 A30 A31  // 零假设是这些变量的系数都不显著(即都为0)
    //pwcorr CAR HOUSE, sig //计算pearson相关系数
    //pwcorr CAR HOUSE, star(.05)
    reg SUCCESS INTEREST MONTHS HOUSE Year AGE LNAMOUNT INCOME CREDIT WORKTIME MARRY EDUCATION A1 A2 A4-A31,r
    estat vif
    //向后逐步回归,参数b表示标准化系数,r表示稳健标准误
    stepwise reg SUCCESS INTEREST MONTHS HOUSE Year AGE LNAMOUNT INCOME CREDIT WORKTIME MARRY EDUCATION A1 A2 A4-A31,r b pr(0.01)
    //异方差检验,怀特检验
    //estat imtest,white
    estat vif
    //向前逐步回归,参数b表示标准化系数,r表示稳健标准误,这三参数之间必须用空格隔开不可以用逗号
    stepwise reg SUCCESS INTEREST MONTHS HOUSE Year AGE LNAMOUNT INCOME CREDIT WORKTIME MARRY EDUCATION A1 A2 A4-A31,r b pe(0.01)
    estat vif
    
    展开全文
  • 数学建模常用算法——Stata求解多元线性回归问题

    万次阅读 多人点赞 2021-01-21 00:47:20
    本文通过一个案例讲述了如何使用Stata工具求解多元线性回归问题。

    什么是回归分析

    回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决。回归分析的任务就是通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。

    常见的回归分析有五类:线性回归、0‐1回归、定序回归、计数回归和生存回归,其划分的依据是因变量Y的类型。
    在这里插入图片描述

    回归分析的使命

    1. 回归分析要去识别并判断哪些X变量是同Y真的相关,哪些不是。统计学中有一个非常重要的领域,叫做“变量选择”。(逐步回归法)
    2. 去除了那些同Y不相关的X变量,那么剩下的,就都是重要的、有用的X变量了。接下来回归分析要回答的问题是:这些有用的X变量同Y的相关关系是正的呢,还是负的
    3. 在确定了重要的X变量的前提下,我们还想赋予不同X不同的权重,也就是不同的回归系数,进而我们可以知道不同变量之间的相对重要性

    不同数据类型的处理方法

    在这里插入图片描述
    横截面数据:在相同时间段内收集的不同对象的数据。

    时间序列数据:对同一对象在不同时间连续观察所取得的数据。

    面板数据:横截面数据与时间序列数据综合起来的一种数据资源。

    STATA求解多元线性回归问题实战

    在这里插入图片描述

    1. 导入数据

    文件→导入→excel表格(数据不能归一化)
    在这里插入图片描述

    2. 数据的描述性统计

    在这里插入图片描述

    2.1 定量数据

    在这里插入图片描述

    2.2 定性数据

    对于定性数据,我们无法直接进行回归分析,需要生成对应的虚拟变量。
    在这里插入图片描述
    通过类似方法,我们生成所有定性数据的虚拟变量:

    // 定性变量的频数分布,并得到相应字母开头的虚拟变量
    tabulate 配方,gen(A)
    tabulate 奶源产地 ,gen(B)
    tabulate 国产或进口 ,gen(C)
    tabulate 适用年龄岁 ,gen(D)
    tabulate 包装单位 ,gen(E)
    tabulate 分类 ,gen(F)
    tabulate 段位 ,gen(G)
    

    在这里插入图片描述

    3. 多元线性回归在这里插入图片描述

    注意以下几个参数:

    • Prob>F = 0.0000<0.05,表示在95%的置信水平下拒绝原假设β1=β2=β3=···=βn=0(n代表自变量个数),表示模型通过了联合显著性检验,所以该模型是有意义的。
    • P>|t| 那一列中团购价为0.000,商品毛重为0.457,则表示团购价这一个因变量在95%的置信水平下是显著的,则该因变量是有意义的。同理可以得到商品毛重这个因变量对我们的评价量是没有意义的。
    • 在团购价这个因变量显著的前提下,它的回归系数Coef.为-35.39873,表示在其他因变量不变的前提下,当团购价每增加一元,将导致我们的评价量减少35.39873条。

    下面我们加入虚拟变量回归
    在这里插入图片描述

    • 同理我们得到Prob>F = 0.0000,表示该模型通过联合显著性检验。

    在这里插入图片描述

    • 我们看到 P>|t| 那一列,团购价为0.0000,F1为0.081,表示在90%的置信区间下,团购价和F1这两个因变量是显著的。
    • 团购价的回归系数Coef. = -29.77274,表示在其他因变量不变的前提下,当团购价每增加一元,将导致我们的评价量减少29.77274条。
    • F1的回归系数Coef. = 14894.55,我们看到F2为对照变量,说明在其他因变量不变的前提下,分类为F1(牛奶粉)的平均评价量要比分类为F2(羊奶粉)的平均评价量要高出14894.55条。

    🔺 标准化线性回归

    为了更为精准的研究影响评价量的重要因素(去除量纲的影响),我们可考虑使用标准化回归系数

    对数据进行标准化,就是将原始数据减去它的均数后,再除以该变量的标准差,计算得到新的变量值,新变量构成的回归方程称为标准化回归方程,回归后相应可得到标准化回归系数。

    标准化系数的绝对值越大,说明对因变量的影响就越大(只关注显著的回归系数哦)。
    在这里插入图片描述

    4. 异方差检验

    4.1 异方差的影响

    在这里插入图片描述

    • 即使存在异方差,OLS估计出来的回归系数依然是无偏的,一致的。
    • 导致假设检验无法使用(构造的统计量失效了)。
    • OLS估计量不再是最优线性无偏估计量(BLUE)。

    4.2 异方差的假设检验

    4.2.1 绘制散点图

    在这里插入图片描述
    可以看出随着拟合值和团购价的增加,残差越来越发散,说明出现了异方差的问题。

    🔺从残差与拟合值的散点图中我们可以看到拟合值出现了负数,我们执行以下命令:

    // 描述性统计并给出分位数对应的数值
    summarize 评价量,d
    
    // 作评价量的概率密度估计图
    kdensity 评价量
    

    在这里插入图片描述
    因变量数据分布不平衡将导致拟合值出现负数。

    4.2.2 BP检验/怀特检验

    两种检验的原假设均为:扰动项不存在异方差。

    • BP检验 estat hettest ,rhs iid
      在这里插入图片描述
      P值小于0.05,说明在说明在95%的置信水平下拒绝原假设,即我们认为扰动项存在异方差。
    • 怀特检验(推荐) estat imtest,white
      在这里插入图片描述
      P值小于0.05,说明在说明在95%的置信水平下拒绝原假设,即我们认为扰动项存在异方差。

    4.3 异方差的处理方法

    • 使用OLS + 稳健的标准误 (推荐)
      原理:仍然进行OLS 回归,但使用稳健标准误。
      优点:这是最简单,也是目前通用的方法。只要样本容量较大,即使在异方差的情况下,若使用稳健标准误,则所有参数估计、假设检验均可照常进行。换言之,只要使用了稳健标准误,就可以与异方差“和平共处”了。
    • 广义最小二乘法GLS
      原理:方差较大的数据包含的信息较少,我们可以给予信息量大的数据(即方差较小的数据更大的权重)
      缺点:我们不知道扰动项真实的协方差矩阵,因此我们只能用样本数据来估计,这样得到的结果不稳健,存在偶然性。

    5. 使用OLS + 稳健的标准误(有异方差时才使用)

    regress y x1 x2 … xk,robust(或r)

    在这里插入图片描述
    与前面一样,我们还是要关注红色方框内的参数,分析方法与前面相同,这里不再赘述。

    6. 检验多重共线性

    6.1 多重共线性的症状

    • 虽然整个回归方程的R2较大、F检验也很显著,但单个系数的l检验却不显著,或者系数估计值不合理,甚至符号与理论预期相反。
    • 另一可能“症状"是,增减解释变量使得系数估计值发生较大变化(比如,最后加入的解释变量与已有解释变量构成多重共线性)。直观来看,如果两个(或多个)解释变量之间高度相关,则不容易区分它们各自对被解释变量的单独影响力。在极端情况下,一个变量刚好是另一变量的倍数,则完全无法区分。

    6.2 检验多重共线性

    方差膨胀因子VIF,VIFm越大,说明第m个变量和其他变量的相关性越大。一个经验规则是,如果VIF>10,则认为该回归方程存在严重的多重共线性。

    公式:estat vif
    在这里插入图片描述

    6.3 多重共线性的处理方法

    在这里插入图片描述

    7. 逐步回归分析

    7.1 逐步回归分析的两种方法

    采用逐步回归分析不存在多重共线性的影响

    • 向前逐步回归Forward selection
      将自变量逐个引入模型,每引入一个自变量后都要进行检验,显著时才加入回归模型。(缺点:随着以后其他自变量的引入,原来显著的自变量也可能又变为不显著了,但是,并没有将其及时从回归方程中剔除掉。)
    • 向后逐步回归Backward elimination(推荐):
      与向前逐步回归相反,先将所有变量均放入模型,之后尝试将其中一个自变量从模型中剔除,看整个模型解释因变量的变异是否有显著变化,之后将最没有解释力的那个自变量剔除;此过程不断迭代,直到没有自变量符合剔除的条件。

    7.2 Stata实现逐步回归法

    逐步回归法可以
    在这里插入图片描述

    7.3 出现完全多重共线性的错误

    在这里插入图片描述

    7.4 逐步回归说明

    1. 向前逐步回归和向后逐步回归的结果可能不同,推荐使用向后逐步回归。
    2. 不要轻易使用逐步回归分析,因为剔除了自变量后很有可能会产生新的问
      题,例如内生性问题(在经济学类论文中需要注意这一点,在数学建模论文中可以直接使用)。
    3. 有没有更加优秀的筛选方法?有的,那就是每种情况都尝试一次,最终有2的k次方-1种k可能,如果自变量很多,那么计算相当费时。

    8. 拟合优度较低怎么办?

    • 拟合优度对应结果中的 R-squared
    • 调整后的拟合优度对应结果中的 Adj R-squared
      在这里插入图片描述

    软件下载地址

    链接:https://pan.baidu.com/s/1pQOF9hl0EO3_Seffb0utow
    提取码:ekjb
    复制这段内容后打开百度网盘手机App,操作更方便哦

    展开全文
  • 计量经济学及Stata应用讲稿
  • 计量老师给的数据,回归出来为啥是这样啊?救命! 呜呜呜这是变量代表的含义
  • 1. 多元线性回归(解释性回归与预测性回归) 2. Stata对数据描述性统计 3. 对横截面数据进行Stata回归 4. Stata标准化回归 4. 回归前需要进行扰动项的检测
  • 第12章 Stata线性回归分析

    千次阅读 2021-07-16 15:33:08
    前面讲述的回归分析方法都属于线性回归的范畴,即因变量和自变量之间存在线性关系。在很多情况下,线性模型都是对真实情况的一种合理又简单的近似。如果遇到回归参数不是现行的,也不能通过转换的方法将其转换为线性...
  • stata系数集束化到底要怎么使用? 最重要的是我的操作为啥会错误? 我真的想不明白呀
  • Stata多元线性回归与泊松回归

    千次阅读 2022-03-05 20:44:49
    1. 相关性检测 Pearson相关系数 correlate [varlist] [if] [in] [weight] [, correlate_options] Spearman相关系数 pwcorr [varlist] [if] [in] [weight] ...2. 多元线性回归 2.1 reg命令 regress depvar [indepv
  • 【菜单版】stata三天写论文!多元线性回归模型实战
  • 1、多元回归 regress y x1 x2 x3 reg y x1 x2 x3 2、解释定义 1)右上角 Number of obs :样本容量N F(n,N):F统计量,自由度为k(约束条件)、m(N-K)——检验整个方程的联合显著性 Prob>F:F统计值...
  • 多元线性回归模型及stata实现:总论

    万次阅读 多人点赞 2020-06-30 20:49:53
    多元线性回归方程及stata实现 一、模型 Y=β0+β1X1+β2X2+⋯+βnXn+e Y: Dependent variable(因变量、应变量、反应变量、响应变量、被解释变量等) X1、X2⋯Xn:Independent variable(自变量、解释变量、控制...
  • 线性回归、0‐1回归、定序回归、计数回归、生存回归 其划分的依据是因变量Y的类型 Y:俗称因变量,即因为别人的改变,而改变的变量。在实际应用中,Y常常是我们需要研究的那个核心变量。 例: 经济学家研究经济...
  • 1举个例子 模型输出的p值检验为F检验 模型输入的p值检验为T检验原理: 先上代码2: 分析:如果我们考虑相互性影响: ...
  • 面板数据多元线性回归 [XT] xtreg – Fixed-, between-, and random-effects and population-averaged linear models GLS random-effects (RE) model xtreg depvar [indepvars] [if] [in] [, re RE_options] ...
  • 应用stata学习计量经济学原理 Practice 5 多元线性回归推断 Practice 5 多元线性回归推断 clear all cd "F:\stata与计量经济学\week 5 计量实验" dir * Q1 use food.dta, replace * (1) reg food_exp income ...
  • 多元线性回归

    千次阅读 2022-02-08 18:38:18
    常见的回归分析有五类:线性回归、0‐1回归、定序回归、计数回归 和生存回归。 这就是回归分析要完成的三个使命: 第一、识别重要变量; 第二、判断相关性的方向; 第三、要估计权重(回归系数) 多种数据...
  • 多元线性回归的 贝叶斯估计法
  • 第五章 多元线性回归二元线性回归示例代码汇总多元回归的stata实例基础回归关于虚拟变量对数据进行筛选后回归其他代码汇总 二元线性回归示例 数据集: cd "F:\stata兴趣培训班\陈强计量经济学与stata资料\data" ...
  • 本文旨在能快速地用 matlab 实现基于多元线性回归拟合/分析。小编已将代码都封装好了。在分析样例的同时,也简单地讲解了其原理和相关参数。该系列文章是个人在参加2021年暑假国赛数模的培训,自己记录的心得与体会...
  • 计算模型得分三、多元线性回归1.训练模型2.计算得分3.可视化预测结果 ------【机器学习第1天:线性回归(代码篇)】------ ------【机器学习第2天:线性回归(理论篇)】------ 写再前面: 这篇文章将通过线性回归...
  • 1.多元线性回归SPSS分析 四步搞定SPSS多元线性回归视频教程(含详细操作及结果解读)_哔哩哔哩_bilibili订阅陈老师B站送福利!订阅后加陈老师QQ1622275006送数据分析教程及软件福利哟~关注微信公众号:杏花开医学...
  • 多元线性回归分析

    千次阅读 2021-08-07 20:34:33
    多元线性回归分析 回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决。回归分析的任务就是,通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而...
  • 原标题:sklearn入门之多元线性回归本文作者:杨长青本文编辑:胡 婧技术总编:张学人 scikit-learn又称sklearn是基于python的一个强大的机器学习库,它建立在numpy,scipy和matplotlib模块之上能够为用户提供各种...
  • 相关性因变量Y自变量X回归分析的使命回归分析的分类数据的分类一元线性回归对于线性的理解回归系数的解释内生性的探究内生性的蒙特卡罗模拟核心解释变量和控制变量回归系数的解释什么时候取对数? 学习来源:清风...
  • 数学建模(8)多元线性回归模型

    千次阅读 2022-01-29 22:20:58
    1.因变量的分类 回归分析 三个重要作用:
  • 多元线性回归模型检验及stata软件应用PPT课件.pptx
  • 数学建模-多元线性回归

    千次阅读 2021-08-07 12:17:01
    回归的思想 通过研究自变量X和因变量Y的相关关系,尝试...线性回归 OLS、GLS(最小二乘) 连续数值型变量 GDP、产量、收入 0-1回归 logistic回归 二值变量(0‐1) 是否违约、是否得病 定序回归 probit定序回归 定

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 558
精华内容 223
关键字:

stata多元线性回归

友情链接: xiangsudian.rar