精华内容
下载资源
问答
  • 多元对数线性回归模型
    2022-04-10 15:54:34

    一、线性回归

    线性回归(linear regression:试图学得一个线性模型以尽可能准确地预测实值输出标记。

    1.最简单的形式:输入属性的数且只有一个,
    最小二乘法:基于均方差误差最小化来进行模型的求解,在线性回归中,最小二乘法就是试图找到一条直线,使得样本到直线上的欧氏距离之和最小。
    2.但是更一般的形式:输入的属性有多个
    求解这个的过程称为“多元线性回归”

    二、对数几率回归

    在 一 中讲到使用线性模型进行回归学习,若要进行分类任务,应该怎样做呢?
    此时需要借助某些函数,将分类的任务的结果与回归得到的预测值联系起来。
    在这里插入图片描述
    从上图可以看出,对数几率函数是一种“Sigmoid函数”
    对数几率回归,虽然名字带有“回归”,但实际上是一种分类学习方法(二分类问题)

    对数几率回归(logistic regression),又称为对率回归、逻辑回归

    三、线性判别分析(LDA)

    线性判别分析(Linear Discriminant Analysis,简称LDA)是一种经典的线性学习方法。
    LDA思想:给定训练集样集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新的样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。

    更多相关内容
  • 相关性因变量Y自变量X回归分析的使命回归分析的分类数据的分类一元线性回归对于线性的理解回归系数的解释内生性的探究内生性的蒙特卡罗模拟核心解释变量和控制变量回归系数的解释什么时候取对数? 学习来源:清风...


    学习来源:清风老师
    回归分析的任务就是,通过研究 自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去 预测Y的目的。
    常见的回归分析有五类: 线性回归、0‐1回归、定序回归、计数回归和生存回归,其划分的依据是因变量Y的类型。

    回归的思想

    回归分析:研究X和Y之间相关性的分析。

    相关性

    相关性 ≠ 因果性

    在绝大多数情况下,我们没有能力去探究严格的因果关系,所以只好退而求其次,改成通过回归分析,研究相关关系

    因变量Y

    • 经济学家研究经济增长的决定因素,那么Y可以选取GDP增长率(连续数值型变量)。
    • P2P公司要研究借款人是否能按时还款,那么Y可以设计成一个二值变量,Y=0时代表可以还款,Y=1时代表不能还款(0‐1型变量)。
    • 消费者调查得到的数据(1表示非常不喜欢,2表示有点不喜欢,3表示一般般,4表示有点喜欢,5表示非常喜欢)(定序变量)。
    • 管理学中RFM模型:F代表一定时间内,客户到访的次数,次数其实就是一个非负的整数。(计数变量)
    • 研究产品寿命、企业寿命甚至是人的寿命(这种数据往往不能精确的观测,例如现在要研究吸烟对于寿命的影响,如果选取的样本中老王60岁,
      现在还活的非常好,我们不可能等到他去世了再做研究,那怎么办呢?直接记他的寿命为60+,那这种数据就是截断的数据)(生存变量)

    自变量X

    回归分析的任务就是,通过研究X和Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。

    回归分析的使命

    使命1:回归分析要去识别并判断:哪些X变量是同Y真的相关,哪些不是。统计学中有一个非常重要的领域,叫做“变量选择”。(逐步回归法)
    使命2:去除了那些同Y不相关的X变量,那么剩下的,就都是重要的、有用的X变量了。接下来回归分析要回答的问题是:这些有用的X变量同Y的相关关系是正的呢,还是负的?
    使命3:在确定了重要的X变量的前提下,我们还想赋予不同X不同的权重,也就是不同的回归系数,进而我们可以知道不同变量之间的相对重要性。
    第一、识别重要变量;
    第二、判断相关性的方向;
    第三、要估计权重(回归系数)。

    回归分析的分类

    在这里插入图片描述

    数据的分类

    横截面数据:在某一时点收集的不同对象的数据。
    例如:
    (1)我们自己发放问卷得到的数据
    (2)全国各省份2018年GDP的数据
    (3)大一新生今年体测的得到的数据
    时间序列数据:对同一对象在不同时间连续观察所取得的数据
    例如:
    (1)从出生到现在,你的体重的数据(每年生日称一次)。
    (2)中国历年来GDP的数据。
    (3)在某地方每隔一小时测得的温度数据。
    面板数据:横截面数据与时间序列数据综合起来的一种数据资源。
    例如:
    2008‐2018年,我国各省份GDP的数据。
    在这里插入图片描述
    数据的收集

    一元线性回归

    在这里插入图片描述

    对于线性的理解

    在这里插入图片描述

    回归系数的解释

    在这里插入图片描述

    内生性的探究

    在这里插入图片描述

    包含了所有与y相关,但未添加到回归模型中的变量
    如果这些变量和我们已经添加的自变量相关,则存在内生性

    内生性的蒙特卡罗模拟

    在这里插入图片描述

    %% 蒙特卡洛模拟:内生性会造成回归系数的巨大误差
    times = 300;  % 蒙特卡洛的次数
    R = zeros(times,1);  % 用来储存扰动项u和x1的相关系数
    K = zeros(times,1);  % 用来储存遗漏了x2之后,只用y对x1回归得到的回归系数
    for i = 1: times
        n = 30;  % 样本数据量为n
        x1 = -10+rand(n,1)*20;   % x1在-1010上均匀分布,大小为30*1
        u1 = normrnd(0,5,n,1) - rand(n,1);  % 随机生成一组随机数
        x2 = 0.3*x1 + u1;   % x2与x1的相关性不确定, 因为我们设定了x2要加上u1这个随机数
        % 这里的系数0.3我随便给的,没特殊的意义,你也可以改成其他的测试。
        u = normrnd(0,1,n,1);  % 扰动项u服从标准正态分布
        y = 0.5 + 2 * x1 + 5 * x2 + u ;  % 构造y
        k = (n*sum(x1.*y)-sum(x1)*sum(y))/(n*sum(x1.*x1)-sum(x1)*sum(x1)); % y = k*x1+b 回归估计出来的k
        K(i) = k;
        u = 5 * x2 + u;  % 因为我们回归中忽略了5*x2,所以扰动项要加上5*x2
        r = corrcoef(x1,u);  % 2*2的相关系数矩阵
        R(i) = r(2,1);
    end
    plot(R,K,'*')
    xlabel("x_1和u'的相关系数")
    ylabel("k的估计值")
    

    在这里插入图片描述

    核心解释变量和控制变量

    无内生性(no endogeneity)要求所有解释变量均与扰动项不相关。
    这个假定通常太强,因为解释变量一般很多(比如,5‐15个解释变量),且需要保证它们全部外生。
    是否可能弱化此条件?答案是肯定的,如果你的解释变量可以区分为核心解释变量与控制变量两类。
    核心解释变量:我们最感兴趣的变量,因此我们特别希望得到对其系数的
    一致估计(当样本容量无限增大时,收敛于待估计参数的真值 )。
    控制变量:我们可能对于这些变量本身并无太大兴趣;而之所以把它们也
    放入回归方程,主要是为了 “控制住” 那些对被解释变量有影响的遗漏因素。
    在实际应用中,我们只要保证核心解释变量与𝝁不相关即可。

    回归系数的解释

    在这里插入图片描述

    什么时候取对数?

    目前,对于什么时候取对数还没有固定的规则,但是有一些经验法则:
    (1)与市场价值相关的,例如,价格、销售额、工资等都可以取对数;
    (2)以年度量的变量,如受教育年限、工作经历等通常不取对数;
    (3)比例变量,如失业率、参与率等,两者均可;
    (4)变量取值必须是非负数,如果包含0,则可以对y取对数ln(1+y)
    取对数的好处:(1)减弱数据的异方差性(2)如果变量本身不符合正态分布,取
    了对数后可能渐近服从正态分布(3)模型形式的需要,让模型具有经济学意义。

    四类模型回归系数的解释

    在这里插入图片描述
    在这里插入图片描述

    特殊的自变量:虚拟变量X

    在这里插入图片描述
    在这里插入图片描述

    多分类的虚拟变量设置

    在这里插入图片描述

    含有交互项的自变量

    在这里插入图片描述

    回归实例

    现有某电商平台846条关于婴幼儿奶粉的销售信息,每条信息由11个指标组成。其中,评价量可以从一个侧面反映顾客对产品的关注度。
    请对所给数据进行以下方面的分析,要求最终的分析将不仅仅有益于商家,更有益于宝妈们为宝贝选择适合自己的奶粉。

    1. 以评价量为因变量,分析其它变量和评价量之间的关系;
    2. 以评价量为因变量,研究影响评价量的重要因素。
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述

    数据的描述性统计

    定量数据

    在这里插入图片描述

    定性数据

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    // 按键盘上的PageUp可以使用上一次输入的代码(Matleb中是上箭头)
    // 清除所有变量
    clear
    // 清屏 和 matlab的clc类似
    cls 
    // 导入数据(其实是我们直接在界面上粘贴过来的,我们用鼠标点界面导入更方便 本条请删除后再复制到论文中,如果评委老师看到了就知道这不是你写的了)
    // import excel "C:\Users\hc_lzp\Desktop\数学建模视频录制\第7讲.多元回归分析\代码和例题数据\课堂中讲解的奶粉数据.xlsx", sheet("Sheet1") firstrow
    import excel "课堂中讲解的奶粉数据.xlsx", sheet("Sheet1") firstrow
    // 定量变量的描述性统计
    summarize 团购价元 评价量 商品毛重kg
    // 定性变量的频数分布,并得到相应字母开头的虚拟变量
    tabulate 配方,gen(A)
    tabulate 奶源产地 ,gen(B)
    tabulate 国产或进口 ,gen(C)
    tabulate 适用年龄岁 ,gen(D)
    tabulate 包装单位 ,gen(E)
    tabulate 分类 ,gen(F)
    tabulate 段位 ,gen(G)
    // 下面进行回归
    regress 评价量 团购价元 商品毛重kg
    // 下面的语句可帮助我们把回归结果保存在Word文档中
    // 在使用之前需要运行下面这个代码来安装下这个功能包(运行一次之后就可以注释掉了)
    // ssc install reg2docx, all replace
    // 如果安装出现connection timed out的错误,可以尝试换成手机热点联网,如果手机热点也不能下载,就不用这个命令吧,可以自己做一个回归结果表,如果觉得麻烦就直接把回归结果截图。
    est store m1
    reg2docx m1 using m1.docx, replace
    // *** p<0.01  ** p<0.05 * p<0.1
    
    // Stata会自动剔除多重共线性的变量
    regress 评价量 团购价元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4
    est store m2
    reg2docx m2 using m2.docx, replace
    
    // 得到标准化回归系数
    regress 评价量 团购价元 商品毛重kg, b 
    
    // 画出残差图
    regress 评价量 团购价元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4
    rvfplot 
    // 残差与拟合值的散点图
    graph export a1.png ,replace
    // 残差与自变量团购价的散点图
    rvpplot  团购价元
    graph export a2.png ,replace
    
    // 为什么评价量的拟合值会出现负数?
    // 描述性统计并给出分位数对应的数值
    summarize 评价量,d
    
    // 作评价量的概率密度估计图
    kdensity 评价量 
    graph export a3.png ,replace
    
    // 异方差BP检验
    estat hettest ,rhs iid
    
    // 异方差怀特检验
    estat imtest,white
    
    // 使用OLS + 稳健的标准误
    regress 评价量 团购价元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4, r
    est store m3
    reg2docx m3 using m3.docx, replace
    
    // 计算VIF
    estat  vif
    
    // 逐步回归(一定要注意完全多重共线性的影响)
    // 向前逐步回归(后面的r表示稳健的标准误)
    stepwise reg 评价量 团购价元 商品毛重kg A1 A3 B1 B2 B3 B4 B5 B6 B7 B9 C1 D1 D2 D3 D4 E1 E2 E3 F1 G1 G2 G3,  r pe(0.05)
    // 向后逐步回归(后面的r表示稳健的标准误)
    stepwise reg 评价量 团购价元 商品毛重kg A1 A3 B1 B2 B3 B4 B5 B6 B7 B9 C1 D1 D2 D3 D4 E1 E2 E3 F1 G1 G2 G3,  r pr(0.05)
    // 向后逐步回归的同时使用标准化回归系数(在r后面跟上一个b即可)
    stepwise reg 评价量 团购价元 商品毛重kg A1 A3 B1 B2 B3 B4 B5 B6 B7 B9 C1 D1 D2 D3 D4 E1 E2 E3 F1 G1 G2 G3,  r b pr(0.05)
    
    

    Excel中数据透视表

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    11个指标的总体情况介绍在这里插入图片描述

    Stata回归的语句

    在这里插入图片描述
    在这里插入图片描述

    拟合优度 R2较低怎么办

    (1)回归分为解释型回归预测型回归
    预测型回归一般才会更看重𝑅2
    解释型回归更多的关注模型整体显著性以及自变量的统计显著性和经济意义显著性即可。
    (2)可以对模型进行调整,例如对数据取对数或者平方后再进行回归。
    (3)数据中可能有存在异常值或者数据的分布极度不均匀。
    在这里插入图片描述

    标准化回归系数

    在这里插入图片描述

    在这里插入图片描述

    展开全文
  • 数学建模(8)多元线性回归模型

    千次阅读 2022-01-29 22:20:58
    1.因变量的分类 回归分析 三个重要作用:

    1.因变量的分类

    回归分析 三个重要作用:

    数据分类

    1.横截面数据:

    同一时间段内 不同对象的数据 

    2.时间序列数据

    同一对象不同时间内的数据

     3.面板数据

    横截面数据和时间序列数据的组合

    一元线性回归模型

    β是为了标新立异,和k、b无疑,u是扰动项 

     变量的内生性

     

    无偏性:估计量的期望值等于真实值

    一致性:估计值能依照概率收敛到真实值

    若ui:

     

    写论文时要强调 哪个是核心解释变量 哪个是控制变量

     回归系数的解释:

    取对数的经验法则:

    四种常见回归模型

     注:定性变量的理

     

     

    STATA的使用方法:

    stata的代码导出方法:

     定量数据:

    summarize 某某 

    定性数据:

    tabulate函数

     注:CUM是累计频率,gen是生成虚拟变量

    stata的回归

     注意最后用adj Rsquared 即调整后R方判断合理性

    cons:β0

    coef:就是各个系数,为βhaike(预测值)

     特别注意:

    此处应该验证的是β0本身是否为0,而不是β0haike(预测值)为0 

    假设显著异于0

    根据P的值确定假设正确与否

    回归结果保存在word里面:

     关于拟合优度R2的问题

     标准回归(加上β)

    例:

    看下表中显著不为0的自变量,即P小于0.1的

     就俩,找β绝对值大的,这里是团购价(0.154075)

    总体思路

    看Prob,建模是否合理

    求相关系数

    确定定量的变量

    确定定性变量

    整体回归,找到不用的定量变量

    找到显著的变量

    标准化和非标准化的差别

     不要对数据归一化!!!!!!!!!!!!!!!!!!!

    例:

     

     对以上数据进行描述性统计(excel和stata都可以)

     

     

    根据分析,内蒙古的借款成功率最低,但是内蒙古的违约率不是最低的,因此可能存在地域歧视问题,之后进行进一步分析 

     

     

    test:检验原假设是否成立 

    若扰动项存在异方差:

     解决方法:

     

     

     

     

     怀特检验(推荐)

     稳健误差:

     多重共线性

     

     若vif>10 存在多重共线性问题

    解决方案:

    ① 删除变量(不推荐)

    ② 逐步回归

     

     

    展开全文
  • 多元线性回归分析

    千次阅读 2021-08-07 20:34:33
    多元线性回归分析 回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决。回归分析的任务就是,通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而...

    多元线性回归分析

    回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决。回归分析的任务就是,通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。
    常见的回归分析有五类:线性回归、0‐1回归、定序回归、计数回归和生存回归,其划分的依据是因变量Y的类型。本讲主要学习线性回归。

    多元线性回归分析

    • 相关性
      通过回归分析,研究相关关。相关性不等于因果性
    • X
      X是用来解释Y的相关变量,所以X被称为自变量。
    • Y
      Y常常是我们需要研究的那个核心变量,称为因变量。

    数据的分类

    数据类型解释举例建模方法
    横截面数据在某一时点收集的不同对象的数据我们自己发放问卷得到的数据、全国各省份2018年GDP的数据、大一新生今年体测的得到的数据多元线性回归
    时间序列数据对同一对象在不同时间连续观察所取得的数据从出生到现在,你的体重的数据(每年生日称一次)、中国历年来GDP的数据、在某地方每隔一小时测得的温度数据移动平均、指数平滑、ARIMA、GARCH、VAR、协积
    面板数据横截面数据与时间序列数据综合起来的一种数据资源2008‐2018年,我国各省份GDP的数据固定效应和随机效应、静态面板和动态面板

    回归分析的分类

    类型模型Y的特点例子
    线性回归OLS、GLS(最小二乘)连续数值型变量GDP、产量、收入
    0-1回归logistic回归二值变量是否违约、是否得病
    定序回归probit定序回归定序变量等级评定(优良差)
    计数回归泊松回归(泊松分布)计数变量每分钟车流量
    生存回归Cox等比例风险回归生存变量(截断数据)企业、产品的寿命

    一元线性回归

    • 回归模型
      只涉及一个自变量的回归称为一元回归,描述两个具有线性关系的变量之间关系的方程称为回归模型,一元线性回归模型可表示为:
      y i = β 0 + β 1 x i + μ i y_i=\beta_0+\beta_1x_i+\mu_i yi=β0+β1xi+μi

    其中 μ \mu μ是被称为误差项的随机变量,反映了变量线性关系外的随机因素对y的影响。

    上式称为理论回归模型,对它有以下假定:

    • y与x之间具有线性关系;
    • x是非随机的,在重复抽样中,x的取值是固定的;
      以上2个假定表明,对于任何一个给定的x的值,y的取值都对应着一个分布,代表一条直线。但由于单个y是从y的分布中抽出来的,可能不在这条直线上,因此,必须包含一个误差项。
    • 误差项是一个期望值为0的随机变量,因此,对于一个给定的x值,y的期望 E ( y ) = β 0 + β 2 x E(y)=\beta_0+\beta_2x E(y)=β0+β2x值。
      • 对于所有的x, μ \mu μ的方差 σ \sigma σ都相同,这意味着对于一个给定的x值,y的方差都等于 σ 2 \sigma^2 σ2
      • 误差项是一个服从正态分布的随机变量,且独立。一个特定的x值所对应的与其他x值对应的不相关。对于任何一个给定的x值,y都服从期望值为 β 0 + β 1 x \beta_0+\beta_1x β0+β1x方差为 σ 2 \sigma^2 σ2的正态分布,不同的x值,y的期望值不同,但方差相同

    扰动项需要满足的条件
    y i = β 0 + β 1 x i + μ i y_i=\beta_0+\beta_1x_i+\mu_i yi=β0+β1xi+μi
    满足球型扰动项,即满足“同方差”和“无自相关”两个条件。
    在这里插入图片描述
    这里注意,横截面数据容易出现异方差的问题,时间序列数据容易出现自相关的问题。

    • 回归方程
      描述y的期望值如何依赖自变量x的方程称为回归方程,一元线性回归方程(误差项的期望值为0)的形式为:
      E ( y ) = β 0 + β 2 x E(y)=β_0+β_2x E(y)=β0+β2x
    • 估计的回归方程
      总体回归参数 β 0 β_0 β0 β 1 β_1 β1是未知的,需要用样本数据去估计。一元线性回归的估计的回归方程形式为:

    y ^ = β ^ 0 + β ^ 1 x \hat y=\hat\beta_0+\hat\beta_1x y^=β^0+β^1x

    • 对于“线性”的理解
      不要求严格的线性,只要有线性的形式即可。
      如下,都属于“线性”。
      在这里插入图片描述

    内生性的探究

    误差 μ \mu μ包含了所有与 y y y相关,但未添加到回归模型中的变量。如果这些变量和我们已经添加的自变量相关,则存在内生性。

    蒙特卡罗模拟

    %% 蒙特卡洛模拟:内生性会造成回归系数的巨大误差
    times = 300;  % 蒙特卡洛的次数
    R = zeros(times,1);  % 用来储存扰动项u和x1的相关系数
    K = zeros(times,1);  % 用来储存遗漏了x2之后,只用y对x1回归得到的回归系数
    for i = 1: times
        n = 30;  % 样本数据量为n
        x1 = -10+rand(n,1)*20;   % x1在-1010上均匀分布,大小为30*1
        u1 = normrnd(0,5,n,1) - rand(n,1);  % 随机生成一组随机数
        x2 = 0.3*x1 + u1;   % x2与x1的相关性不确定, 因为我们设定了x2要加上u1这个随机数
        % 这里的系数0.3我随便给的,没特殊的意义,你也可以改成其他的测试。
        u = normrnd(0,1,n,1);  % 扰动项u服从标准正态分布
        y = 0.5 + 2 * x1 + 5 * x2 + u ;  % 构造y
        k = (n*sum(x1.*y)-sum(x1)*sum(y))/(n*sum(x1.*x1)-sum(x1)*sum(x1)); % y = k*x1+b 回归估计出来的k
        K(i) = k;
        u = 5 * x2 + u;  % 因为我们回归中忽略了5*x2,所以扰动项要加上5*x2
        r = corrcoef(x1,u);  % 2*2的相关系数矩阵
        R(i) = r(2,1);
    end
    plot(R,K,'*')
    xlabel("x_1和u'的相关系数")
    
    ylabel("k的估计值")
    

    在这里插入图片描述
    表明x与 μ \mu μ关系越大,内生性越强。

    核心解释变量和控制变量

    无内生性(no endogeneity)要求所有解释变量均与扰动项不相关,这个条件一般很难达到,因此我们对于变量作以下两种分类
    核心解释变量:我们最感兴趣的变量,因此我们特别希望得到对其系数的一致估计(当样本容量无限增大时,收敛于待估计参数的真值 )。
    控制变量:我们可能对于这些变量本身并无太大兴趣。而之所以把它们也放入回归方程,主要是为了 “控制住” 那些对被解释变量有影响的遗漏因素。

    在实际应用中,我们只要保证核心解释变量与𝝁不相关即可。

    回归系数的解释

    一元线性回归

    y = a + b x + μ y=a+bx+\mu y=a+bx+μ
    β 0 ^ \hat{\beta_0} β0^ : 一般不考虑(所有变量都是0才有意义)

    β m ^ ( m = 1 , 2... k ) \hat{\beta_m}(m=1,2...k) βm^(m=1,2...k) :在控制了其他变量的情况下, x m i x_{mi} xmi每增加一个单位,对 y i y_i yi造成的变化。

    半对数模型1

    y = a + b l n x + μ y=a+blnx+\mu y=a+blnx+μ

    什么时候取对数

    • 与市场价值相关的,例如,价格、销售额、工资等都可以取对数;
    • 以年度量的变量,如受教育年限、工作经历等通常不取对数;
    • 比例变量,如失业率、参与率等,两者均可;
    • 变量取值必须是非负数,如果包含0,则可以对y取对数ln(1+y);

    取对数的好处

    • 减弱数据的异方差性
    • 如果变量本身不符合正态分布,取了对数后可能渐近服从正态分布
    • 模型形式的需要,让模型具有经济学意义
      x每增加1%,y平均变化b/100个单位。

    半对数模型2

    l n y = a + b x + μ lny=a+bx+\mu lny=a+bx+μ
    x每增加1个单位,y平均变化(100b)%。

    双对数模型

    l n y = a + b l r n x + μ lny=a+blrnx+\mu lny=a+blrnx+μ
    x每增加1%,y平均变化b%

    虚拟变量

    • 如果自变量中有定性变量,例如性别、地域等,在回归中转化为0-1表示
    • 为了避免完全多重共线性的影响,引入虚拟变量的个数一般是分类数减1。

    数据的描述性统计

    stata 实现

    • 定量数据summarize 变量1 变量2 ... 变量n
    • 定性数据tabulate 变量名,gen(A)
      返回对应的这个变量的频率分布表,并生成对应的虚拟变量(以A开头)。gen以后的不写也可以
      在这里插入图片描述
      • Freq 频数
      • Percent 频率
      • Cum 累积频率

    Excel实现

    在这里插入图片描述

    回归实现

    STATA语句 : regress y x1 x2 … xk

    • 默认使用的OLS:普通最小二乘估计法)
    • 如果假如虚拟变量 STATA会自动检测数据的完全多重共线性
    • 不带虚拟变量的
      在这里插入图片描述
      • Model + SS :SSR回归平方和
      • Residual +SS : SSE误差平方和
      • Total + SS :SST=SSR+SSE
      • df : 自由度
      • MS :ss/df
      • F&&Prob>F : 联合显著性检验。 H 0 : β 1 = β 2 = . . . β k = 0 H_0 : \beta_1=\beta_2=...\beta_k=0 H0:β1=β2=...βk=0
      • R 2 a n d a d j R 2 R^2 and adj R^2 R2andadjR2 :一般使用调整后的
      • _cons : 常数项
      • H 0 : β 1 = β 2 = . . . β k = 0 H_0 : \beta_1=\beta_2=...\beta_k=0 H0:β1=β2=...βk=0
    • 带虚拟变量的
      在这里插入图片描述
      避免多重共线性,把一个固定(为0), 其余的数值是与它作比较。

    拟合优度 R 2 R^2 R2较低怎么办

    • 回归分为解释型回归和预测型回归。
      预测型回归一般才会更看重 R 2 R^2 R2。解释型回归更多的关注模型整体显著性以及自变量的统计显著性和经济意义显著性即可。
    • 可以对模型进行调整,例如对数据取对数或者平方后再进行回归。
    • 数据中可能有存在异常值或者数据的分布极度不均匀。
    • 我们引入的自变量越多,拟合优度会变大。但我们倾向于使用调整后的拟合优度,如果新引入的自变量对SSE的减少程度特别少,那么调整后的拟合优度反而会减小。

    标准化回归

    标准化回归系数

    为了去除量纲的影响,我们可使用标准化回归系数
    对数据进行标准化,就是将原始数据减去它的均数后,再除以该变量的标准差,计算得到新的变量值,新变量构成的回归方程称为标准化回归方程,回归后相应可得到标准化回归系数。标准化系数的绝对值越大,说明对因变量的影响就越大(只关注显著的回归系数

    Stata标准化回归命令

    regress y x1 x2 … xk,beta
    bata可简写为b

    • 常数项没有标准化回归系数
      常数的均值是其本身,经过标准化后变成了0。
      -除了多了标准化回归系数 ,和之前的回归结果完全相同。
      对数据进行标准化处理不会影响回归系数的标准误,也不会影响显著性。

    异方差

    • 危害
      当扰动项存在异方差时 :
    • OLS估计出来的回归系数是无偏、一致的。
    • 假设检验无法使用(构造的统计量失效了)。
    • OLS估计量不再是最优线性无偏估计量(BLUE)。
    • 检验(by stata)
    \\在回归结束后运行命令:
    rvfplot \\(画残差与拟合值的散点图)
    rvpplot x \\(画残差与自变量x的散点图)
    estat hettest ,rhs iid\\异方差bp检验
    


    波动比较大,表示存在异方差

    • BP检验
      • 原假设 : 扰动项不存在异方差
      • 备选假设 :扰动项存在异方差
    • 解决方案
    1. 使用OLS + 稳健的标准误
      如果发现存在异方差,一 种处理方法是,仍然进行OLS 回归,但使用稳健标准误。只要样本容量较大,即使在异方差的情况下,若使用稳健标准误,则所 有参数估计、假设检验均可照常进行。
      regress y x1 x2 … xk,robust
      在这里插入图片描述

    Stock and Watson (2011)推荐,在大多数情况下应该使用“OLS + 稳健标准误”。
    2. 广义最小二乘估计法GLS(有缺陷)

    原理:方差较小的数据包含的信息较多,我们可以给予信息量大的数据更大的权重(即方差较小的数据给予更大的权重)

    多重共线性

    多重线性回归,也即通过 X 1 X_1 X1 X 2 X_2 X2等多个自变量(解释变量)来构建线性回归模型预测因变量 Y Y Y。在多重线性回归中,当多个自变量之间存在 精确/高度 相关关系时,会导致回归系数难以估计/估计不准,这时就出现了共线性问题。

    • 检验多重共线性
      VIF,VarianceInflation Factor,方差膨胀因子。VIF指的是解释变量之间存在多重共线性时的方差与不存在多重共线性时的方差之比,可以反映多重共线性导致的方差的增加程度
      V I F m VIF_m VIFm越大,说明第 m m m个变量和其他变量的相关性越大,回归模型的 V I F = m a x { V I F 1 , V I F 2 , . . . , V I F K } VIF=max\{VIF_1,VIF_2,...,VIF_K\} VIF=max{VIF1,VIF2,...,VIFK}
      一般 V I F > 10 VIF>10 VIF>10认为回归方程存在严重的多重共线性。
    \\Stata计算各自变量VIF的命令(在回归结束后使用):
    estat vif
    
    • 如果不关心具体的回归系数,而只关心整个方程预测被解释变量的能力,则通常可以 不必理会多重共线性(假设你的整个方程是显著的)。这是因为,多重共线性的主要后果是使得对单个变量的贡献估计不准,但所有变量的整体效应仍可以较准确地估计。
    • 如果关心具体的回归系数,但多重共线性并不影响所关心变量的显著性,那么也可以不必理会。即使在有方差膨胀的情况下,这些系数依然显著;如果没有多重共线性,则只会更加显著。
    • 如果多重共线性影响到所关心变量的显著性,则需要增大样本容量,剔除导致严重共线性的变量(不要轻易删除,因为可能会有内生性的影响),或对模型设定进行修改。
    • 逐步回归分析
      • 向前逐步回归Forward selection:将自变量逐个引入模型,每引入一个自变量后都要进行检验,显著时才加入回归模型。
        (缺点:随着以后其他自变量的引入,原来显著的自变量也可能又变为不显著了,但是,并没有将其及时从回归方程中剔除掉。)
      • 向后逐步回归Backward elimination:与向前逐步回归相反,先将所有变量均放入模型,之后尝试将其中一个自变量从模型中剔除,看整个模型解释因变量的变异是否有显著变化,之后将最没有解释力的那个自变量剔除;此过程不断迭代,直到没有自变量符合剔除的条件。
        (缺点:一开始把全部变量都引入回归方程,这样计算量比较大。若对一些不重要的变量,一开始就不引入,这样就可以减少一些计算。当然这个缺点随着现在计算机的能力的提升,已经变得不算问题了)
      • Stata实现逐步回归法
      \\向前逐步回归Forward selection:
      stepwise regress y x1 x2 … xk, pe(#1)
      
      \\向后逐步回归Backward elimination:
      stepwise regress y x1 x2 … xk, pr(#2)
      
      
      • pe(#1) specifies the significance level for addition to the model; terms with p<#1 are eligible for addition(显著才加入模型中).
      • pr(#2) specifies the significance level for removal from the model; terms with p>= #2 are eligible for removal(不显著就剔除出模型)
    • 如果你筛选后的变量仍很多,可以减小#1或者#2;如果筛选后的变量太少了,可以增加#1或者#2。
    • x 1 x 2 … x k x_1 x_2 … x_k x1x2xk之间不能有完全多重共线性(和regress不同哦)
    • 可以在后面再加参数b和r,即标准化回归系数或稳健标准误
      -向前逐步回归和向后逐步回归的结果可能不同。
    • 不要轻易使用逐步回归分析,因为剔除了自变量后很有可能会产生新的问题,例如内生性问题。
    展开全文
  • 事实上选择如何处理特征是要有一定的“具象”理由的,常见的两个原因有:一:在对变量和预测值做线性相关性分析以后发现不是线性关系。你可以简单的理解为,随便挑一个特征x_0,把y=f(x_0)画出图来一看,线是弯的,...
  • 在市场的经济活动中,经常会遇到某一市场现象的发展和变化取决于几个影响因素的情况,也就是一个因变量和几个自变量有依存关系的情况。...当自变量与因变量之间存在线性关系时,称为多元线性回归分析
  • 多元线性回归详解

    2022-07-15 16:23:51
    比如——对数线性回归 更一般的:,这称为广义线性模型。 七、python实现 1、多元线性回归 from sklearn.linear_model import LinearRegression from sklearn.model_selection import train_test_split X_train,X_...
  • 线性回归模型是学习机器学习首先要学习的模型
  • 多元线性回归常见问题

    千次阅读 2020-12-24 23:35:15
    0.多元线性回归多元线性回归是统计学中经常用到回归方法,一般需满足一下六个条件:随机误差项是一个期望值或平均值为0的随机变量;对于解释变量的所有观测值,随机误差项有相同的方差;随机误差项彼此不相关;解释...
  • 线性回归是一种研究影响关系的方法,在实际研究里非常常见。...自变量为2个及以上时,称为多元线性回归。在SPSSAU里均是使用【通用方法】里的【线性回归】实现分析的。SPSSAU-线性回归Step1:数...
  • 多元线性回归模型检验-续上篇

    千次阅读 2020-04-04 20:42:46
    其实上一篇讨论的多元线性回归还不是很全面,而且训练和测试集都没有分,在这里继续讨论多元线性回归模型检验的相关问题。 多元线性回归的输出变量是连续变量,输入变量中如果包含离散变量需要做哑变量或One-hot编码...
  • 回归的目的是通过研究自变量X与因变量Y之间的相互关系常见的回归分析有五类:线性回归(OLS, GLS)、0-1回归(Logistic 回归)、定序回归(probit 定序回归)、计数回归(Possion 回归)和生存回归,其划分的依据均为因变量Y...
  • 这是多元线性回归模型: 其中的 X 和 W 都是 m+1 维的向量。 下图为它的损失函数: 它也是一个高维空间中的凸函数,因此也可以使用梯度下降法来求解。 下图为它的权值更新算法: 代入偏导数, 可以得到最终的...
  • 文章目录一、综述二、常见的回归分析三、对于相关性的理解四、一元线性回归模型五、对于回归系数的解释六、内生性七、四类线性模型回归系数的解释对于定性变量的处理——虚拟变量XXX八、下面来看一个实例九、扰动项...
  • 基于R语言的贵州茅台股价预测模型——多元线性回归 注: 重要的事说三遍!!! 重要的事说三遍!!! 重要的事说三遍!!! 本模型尚存在较多的问题,回归诊断也不全,并不是最佳模型。 介意以上问题的请勿使用!!!
  • 多元线性回归结果怎么看?

    千次阅读 2022-04-26 17:25:07
    自变量为2个及以上时,称为多元线性回归。例如:研究吸烟、喝酒、久坐对高血压患病的影响关系等。 二、SPSSAU操作 SPSSAU左侧仪表盘“通用方法”→“线性回归”; 三、线性回归的一般步骤 回归分析用于研究X...
  • 本文介绍对数线性分类模型,在线性模型的基础上通过复合函数(sigmoid,softmax,entropy )将其映射到概率区间,使用对数损失构建目标函数。首先以概率的方式...
  • Python 非线性回归 - 树懒学堂

    千次阅读 2020-12-11 07:24:42
    1、可线性化的非线性分析变量之间的非线性形式较多,较为常见的形式如下图:非线性形式的变量关系一般可以通过变量代换或转换的方式转化为线性关系。横纵轴所代表变量之间的关系为幂函数形式的关系,即可建立的模型...
  • 常用的三个线性模型的原理及python实现——线性回归(Linear Regression)、对数几率回归(Logostic Regression)、线性判别分析(Linear Discriminant)。 这可能会是对线性模型介绍最全面的博客一、线性模型 ...
  • 数学建模(NO.11多元线性回归分析

    千次阅读 2021-01-13 20:45:06
    多元线性回归分析一.应用二.三个关键词三.目的四.回归模型分类五.数据分类1.三种数据2.模型与数据对应六.数据收集网址七.一元线性回归1.概念2.对“线性”理解1.纠正线性2. 预处理3.什么时候取对数?3.回归系数的解释...
  • 多元线性回归

    千次阅读 2022-02-08 18:38:18
    常见的回归分析有五类:线性回归、0‐1回归、定序回归、计数回归 和生存回归。...使用线性回归模型前,先进行预处理 excel预处理:直接=要处理的数据和指令 回归系数解释 内生性,外生性 核心变量,控...
  • 目的:使用给定的数据集(致力于此回购)建立并运行多元线性回归模型,以预测金县的房屋销售价格。 博客: : 回购内容 Python模块(在“ module2_scripts”文件夹中) formatter.py-包含检查原始数据格式并执行...
  • 首先,如其他海报所指出的那样,提高模型拟合度。例如,如果您的残差不是正态分布的,那么采用偏斜变量的对数可以通过更改比例并使变量更“呈正态”分布来改善拟合。例如,收入被截断为零,并且经常表现出正偏斜。...
  • 大家好!我又出现了(*^__^*) 嘻嘻。...目录多元线性回归(下)偏回归平方和部分系数显著性检验违背基本假设的情况异方差性异方差性检验异方差性问题处理方法一元加权最小二乘估计多元加权最小二乘估计自相关性自相关...
  • 对数几率回归(logistic regression),有时候会译为逻辑回归(音译),其实是我们把回归模型应用到分类问题时,线性回归的一种变形,主要是针对二分类提出的。既然是线性回归的一种变形,那么在理解对数几率回归时,...
  • 数学建模-多元线性回归

    千次阅读 2021-08-07 12:17:01
    回归的思想 通过研究自变量X和因变量Y的相关关系,尝试...线性回归 OLS、GLS(最小二乘) 连续数值型变量 GDP、产量、收入 0-1回归 logistic回归 二值变量(0‐1) 是否违约、是否得病 定序回归 probit定序回归 定
  • 多元回归分析线性回归

    万次阅读 多人点赞 2020-08-13 18:14:30
    多元线性回归分析一、回归的基本理解(1)回归的基本任务(2)回归里的关键词(3)回归里的数据类型(4)回归方程中的系数解释(5)核心解释变量和控制变量(6)特殊的自变量:虚拟变量X二、例题:电商平台的奶粉...
  • 文章目录通用形式简介重要概念指数族分布线性回归简介正则化基扩展和核函数对数几率回归简介多分类策略[4]凸函数求解一些问题# 参考链接 通用形式 简介 ​ 广义线性模型(Generalized Linear Model),将线性模型...
  • 多元线性回归和广义线性回归 (1)

    千次阅读 2020-04-21 00:05:51
    线性回归模型的建立是为了探究因变量与多个自变量间的关系。举个例子,你想去银行贷款,在贷款前你想知道你大概能贷到多少钱,以便为后期经济开销做进一步规划。那如果此刻有一个贷款预测模型可以使用,这个问题就...
  • 常见的广义线性模型有:probit模型、poisson模型对数线性模型等。对数线性模型里有:logistic regression、Maxinum entropy。 1.线性回归原理 其中,为偏置参数,M为特征数目,为基函数(径向基函数(rbf)、...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 5,325
精华内容 2,130
热门标签
关键字:

多元对数线性回归模型

友情链接: WPNC07_Wang.rar