精华内容
下载资源
问答
  • 二项回归
    千次阅读
    2021-06-15 00:58:13

    本篇是“广义线性模型”系列推文的最后一篇,来介绍另外一种重要的广义线性模型:负二项回归。

    同泊松回归一样,负二项回归也是计数模型。由于泊松回归的内在要求是因变量的数学期望和方差相等,而当数据序列出现“过度离散”(方差比理论值大)时,可有两种方式进行模型修正:

    • 使用准泊松分布族;

    • 改用负二项回归。

    前者已经介绍过了,本篇来介绍后者——负二项回归。

    模型形式

    负二项回归的模型形式与泊松回归十分相似。

    泊松回归:

    负二项回归:

    泊松分布与负二项分布有着内在的联系。当泊松分布的参数 不再是一个确定的数值,而是服从伽马分布进行变化时,此时的分布形式称为伽马-泊松混合分布,负二项分布是伽马-泊松混合分布的特例。

    《Modern Applied Statistics with S-PLUS》[1]上有关于负二项分布与泊松分布关系的描述:

    负二项分布的方差恒大于数学期望,并受参数 的影响。从模型形式上看,负二项回归比泊松回归多了一个随机项

    • 为伽马分布的记号。

    负二项分布

    泊松分布的概率函数如下:

    伽马分布 的概率密度函数如下:

    为形状参数, 为逆尺度参数。数学期望 ,方差

    伽马-泊松混合分布的概率密度函数如下:

    负二项分布的概率函数如下:

    对比伽马-泊松混合分布和负二项分布的概率(密度)函数,令 ,则二者相等。

    负二项分布的意义:随机事件刚好第 次发生(不发生)时所经历的不发生(发生)的次数。

    模型的R代码

    负二项回归虽然属于广义线性模型,但在stats工具包中并没有定义负二项分布族函数。

    MASS工具包的glm.nb函数可以进行负二项回归,并自动确定 参数的取值。

    glm.nb(formula, data, weights,
           subset, na.action,
           start = NULL, etastart, mustart,
           control = glm.control(...),
           method = "glm.fit",
           model = TRUE, x = FALSE, y = TRUE,
           contrasts = NULL, ...,
           init.theta, link = log)
    
    • MASS工具包的名称即上面提到的《Modern Applied Statistics with S-PLUS》的首字母缩写;

    • glm.nb函数专门用于负二项回归,因此无需family参数。

    library(MASS)
    model.nb <- glm.nb(Days ~ Eth + Sex + Age+ Lrn,
                       data = quine)
    
    summary(model.nb)
    ## 
    ## Call:
    ## glm.nb(formula = Days ~ Eth + Sex + Age + Lrn, data = quine, 
    ##     init.theta = 1.274892646, link = log)
    ## 
    ## Deviance Residuals: 
    ##     Min       1Q   Median       3Q      Max  
    ## -2.7918  -0.8892  -0.2778   0.3797   2.1949  
    ## 
    ## Coefficients:
    ##             Estimate Std. Error z value Pr(>|z|)    
    ## (Intercept)  2.89458    0.22842  12.672  < 2e-16 ***
    ## EthN        -0.56937    0.15333  -3.713 0.000205 ***
    ## SexM         0.08232    0.15992   0.515 0.606710    
    ## AgeF1       -0.44843    0.23975  -1.870 0.061425 .  
    ## AgeF2        0.08808    0.23619   0.373 0.709211    
    ## AgeF3        0.35690    0.24832   1.437 0.150651    
    ## LrnSL        0.29211    0.18647   1.566 0.117236    
    ## ---
    ## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
    ## 
    ## (Dispersion parameter for Negative Binomial(1.2749) family taken to be 1)
    ## 
    ##     Null deviance: 195.29  on 145  degrees of freedom
    ## Residual deviance: 167.95  on 139  degrees of freedom
    ## AIC: 1109.2
    ## 
    ## Number of Fisher Scoring iterations: 1
    ## 
    ## 
    ##               Theta:  1.275 
    ##           Std. Err.:  0.161 
    ## 
    ##  2 x log-likelihood:  -1093.151
    

    MASS工具包还定义可以在glm函数中使用的负二项分布族函数negative.binomial

    negative.binomial(theta = stop("'theta' must be specified"),
                      link = "log")
    

    使用negative.binomial函数时需指定 参数。根据《Modern Applied Statistics with S-PLUS》中的方法,可以使用MASS工具包中的logtrans函数大致确定 的取值:

    logtrans(Days ~ Eth + Sex + Age+ Lrn,
             data = quine)
    

    根据上图, 的最佳取值约等于2。

    model.nb2 <- glm(Days ~ Eth + Sex + Age+ Lrn,
                     family = negative.binomial(2),
                      data = quine)
    
    summary(model.nb2)
    ## 
    ## Call:
    ## glm(formula = Days ~ Eth + Sex + Age + Lrn, family = negative.binomial(2), 
    ##     data = quine)
    ## 
    ## Deviance Residuals: 
    ##     Min       1Q   Median       3Q      Max  
    ## -3.2421  -1.0864  -0.3369   0.4767   2.7006  
    ## 
    ## Coefficients:
    ##             Estimate Std. Error t value Pr(>|t|)    
    ## (Intercept)  2.88658    0.22715  12.708  < 2e-16 ***
    ## EthN        -0.56765    0.15245  -3.724 0.000285 ***
    ## SexM         0.08699    0.15903   0.547 0.585268    
    ## AgeF1       -0.44501    0.23909  -1.861 0.064820 .  
    ## AgeF2        0.09283    0.23451   0.396 0.692819    
    ## AgeF3        0.35938    0.24659   1.457 0.147260    
    ## LrnSL        0.29671    0.18594   1.596 0.112812    
    ## ---
    ## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
    ## 
    ## (Dispersion parameter for Negative Binomial(2) family taken to be 1.483669)
    ## 
    ##     Null deviance: 280.18  on 145  degrees of freedom
    ## Residual deviance: 239.11  on 139  degrees of freedom
    ## AIC: 1120.5
    ## 
    ## Number of Fisher Scoring iterations: 7
    

    相关阅读:

    1. stats | 概率分布与随机数生成(一)——离散型分布

    2. stats | 广义线性模型(二)——泊松回归

    参考资料

    [1]

    Venables, W. N. and Ripley, B. D. (1999) Modern Applied Statistics with S-PLUS. Third Edition. Springer .

    更多相关内容
  • 二项回归属于广义线性回归(GLM)的分支,与...负二项回归家族庞大,逐渐应用于社会科学领域各个学科的统计分析建模之中,本书详细介绍了负二项回归分析的原理以及该模型的多种变体,为该方法的学习提供了重要指导。
  • 论文研究-零膨胀负二项回归模型的推广与费率厘定.pdf, 在费率厘定中,当索赔次数数据存在过离散(over-dispersion)特征时,通常会采用负二项回归模型,但当索赔数据中同时又...
  • 二项回归模型下双参数估计的有效性研究,姚程,黎雅莲,在实际应用中分析计数数据时经常会用到负项分布(NB)回归模型这一典型广义线性模型。复共线性问题的提出使得经典的极大似然估�
  • 数据回归-负二项回归模型的统计推断.pdf
  • Poisson回归和负二项回归该如何分析

    千次阅读 2021-10-31 21:21:38
    在分析之前,首先我们要了解Poisson分布和负二项回归分布的适用条件,它们均需满足以下三个条件: 1.平稳性:发生频数的大小,只与单位大小有关系。(比如1万为单位,或者100万为单位时患癌症人数不同) 2.独立性...

    1.前提条件

    在分析之前,首先我们要了解Poisson分布和负二项回归分布的适用条件,它们均需满足以下三个条件:

    1.平稳性:发生频数的大小,只与单位大小有关系。(比如1万为单位,或者100万为单位时患癌症人数不同)

    2.独立性:发生频数的大小,各个数之间没有影响关系,即频数数值彼此独立没有关联关系;比如前1小时闯红灯的人多了,第2小时闯红灯人数并不会受影响。

    3.普通性:发生频数足够小,即低概率性。

    2.分析流程图

    不同的条件是Poisson回归要求等离散型,负二项回归分布不要求等离散性,这时我们可以运用SPSSAU采用O检验来判断数据更适合哪种回归进行分析;判断出合适的回归;接下来无论是Poisson回归还是负二项回归都需要对模型进行似然比检验,判断模型有效性;最后进行相应的回归分析,并对模型预测。流程图如下:

    分析流程图

    3.案例分析

    下面我们结合具体案例加以说明,案例如下 :

    3.1背景

    当前有一项针对专利数量的影响关系研究,研究政府对于企业的支持力度,是否一线城市,对于企业专利数量的影响情况。共收集10个城市的数据,如下:

    数据

    其中在是否一线城市(x1)中,1表示是,0表示否;政府扶持力度(x2)中,各个数字数值大小表示政府扶持力度的大小。

    3.2操作

    本例子中专利数量是基于‘Weight企业数量’,因此‘基数Eposure【可选】’框中应该放入‘Weight企业数量’这项,因变量和自变量也放入对应位置。如下图:

    3.3SPSSAU输出结果

    3.3.1O检验

    在SPSSAU中,可通过O检验,以及平均值和方差的大小对比,综合判断是否存在过离散现象。

    根据O检验表可知,专利数量的平均值是56.500,方差是2480.944,明显平均值与方差不相等,存在过离散现象,而且O值明显大于1.96(p=0.000 <0.05),拒绝等离散假定,说明数据存在明显的过离散现象,因此使用负二项回归较为适合。

    3.3.2模型似然比检验

    第一:首先对p值进行分析,p值无限接近于0且小于0.05,则说明模型有效,可以进行负二项回归分析。

    第二:AIC值和BIC值可用于多次分析模型时的对比;此两个值越低越好;如果多次进行分析,对比该两个值的变化情况,综合说明模型构建的优化过程;

    3.3.3回归结果分析

    从上表可知,将X1为是否一线城市, X2为政府扶持力度,共2项为自变量,而将Y专利数量作为因变量进行负二项回归分析,从上表可以看出,模型公式为:Log(Y)=-10.316+0.213*X1+0.680*X2+ ln(企业数量)

    X1是否一线城市的回归系数值为0.213,但是并没有呈现出显著性(z=0.462,p=0.644>0.05),意味着X1是否一线城市并不会对Y专利数量产生影响关系,即城市类别与专利数量无明显关系。X2政府扶持力度的回归系数值为0.680,并且呈现出0.01水平的显著性(z=6.490,p=0.000 <0.01),意味着X2政府扶持力度会对Y专利数量产生显著的正向影响关系,以及优势比(OR值, exp(b)值)为1.973,意味着X2政府扶持力度增加一个单位时,Y专利数量的增加幅度为1.973倍。

    3.3.4模型预测

    将对应的数值填入SPSSAU,就可以预测了。

    假设基于80000个企业,某一线城市(x1=1),政府有扶持(x2=6)最终得到的专利数量大概为193。

    3.4结论

    政府扶持力度对专利数量影响较大,是否一线城市对专利数量没有影响,可以得出的结论:政府都应该加大扶持力度,让专利数量保持持续增长。政府应该充分认识专利扶持工作的重要性,切实加强对专利扶持工作的组织领导,制定专项扶持政策,同时采取一定措施,不断扶持企业申请专利。

    小伙伴们,大家对Poisson回归和负二项回归该如何分析是不是有新的认识,希望这篇文章能使你有所收获。

    展开全文
  • Stata的负二项回归与零膨胀回归命令

    千次阅读 2022-03-06 02:23:38
    1. 负二项回归 nbreg nbreg depvar [indepvars] [if] [in] [weight] [, nbreg_options] ...2.零膨胀负二项回归 zinb 在一些场景下,0 取值的频率很高,无法使用普通泊松分布解释,于是出现了所谓零膨胀问题。比如,商

    1. 负二项回归 nbreg

    nbreg – Negative binomial regression

    nbreg depvar [indepvars] [if] [in] [weight] [, nbreg_options]
    

    Example

    nbreg like stars text_len sentiment polarity, vce(cluster business_id)
    

    在这里插入图片描述

    • 不报告常数项
    nbreg y x1 x2 x3, noconstant 
    

    2.零膨胀负二项回归 zinb

    在一些场景下,0 取值的频率很高,无法使用普通泊松分布解释,于是出现了所谓零膨胀问题。比如,商品评论的点赞数量大部分为零,可能因为评论本身无意义,也可能因为大多数人看完评论后不会去选择点赞。

    zinb – Zero-inflated negative binomial regression

    zinb depvar [indepvars] [if] [in] [weight], inflate(varlist[, offset(varname)]|_cons) [options]
    
    • inflate(var):var用于解释产生过多0值的原因
    • forcevuong: 用于比较 zinb和nb的模型效果
    • forcevuong不能与 vce() cluster standard error 同用, 可先比较两个模型后再聚合标准误
    zinb like sentiment polarity , inflate(stars text_len) forcevuong
    

    在这里插入图片描述

    此处比较zinb和nb模型效果 Pr>z=0, 则表明zinb模型效果更好


    3. 零膨胀泊松回归 zip

    zip – Zero-inflated Poisson regression

    zip depvar [indepvars] [if] [in] [weight], inflate(varlist[, offset(varname)]|_cons) [options]
    

    Example

    zip like sentiment polarity , inflate(stars text_len) forcevuong
    

    在这里插入图片描述

    参考来源:ZIP-too many Zero:零膨胀泊松回归模型

    展开全文
  • 数据回归-零膨胀负二项回归模型的推广及应用.pdf
  • 数据回归-零过多负二项回归模型的参数齐性检验.pdf
  • 数据回归-半参数ZI-负二项回归模型的统计分析.pdf
  • 系统研究了广义二项回归模型的统计诊断和影响分析方法,给出了模型的参数估计和模型中散度参数检验的Score统计量,并基于数据删除模型和在3种局部扰动情形下,研究了模型影响分析问题,最后通过两个数值例子验证了...
  • 执行负二项回归。 使用IRLS更新回归系数,并通过Chi ^ 2阻尼估计色散参数。 看 Hardin、JW 和 Hilbe,JM 广义线性模型和扩展。 第 3 版页。 251-254。 想要查询更多的信息。
  • 如何进行负二项回归分析?

    千次阅读 2020-10-23 17:59:40
    此时使用负二项回归更为科学。 比如研究传染病人数,传染病人数明显具有一些空间聚焦现象;以及专利数量,很可能企业之间存在着某种空间意义上的竞争,导致数据具有聚焦现象,诸如此类数据其并不满足Poisson分布...

    如果研究X对于Y的影响,Y是计数资料,一般可以使用Poisson回归进行研究。但是Poisson回归要求数据满足等离散现象(平均值与方差相等),如果说数据具有一定的聚焦性,此时很可能就会产生过离散现象,即数据平均值与方差明显不相等。此时使用负二项回归更为科学。

     

    比如研究传染病人数,传染病人数明显具有一些空间聚焦现象;以及专利数量,很可能企业之间存在着某种空间意义上的竞争,导致数据具有聚焦现象,诸如此类数据其并不满足Poisson分布的独立性原则。此类数据通常情况下方差会明显的大于平均值,属于过离散数据,此种数据在进行Poisson回归时会导致模型参数估计值的标准误偏小

    因而,如果计数资料不适合Poisson分布时,尤其是数据过离散时,此时使用负二项回归分析更合适。

     

    1、案例背景

    当前有一项针对专利数量的影响关系研究,研究政府对于企业的支持力度,是否一线城市,对于企业专利数量的影响情况。共收集10个城市的数据,如下:

    X1是否一线城市:数字1表示为一线城市,数字0表示非一线城市
    X2政府扶持力度:数字越大表示对于企业申请专利时的扶持力度越大
    Y专利数量:数字表示某城市调研所有企业申请成功的专利数量
    Weight企业数量:数字表示某城市调研的企业数量

     

    2、理论

    关于过离散的检验有很多检验方法,在SPSSAU系统中可有三种方式进行综合判断,分别如下:

    • 如果说描述分析时发现平均值与方差值有着较大的差异,则说明负二项回归较合理,如果说平均值与方差值基本相等,说明可能使用Poisson回归较为合适。
    • 过离散现象可通过O检验(在Poisson回归分析时SPSSAU默认有提供)
    • 过离散现象的检验可针对alpha值进行检验,在负二项回归时默认输出,如果alpha值显著不为0(对应的P值小于0.05),则说明使用负二项回归较为合理,反之则说明可能使用Poisson回归较优。

     

    3、操作

    登录SPSSAU,选择【实验/医学研究】--【负二项回归】。

     

    本例子中专利数量是基于‘Weight企业数量’,因此‘基数Eposure【可选】’框中应该放入‘Weight企业数量’这项,如下图:

     

     

    4、SPSSAU结果分析

    (1)过度离散检验

     

    在进行负二项回归之前,专利数量的平均值是56.500,方差是2480.944,明显平均值与方差不相等,存在过离散现象。而且使用SPSSAU的Poisson回归时,对其提供的O检验发现,O值明显大于1.96(p=0.000 <0.05),拒绝等离散假定,说明数据存在明显的过离散现象,因此使用负二项回归较为适合。

     

    (2)负二项回归模型似然比检验

    SPSSAU共输出两个表格,分别是“负二项回归模型似然比检验”,“负二项回归分析结果汇总”。 “负二项回归模型似然比检验”是针对整个模型的检验,如果说模型p值小于0.05,意味着放入自变量更优,即模型有意义。“负二项回归分析结果汇总”是回归结果的具体结果。

     

     

    模型似然比检验用于对整体模型有效性进行分析。

    第一:首先对p值进行分析,如果该值小于0.05,则说明模型有效;反之则说明模型无效;

    第二:AIC值和BIC值可用于多次分析模型时的对比;此两个值越低越好;如果多次进行分析,对比该两个值的变化情况,综合说明模型构建的优化过程;

     

    首先对模型整体有效性进行分析,模型检验的原定假设为:是否放入自变量(X1是否一线城市, X2政府扶持力度)两种情况时模型质量均一样;检验p值为0.000小于0.05,因而说明拒绝原定假设,即说明本次构建模型时,放入的自变量具有有效性,本次模型构建有意义。

     

    (3)负二项回归分析结果汇总表

    从上表可知,将X1是否一线城市, X2政府扶持力度共2项为自变量,而将Y专利数量作为因变量进行负二项回归分析,从上表可以看出,模型公式为:Log(Y)=-10.316 + 0.213*X1是否一线城市 + 0.680*X2政府扶持力度 + ln(Weight企业数量)。模型的伪R方值(McFadden R 方)为0.196,说明研究模型可以解决专利数量19.6%的原因。具体分析可知:

     

    X1是否一线城市的回归系数值为0.213,但是并没有呈现出显著性(z=0.462,p=0.644>0.05),意味着X1是否一线城市并不会对Y专利数量产生影响关系,即城市类别与专利数量无明显关系。X2政府扶持力度的回归系数值为0.680,并且呈现出0.01水平的显著性(z=6.490,p=0.000 <0.01),意味着X2政府扶持力度会对Y专利数量产生显著的正向影响关系,以及优势比(OR值, exp(b)值)为1.973,意味着X2政府扶持力度增加一个单位时,Y专利数量的增加幅度为1.973倍。

     

    「更多内容登录SPSSAU官网了解」

    展开全文
  • 人工智能-基于负二项回归分析的高速公路神经网络事故预测模型.pdf
  • 二项回归模型
  • 零膨胀负二项回归模型的使用 R语言

    千次阅读 2020-05-19 10:06:17
    近期,需要使用零膨胀负二项回归模型。因此,找到R语言中的一个包:pscl。 首先,使用Rstudio下载此包。 install.packages("pscl") 该软件发表于下面的期刊。 Zeileis A, Kleiber C, Jackman S. Regression models ...
  • 4.4 计数数据模型 - 百度文库https://wenku.baidu.com/view/2b488e62561252d380eb6eac.html2.python中df.describe()先进行描述性统计 df.describe() 用法概述_JRighte的博客-CSDN博客_df.describe()python数据清理...
  • R语言glm.nb函数构建负二项分布回归模型(negative binomial)、使用epiDisplay包的poisgof函数对拟合的负二项分布回归模型进行拟合优度检验、即模型拟合的效果、验证模型是否有过度离散(overdispersion)等问题...
  • #演示内容:回归和线性回归的拟合效果的对比 """ print(__doc__) import numpy as np import matplotlib.pyplot as plt from sklearn.linear_model import LinearRegression from sklearn....
  • 一、逻辑斯蒂分布/回归模型 模型描述的是一种什么样的事件或现象: 设X是连续随机变量,X服从逻辑斯蒂回归分布是指X具有下列分布函数和密度函数: 附上逻辑斯蒂分布的密度函数与分布函数,如下: 物理...
  • 通过不断拟合缩小预测值与真实值的差距:最终使得这个差距(误差)成为一组均值为0,方差为1的随机数。 2、损失函数 3、优化算法 使得损失函数值达到最小的方法。 方法: 正规方程 梯度下降 4、python的API ...
  • 第十章 定类或定序依变项回归分析 第一节 线性几率回归及其局限性 1当定类依变项为分变项时普通线性回归方程仍可使用但有局限性 2普通线性回归方程用来估测几率P结果就是所谓的线性几率回归但它有两方面的局限性...
  • 摘录:https://www.jianshu.com/p/af0a4f71c05a 考虑回归问题,可以采用boost方法 线性逼近 如果残差满足误差,退出 否则对于残差,次逼近 2次逼近 3)三次逼近 ...
  • 二项逻辑回归到多逻辑回归

    千次阅读 2017-10-09 22:08:49
    逻辑回归是统计学中经典的分类算法,与...1.二项逻辑回归原理及其参数的求解如下: 2.多逻辑回归的原理 参考链接:http://www.cnblogs.com/yinheyi/p/6131262.html 参考链接:http://www.jianshu.com/
  • 一、 概述 Logistic回归主要用于因变量为分类变量(如疾病的缓解、不缓解,...因变量为分类的称为二项logistic回归,因变量为多分类的称为多元logistic回归。  下面学习一下Odds、OR、RR的概念: 在病例
  • random lasso分类算法,Lasso回归和岭回归的区别在于它的惩罚是基于L1的范数,因此,它可以将系数控制收缩到0,从而达到变量选择的效果。
  • 回归的含义 “回归”即是:“靠拢” 的意思 回归方程: 往往是一个函数曲线,说白了就是:数据点有靠拢趋势的曲线。 回归分析:确定因变量与自变量之间是否存在相互依赖关系,说白了,有没有这样一个曲线,是坐标点有...
  • 线性回归分析基础

    2018-04-06 09:19:20
    讲了回归分析 回归诊断 虚拟变量回归 多元回归中交互作用
  • Clementine自带实例二项式Logistic回归.ppt
  • 逻辑回归不是回归算法,是分类算法,可以处理二元分类以及多元分类。 线性回归 线性回归的模型是求出特征向量Y和输入样本矩阵X之间的线性关系系数θ,满足Y = Xθ。此时Y是连续的,所以是回归模型。 对应n维样本...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 134,128
精华内容 53,651
关键字:

二项回归