精华内容
下载资源
问答
  • 负二项回归模型

     

    负二项回归模型

     

     

     

     

     

     

    展开全文
  • 负二项回归模型下双参数估计的有效性研究,姚程,黎雅莲,在实际应用中分析计数数据时经常会用到负二项分布(NB)回归模型这一典型广义线性模型。复共线性问题的提出使得经典的极大似然估�
  • 当索赔次数数据存在过离散(over-dispersion)特征时,通常会采用负二项回归模型,但当索赔数据中同时又出现零膨胀(zero-inflated)问题时,负二项回归模型不再适合对这样的数据进行分析.在传统的零膨胀负二项回归模型为...
  • 零膨胀负二项回归模型的使用 R语言

    千次阅读 2020-05-19 10:06:17
    近期,需要使用零膨胀负二项回归模型。因此,找到R语言中的一个包:pscl。 首先,使用Rstudio下载此包。 install.packages("pscl") 该软件发表于下面的期刊。 Zeileis A, Kleiber C, Jackman S. Regression models ...

    简介

    近期,需要使用零膨胀负二项回归模型。因此,找到R语言中的一个包:pscl。

    首先,使用Rstudio下载此包。

    install.packages("pscl")
    

    该软件发表于下面的期刊。

    Zeileis A, Kleiber C, Jackman S. Regression models for count data in R[J]. Journal of statistical software, 2008, 27(8): 1-25.

    详细使用可以参考:https://cran.r-project.org/web/packages/pscl/vignettes/countreg.pdf

    案例

    下面讲解一个自带的案例。

    library(pscl)
    data("bioChemists", package = "pscl") 
    
    fm_zinb <- zeroinfl(art ~ . | ., data = bioChemists, dist = "negbin") 
    

    在官方文档中提供了以下的一些方法用于查看模型的系数估计结果,预测,检验,AIC和BIC等。

    首先,我们summary一下:

    summary(fm_zinb)
    

    可以看到如下结果:
    在这里插入图片描述

    其次,我想看看AIC和BIC的结果。

    AIC(fm_zinb)
    BIC(fm_zinb)
    

    运行结果为:
    在这里插入图片描述

    展开全文
  • 如何进行负二项回归分析

    千次阅读 2020-10-23 17:59:40
    此时使用负二项回归更为科学。 比如研究传染病人数,传染病人数明显具有一些空间聚焦现象;以及专利数量,很可能企业之间存在着某种空间意义上的竞争,导致数据具有聚焦现象,诸如此类数据其并不满足Poisson分布...

    如果研究X对于Y的影响,Y是计数资料,一般可以使用Poisson回归进行研究。但是Poisson回归要求数据满足等离散现象(平均值与方差相等),如果说数据具有一定的聚焦性,此时很可能就会产生过离散现象,即数据平均值与方差明显不相等。此时使用负二项回归更为科学。

     

    比如研究传染病人数,传染病人数明显具有一些空间聚焦现象;以及专利数量,很可能企业之间存在着某种空间意义上的竞争,导致数据具有聚焦现象,诸如此类数据其并不满足Poisson分布的独立性原则。此类数据通常情况下方差会明显的大于平均值,属于过离散数据,此种数据在进行Poisson回归时会导致模型参数估计值的标准误偏小

    因而,如果计数资料不适合Poisson分布时,尤其是数据过离散时,此时使用负二项回归分析更合适。

     

    1、案例背景

    当前有一项针对专利数量的影响关系研究,研究政府对于企业的支持力度,是否一线城市,对于企业专利数量的影响情况。共收集10个城市的数据,如下:

    X1是否一线城市:数字1表示为一线城市,数字0表示非一线城市
    X2政府扶持力度:数字越大表示对于企业申请专利时的扶持力度越大
    Y专利数量:数字表示某城市调研所有企业申请成功的专利数量
    Weight企业数量:数字表示某城市调研的企业数量

     

    2、理论

    关于过离散的检验有很多检验方法,在SPSSAU系统中可有三种方式进行综合判断,分别如下:

    • 如果说描述分析时发现平均值与方差值有着较大的差异,则说明负二项回归较合理,如果说平均值与方差值基本相等,说明可能使用Poisson回归较为合适。
    • 过离散现象可通过O检验(在Poisson回归分析时SPSSAU默认有提供)
    • 过离散现象的检验可针对alpha值进行检验,在负二项回归时默认输出,如果alpha值显著不为0(对应的P值小于0.05),则说明使用负二项回归较为合理,反之则说明可能使用Poisson回归较优。

     

    3、操作

    登录SPSSAU,选择【实验/医学研究】--【负二项回归】。

     

    本例子中专利数量是基于‘Weight企业数量’,因此‘基数Eposure【可选】’框中应该放入‘Weight企业数量’这项,如下图:

     

     

    4、SPSSAU结果分析

    (1)过度离散检验

     

    在进行负二项回归之前,专利数量的平均值是56.500,方差是2480.944,明显平均值与方差不相等,存在过离散现象。而且使用SPSSAU的Poisson回归时,对其提供的O检验发现,O值明显大于1.96(p=0.000 <0.05),拒绝等离散假定,说明数据存在明显的过离散现象,因此使用负二项回归较为适合。

     

    (2)负二项回归模型似然比检验

    SPSSAU共输出两个表格,分别是“负二项回归模型似然比检验”,“负二项回归分析结果汇总”。 “负二项回归模型似然比检验”是针对整个模型的检验,如果说模型p值小于0.05,意味着放入自变量更优,即模型有意义。“负二项回归分析结果汇总”是回归结果的具体结果。

     

     

    模型似然比检验用于对整体模型有效性进行分析。

    第一:首先对p值进行分析,如果该值小于0.05,则说明模型有效;反之则说明模型无效;

    第二:AIC值和BIC值可用于多次分析模型时的对比;此两个值越低越好;如果多次进行分析,对比该两个值的变化情况,综合说明模型构建的优化过程;

     

    首先对模型整体有效性进行分析,模型检验的原定假设为:是否放入自变量(X1是否一线城市, X2政府扶持力度)两种情况时模型质量均一样;检验p值为0.000小于0.05,因而说明拒绝原定假设,即说明本次构建模型时,放入的自变量具有有效性,本次模型构建有意义。

     

    (3)负二项回归分析结果汇总表

    从上表可知,将X1是否一线城市, X2政府扶持力度共2项为自变量,而将Y专利数量作为因变量进行负二项回归分析,从上表可以看出,模型公式为:Log(Y)=-10.316 + 0.213*X1是否一线城市 + 0.680*X2政府扶持力度 + ln(Weight企业数量)。模型的伪R方值(McFadden R 方)为0.196,说明研究模型可以解决专利数量19.6%的原因。具体分析可知:

     

    X1是否一线城市的回归系数值为0.213,但是并没有呈现出显著性(z=0.462,p=0.644>0.05),意味着X1是否一线城市并不会对Y专利数量产生影响关系,即城市类别与专利数量无明显关系。X2政府扶持力度的回归系数值为0.680,并且呈现出0.01水平的显著性(z=6.490,p=0.000 <0.01),意味着X2政府扶持力度会对Y专利数量产生显著的正向影响关系,以及优势比(OR值, exp(b)值)为1.973,意味着X2政府扶持力度增加一个单位时,Y专利数量的增加幅度为1.973倍。

     

    「更多内容登录SPSSAU官网了解」

    展开全文
  • 负二项回归属于广义线性回归(GLM)的分支,与Logistic回归、Poisson回归等都属于计数数据模型的范畴,主要用于以分类变量、定序变量为因变量的回归分析之中。 负二项回归家族庞大,逐渐应用于社会科学领域各个学科...
  • 执行负二项回归。 使用IRLS更新回归系数,并通过Chi ^ 2阻尼估计色散参数。 看 Hardin、JW 和 Hilbe,JM 广义线性模型和扩展。 第 3 版页。 251-254。 想要查询更多的信息。
  • 本篇是“广义线性模型”系列推文的最后一篇,来介绍另外一种重要的广义线性模型负二项回归。同泊松回归一样,负二项回归也是计数模型。由于泊松回归的内在要求是因变量的数学期望和方差相等,而当数据...

    本篇是“广义线性模型”系列推文的最后一篇,来介绍另外一种重要的广义线性模型:负二项回归。

    同泊松回归一样,负二项回归也是计数模型。由于泊松回归的内在要求是因变量的数学期望和方差相等,而当数据序列出现“过度离散”(方差比理论值大)时,可有两种方式进行模型修正:

    • 使用准泊松分布族;

    • 改用负二项回归。

    前者已经介绍过了,本篇来介绍后者——负二项回归。

    模型形式

    负二项回归的模型形式与泊松回归十分相似。

    泊松回归:

    负二项回归:

    泊松分布与负二项分布有着内在的联系。当泊松分布的参数 不再是一个确定的数值,而是服从伽马分布进行变化时,此时的分布形式称为伽马-泊松混合分布,负二项分布是伽马-泊松混合分布的特例。

    《Modern Applied Statistics with S-PLUS》[1]上有关于负二项分布与泊松分布关系的描述:

    负二项分布的方差恒大于数学期望,并受参数 的影响。从模型形式上看,负二项回归比泊松回归多了一个随机项

    • 为伽马分布的记号。

    负二项分布

    泊松分布的概率函数如下:

    伽马分布 的概率密度函数如下:

    为形状参数, 为逆尺度参数。数学期望 ,方差

    伽马-泊松混合分布的概率密度函数如下:

    负二项分布的概率函数如下:

    对比伽马-泊松混合分布和负二项分布的概率(密度)函数,令 ,则二者相等。

    负二项分布的意义:随机事件刚好第 次发生(不发生)时所经历的不发生(发生)的次数。

    模型的R代码

    负二项回归虽然属于广义线性模型,但在stats工具包中并没有定义负二项分布族函数。

    MASS工具包的glm.nb函数可以进行负二项回归,并自动确定 参数的取值。

    glm.nb(formula, data, weights,
           subset, na.action,
           start = NULL, etastart, mustart,
           control = glm.control(...),
           method = "glm.fit",
           model = TRUE, x = FALSE, y = TRUE,
           contrasts = NULL, ...,
           init.theta, link = log)
    
    • MASS工具包的名称即上面提到的《Modern Applied Statistics with S-PLUS》的首字母缩写;

    • glm.nb函数专门用于负二项回归,因此无需family参数。

    library(MASS)
    model.nb <- glm.nb(Days ~ Eth + Sex + Age+ Lrn,
                       data = quine)
    
    summary(model.nb)
    ## 
    ## Call:
    ## glm.nb(formula = Days ~ Eth + Sex + Age + Lrn, data = quine, 
    ##     init.theta = 1.274892646, link = log)
    ## 
    ## Deviance Residuals: 
    ##     Min       1Q   Median       3Q      Max  
    ## -2.7918  -0.8892  -0.2778   0.3797   2.1949  
    ## 
    ## Coefficients:
    ##             Estimate Std. Error z value Pr(>|z|)    
    ## (Intercept)  2.89458    0.22842  12.672  < 2e-16 ***
    ## EthN        -0.56937    0.15333  -3.713 0.000205 ***
    ## SexM         0.08232    0.15992   0.515 0.606710    
    ## AgeF1       -0.44843    0.23975  -1.870 0.061425 .  
    ## AgeF2        0.08808    0.23619   0.373 0.709211    
    ## AgeF3        0.35690    0.24832   1.437 0.150651    
    ## LrnSL        0.29211    0.18647   1.566 0.117236    
    ## ---
    ## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
    ## 
    ## (Dispersion parameter for Negative Binomial(1.2749) family taken to be 1)
    ## 
    ##     Null deviance: 195.29  on 145  degrees of freedom
    ## Residual deviance: 167.95  on 139  degrees of freedom
    ## AIC: 1109.2
    ## 
    ## Number of Fisher Scoring iterations: 1
    ## 
    ## 
    ##               Theta:  1.275 
    ##           Std. Err.:  0.161 
    ## 
    ##  2 x log-likelihood:  -1093.151
    

    MASS工具包还定义可以在glm函数中使用的负二项分布族函数negative.binomial

    negative.binomial(theta = stop("'theta' must be specified"),
                      link = "log")
    

    使用negative.binomial函数时需指定 参数。根据《Modern Applied Statistics with S-PLUS》中的方法,可以使用MASS工具包中的logtrans函数大致确定 的取值:

    logtrans(Days ~ Eth + Sex + Age+ Lrn,
             data = quine)
    

    根据上图, 的最佳取值约等于2。

    model.nb2 <- glm(Days ~ Eth + Sex + Age+ Lrn,
                     family = negative.binomial(2),
                      data = quine)
    
    summary(model.nb2)
    ## 
    ## Call:
    ## glm(formula = Days ~ Eth + Sex + Age + Lrn, family = negative.binomial(2), 
    ##     data = quine)
    ## 
    ## Deviance Residuals: 
    ##     Min       1Q   Median       3Q      Max  
    ## -3.2421  -1.0864  -0.3369   0.4767   2.7006  
    ## 
    ## Coefficients:
    ##             Estimate Std. Error t value Pr(>|t|)    
    ## (Intercept)  2.88658    0.22715  12.708  < 2e-16 ***
    ## EthN        -0.56765    0.15245  -3.724 0.000285 ***
    ## SexM         0.08699    0.15903   0.547 0.585268    
    ## AgeF1       -0.44501    0.23909  -1.861 0.064820 .  
    ## AgeF2        0.09283    0.23451   0.396 0.692819    
    ## AgeF3        0.35938    0.24659   1.457 0.147260    
    ## LrnSL        0.29671    0.18594   1.596 0.112812    
    ## ---
    ## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
    ## 
    ## (Dispersion parameter for Negative Binomial(2) family taken to be 1.483669)
    ## 
    ##     Null deviance: 280.18  on 145  degrees of freedom
    ## Residual deviance: 239.11  on 139  degrees of freedom
    ## AIC: 1120.5
    ## 
    ## Number of Fisher Scoring iterations: 7
    

    相关阅读:

    1. stats | 概率分布与随机数生成(一)——离散型分布

    2. stats | 广义线性模型(二)——泊松回归

    参考资料

    [1]

    Venables, W. N. and Ripley, B. D. (1999) Modern Applied Statistics with S-PLUS. Third Edition. Springer .

    展开全文
  • 对Crash Frequency.xls文件的数据进行建模分析,并回答以下问题:1.1、首先导入相关数据1.2、描述性统计1.3、计算变量的方差膨胀因子,检查多重共线性问题1.4、采用负二项回归建模1.5、拟合泊松回归模型2、 ...
  • 在这篇文章中,我将从一个基本的线性模型开始,然后从那里尝试找到一个更合适的线性模型。 数据预处理 由于空气质量数据集包含一些缺失值,因此我们将在开始拟合模型之前将其删除,并选择70%的样本进行训练并将...
  • 本文介绍回归模型的原理知识,包括线性回归、多项式回归和逻辑回归,并详细介绍Python Sklearn机器学习库的LinearRegression和LogisticRegression算法及回归分析实例。进入基础文章,希望对您有所帮助。
  • 文章目录一、回归模型1.1 回归模型定义1.2 回归模型分析方法、回归分析2.1 线性回归和多项式回归2.1.1 线性回归定义2.2.2 代码实现分析:2.2 逻辑回归2.2.1 逻辑回归定义2.2.2 代码说明2.3 多项式回归2.3.1 多项式...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 43,957
精华内容 17,582
关键字:

负二项回归模型