精华内容
下载资源
问答
  • R平方 测试p值 Logistic回归示例 模型拟合 系数和指数系数 方差分析 伪R平方 模型的整体p值 标准化残差图 绘制模型 Logistic回归示例 模型拟合 系数和指数系数 方差分析 伪R平方 模型的整...

    原文链接:http://tecdat.cn/?p=9589

    原文出处:拓端数据部落公众号


    目录

    怎么做测试

    假设条件

    并非所有比例或计数都适用于逻辑回归分析

    过度分散

    伪R平方

    测试p值

    Logistic回归示例

    模型拟合

    系数和指数系数

    方差分析 

    伪R平方

    模型的整体p值

    标准化残差图

    绘制模型

    Logistic回归示例

    模型拟合

    系数和指数系数

    方差分析

    伪R平方

    模型的整体p值

    标准化残差图

    绘制模型

    Logistic回归示例


    怎么做测试

    Logistic回归可以使用glm  (广义线性模型)函数在R中执行  。该函数使用链接函数来确定要使用哪种模型,例如逻辑模型,概率模型或泊松模型。 

    假设条件

    广义线性模型的假设少于大多数常见的参数检验。观测值仍然需要独立,并且需要指定正确的链接函数。因此,例如应该了解何时使用泊松回归以及何时使用逻辑回归。但是,不需要数据或残差的正态分布。

     

    并非所有比例或计数都适用于逻辑回归分析

    一个不采用逻辑回归的例子中,饮食研究中人们减肥的体重无法用初始体重的比例来解释作为“成功”和“失败”的计数。在这里,只要满足模型假设,就可以使用常用的参数方法。

     

    过度分散

    使用广义线性模型时要注意的一个潜在问题是过度分散。当模型的残余偏差相对于残余自由度较高时,就会发生这种情况。这基本上表明该模型不能很好地拟合数据。 

     

    但是据我了解,从技术上讲,过度分散对于简单的逻辑回归而言不是问题,即具有二项式因果关系和单个连续自变量的问题。

     

    伪R平方

    对于广义线性模型(glm),R不产生r平方值。pscl  包中的  pR2  可以产生伪R平方值。

     

    测试p值

    检验逻辑对数或泊松回归的p值使用卡方检验。方差分析  来测试每一个系数的显着性。似然比检验也可以用来检验整体模型的重要性。

     

    Logistic回归示例

     

    
    
    Data = read.table(textConnection(Input),header=TRUE)
    
    Data$Total = Data$mpi90 + Data$mpi100
    
    Data$Percent = Data$mpi100 / + Data$Total

    模型拟合

    Trials = cbind(Data$mpi100, Data$mpi90)         # Sucesses, Failures
    
    model = glm(Trials ~ Latitude, 
                data = Data, 
                family = binomial(link="logit"))

    系数和指数系数

    
    Coefficients:
    
                Estimate Std. Error z value Pr(>|z|)   
    
    (Intercept) -7.64686    0.92487  -8.268   <2e-16 ***
    
    Latitude     0.17864    0.02104   8.490   <2e-16 ***
    
     
    
     
    
    
                     2.5 %     97.5 %
    
    (Intercept) -9.5003746 -5.8702453
    
    Latitude     0.1382141  0.2208032
    
     
    
     
     # exponentiated coefficients
    
     
    
    (Intercept)     Latitude
    
    0.0004775391 1.1955899446
    
     
    
     
     # 95% CI for exponentiated coefficients
    
     
    
                       2.5 %      97.5 %
    
    (Intercept) 7.482379e-05 0.002822181
    
    Latitude    1.148221e+00 1.247077992

    方差分析 

    
    
    Analysis of Deviance Table (Type II tests)
    
     
    
    Response: Trials
    
              Df  Chisq Pr(>Chisq)   
    
    Latitude   1 72.076  < 2.2e-16 ***

    伪R平方

     

    
    $Models
    
                                                                    
    
    Model: "glm, Trials ~ Latitude, binomial(link = \"logit\"), Data"
    
    Null:  "glm, Trials ~ 1, binomial(link = \"logit\"), Data"      
    
     
    
    $Pseudo.R.squared.for.model.vs.null
    
                                 Pseudo.R.squared
    
    McFadden                             0.425248
    
    Cox and Snell (ML)                   0.999970
    
    Nagelkerke (Cragg and Uhler)         0.999970

     

    模型的整体p值

     

    
     
    
    Analysis of Deviance Table
    
     
    
    Model 1: Trials ~ Latitude
    
    Model 2: Trials ~ 1
    
      Resid. Df Resid. Dev Df Deviance  Pr(>Chi)   
    
    1         6     70.333                         
    
    2         7    153.633 -1  -83.301 < 2.2e-16 ***
    
     
    
    
    Likelihood ratio test
    
     
    
    Model 1: Trials ~ Latitude
    
    Model 2: Trials ~ 1
    
      #Df  LogLik Df  Chisq Pr(>Chisq)   
    
    1   2 -56.293                        
    
    2   1 -97.944 -1 83.301  < 2.2e-16 ***

     

    标准化残差图

     

     

     

     

    标准化残差与预测值的关系图。残差应无偏且均等。 

     

    绘制模型

     

     

     

     

     

    Logistic回归示例

     

    
    
    Data = read.table(textConnection(Input),header=TRUE)
    
     

     

    模型拟合

     

    model 

    系数和指数系数

     

    
    
    Coefficients:
    
                Estimate Std. Error z value Pr(>|z|)
    
    (Intercept)  4.41379    6.66190   0.663    0.508
    
    Height      -0.05016    0.09577  -0.524    0.600
    
     
    
     
    
    
     
    
                     2.5 %     97.5 %
    
    (Intercept) -8.4723648 18.4667731
    
    Height      -0.2498133  0.1374819
    
     
    
      # exponentiated coefficients
    
     
    
    (Intercept)      Height
    
     82.5821122   0.9510757
    
     
    
     
     # 95% CI for exponentiated coefficients
    
     
    
                       2.5 %       97.5 %
    
    (Intercept) 0.0002091697 1.047171e+08
    
    Height      0.7789461738 1.147381e+0
    
     

     

    方差分析

     

    
    
    Analysis of Deviance Table (Type II tests)
    
     
    
    Response: Insect
    
              Df  Chisq Pr(>Chisq)
    
    Height     1 0.2743     0.6004
    
    Residuals 23

    伪R平方

     

    
    
    $Pseudo.R.squared.for.model.vs.null
    
                                 Pseudo.R.squared
    
    McFadden                           0.00936978
    
    Cox and Snell (ML)                 0.01105020
    
    Nagelkerke (Cragg and Uhler)       0.01591030

     

    模型的整体p值

     

    
    
    Analysis of Deviance Table
    
     
    
    Model 1: Insect ~ Height
    
    Model 2: Insect ~ 1
    
      Resid. Df Resid. Dev Df Deviance Pr(>Chi)
    
    1        23     29.370                    
    
    2        24     29.648 -1 -0.27779   0.5982
    
     
    
     
     
    
    Likelihood ratio test
    
     
    
    Model 1: Insect ~ Height
    
    Model 2: Insect ~ 1
    
      #Df  LogLik Df  Chisq Pr(>Chisq)
    
    1   2 -14.685                     
    
    2   1 -14.824 -1 0.2778     0.5982

    标准化残差图

     

     

     

    绘制模型

     

    
     
    
       Height Insect Insect.num
    
    1      62 beetle          0
    
    2      66  other          1
    
    3      61 beetle          0
    
    23     72  other          1
    
    24     70 beetle          0
    
    25     74  other          1
    
     
    

     

     

     

     

    
     
    
       Height Insect Insect.num Insect.log
    
    1      62 beetle          0      FALSE
    
    2      66  other          1       TRUE
    
    3      61 beetle          0      FALSE
    
    23     72  other          1       TRUE
    
    24     70 beetle          0      FALSE
    
    25     74  other          1       TRUE
    

     

     

    Logistic回归示例

     

    
    
    Data = read.table(textConnection(Input),header=TRUE)
    
    
    model
    
    Coefficients:
    
                Estimate Std. Error z value Pr(>|z|) 
    
    (Intercept) -66.4981    32.3787  -2.054   0.0400 *
    
    Continuous    0.9027     0.4389   2.056   0.0397 *
    
     
    
     
     
    
    Analysis of Deviance Table (Type II tests)
    
     
    
    Response: Factor
    
               Df Chisq Pr(>Chisq) 
    
    Continuous  1 4.229    0.03974 *
    
    Residuals  27                  
    
     
    
     
    
                                 Pseudo.R.squared
    
    McFadden                             0.697579
    
    Cox and Snell (ML)                   0.619482
    
    Nagelkerke (Cragg and Uhler)         0.826303
    
     
    
     
     
    
      Resid. Df Resid. Dev Df Deviance Pr(>Chi)   
    
    1        27     12.148                        
    
    2        28     40.168 -1   -28.02  1.2e-07 ***
    
     
    
     

     

    将因子转换为数字变量,级别为0和1 
     

    
    
       Continuous Factor Factor.num
    
    1          62      A          0
    
    2          63      A          0
    
    3          64      A          0
    
    27         84      B          1
    
    28         85      B          1
    
    29         86      B          1
    
     
    

     

     

     

    将Factor转换为逻辑变量,级别为TRUE和FALSE 
     

    
     
    
       Continuous Factor Factor.num Factor.log
    
    1          62      A          0      FALSE
    
    2          63      A          0      FALSE
    
    3          64      A          0      FALSE
    
    27         84      B          1       TRUE
    
    28         85      B          1       TRUE
    
    29         86      B          1       TRUE
    
     

    展开全文
  • 如何理解R平方

    2021-05-05 11:01:50
    如何理解R平方? 文章目录如何理解R平方?1. 公式2. 公式解释3. 结论 1. 公式 R2=ESSTSS R^2 = \frac{ESS}{TSS} R2=TSSESS​ 意义:回归平方和在总平方和中所占的百分比,数值越大,模型预测效果越好。 2. 公式解释 ...

    如何理解R平方?

    1. 公式

    R 2 = E S S T S S R^2 = \frac{ESS}{TSS} R2=TSSESS

    意义:回归平方和在总平方和中所占的百分比,数值越大,模型预测效果越好。

    2. 公式解释

    • ŷ表示因变量回归值,即预测值
    • ȳ表示因变量均值
    • y i y_i yi表示第i个因变量

    T S S = ∑ ( y i − y ˉ ) 2 TSS = \sum(y_i-ȳ)^2 TSS=(yiyˉ)2
    TSS等于因变量和因变量均值的离差平方和,衡量因变量本身距离均值的误差程度

    E S S = ∑ ( y ^ − y ˉ ) 2 ESS = \sum(ŷ-ȳ)^2 ESS=(y^yˉ)2
    ESS等于预测值和因变量均值的离差平方和,衡量预测值距离均值的误差程度

    R S S = ∑ ( y i − y ^ ) 2 RSS = \sum(y_i-ŷ)^2 RSS=(yiy^)2
    RSS等于因变量和预测值的离差平方和,衡量预测值和实际值之间的误差程度。

    T S S = E S S + R S S TSS = ESS + RSS TSS=ESS+RSS

    名称关系
    TSS因变量与因变量均值的离差平方和
    ESS预测值与因变量均值的离差平方和
    RSS预测值与实际值均值的离差平方和

    3. 结论

    简单来说,如果预测准确率100%, 那就没有误差,预测值完全等于被预测的因变量,所以ESS等于TSS,所以R平方等于1。

    综上所述,R平方最大为1,R平方越大,预测效果越好。

    展开全文
  • 线性回归中的R*2平方

    千次阅读 2020-04-27 15:21:13
    1.定义:决定系数,反应因变量的全部变异能通过回归关系被自变量解释的比例,回归中可解释离差平方和与总离差平方和之比值,其数值等于相关系数R平方。简而言之:模型可以解释为多大程度是自变量导致因变量的改变...

    回归分析,是对两个或两个以上变量之间的因果关系进行定量研究的一种统计分析方法。在做回归分析或者解决回归问题时,常会用到R²平方值。

    定义:

    应用描述:

    应用实现代码:

     

    R^2定义:

    1.定义:决定系数,反应因变量的全部变异能通过回归关系被自变量解释的比例,回归中可解释离差平方和与总离差平方和之比值,其数值等于相关系数R的平方。简而言之:模型可以解释为多大程度是自变量导致因变量的改变。

     2 描述:即判定系数R^2是评估回归模型好坏的指标。R平方取值范围也为0~1,通常以百分数表示。比如回归模型的R平方等于0.7,那么表示,此回归模型对预测结果的可解释程度为70%。

    公式:

     

    R^2应用描述:

    进行线行回归时,R²为回归平方和与总离差平方和的比值,这一比值越大,表示总离差平方和中可以由回归平方和解释的比例越大,模型越精确,回归效果越显著。从数值上说,R²介于0~1之间,越接近1,回归拟合效果越好,一般认为超过0.8的模型拟合优度比较高。

    在模型调整时,增加自变量的个数,判定系数就会增加,即随着自变量的增多,R平方会越来越大,会显得回归模型精度很高,有较好的拟合效果。而实际上可能并非如此,有些自变量与因变量(即预测)完全不相关,增加这些自变量,并不会提升拟合水平和预测精度。

    如果调整后的R平方与R平方存在明显差异,则意味着所用的自变量不能很好的测算因变量的变化,或者是遗漏了一些可用的自变量。调整后的R平方与R平方间差距越大,模型的拟合越差。

    R^2应用实现代码:

    import numpy as np
    import math
    
    
    def R2(X, Y):
        xBar = np.mean(X)
        yBar = np.mean(Y)
        SSR = 0
        varX = 0
        varY = 0
        for i in range(0, len(X)):
            diffXXBar = X[i] - xBar
            diffYYBar = Y[i] - yBar
            SSR += (diffXXBar * diffYYBar)
            varX += diffXXBar ** 2
            varY += diffYYBar ** 2
    
        SST = math.sqrt(varX * varY)
        return SSR / SST
    
    testX = [1, 3, 8, 7, 9]
    testY = [10, 12, 24, 21, 34]
    
    print(R2(testX, testY))
    
    #
    0.94031007654487
    

     

    展开全文
  • 第22节--回归中的相关度和R平方

    千次阅读 2016-11-03 14:05:27
    相关系数R平方值定义:决定系数,反应因变量的全部变异能通过回归关系被自变量解释的比例。描述:如R平方为0.8,则表示回归关系可以解释因变量80%的变异。换句话说,如果我们能控制自变量不变,则因变量的变异程度会...

    相关系数

    这里写图片描述

    这里写图片描述

    R平方值

    定义:决定系数,反应因变量的全部变异能通过回归关系被自变量解释的比例。

    描述:如R平方为0.8,则表示回归关系可以解释因变量80%的变异。换句话说,如果我们能控制自变量不变,则因变量的变异程度会减少80%

    简单线性回归:R^2 = r * r

    多元线性回归:
    这里写图片描述

    这里写图片描述

    这里写图片描述

    R平方也有其局限性:R平方随着自变量的增加会变大,R平方和样本量是有关系的。因此,我们要到R平方进行修正。修正的方法:

    这里写图片描述

    展开全文
  • 回归中的相关系数以及R平方值和Python应用举例 1. 皮尔逊相关系数 (Pearson Correlation Coefficient): 1.1 衡量两个值线性相关强度的量 1.2 取值范围 [-1, 1]: 正向相关: >0, 负向相关: 2. R平方值:...
  • 1. 相关度相关度又叫 皮尔逊相关系数 (Pearson Correlation Coefficient): 衡量两个值线性相关强度的量 取值... R平方值:模型可以解释为多大程度是自变量导致因变量的改变简单线性回归:R^2 = r * r多元线性回归:R...
  • 该项目提供了线性回归模型的R平方的解释。 1-线性回归ML模型: 简而言之,线性回归试图通过将线性方程拟合到观察到的数据来建模两个变量之间的关系。 一个变量被认为是解释性变量,另一个被认为是因变量。 线性...
  • 皮尔逊相关系数(Pearson Correlation Coefficient) 衡量两个值线性相关强度的量 取值范围[-1,1]:  正向相关:>0, 负向相关: 求相关系数: ...描述:如R平方为0.8,则表示回归关系可以解释因
  • 回归模型效果评估系列3-R平方

    千次阅读 2019-10-07 12:22:33
    决定系数(coefficient of determination,R2)是反映模型拟合优度的重要的统计量,为回归平方和与总平方和之比。R2取值在0到1之间,且无单位,其数值大小反映了回归贡献的相对程度,即在因变量Y的总变异中回归关系...
  • 回归中的相关度和R平方值 学习笔记

    千次阅读 2019-08-01 00:07:44
    回归中的相关度和R平方值 自变量x和因变量y的相关度 1.皮尔逊相关系数(Pearson Correlation Coefficient): 1.1衡量两个值线性相关强度的量 1.2取值范围[-1,1]: 正向相关: >0,负向相关: <0,无相关性: =0 公式:...
  • 回归中的相关度和R平方

    万次阅读 2018-06-24 12:17:41
    机器学习中关于回归模型有时候需要衡量自变量和因变量之间的相关度,接下来介绍两个衡量相关度的指标: 皮尔逊相关系数 它是用来衡量两个变量之间的相关...R平方值 也称为决定系数,反映因变量的全部变异能通过回...
  • 最近公司正在做一个基于熟人关系网络的投顾系统,数据库里面有一个基础的拉人注册表,描述了注册者和他的上级的从属关系,是一级关系。 但是公司基于业务需要,需要对每一个人的上下线关系进行梳理这样就必须要有一...
  • 最近我被问到我的 - [R和Stata的软件包是否能够适应协变量之间的非线性关系。答案是肯定的,在这篇文章中,我将说明如何做到这一点。 为了说明,我们将模拟具有两个协变量X1和X2以及连续结果ý的非常大的数据集。...
  • 格兰杰因果关系检验(原理及R语言应用实例)

    万次阅读 多人点赞 2010-05-14 13:00:00
    诺贝尔经济学奖获得者,计量经济学大师克莱夫·格兰杰(Clive Granger)从预测的角度给出了因果关系的一种描述性定义,这就是我们现在所熟知的Granger因果关系。格兰杰因果关系检验是计量经济方法中常用的一种检验...
  • 模板匹配中差值的平方和(SSD)与互相关准则的关系 zouxy09@qq.com http://blog.csdn.net/zouxy09 模板匹配TemplateMatching是在图像中寻找目标的方法之一。原理很简单,就是在一幅图像中寻找和模板图像...
  • 学习彭亮《深度学习基础介绍:机器学习》课程 皮尔逊相关系数 (Pearson Correlation Coefficient): 概念:衡量两个值线性...R平方值 定义:决定系数,反应因变量的全部变异能通过回归关系被自变量解释的比例。
  • 什么是BV/BVR? BV线,全称为单芯聚氯乙烯绝缘电线电缆。 BVR电线,全称为铜芯聚氯乙烯绝缘软电线。 BV线,其导体结构为单芯,因此质地较硬。 BVR电线,导体结构是由多股铜丝相互绞合...电线的平方实际上标的是电线
  • 7.6 回归中的相关度和R平方

    千次阅读 2016-07-06 20:38:48
    皮尔逊相关系数 (Pearson Correlation Coefficient): 1.1 衡量两个值线性相关...R平方也有其局限性:R平方随着自变量的增加会变大,R平方和样本量是有关系的。因此,我们要到R平方进行修正。修正的方法:
  • 机器学习-回归中的相关度和R平方

    千次阅读 2019-10-03 06:42:13
    R平方随着自变量的增加会变大,R平方和样本量是有关系的。因此,我们要对R平方进行修正。修正方法:    实际中一般会选择修正后的R平方值对线性回归模型对拟合度进行评判  Python实现: # -*- coding...
  • 原标题:“圆的面积πR平方。应该是四个6寸才等于一个12寸的”。 1、刚接到一个电话,“您好,我是瓜子二手车…”我问她,你是卖瓜子,还是卖二手车?她说卖二手车的。我又问她,那瓜子跟你有毛关系?妹子不开心了,...
  • R平方也有其局限性:R平方随着自变量的增加会变大,R平方和样本量是有关系的。因此,我们要到R平方进行修正。修正的方法: import numpy as np import math import matplotlib.pylab as plt...
  • R平方和样本量是有关系的。因此,要对得到的 R平方进行修正,修正方法如下: 6、在Python中实现相关度与R平方值 #!/usr/bin/env python # -*- coding:utf-8 -*- # Author:ZhengzhengLiu import numpy ...
  • R平方随着自变量的增加会变大,R平方和样本量是有关系的。因此,我们要到R平方进行修正。 修正的方法: R^2adjusted = 1 - \frac{(1 - R^2)(N - 1)}{N - p - 1}   R^2:R平方 N:样本的个数 p...
  • 一元线性回归分析的R语言实现(RStudio

    万次阅读 多人点赞 2019-11-09 19:43:13
    回归分析是一种应用广泛的数理统计方法,它是研究变量与变量之间的相关关系,这种关系大致分为两类:确定性关系(能用函数精确描述)和非确定性关系(不能用函数描述)。 变量间的非确定性关系称为相关关系。 在回归...
  •   作者:周洋 (清华大学);李森林 (中南财经政法大学);连玉君 (中山大学) Stata 连享会: 知乎 | 简书 | 码云 | CSDN Stata连享会   计量专题 || 精品课程 || 简书推文 || 公众号合集 ...在模型中加入平方...
  • 目录 一、基础理论介绍 0. 前提介绍: 1. 介绍: 回归(regression) Y变量为连续数值型(continuous numerical variable)如:房价,人数,降雨量分类(Classification): Y变量为... 简单线性回归(Simple Linear R...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 37,070
精华内容 14,828
关键字:

关系r的平方