-
2022-07-12 20:16:02
R语言使用lm函数构建回归模型、使用confit函数获取回归系数的置信区间、设置levels参数指定置信区间的水平、范围(95%或者99%)
目录
更多相关内容 -
拓端tecdat|R语言基于Bootstrap的线性回归预测置信区间估计方法
2021-03-26 12:48:03我们知道参数的置信区间的计算,这些都服从一定的分布(t分布、正态分布),因此在标准误前乘以相应的t分值或Z分值。但如果我们找不到合适的分布时,就无法计算置信区间了吗?幸运的是,有一种方法几乎可以用于计算...全文链接:http://tecdat.cn/?p=21625
原文出处:拓端数据部落公众号
相关视频:什么是Bootstrap自抽样及应用R语言线性回归预测置信区间实例
什么是Bootstrap自抽样及R语言Bootstrap线性回归预测置信区间
,时长05:38
我们知道参数的置信区间的计算,这些都服从一定的分布(t分布、正态分布),因此在标准误前乘以相应的t分值或Z分值。但如果我们找不到合适的分布时,就无法计算置信区间了吗?幸运的是,有一种方法几乎可以用于计算各种参数的置信区间,这就是Bootstrap 法。
本文使用BOOTSTRAP来获得预测的置信区间。我们将在线性回归基础上讨论。
> reg=lm(dist~speed,data=cars) > points(x,predict(reg,newdata= data.frame(speed=x)))
这是一个单点预测。当我们想给预测一个置信区间时,预测的置信区间取决于参数估计误差。
预测置信区间
让我们从预测的置信区间开始
> for(s in 1:500){ + indice=sample(1:n,size=n, + replace=TRUE) + points(x,predict(reg,newdata=data.frame(speed=x)),pch=19,col="blue")
蓝色值是通过在我们的观测数据库中重新取样获得的可能预测值。值得注意的是,在残差正态性假设下(回归线的斜率和常数估计值),置信区间(90%)如下所示:
predict(reg,interval ="confidence",
在这里,我们可以比较500个生成数据集上的值分布,并将经验分位数与正态假设下的分位数进行比较,
> hist(Yx,proba=TRUE > boxplot(Yx,horizontal=TRUE > polygon(c( x ,rev(x I]))))
可以看出,经验分位数与正态假设下的分位数是可以比较的。
> quantile(Yx,c(.05,.95)) 5% 95% 58.63689 70.31281 + level=.9,newdata=data.frame(speed=x)) fit lwr upr 1 65.00149 59.65934 70.34364
感兴趣变量的可能值
现在让我们看看另一种类型的置信区间,关于感兴趣变量的可能值。这一次,除了提取新样本和计算预测外,我们还将在每次绘制时添加噪声,以获得可能的值。
> for(s in 1:500){ + indice=sample(1:n,size=n, + base=cars[indice,] + erreur=residuals(reg) + predict(reg,newdata=data.frame(speed=x))+E
在这里,我们可以(首先以图形方式)比较通过重新取样获得的值和在正态假设下获得的值,
> hist(Yx,proba=TRUE) > boxplot(Yx) abline(v=U[2:3) > polygon(c(D$x[I,rev(D$x[I])
数值上给出了以下比较
> quantile(Yx,c(.05,.95)) 5% 95% 44.43468 96.01357 U=predict(reg,interval ="prediction" fit lwr upr 1 67.63136 45.16967 90.09305
这一次,右侧有轻微的不对称。显然,我们不能假设高斯残差,因为有更大的正值,而不是负值。考虑到数据的性质,这是有意义的(制动距离不能是负数)。
然后开始讨论在供应中使用回归模型。为了获得具有独立性,有人认为必须使用增量付款的数据,而不是累计付款。
可以创建一个数据库,解释变量是行和列。
> base=data.frame( + y > head(base,12) y ai bj 1 3209 2000 0 2 3367 2001 0 3 3871 2002 0 4 4239 2003 0 5 4929 2004 0 6 5217 2005 0 7 1163 2000 1 8 1292 2001 1 9 1474 2002 1 10 1678 2003 1 11 1865 2004 1 12 NA 2005 1
然后,我们可以从基于对数增量付款数据的回归模型开始,该模型基于对数正态模型
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 7.9471 0.1101 72.188 6.35e-15 *** as.factor(ai)2001 0.1604 0.1109 1.447 0.17849 as.factor(ai)2002 0.2718 0.1208 2.250 0.04819 * as.factor(ai)2003 0.5904 0.1342 4.399 0.00134 ** as.factor(ai)2004 0.5535 0.1562 3.543 0.00533 ** as.factor(ai)2005 0.6126 0.2070 2.959 0.01431 * as.factor(bj)1 -0.9674 0.1109 -8.726 5.46e-06 *** as.factor(bj)2 -4.2329 0.1208 -35.038 8.50e-12 *** as.factor(bj)3 -5.0571 0.1342 -37.684 4.13e-12 *** as.factor(bj)4 -5.9031 0.1562 -37.783 4.02e-12 *** as.factor(bj)5 -4.9026 0.2070 -23.685 4.08e-10 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.1753 on 10 degrees of freedom (15 observations deleted due to missingness) Multiple R-squared: 0.9975, Adjusted R-squared: 0.9949 F-statistic: 391.7 on 10 and 10 DF, p-value: 1.338e-11 > exp(predict(reg1, + newdata=base)+summary(reg1)$sigma^2/2) [,1] [,2] [,3] [,4] [,5] [,6] [1,] 2871.2 1091.3 41.7 18.3 7.8 21.3 [2,] 3370.8 1281.2 48.9 21.5 9.2 25.0 [3,] 3768.0 1432.1 54.7 24.0 10.3 28.0 [4,] 5181.5 1969.4 75.2 33.0 14.2 38.5 [5,] 4994.1 1898.1 72.5 31.8 13.6 37.1 [6,] 5297.8 2013.6 76.9 33.7 14.5 39.3 > sum(py[is.na(y)]) [1] 2481.857
这与链式梯度法的结果略有不同,但仍然具有可比性。我们也可以尝试泊松回归(用对数链接)
glm(y~ + as.factor(ai)+ + as.factor(bj),data=base, + family=poisson) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 8.05697 0.01551 519.426 < 2e-16 *** as.factor(ai)2001 0.06440 0.02090 3.081 0.00206 ** as.factor(ai)2002 0.20242 0.02025 9.995 < 2e-16 *** as.factor(ai)2003 0.31175 0.01980 15.744 < 2e-16 *** as.factor(ai)2004 0.44407 0.01933 22.971 < 2e-16 *** as.factor(ai)2005 0.50271 0.02079 24.179 < 2e-16 *** as.factor(bj)1 -0.96513 0.01359 -70.994 < 2e-16 *** as.factor(bj)2 -4.14853 0.06613 -62.729 < 2e-16 *** as.factor(bj)3 -5.10499 0.12632 -40.413 < 2e-16 *** as.factor(bj)4 -5.94962 0.24279 -24.505 < 2e-16 *** as.factor(bj)5 -5.01244 0.21877 -22.912 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 46695.269 on 20 degrees of freedom Residual deviance: 30.214 on 10 degrees of freedom (15 observations deleted due to missingness) AIC: 209.52 Number of Fisher Scoring iterations: 4 > predict(reg2, newdata=base,type="response") > sum(py2[is.na(y)]) [1] 2426.985
预测结果与链式梯度法得到的估计值吻合。克劳斯·施密特(Klaus Schmidt)和安吉拉·温什(Angela Wünsche)于1998年在链式梯度法、边际和最大似然估计中建立了与最小偏差方法的联系。
最受欢迎的见解
3.matlab中的偏最小二乘回归(PLSR)和主成分回归(PCR)
5.R语言回归中的Hosmer-Lemeshow拟合优度检验
-
多元线性回归模型的t检验和回归系数的置信区间
2017-02-13 14:06:03t检验和回归系数的置信区间 当上述F检验结论是推翻H0时,并不见得每个解释变量都对yt有显著的解释作用(即不见得每一个都是重要解释变量),所以还应对每个解释变量的系数进行显著性检验。零假设from:http://classroom.dufe.edu.cn/spsk/c102/wlkj/CourseContents/Chapter03/03_08_01.htm
t检验和回归系数的置信区间 当上述F检验结论是推翻H0时,并不见得每个解释变量都对yt有显著的解释作用(即不见得每一个都是重要解释变量),所以还应对每个解释变量的系数进行显著性检验。
零假设与备择假设分别是H0:bj = 0, (j = 1, 2, …, k-1),
H1:b j ¹ 0, (j = 1, 2, …, k – 1).
在H0成立条件下,
(3.46)
其中s(
) 表示
的估计的标准差,即
的方差协方差矩阵s 2 (X' X )-1主对角线上第j +1个元素的算术根。s按(3.23)式计算,是对s 的估计。设检验水平为 a ,则检验规则是,
若用样本计算的 | t | £ ta / 2 (T - k) ,则接受H0,
若用样本计算的 | t | > ta / 2 (T - k) ,则拒绝H0。
注意:对于模型 (3.1),上述t检验应做k - 1次。t检验是双端(侧)检验。
下面估计单个b j的置信区间。由
E(
) = bj,
(
) = (s 2 (X ' X )-1)j+1
有
由上式括号内部分得
则单个b j的置信区间是
(3.47)
-
R语言使用BOOT重抽样获取回归方程系数95%可信区间(1)
2022-04-05 16:35:59bootstrap自采样目前广泛应用与统计学中,其原理很简单就是通过自身原始数据抽取一定量的样本(也就是取子集)...本期我们将通过R语言演示BOOT重抽样进行回归方程系数的可信区间计算。 我们先导入数据和R包 library(bobootstrap自采样目前广泛应用与统计学中,其原理很简单就是通过自身原始数据抽取一定量的样本(也就是取子集),通过对抽取的样本进行统计学分析,然后继续重新抽取样本进行分析,不断的重复这一过程N(大于500次以上)次,然后得到N个统计结果,然后进行区间分析,得到最终结果。
bootstrap自采样对于小样本数据计算效果较好,也可以在线性方程中通过bootstrap自采样计算并绘制出可信区间。本期我们将通过R语言演示BOOT重抽样进行回归方程系数的可信区间计算。
我们先导入数据和R包library(boot) bc<-read.csv("E:/r/test/zaochan.csv",sep=',',header=TRUE) bc <- na.omit(bc)
这是一个关于早产低体重儿的数据(公众号回复:早产数据,可以获得该数据),低于2500g被认为是低体重儿。数据解释如下:low 是否是小于2500g早产儿,age 母亲的年龄,lwt 末次月经体重,race 种族,smoke 孕期抽烟,ptl 早产史(计数),ht 有高血压病史,ui 子宫过敏,ftv 早孕时看医生的次数
bwt 新生儿体重数值。
先把分类变量转成因子bc$race<-ifelse(bc$race=="black",1,ifelse(bc$race=="white",2,3)) bc$smoke<-ifelse(bc$smoke=="nonsmoker",0,1) bc$low<-factor(bc$low) bc$race<-factor(bc$race) bc$ht<-factor(bc$ht) bc$ui<-factor(bc$ui)
建立回归方程
fit<-glm(low ~ age + lwt + race + smoke + ptl + ht + ui + ftv, family = binomial("logit"), data = bc) summary(fit)
在这里R已经把标准误计算出来了,我们等会使用BOOT计算和它进行个比较。进行BOOT之前要先写个简单的function,非常简单就是用function包住回归方程就可以了model_coef <- function(data,index){ coef(glm(low ~ age + lwt + race + smoke + ptl + ht + ui + ftv, family = binomial("logit"), data =bc,subset =index)) }
写好以后我们要调试一下function看写得对不对,写不对的话重抽样不可能成功。我们对代码取了一个子集,其实也相当于1次重抽样
model_coef(bc,1:100)
OK,写得function没问题后就可以重抽样了。Data为抽样的数据,statistic为抽样的函数,R为抽样的次数,我这里抽500次。results <- boot(data=bc, statistic=model_coef, R=500)
把结果导出,它这里是按1-10排序的,自己对照一下就可以了,t2是age这个变量,有了标准误就可以轻易计算可信区间了。print(results)
还可以查看它的抽样分布plot(results)
本章先介绍一个简单的抽样模型,再慢慢深入,BOOT重抽样内容预计3个章节介绍完。 -
R语言如何计算回归模型参数的置信区间?
2022-03-22 20:40:08R语言如何计算回归模型参数的置信区间? -
R线性回归模型构建:残差值、回归值、预测域、置信区间
2021-08-08 17:12:31R线性回归模型构建:残差值、回归值、预测域、置信区间 简单线性回归(simple linear-regression)是预测连续变量的最简单,最流行的技术。它的前提假设是:结果与预测变量之间存在线性关系。 线性回归的数学... -
手动计算多元线性回归(OLS)的置信区间
2021-03-06 22:28:55我试图了解如何手动计算多元线性回归(OLS)的置信区间 . 我的问题是我不知道如何计算所有单个系数的标准误差 .事实证明,该公式有效 . 但是,我并没有完全理解这个公式 . 例如,为什么(-2)位于公式的顶部 . 为了验证... -
R语言使用glm函数构建泊松回归模型(Poisson Regression)、使用exp函数和confint函数获取泊松回归模型所有...
2022-06-15 20:16:54R语言使用glm函数构建泊松回归模型(Poisson Regression)、使用exp函数和confint函数获取泊松回归模型所有系数的事件密度比(IDR)的95%置信区间 -
回归问题的置信区间AUC_2.2 一元线性回归:假设检验和置信区间
2020-11-21 22:05:27第三节讲了一元回归模型中的一种特殊情况,即当X为二值变量时,回归系数 应当如何解释。一般的一元回归模型中, 表示斜率,但在二值变量的情况下,不存在“直线”,也就无从谈论斜率。这里, 的含义表示X取0时Y的... -
线性回归置信区间:计算并绘制线性拟合可能所在的置信区间。-matlab开发
2021-05-30 15:44:10令我沮丧的是,我发现 matlab 的 regstats 中没有内置这个函数,或者至少我不知道如何从 regstats 中获取它。 这是计算回归统计漏斗图的一段快速代码。 -
置信系数 表达了置信区间的计算_2.4 多元回归中的假设检验和置信区间
2020-11-22 12:04:57第一节是一元回归统计推断在多元回归中的推广,主要针对的是单个系数的假设检验和置信区间,除了在假设阶段有所不同(比如是在固定其他变量的情况下,被检验变量对因变量没有影响),基本步骤是一样的,理论基础也都... -
Python 绘制线性回归散点图和置信区间线2
2022-07-17 22:51:12fromsklearn.model_selectionimporttrain_test_split库实现数据的分割。使用的数据,采用随机创建方法,不同于上一篇,这里的x,y分别是二维数组。和上一篇类似,绘制线性回归方程和置信区间线。 -
第5章 一元线性回归:假设检验和置信区间
2021-04-12 20:54:44一、关于某个回归系数的假设检验t检验:双边假设和单边假设二、回归系数的置信区间三、X为二元变量时的回归指示变量(indicator variable)&虚拟变量(dummy variable),其系数不是指斜率,而是看作的系数四、异... -
SQL中的线性回归置信区间
2021-04-12 20:54:46我正在使用一些相当直接的SQL代码来计算一些(x,y)数据点的回归系数(截距和斜率),使用最小二乘法 . 这给了我一个很好的最佳线条数据 . 但是,我们希望能够看到最佳拟合线的95%和5%置信区间(下面的曲线) .这些意味... -
如何从python OLS 线性回归结果中提取 系数B 的95%可信区间
2021-06-04 10:47:21OLS Regression Results =========...Dep....Model: OLS Adj....No....现在想提b值的95%可信区间:黑色粗体字的结果 <strong>-1.443 0.758</strong></p> -
拓端tecdat|R语言中回归模型预测的不同类型置信区间应用比较分析
2020-03-22 23:03:14在上一课中,我们讨论了使用引导程序来获得预测的置信区间的方法。我把正在进行的在线输入代码(很简单的评论,我可以回到旧票ACT6420课程补充剂)。我们将在我最喜欢的基础上讨论线性回归(在讨论配置三角形之前,... -
R语言使用epiDisplay包的idr.display函数获取负二项分布回归模型的汇总统计信息(初始事件密度比IDR值、...
2022-06-12 17:24:11R语言使用epiDisplay包的idr.display函数获取负二项分布回归模型的汇总统计信息(初始事件密度比IDR值、调整事件密度比IDR值及其置信区间、Wald检验的p值和似然比检验的p值) -
R语言使用lm函数构建多元回归模型(Multiple Linear Regression)、并...confint函数给出回归系数的95%置信区间
2022-07-12 19:48:07R语言使用lm函数构建多元回归模型(Multiple Linear Regression)、并根据模型系数写出回归方程、使用confint函数给出回归系数的95%置信区间 -
残差的正太概率图含变量交叉项,写残差向量,计算回归系数的置信区间,检验自变量系数是否相等,利用R²,...
2022-05-15 21:26:29对代码1: (1)统计关键词clb是求回归系数的置信度为95%的置信区间。 (2)根据F值68.12和P值,所以拒绝原假设,接受备择假设,认为Yi与Xi1-Xi3之间具有显著的线性相关关系,即回归方程是显著的; (3)由R-Square... -
回归问题的置信区间AUC_戴明回归 | 两种仪器的测量结果相同吗
2020-11-21 12:44:29戴明回归使用正交回归(也叫 Deming 回归)可以确定两种仪器或两种方法能否提供相似的测量结果。正交回归检查两个连续变量(一个响应变量 (Y) 和一个预测变量 (X))之间的线性关系。与简单线性回归(最小二乘回归)... -
MATLAB 线性回归多项式拟合+预测区间、置信区间的绘制
2021-03-05 23:12:28MATLAB 线性回归多项式拟合+预测区间、置信区间的绘制一、前言二、多项式拟合polyfit1、语法2、示例三、区间绘制四、整体源码五、思考六、参考博客 一、前言 现有一组数据:x、y x=[1 2 3 4 5 6 7 8 9 10]; y=[11 13... -
R语言使用lm函数构建多重线性回归模型、分析模型中的多重共线性问题、使用...线性回归模型回归系数的置信区间
2022-05-11 21:51:34R语言使用lm函数构建多重线性回归模型、分析模型中的多重共线性(multicollinearity)问题、使用step函数基于AIC指标实现逐步回归解决共线性问题、使用confint函数计算多元线性回归模型回归系数的置信区间 -
statistics-如何在R中的线性回归模型中计算斜率的95%置信区间
2021-04-12 20:54:01这是R的入门统计练习:使用rmr数据集,绘制代谢率与体重的关系图。... 给出直线斜率的95%置信区间。rmr数据集位于“ ISwR”包中。 看起来像这样:> rmrbody.weight metabolic.rate1 49.9 10792 50.8 ... -
多项式回归的置信区间
2021-03-01 09:10:13要计算拟合曲线的置信区间,需要使用 a complete variance-covariance matrix 作为三个系数,但现在只有该矩阵的对角线条目 .如果已经拟合了正交多项式,则方差 - 协方差矩阵是对角线的,具有相同的对角线元素 . 这... -
怎样理解置信区间,解释95%的置信区间
2020-12-24 14:07:43展开全部置信区间(Confidence interval)是指由样本统计量所构造的总体参数的估计区间。在统计学中,32313133353236313431303231363533e58685e5aeb931333431356637一个概率样本的置信区间是对这个样本的某个总体参数... -
R语言使用epiDisplay包的regress....置信区间、回归系数的t检验的p值、自变量的F检验的p值)、保存到csv
2022-06-12 17:33:48R语言使用epiDisplay包的regress.display函数获取广义线性回归模型glm的汇总统计信息(调整回归系数值及其置信区间、回归系数的t检验的p值、自变量的F检验的p值)、使用write.csv函数将统计汇总信息保存为到csv中...... -
R语言glm函数构建二分类logistic回归模型(family参数为binomial)、使用confint函数获取优势比的95%置信...
2022-06-16 21:18:16R语言glm函数构建二分类logistic回归模型(family参数为binomial)、使用confint函数获取优势比的95%置信区间(通过结果指数化转换成优势比) -
Bootstrap重采样进行参数估计 - 置信区间
2022-04-08 02:19:14Bootstrap重采样进行参数估计 - 置信区间 参考 Bootstrap采样 用 Bootstrap 进行参数估计大有可为 利用Bootstrap法估计置信区间 python之Boostrap自助法介绍 统计学中的Bootstrap方法(Bootstrap抽样) ... -
拓端tecdat|R语言Bootstrap(自举法,自抽样法)估计回归置信区间分析股票收益
2022-03-21 20:22:40原文出处:拓端数据部落公众号 介绍 假设你做了一个简单的回归,现在你有了你的....例如,(95%)置信区间是,1.96 来自正态分布。 建议不要这样做,bootstrapping* 的优点在于它没有分布的问题,它适用于.. -
python:在sklearn中如何使用logistic回归系数构造决策边界
2021-03-06 05:04:04在这里,我尝试生成一个不平衡的分类集,运行logistic回归,绘制数据点并绘制决策边界线。在为了绘制决策边界线,我首先得到系数:coef = clf.best_estimator_.coef_intercept = clf.best_estimator_.intercept_然后...