精华内容
下载资源
问答
  • R语言——一秒Logistic回归分析

    千次阅读 2019-02-21 12:58:37
    R语言——一秒Logistic回归分析话不多说,盘它代码:问题区: 话不多说,盘它 代码: // 小龙虾:简易Logistic回归共享分析 // 直接复制进R.Studio,编译即可 # Read in Data # myfile<-read.csv(file....

    R语言——一秒Logistic回归分析

    话不多说,盘它

    代码:

    // 小龙虾:简易Logistic回归共享分析
    // 直接复制进R.Studio,编译即可
    
    # Read in Data
    # myfile<-read.csv(file.choose(),header=FALSE) 
    install.packages("AER")
    library(AER)
    data(CreditCard)
    View(CreditCard)
    summary(CreditCard)
    
    bankcard <- CreditCard
    write.csv(bankcard,file = "bankcard.csv")
    
    # 一次生成训练和测试数据集
    set.seed(102)
    select <- sample(1:nrow(bankcard),nrow(bankcard)*0.7)
    train <- bankcard[select,]
    test <- bankcard[-select,]
    
    
    card_glm <- glm(formula = card ~ ., family = "binomial", data = train)
    summary(card_glm)
    
    
    
    result <- predict(card_glm, newdata = test, type = "response")
    test.y_hat <- ifelse(result > 0.5, "yes", "no")
    
    result_all <- data.frame(Prediction=test.y_hat, 
                  Prob_for_yes=round(result,3),
                  Actual=test$card)
    result_all
    
    # 模型准确度评价
    accuracy.lr <- sum(test.y_hat==test$card) / length(test.y_hat)
    accuracy.lr
    
    cm1 <- table(test$card, test.y_hat, dnn = c("Actual","Prediction"))
    cm1
    
    
    # 逐步回归,筛选变量
    step(card_glm2, direction = "both", data = train)
    
    bankcard <- subset(CreditCard, 
                       select = c(card, reports, expenditure, dependents, active))
    
    
    # 更换变量后二次生成训练和测试数据集
    set.seed(102)
    select <- sample(1:nrow(bankcard),nrow(bankcard)*0.8)
    train <- bankcard[select,]
    test <- bankcard[-select,]
    
    
    card_glm2 <- glm(formula = card ~ ., family = "binomial", data = train)
    summary(card_glm2)
    
    
    result <- predict(card_glm2, newdata = test, type = "response")
    test.y_hat <- ifelse(result > 0.5, "yes", "no")
    
    result_all <- data.frame(Prediction=test.y_hat, 
                             Prob_for_yes=round(result,3),
                             Actual=test$card);
    
    
    accuracy.lr <- sum(test.y_hat==test$card) / length(test.y_hat)
    accuracy.lr
    
    cm2 <- table(test$card, test.y_hat, dnn = c("Actual","Prediction"))
    cm2
    
    
    

    问题区:

    1. Warning messages:
      1: glm.fit:算法没有聚合
      2: glm.fit:拟合機率算出来是数值零或一

    说明:在此模型中,该问题不影响结果。但无法解决,本人修改迭代次数后,仍然如此。

    1. 联系方式: crays_1995@foxmail.com
    展开全文
  • Logistic回归是机器学习从统计学领域的一种技术。它是用一个或多个解释变量对二项式结果进行建模的一种强大的统计方法。它通过使用逻辑函数估计概率来衡量分类因变量和一个或多个自变量之间的关系,这就是逻辑分布。...

    原文链接:http://tecdat.cn/?p=23449 

    原文出处:拓端数据部落公众号

    本文回答了关于逻辑回归的问题:它与线性回归有什么不同,如何在R中用glm()函数拟合和评估这些模型等等?

    Logistic回归是机器学习从统计学领域的一种技术。它是用一个或多个解释变量对二项式结果进行建模的一种强大的统计方法。它通过使用逻辑函数估计概率来衡量分类因变量和一个或多个自变量之间的关系,这就是逻辑分布。

    本R教程将指导你完成逻辑回归的简单执行。

    • 你将首先探索逻辑回归背后的理论:你将了解更多关于与线性回归的区别以及逻辑回归模型的样子。你还会发现多指标和序数逻辑回归。
    • 接下来,你将解决R中的逻辑回归问题:你不仅要探索一个数据集,还要使用R中强大的glm()函数拟合逻辑回归模型,评估结果并解决过拟合问题。

    提示:如果你有兴趣将你的线性回归技能提高到一个新的水平,也可以考虑参加我们的R语言课程!
     

    回归分析:简介

    逻辑回归是一种回归分析技术。回归分析是一套统计过程,你可以用它来估计变量之间的关系。更具体地说,你用这套技术来模拟和分析一个因变量和一个或多个自变量之间的关系。回归分析帮助你了解当一个自变量被调整而其他变量被固定时,因变量的典型值如何变化。

    正如你已经读到的,有各种回归技术。你可以通过观察三个方面来区分它们:自变量的数量、因变量的类型和回归线的形状。

    线性回归

    线性回归是最广为人知的建模技术之一。简而言之,它允许你使用线性关系来预测Y的(平均)数值,对于X的一个给定值,用一条直线。这条线被称为 "回归线"。

    因此,线性回归模型是y=ax+b。该模型假设因变量y是定量的。然而,在许多情况下,因变量是定性的,或者换句话说,是分类的。例如,性别是定性的,取值为男性或女性。

    预测一个观察值的定性反应可以被称为对该观察值进行分类,因为它涉及到将观察值分配到一个类别或等级。另一方面,经常用于分类的方法首先预测定性变量的每个类别的概率,作为进行分类的基础。

    线性回归不能够预测概率。例如,如果你使用线性回归为二元因变量建模,所产生的模型可能不会将预测的Y值限制在0和1之内。 这里就是逻辑回归发挥作用的地方,你可以得到一个反映事件发生概率的概率分数。

    Logistic逻辑回归

    逻辑回归是分类技术的一个实例,你可以用它来预测一个定性的反应。更具体地说,逻辑回归是对性别属于某个特定类别的概率建模。

    这意味着,如果你想做性别分类,其中反应性别属于男性或女性这两个类别中的一个,你将使用逻辑回归模型来估计性别属于某个特定类别的概率。

    例如,给定长头发的性别的概率可以写成:。

    Pr(gender=female|longhair)(缩写为p(longhair))的值将在0和1之间。那么,对于任何给定的longhair值,可以对性别进行预测。

    鉴于X是解释变量,Y是因变量,那么你应该如何建立p(X)=Pr(Y=1|X)和X之间的关系模型?线性回归模型表示这些概率为。

    这种方法的问题是,任何时候对编码为0或1的二元因变量进行直线拟合,原则上我们总是可以预测X的某些值的p(X)<0,其他值的p(X)>1。

    为了避免这个问题,你可以使用logistic函数来建立p(X)的模型,对于X的所有值,它的输出在0和1之间。

    对数函数总是会产生一个S型曲线,所以无论X的值是多少,我们都会得到一个合理的预测。

    上述方程也可以重构为:

    数量

    被称为几率比,可以在0和∞之间取任何值。接近0和∞的几率值分别表示p(X)的概率非常低和非常高。

    通过从上式中对两边取对数,你可以得到。

    左手边被称为Logit。在一个逻辑回归模型中,增加一个单位的X会使对数改变β0。但无论X的价值如何,如果β1是正的,那么增加X将与增加P(X)相关,如果β1是负的,那么增加X将与减少P(X)相关。

    系数β0和β1是未知的,必须根据现有的训练数据来估计。对于逻辑回归,你可以使用最大似然,一种强大的统计技术。让我们再来看看你的性别分类的例子。

    你寻求β0和β1的估计值,将这些估计值插入p(X)的模型中,对于所有的女性样本,产生一个接近于1的数字,对于所有的非女性样本,产生一个接近于0的数字。

    可以用一个叫做似然函数的数学方程来正式化。

    选择估计值β0和β1是为了使这个似然函数最大化。一旦系数被估计出来,你就可以简单地计算出在任何长发的情况下是女性的概率。总的来说,最大似然法是拟合非线性模型的一个非常好的方法。

    多项式Logistic回归

    到目前为止,本教程只关注了二项式逻辑回归,因为你是将实例分类为男性或女性。多项式Logistic回归模型是二项式Logistic回归模型的一个简单扩展,当探索性变量有两个以上的名义(无序)类别时,你可以使用该模型。

    在多项式逻辑回归中,探索性变量被虚拟编码为多个1/0变量。除了一个类别外,所有类别都有一个变量,所以如果有M个类别,就会有M-1M-1个虚拟变量。每个类别的虚拟变量在其类别中的值为1,在所有其他类别中的值为0。有一个类别,即参考类别,不需要它自己的虚拟变量,因为它是由所有其他变量都是0来唯一识别的。

    然后,多叉逻辑回归为每个虚拟变量估计一个单独的二元逻辑回归模型。结果是M-1M-1二元逻辑回归模型。每个模型都传达了预测因素对该类别成功概率的影响,与参考类别相比较。

    有序logistic逻辑回归

    除了多叉逻辑回归,你还有有序逻辑回归,它是二叉逻辑回归的另一个延伸。有序回归是用来预测具有 "有序 "的多个类别和自变量的因变量。你已经在这种类型的逻辑回归的名称中看到了这一点,因为 "有序 "意味着 "类别的顺序"。

    换句话说,它被用来分析因变量(有多个有序层次)与一个或多个自变量的关系。

    例如,你正在进行客户访谈,评估他们对我们新发布产品的满意度。你的任务是向受访者提出一个问题,他们的答案介于满意-满意或不满意-非常不满意之间。为了很好地概括答案,你在回答中加入了一些等级,如非常不满意,不满意,中立,满意,非常满意。这有助于你观察类别中的自然秩序。

    用glm进行R语言的Logistic回归

    在本节中,你将研究一个二元逻辑回归的例子,你将用ISLR包解决这个问题,它将为你提供数据集,glm()函数一般用于拟合广义线性模型,将用于拟合逻辑回归模型。

    加载数据

    首先要做的是安装和加载ISLR包,它有你要使用的所有数据集。

    在本教程中,你将使用股市数据集。该数据集显示了2001年至2005年间标准普尔500股票指数的每日收益率。

    探索数据

    让我们来探索一下。names()对于查看数据框上的内容很有用,head()是对前几行的一瞥,而summary()也很有用。

     

    summary()函数为你提供了数据框架上每个变量的简单总结。你可以看到有成交量,收盘价,和涨跌方向。你将使用 "涨跌方向 "作为因变量,因为它显示了自前一天以来市场是上涨还是下跌。

    数据的可视化

    数据可视化也许是总结和了解你的数据的最快和最有用的方法。你将从单独探索数字变量开始。

    直方图提供了一个数字变量的柱状图,它被分成若干个部分,其高度显示了属于每个部分的实例的数量。它们对于获得一个属性的分布特征是很有用的。

    for(i in 1:8)hist(Smarket[,i]
    
    

    这是极难看到的,但大多数变量显示出高斯或双高斯的分布。

    你可以用盒状图和盒须图以不同的方式来观察数据的分布。盒子包括了数据的中间50%,线显示了中位数,图中的须线显示了数据的合理范围。任何在须线之外的点都是离群值。

    for(i in 1:8) boxplot(Smarket[,i]

    你可以看到,Lags和Today都有一个类似的范围。除此之外,没有任何离群值的迹象。

    缺失数据对建模有很大影响。因此,你可以使用缺失图来快速了解数据集中的缺失数据量。X轴显示属性,Y轴显示实例。水平线表示一个实例的缺失数据,垂直块表示一个属性的缺失数据。

    
    mis( col=c("blue", "red")
    

    在这个数据集中没有缺失数据!

    让我们开始计算每一对数字变量之间的相关性。这些成对的相关关系可以绘制在相关矩阵图中,了解哪些变量在一起变化。

    
    corrplot(correlations, method="circle")
    

    使用点表示法,蓝色代表正相关,红色代表负相关。点越大,相关度越大。你可以看到矩阵是对称的,对角线是完全正相关的,因为它显示了每个变量与自身的相关性。但是,没有一个变量是相互关联的。

    我们来做一个数据图。有一个pair()函数可以将Smarket中的变量绘制成一个散点图矩阵。在这种情况下,"涨跌方向",你的二元因变量,是颜色指标。

    看起来这里没有什么关联性。该类变量来自于变量今日收益,所以涨和跌做了划分。

    让我们来看看按方向值细分的每个变量的密度分布。像上面的散点图矩阵一样,按方向绘制的密度图可以帮助看到涨和跌的方向。它还可以帮助了解一个变量的方向的重叠情况。

    Plot(x=x, y=y, plot="density", scales=scales)
    

    你可以看到,所有这些变量的方向值都是重叠的,这意味着仅凭一两个变量很难预测上涨或下跌。

    建立Logistic回归模型

    现在你调用glm.fit()函数。你传递给这个函数的第一个参数是一个R公式。在这种情况下,该公式表明方向是因变量,而滞后和成交量变量是预测因素。正如你在介绍中看到的,glm通常用于拟合广义线性模型。

    然而,在这种情况下,你需要明确表示你想拟合一个逻辑回归模型。你通过将族参数设置为二项式来解决这个问题。这样,你就告诉glm()把拟合一个逻辑回归模型,而不是可以拟合glm的许多其他模型中的一个。

    接下来,你可以做一个summary(),它告诉你一些关于拟合的信息。

    正如你所看到的,summary()返回每个系数的估计值、标准误差、z-score和p值。看上去没有一个系数是显著的。它还给出了无效偏差(仅指平均值的偏差)和残差偏差(包含所有预测因素的模型的偏差)。两者之间的差异非常小,而且有6个自由度。

    你把glm.fit()的预测结果分配给glm.probs,类型等于因变量。这将对你用来拟合模型的训练数据进行预测,并给我一个拟合概率的向量。

    你看一下前5个概率,它们非常接近50%。

    probs[1:5]
    
    

    现在我将根据滞后期和其他预测因素对市场是上涨还是下跌做出预测。特别是,我将通过0.5的阈值将概率变成分类。为了做到这一点,我使用ifelse()命令。

     ifelse(probs > 0.5, "Up", "Down")
    

    glm.pred是一个真和假的向量。如果glm.probs大于0.5,glm.pred调用 "Up";否则,调用 "False"。

    在这里,你附上数据框架Smarket,并制作一个glm.pred的表格,这是上一个方向的上涨和下跌。你还可以取其中的平均值。

    从表中看,对角线上的实例是你获得正确分类的地方,而对角线外的实例是你分类错误的地方。看起来你犯了很多错误。平均值给出的比例是0.52。

    创建训练样本和测试样本

    你怎么能做得更好呢?把数据分成训练集和测试集是一个好的策略。

    #  生成训练和测试集
    train = Year<2005
    predict(glm.fit,
                        newdata = Smarket[!train,],
                        type = "response")
    

    让我们详细看看这个代码块。

    • train等于比2005年少的那一年。对于所有小于2005年的年份,你会得到一个true;否则,我会得到一个false。
    • 然后你用glm.fit()重新拟合模型,只是子集等于'train',这意味着它只拟合小于2005年的数据。
    • 然后你再次对glm.probs使用predict()函数来预测大于或等于2005年的剩余数据。对于新的数据,你给了它Smarket,用!"train "作为索引(如果年份大于或等于2005,train为真)。你将类型设置为 "因变量 "以预测概率。
    • 最后,你对glm.pred再次使用ifelse()函数来生成上涨和下跌变量。

    你现在做一个新的变量来存储测试数据的新子集,并把它叫做Direction.2005。因变量仍然是方向。你制作一个表格并计算这个新测试集的平均值。

    Direction.2005 = Direction[!train]
    

    比以前的情况还糟糕。怎么会出现这种情况?

    解决过度拟合的问题

    好吧,你可能对数据进行了过度拟合。为了解决这个问题,你要拟合一个较小的模型,使用Lag1、Lag2、Lag3作为预测因子,从而撇开所有其他变量。代码的其余部分是一样的。

    #拟合一个较小的模型
    glm(family = binomial, subset = train)

    好吧,你得到了59%的分类率,不算太差。使用较小的模型似乎表现得更好。

    最后,你对glm.fit做一个summary(),看看是否有任何明显的变化。

    没有什么变得很重要,至少P值更好了,表明对性能的预测有所提高。

    结语

    所以,这个关于使用glm()函数和设置族为二项式建立逻辑回归模型的R教程就结束了。glm()并不假设因变量和自变量之间的线性关系。然而,它假定logit模型中的链接函数和自变量之间存在线性关系,我希望你能学到有价值的东西。


    最受欢迎的见解

    1.R语言多元Logistic逻辑回归 应用案例

    2.面板平滑转移回归(PSTR)分析案例实现

    3.matlab中的偏最小二乘回归(PLSR)和主成分回归(PCR)

    4.R语言泊松Poisson回归模型分析案例

    5.R语言混合效应逻辑回归Logistic模型分析肺癌

    6.r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现

    7.R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

    8.python用线性回归预测股票价格

    9.R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

    展开全文
  • 1.分组数据的Logistic回归 例1: 在一次住房展销会上,与房地产商签订初步购房意向书的共有名 顾客,在随后的3个月的时间内,只有一部分顾客确实购买了房屋.购买了房屋的顾客记为1,没有购买房屋的顾客记为0,以顾客的年...

    e85a0f54e318b2ccbb769d1ce08e86db.png

    1.分组数据的Logistic回归

    例1: 在一次住房展销会上,与房地产商签订初步购房意向书的共有名

    顾客,在随后的3个月的时间内,只有一部分顾客确实购买了房屋.购买了房屋的顾客记为1,没有购买房屋的顾客记为0,以顾客的年家庭收入为自变量x,对下面表所示的数据,

    x n m p y

    1 1.5 25 8 0.32 -0.753771802

    2 2.5 32 13 0.40625 -0.379489622

    3 3.5 58 26 0.448275862 -0.207639365

    4 4.5 52 22 0.423076923 -0.310154928

    5 5.5 43 20 0.465116279 -0.139761942

    6 6.5 39 22 0.564102564 0.257829109

    7 7.5 28 16 0.571428571 0.287682072

    8 8.5 21 12 0.571428571 0.287682072

    9 9.5 15 10 0.666666667 0.693147181

    其中,x为年家庭收入(万元),n为签订意向书人数,m为实际购房人数,

    . 试建立Logistic回归模型.

    (1) Logistic回归模型

    作Logistic 变换可得

    .令
    ,
    条件下
    的频率, 那么
    的估计。令
    ,则
    估计。令
    为估计误差,这样便有

    (2)

    的估计

    R实现

    x<-c(1.5, 2.5, 3.5, 4.5, 5.5, 6.5,  7.5, 8.5, 9.5)
    n<-c(25, 32, 58, 52, 43,  39, 28, 21, 15)
    m<-c(8 , 13,  26, 22, 20, 22,  16,   12,  10 )        
    p<-m/n
    logit<-log(p/(1-p))
    summary(lm(logit~x))

    --------------------------

    R 实现结果

    Call:

    lm(formula = logit ~ x)

    Residuals:

    Min 1Q Median 3Q Max

    -0.150322 -0.110376 0.005474 0.117288 0.133341

    Coefficients:

    Estimate Std. Error t value Pr(>|t|)

    (Intercept) -0.88627 0.10242 -8.653 5.50e-05 ***

    x 0.15580 0.01686 9.242 3.59e-05 ***

    ---

    Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

    Residual standard error: 0.1306 on 7 degrees of freedom

    Multiple R-squared: 0.9243, Adjusted R-squared: 0.9134

    F-statistic: 85.42 on 1 and 7 DF, p-value: 3.588e-05

    ----------------------

    结果解释:

    .

    Logistic回归模型为

    利用该模型可以对购房概率进行预测。例如当

    =0.59

    从而可知年收入8万元的家庭预计实际购房比例为59%。


    2.未组数据的Logistic回归

    在一次关于在一次关于公共交通的社会调查中,一个调查项目是“是乘坐公共汽车上下班,还是骑自行车上下班”。因变量y=1表示要乘坐公共汽车上下班,y=0表示要乘自行车上下班。自变量x1是年龄,作为连续型变量;x2是月收入;x3是性别,x3=1表示男性,x3=0表示女性。调查对象为工薪族群体,数据如下表。试建立y与自变量间的Logistic回归。

    num x3 x1 x2 y num x 3 x1 x3 y

    1 0 18 850 0 15 1 20 1000 0

    2 0 21 1200 0 16 1 25 1200 0

    3 0 23 850 1 17 1 27 1300 0

    4 0 23 950 1 18 1 28 1500 0

    5 0 28 1200 1 19 1 30 950 1

    6 0 31 850 0 20 1 32 1000 0

    7 0 36 1500 1 21 1 33 1800 0

    8 0 42 1000 1 22 1 33 1000 0

    9 0 46 950 1 23 1 38 1200 0

    10 0 48 1200 0 24 1 41 1500 0

    11 0 55 1800 1 25 1 45 1800 1

    12 0 56 2100 1 26 1 48 1000 0

    13 0 58 1800 1 27 1 52 1500 1

    14 1 18 850 0 28 1 56 1800 1

    (1) Logistic 回归模型

    因变量

    为0-1型变量,在
    已知的条件下,y服从贝努力分布。令
    ,建立Logistic 回归模型

    显然

    的概率分布为
    .

    (2)参数

    的极大似然估计

    的似然函数为

    其中

    .

    (3)R实现

    >datax<-read.table("clipboard",header=T)
    #数据读入到data3.1中

    >glm.logit<-glm(y~x1+x2+x3,family=binomial,data=datax)

    #建立y关于x的logistic回归模型,数据为data3.1

    >summary(glm.logit)

    #模型汇总,给出模型回归系数的估计和显著性检验等

    结果显示:

    ------------------------

    Call:

    glm(formula
    = y ~ x1 + x2 + x3, family = binomial, data = data3.1)

    Deviance
    Residuals:

    Min 1Q Median 3Q Max

    -2.1090 -0.7486 -0.2850 0.7011 2.1683

    Coefficients:

    Estimate Std. Error z value Pr(>|z|)

    (Intercept) -3.655016 2.091218 -1.748 0.0805 .

    x1 0.082168 0.052119 1.577 0.1149

    x2 0.001517 0.001865 0.813 0.4160

    x3 -2.501844 1.157815 -2.161 0.0307 *

    Signif.
    codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05‘.’ 0.1 ‘ ’ 1

    (Dispersion parameter for binomial family taken to be 1)

    Null deviance: 38.673 on 27 degrees of freedom

    Residual
    deviance: 25.971 on 24 degrees of freedom

    AIC:
    33.971

    Number
    of Fisher Scoring iterations: 5

    -------------

    结果解释与分析:

    输出结果中x2最不显著,决定将其剔除。用y对性别和年龄两个自变量作回归,R程序和输出的结果分别为:

    >glm.logit<-glm(y~x1+x3,family=binomial,data=datax)

    >summary(glm.logit)

    ------------

    Coefficients:

    Estimate Std. Error z value
    Pr(>|z|)

    (Intercept) -2.6285 1.5537 -1.692 0.0907 .

    x1 0.1023 0.0458 2.233 0.0256 *

    x3 -2.2239 1.0476 -2.123 0.0338 *

    ---

    Signif.
    codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05‘.’ 0.1 ‘ ’ 1

    ------------

    结果分析与解释:

    可以看出,x3,x1都是显著的。Logistic回归方程为

    展开全文
  • R语言Logistic回归模型案例基于AER包的affair数据 目录 R语言Logistic回归模型案例基于AER包的affair数据 #数据加载及目标变量二值化 #所有特征拟合 #部分特征拟合 # 对比两个模型的统计差异性 #系数解读及...

    R语言Logistic回归模型案例基于AER包的affair数据

    目录

    R语言Logistic回归模型案例基于AER包的affair数据

    #数据加载及目标变量二值化

    展开全文
  • R语言Logistic回归模型案例:分析吸烟、饮酒与食管癌的关系 目录 R语言Logistic回归模型案例分析吸烟、饮酒与食管癌的关系 #样例数据 #数据加载 #模型构建 #特征交互模型构建 #样例数据 y x1 x2 1 0...
  • r语言做二分类logistic回归分析

    万次阅读 多人点赞 2017-03-02 18:45:33
    ,data=safe,family=binomial)#logistic模型 summary(glm.safe) #第3步:逐步回归 glm.safe1(glm.safe) summary(glm.safe1)#逐步回归 #第4步:模型解读 coef(glm.safe1)#用以解释模型 exp(glm....
  • 使用logistic回归时,偶尔会出现以下问题 > a=glm(X1~.,w,family=binomial(link='logit')) Warning messages: 1: glm.fit:算法没有聚合 2: glm.fit:拟合機率算出来是数值零或一 警告1 算法不收敛,可以通过...
  • Performs stepwise model selection by AIC ## Note: Model selection in R is based on AIC but not P value model7 summary(model7) model8 summary(model8) model9 summary(model9) ## Compare the AUC of two ...
  • R语言logistic回归模型

    千次阅读 2017-01-12 21:15:26
    logistic回归模型为: 对上面的模型进行变换,得到线性形式的logistic回归模型: ...在R语言构建数据框时,应输入一列成功(响应)的次数和一列不成功(不响应)的次数,例如: norell( x=0:5,n=rep(70,6),
  • R语言Logistic回归模型亚组分析森林图绘制 目录 R语言Logistic回归模型亚组分析森林图绘制 #样例数据 #亚组分析森林图 #样例数据 #亚组分析森林图 library(forestplot) rs_forest <- read.csv('...
  • R语言logistic回归、判别分析(LDA)、多元自适应样条回归MARS分析案例:分析乳腺癌数据集明确细针穿刺肿瘤活检结果 目录 R语言logistic回归、判别分析(LDA)、多元自适应样条回归MARS分析案例:分析乳腺癌数据集...
  • R语言多元Logistic回归 应用案例 多元Logistic回归 如何进行多重逻辑回归 可以使用阶梯函数通过逐步过程确定多重逻辑回归。此函数选择模型以最小化AIC,而不是像手册中的SAS示例那样根据p值。另请注意,在此...
  • 01 研究背景 本章将常用的基于R语言实现二元Logistic回归模型临床预测模型的构建和验证,以及诺曼图的绘制记录下来,更为复杂的生存分析中的Cox回归将在后续章节介绍。临床预测模型的思路总结如下:①明确临床问题,...
  • R语言Logistic回归模型案例:低出生婴儿体重(列线图、校准曲线) 目录 R语言Logistic回归模型案例:低出生婴儿体重(列线图、校准曲线) #包导入 #数据加载 #数据编码 #模型构建+列线图nomogram+校准曲线...
  • by Lancet##此代码用来进行logstic回归模型的建立以及外部的验证
  • 首先我们得选出两个相同指标的数据集,一个用于建模,一个用于验证,我发现R语言的survival数据集刚好自带了两个数据mgus,mgus2,有相同的参数,可以用于建模和验证。 先把数据导入 library(survival) l
  • R语言Logistic回归

    万次阅读 多人点赞 2018-05-31 16:22:11
    E:\\R_workspace\\R语言数据分析与挖掘实战\\chp5&amp;quot;) # 读入数据 Data &amp;amp;lt;- read.csv(&amp;quot;./data/bankloan.csv&amp;quot;)[2:701, ] View(Data) # 查看数据框中 完整的...
  • 在既往文章中,我们已经介绍了怎么使用R语言可视化visreg包对交互作用进行可视化分析(见下图), 但是使用visreg包后我们对图形的细节掌控力不够,今天我们使用重新绘制手动图形,这在SCI论文中非常实用,几乎可以...
  • R语言Logistic逐步回归模型案例:分析与冠心病有关的危险因素 目录 R语言Logistic逐步回归模型案例:分析与冠心病有关的危险因素 #样例数据 #数据加载 #Logistic逐步回归模型构建 #样例数据 x1 x2 x3 x4...
  • 点击上方“蓝字”,我们一起分析数据Logistic回归是最常用的多因素回归模型,在医学研究中,常用于研究疾病的危险因素,下面我们一起来看看,R语言是如何实现Logistic回归的。1第一步 导入数据首先,在excel里全选数据集...
  • R语言Logistic回归模型案例(绘制列线图、校正曲线):研究低出生体重婴儿的核心影像因素 目录 R语言Logistic回归模型案例(绘制列线图、校正曲线):研究低出生体重婴儿的核心影像因素 #案例分析 #加载包 #...
  • 我们这次使用的是R语言自带的人流后导致不孕的数据集,我们先导入看一下 bc<-infert names(bc) 数据有8个指标,最后两个是PSM匹配结果,我们不用理他,其余六个为: Education:教育程度,age:年龄,parity...
  • R语言建立logistic回归模型

    万次阅读 多人点赞 2019-02-20 22:13:32
    R语言建立logistic回归模型 公式:fm&lt;-glm(formula,family=binomial(link=logit),data=data.frame) 其中:link=logit可以不写。 函数 用途 summary() 展示拟合模型的详细结果 coefficients() 列...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 5,667
精华内容 2,266
关键字:

r语言logistic回归分析