logistic回归模型 订阅
《Logistic回归模型:方法与应用》是2001年高等教育出版社出版的图书,作者是王济川。 展开全文
《Logistic回归模型:方法与应用》是2001年高等教育出版社出版的图书,作者是王济川。
信息
作    者
王济川
定    价
38.20元
装    帧
平装
书    名
Logistic回归模型:方法与应用
出版时间
2001-9
出版社
高等教育出版社
ISBN
9787040099102
页    数
272
Logistic回归模型内容简介
(logistic regression)属于概率型非线性回归,它是研究二分类观察结果与一些影响因素之间关系的一种多变量分析方法。在流行病学研究中,经常需要分析疾病与各危险因素之间的定量关系,为了正确说明这种关系,需要排除一些混杂因素的影响。传统上常常使用Mantel-Haenszel分层分析方法,但这一方法适用于样本含量大,分析因素较少的情况。如果用线性回归分析,由于应变量Y是一个二值变量(通常取值1或0),不满足应用条件,尤其当各因素都处于低水平或高水平时,预测值Y值可能超出0~1范围,出现不合理都现象。用logistic回归分析则可以较好的解决上述问题。在社会科学诸如社会学、心理学、人口学、政治学、经济学以及公共卫生学当中,大量的观测因变量是二分类测量。本书专题介绍了在分析二分类因变量时最常使用的统计分析模型之一——Logistic回归模型。本书深入浅出,理论联系实际,通过例题分析,并结合计算机统计软件的应用,详细介绍、阐述了该模型及其应用。同时,还介绍了如何将Logistic回归模型扩展到序次Logistic回归模型和多项Logit模型,以分析序次变量和多分类名义变量为因变量的数据。本书提供用SAS和SPSS进行具体例题分析的计算机程序及相关数据,并对这两种软件的模型估计结果进行详尽的解释和对比分析。本书的读者对象为社会科学各专业的教师及研究生,以及社会科学专业研究人员。
收起全文
精华内容
下载资源
问答
  • logistic回归模型
    万次阅读 多人点赞
    2020-04-13 17:44:45

    前言

    从这一期开始,我们准备介绍一系列机器学习算法模型,主要包括logistic回归,决策树,随机森林,关联规则,朴素贝叶斯,支持向量机,隐式马尔可夫,因子分析,主成分分析,聚类,多元线性回归,时间序列,协同过滤,XGBoost,LightGBM,神经网络等,一般会涵盖模型的引入背景,背后数学原理,模型的应用范围,模型优缺点及改进建议,具体工程实践。既适合刚入门机器学习的新手,也适合有一定基础的读者想要进一步掌握模型的核心要义,其中不免会涵盖许多数学符号和公式以及推导过程,如果你觉得晦涩难懂,可以来微信公众号“三行科创”交流群和大家一起讨论。

    logistic回归模型

    逻辑回归(Logistic Regression)是机器学习中最常见的一种用于二分类的算法模型,由于其数学原理简单易懂,作用高效,其实际应用非常广泛。虽然带回归二字,实则是分类模型,下面从logit变换开始。

    logit变换

    我们在研究某一结果 y y y与一系列因素 ( x 1 , x 2 , ⋯   , x n ) (x_1,x_2,\cdots,x_n) (x1,x2,,xn)之间的关系的时候,最直白的想法是建立因变量和自变量的多元线性关系

    y = θ 0 + θ 1 x 1 + θ 2 x 2 + ⋯ + θ n x n y=\theta_0+\theta_1x_1+\theta_2x_2+\cdots +\theta_nx_n y=θ0+θ1x1+θ2x2++θnxn

    其中 ( θ 0 , θ 1 , θ 2 , ⋯   , θ n ) (\theta_0,\theta_1,\theta_2,\cdots,\theta_n) (θ0,θ1,θ2,,θn) 为模型的参数,如果因变量是数值型的话,可以解释成某某因素 x i x_i xi变化了多少导致结果 y y y 发生了多少变化,如果因变量 y y y 是用来刻画结果是否(0-1)发生?或者更一般的来刻画某特定结果发生的概率(0~1)呢?这时候因素 x i x_i xi 变化导致结果 y y y 的变化恐怕微乎其微,有时候甚至忽略不计。然而实际生活中,我们知道某些关键因素会直接导致某一结果的发生,如亚马逊雨林一只蝴蝶偶尔振动翅膀,就会引起两周后美国德克萨斯州的一场龙卷风。于是,我们需要让不显著的线性关系变得显著,使得模型能够很好解释随因素的变化,结果也会发生较显著的变化,这时候,人们想到了logit变换,下图是对数函数图像
    log(x)
    从对数函数的图像来看,其在 ( 0 , 1 ) (0,1) (0,1)之间的因变量的变化是很迅速的,也就是说自变量的微小变化会导致因变量的巨大变化,这就符合了之前想要的效果。于是,对因变量进行对数变换,右边依然保持线性关系,有下面式子

    l o g ( y ) = θ 0 + θ 1 x 1 + θ 2 x 2 + ⋯ + θ n x n log(y)=\theta_0+\theta_1x_1+\theta_2x_2+\cdots +\theta_nx_n log(y)=θ0+θ1x1+θ2x2++θnxn

    虽然上式解决了因变量随自变量变化的敏感性问题,同时也约束了 y y y的取值范围为 ( 0 , + ∞ ) (0,+\infty) (0,+)。我们知道概率是用来描述某件事发生的可能性,一件事情发生与否,更应该是调和对称的,也就是说该事件发生与不发生有对立性,结果可以走向必然发生(概率为1),也可以走向必然不发生(概率为0),概率的取值范围为 ( 0 , 1 ) (0,1) (0,1),而等式左边 y y y 的取值范围是 ( 0 , + ∞ ) (0,+\infty) (0,+),所以需要进一步压缩,又引进了几率。

    几率

    几率(odd)是指事件发生的概率与不发生的概率之比,假设事件 A 发生的概率为 p p p,不发生的概率为 1 − p 1-p 1p,那么事件 A 的几率为

    o d d ( A ) = p 1 − p odd(A)=\frac{p}{1-p} odd(A=1pp

    几率恰好反应了某一事件两个对立面,具有很好的对称性,下面我们再来看一下概率和几率的关系
    概率vs几率

    首先,我们看到概率从0.01不断增大到 0.99,几率也从0.01随之不断变大到99,两者具有很好的正相关系,我们再对 p p p 向两端取极限有

    lim ⁡ p → 0 + ( p 1 − p ) = 0 \lim\limits _ {p \to 0^+}(\frac{p}{1-p})=0 p0+lim(1pp)=0

    lim ⁡ p → 1 − ( p 1 − p ) = + ∞ \lim\limits _ {p \to 1^-}(\frac{p}{1-p})=+\infty p1lim(1pp)=+

    于是,几率的取值范围就在 ( 0 , + ∞ ) (0,+\infty) (0+),这符合我们之前的因变量取值范围的假设。

    logistic模型

    正因为概率和几率有如此密切对等关系,于是想能不能用几率来代替概率刻画结果发生的可能性大小,这样既能满足结果对特定因素的敏感性,又能满足对称性 ,便有了下面式子

    l o g ( p 1 − p ) = θ 0 + θ 1 x 1 + θ 2 x 2 + ⋯ + θ n x n log(\frac{p}{1-p}) =\theta_0+ \theta_1x_1+\theta_2x_2+\cdots +\theta_nx_n log(1pp)=θ0+θ1x1+θ2x2++θnxn

    现在,我们稍微改一改,让等式左边对数变成自然对数 l n = l o g e ln=log_e ln=loge,等式右边改成向量乘积形式,便有

    l n ( p 1 − p ) = θ X ln(\frac{p}{1-p})=\theta X ln(1pp)=θX

    其中 θ = ( θ 0 , θ 1 , θ 2 , ⋯   , θ n ) \theta=(\theta_0,\theta_1,\theta_2,\cdots,\theta_n) θ=(θ0,θ1,θ2,,θn) X = ( 1 , x 1 , x 2 , ⋯   , x n ) T X=(1,x_1,x_2,\cdots,x_n)^T X=(1,x1,x2,,xn)T,我们解得

    p = e θ X 1 + e θ X p=\frac{e^{\theta X}} {1+ e^{\theta X}} p=1+eθXeθX

    其中 e e e 是自然常数,保留5位小数是2.71828。这就是我们常见的logistic模型表达式,作出其函数图像如下
    logistic
    我们看到logistic函数图像是一条S型曲线,又名sigmoid曲线,以 ( 0 , 0.5 ) (0,0.5) (0,0.5) 为对称中心,随着自变量 x x x 不断增大,其函数值不断增大接近1,随自变量 x x x 不断减小,其函数值不断降低接近0,函数的取值范围在 ( 0 , 1 ) (0,1) (0,1) 之间,且函数曲线在中心位置变化速度最快,在两端的变化速率较慢。

    从上面的操作,我们可以看到逻辑回归模型从最初的线性回归模型基础上对因变量进行 logit 变换,使得因变量对自变量显著,同时约束因变量取值范围为0到正无穷大,然后用概率表示几率,最后求出概率关于自变量的表达式,把线性回归的结果压缩在 ( 0 , 1 ) (0,1) (0,1) 范围内,这样最后计算出的结果是一个0到1之间的概率值,表示某事件发生的可能性大小,可以做概率建模,这也是为什么逻辑回归叫逻辑回归,而不叫逻辑分类了。

    二项逻辑回归模型

    既然logistic回归把结果压缩到连续的区间 ( 0 , 1 ) (0,1) (0,1),而不是离散的 0 或者1,然后我们可以取定一个阈值,通常以0.5为阈值,通过对比概率值与阈值的大小关系而定,如果计算出来的概率大于0.5,则将结果归为一类 (1),如果计算出来的概率小于0.5,则将结果归为另一类 (0),用分段函数写出来便是

    y = { 1 p > 0.5 0 p < 0.5 y= \begin{cases} 1&\text{p > 0.5} \\ 0 & \text{p < 0.5} \end{cases} y={10p > 0.5p < 0.5

    这样逻辑回归就可以用来进行2分类了,在本文中,不特别指出,均指二项逻辑回归,假设数据结构如下

    样本 x 1 x_1 x1 x 2 x_2 x2 x n x_n xn y y y
    1 x 11 x_{11} x11 x 12 x_{12} x12 x 1 n x_{1n} x1n y 1 y_1 y1
    2 x 21 x_{21} x21 x 22 x_{22} x22 x 2 n x_{2n} x2n y 2 y_2 y2
    ⋮ \vdots ⋮ \vdots ⋮ \vdots ⋮ \vdots ⋮ \vdots
    m x m 1 x_{m1} xm1 x m 2 x_{m2} xm2 x m n x_{mn} xmn y m y_m ym

    其中 m m m表示样本个数, n n n表示影响因数的个数, y i ( i = 0 , 1 , ⋯   , m ) y_i(i=0,1,\cdots,m) yi(i=0,1,,m) 取 0 或者 1。现在我们结合数据,利用条件概率分布模型给出基于概率的二项logistic模型如下

    p ( y = 1 ∣ X ; θ ) = e θ X 1 + e θ X p(y=1|X;\theta)=\frac{e^{\theta X}}{1+e^{\theta X}} p(y=1X;θ)=1+eθXeθX

    p ( y = 0 ∣ X ; θ ) = 1 1 + e θ X p(y=0|X;\theta)=\frac{1}{1+e^{\theta X}} p(y=0X;θ)=1+eθX1

    其中, X X X 表示自变量, y y y 表示因变量所属的类别, θ \theta θ 为模型待求的参数,模型解释为在特定的因素下,模型结果取1的概率和取0的概率。模型建好了,接下来就需要进行机器训练,而怎么来给训练一种恰当反馈呢?答案是损失函数,通过损失函数来评估模型学习的好坏和改进机制。

    损失函数

    由前面阈值的取定原则,我们知道相当于我们用一个类别值代替概率值,而类别值是sigmoid 函数的两个最值,概率不可能时时刻刻都取到最值,这势必会造成误差,我们把这种误差称为损失,为了给出损失函数表达式,我们假设模型第 i i i 个样本所求的概率值为 p i p_i pi,而真实类别值可能是 0 或者 1。

    当类别真实值是 1 的情况下,所求的概率值 p i p_i pi 越小,越接近0,被划为类别 0 的可能性越大,被划为类别 1 的可能性越小,导致的损失越大。反之,所求的概率值 p i p_i pi 越大,越接近1,被划为类别 1 的可能性越大,被划为类别 0 的可能性越小,导致的损失越小。我们用下面的函数来描述这种变化关系
    − l o g p i -log p_i logpi
    其中 p i ∈ ( 0 , 1 ) p_i\in(0,1) pi(0,1) ,其图像大致如下
    cost1
    当类别真实值是0的情况下,所求的概率值 p i p_i pi 越大,越接近1,其结果的类别判定更偏向于1,导致的损失越大。反之,所求的概率值 p i p_i pi 越小,越接近0,其结果的类别判断更偏向于 0,导致的损失越小。我们用下面的函数来描述这种变化关系

    − l o g ( 1 − p i ) -log(1-p_i) log(1pi)

    cost2
    现在就要把两种情况结合起来,就不需要分真实值是 1 还是 0 两种情况讨论,求出其期望值,做成一个交叉熵(cross entropy)的整体损失函数如下

    c o s t i = − y i l o g ( p i ) − ( 1 − y i ) l o g ( 1 − p i ) cost_i = -y_ilog(p_i)-(1-y_i)log(1-p_i) costi=yilog(pi)(1yi)log(1pi)

    其中 y i y_i yi 表示第 i i i 个样本的真实值, p i p_i pi 是根据模型计算出来的概率值,当 y i = 1 y_i=1 yi=1 时, c o s t i = − l o g ( p i ) cost_i= -log(p_i) costi=log(pi),当 y i = 0 y_i=0 yi=0时, c o s t i = − l o g ( 1 − p i ) cost_i = -log(1-p_i) costi=log(1pi),这符合前面两种情况。

    假设现在有 m m m 个样本,总体的损失函数为

    C o s t = ∑ i = 1 m c o s t i = ∑ i = 1 m [ − y i l o g ( p i ) − ( 1 − y i ) l o g ( 1 − p i ) ] \begin{aligned} Cost &= \sum\limits_{i=1}^m cost_i \\ &=\sum\limits_{i=1}^m[-y_ilog(p_i)-(1-y_i)log(1-p_i)]\\ \end{aligned} Cost=i=1mcosti=i=1m[yilog(pi)(1yi)log(1pi)]

    代入 p i = e θ X 1 + e θ X p_i=\frac{e^{\theta X}}{1+e^{\theta X}} pi=1+eθXeθX

    C o s t = ∑ i = 1 m [ − y i l o g ( e θ X 1 + e θ X ) − ( 1 − y i ) l o g ( 1 − e θ X 1 + e θ X ) ] \begin{aligned} Cost &=\sum\limits_{i=1}^m[-y_ilog(\frac{e^{\theta X}}{1+e^{\theta X}})-(1-y_i)log(1-\frac{e^{\theta X}}{1+e^{\theta X}})] \end{aligned} Cost=i=1m[yilog(1+eθXeθX)(1yi)log(11+eθXeθX)]
    上式就是二项逻辑回归的损失函数,是一个关于参数 θ \theta θ X X X的二元函数,也叫对数似然函数,现在问题转化为以对数似然函数为目标函数的最优化问题,其中 θ \theta θ 为模型待求的参数,为了求参数 θ \theta θ ,可以对目标函数求偏导数,记

    L ( X ∣ θ ) = ∑ i = 1 m [ − y l o g ( e θ X 1 + e θ X ) − ( 1 − y ) l o g ( 1 − e θ X 1 + e θ X ) ] \mathcal{L}(X|\theta)=\sum\limits_{i=1}^m[-ylog(\frac{e^{\theta X}}{1+e^{\theta X}})-(1-y)log(1-\frac{e^{\theta X}}{1+e^{\theta X}})] L(Xθ)=i=1m[ylog(1+eθXeθX)(1y)log(11+eθXeθX)]

    L ( X ∣ θ ) \mathcal{L} (X|\theta) L(Xθ) 求关于 θ \theta θ 的偏导,主要是里面对数函数关于 θ \theta θ 的偏导数求解
    ∂ L ( X ∣ θ ) ∂ θ = ∂ { ∑ i = 1 m [ − y i l o g ( e θ X 1 + e θ X ) − ( 1 − y i ) l o g ( 1 − e θ X 1 + e θ X ) ] } ∂ θ = ∑ i = 1 m [ ( − y i ) ∂ l o g ( e θ X 1 + e θ X ) ∂ θ − ( 1 − y i ) ∂ l o g ( 1 − e θ X 1 + e θ X ) ∂ θ ] = ∑ i = 1 m [ ( − y i ) c X 1 + e θ X − ( 1 − y i ) ( − c X e θ X 1 + e θ X ) ] \begin{aligned} &\frac{\partial \mathcal{L}(X|\theta)}{ \partial \theta} \\&=\frac{ \partial \{\sum\limits_{i=1}^m[-y_ilog(\frac{e^{\theta X}}{1+e^{\theta X}})-(1-y_i)log(1-\frac{e^{\theta X}}{1+e^{\theta X}})]\}}{\partial \theta}\\ &= \sum\limits_{i=1}^m[(-y_i)\frac{\partial log(\frac{e^{\theta X}}{1+e^{\theta X}})}{\partial \theta}-(1-y_i)\frac{\partial log(1-\frac{e^{\theta X}}{1+e^{\theta X}})}{\partial \theta}]\\ &= \sum\limits_{i=1}^m [ (-y_i)\frac{cX}{1+e^{\theta X}}-(1-y_i)(-\frac{cXe^{\theta X}}{1+e^{\theta X}})] \end{aligned} θL(Xθ)=θ{i=1m[yilog(1+eθXeθX)(1yi)log(11+eθXeθX)]}=i=1m[(yi)θlog(1+eθXeθX)(1yi)θlog(11+eθXeθX)]=i=1m[(yi)1+eθXcX(1yi)(1+eθXcXeθX)]
    其中 c = l n a c=ln a c=lna a a a 为对数底数,令 ∂ L ( ( X ∣ θ ) ∂ θ = 0 \frac{\partial \mathcal{L}((X|\theta)}{ \partial \theta}=0 θL((Xθ)=0,求出 θ \theta θ 值,然后带入模型便是学到的logistic模型,假设 θ ^ \hat{\theta} θ^ 是上式子所求的值,那么原二项logistic模型方程为

    p ( y = 1 ∣ X , θ ^ ) = e θ ^ X 1 + e θ ^ X p(y=1|X,\hat{\theta})=\frac{e^{\hat{\theta} X}}{1+e^{\hat{\theta} X}} p(y=1X,θ^)=1+eθ^Xeθ^X

    p ( y = 0 ∣ X , θ ^ ) = 1 1 + e θ ^ X p(y=0|X,\hat{\theta})=\frac{1}{1+e^{\hat{\theta} X}} p(y=0X,θ^)=1+eθ^X1

    logistic回归模型的应用

    既然logistic回归主要用来二分类,那么凡是涉及到二分类的场景都有logistic回归的用武之地,同时,我们还可以用logistic回归模型预测某件事情的发生概率,我们常见的logistic回归模型的应用场景有
    (1) 在P2P,汽车金融等领域,根据申请人的提供的资料,预测其违约的可能性大小,进而决定是否给其贷款。
    (2) 电商平台根据用于购买记录预测用户下一次是否会购买某件商品。
    (3) 天涯,bbs,微博,豆瓣短评等舆论平台做情感分类器。如根据某网友对某些特定主题的历史评论数据,预测其下次对某类型的主题是否会给出正面的评论。
    (4) 在医疗领域,根据病人症状,预测其肿瘤是良性的还是恶性的。
    (5) 根据CT,流行病学,旅行史,检测试剂结果等特点预测某位疑似病人是否真感染新型冠状病毒。
    (6) 在精准营销领域,预测某个产品的收益。

    logistic回归模型的评价

    从logistic回归的数学原理,在阈值取定的时候一刀切的做法上面,我们能够根据logistic回归的这些特点给出模型优缺点评价

    优点:

    • 原理简单,模型清晰,操作高效,背后的概率的推导过程经得住推敲,在研究中,通常以 Logistic 回归模型作为基准,再尝试使用更复杂的算法,可以在大数据场景中使用。
    • 使用online learning的方式更新轻松更新参数,不需要重新训练整个模型
    • 基于概率建模,输出值落在0到1之间,并且有概率意义
    • 求出来的参数 θ i \theta_i θi 代表每个特征对输出的影响,可解释性强
    • 解决过拟合的方法很多,如L1、L2正则化,L2正则化就可以解决多重共线性问题

    缺点:

    • 对数据依赖性强,很多时候需要做特征工程,且主要用来解决线性可分问题
    • 因为它本质上是一个线性的分类器,所以处理不好特征之间相关的情况,对模型中自变量多重共线性较为敏感,例如两个高度相关自变量同时放入模型,可能导致较弱的一个自变量回归符号不符合预期,符号被扭转,正好变负号。
    • logit变换过程是非线性的,在两端随着变化率微乎其微,而中间的变化很大,很敏感。 导致很多区间的变量变化对目标概率的影响没有区分度,很难确定阀值。
    • 当特征空间很大时,性能不好
    • 容易欠拟合,精度不高

    下一期,我们将用一个实例来一睹logistic魅力。

    参考文献

    1,对数函数
    2,python绘制对数函数
    3,如何理解logistic函数
    4,logit究竟是个啥?
    5,逻辑回归
    6,从原理到代码,轻松深入逻辑回归
    7,https://www.zybuluo.com/frank-shaw/note/143260

    在这里插入图片描述

    更多相关内容
  • logistic回归分析matlab代码逻辑回归-机器学习 客观的开发机器学习算法,无需使用Octave或Matlab即可在python中进行逻辑回归。 Logistic回归是一种估计事件发生概率的回归类型。 例如,电子邮件是否为垃圾邮件,情绪...
  • 本文脉络:logistic回归模型的含义logistic模型的决策边界函数分析logistic模型的参数最优化logistic回归模型与感知机模型的比较总结logistic回归模型的含义我们把分类模型分成两个阶段,推断阶段和决策...

    37d470dacc9b1c4161dad4418a117780.png

    logistic回归模型是一种线性生成模型。本文将介绍logistic回归模型相关的知识,为了更好地理解模型的决策边界函数,本文同时分析了多元变量的协方差对概率分布的影响。

    本文脉络:

    1. logistic回归模型的含义
    2. logistic模型的决策边界函数分析
    3. logistic模型的参数最优化
    4. logistic回归模型与感知机模型的比较
    5. 总结

    logistic回归模型的含义

    我们把分类模型分成两个阶段,推断阶段和决策阶段,推断阶段对联合概率分布建模,然后归一化,得到后验概率。决策阶段确定每个新输入x的类别。

    我们用推断阶段的方法来推导logistic回归模型,首先对类条件概率密度

    和类先验概率分布
    建模,然后通过贝叶斯定理计算后验概率密度。

    考虑二分类的情形,类别C1的后验概率密度;


    则:

    式中的

    就是logistic函数

    因此,logistic回归的值等于输入变量为x的条件下类别为C1的概率

    (1) 当

    分类结果为C1

    (2) 当
    分类结果为C2

    结论:logistic回归值表示所属类的后验概率,无论是二分类还是多分类,分类结果都是后验概率最大所对应的类。

    logistic的决策边界函数分析

    决策边界函数,简而言之,就是函数的两侧是不同的分类结果。

    可定性的分析协方差的三种情况与分布图的关系。

    (a) 图表示正常的协方差矩阵的高斯分布图。
    (b) 图表示协方差矩阵是对角矩阵的高斯分布图。
    (c) 图表示协方差矩阵是对角矩阵且对角元素都相等的高斯分布图。

    ed6eafab10f80176f8821fb8076e367c.png

    ab1d58cb1ff3744093ba4de9798d0cb6.png

    dd7c9ae7fadefc9958a8a7068a70aac3.png

    logistic的决策边界函数分析

    logistic曲线如下图,红色直线(a=0)表示决策边界函数:

    3c229a4600adc57ce68e388acec8d2e0.png

    假设类条件概率密度是高斯分布,即P(x|Ck),然后求解后验概率的表达式,即P(Ck|x)。我们知道,logistic回归值就是所求的后验概率。

    假设类条件概率密度的协方差相同,类条件概率密度为:

    由上面的推导公式得后验概率为:

    其中:

    由后验概率

    的表达式可知,当类条件的协方差矩阵相等时,决策边界函数是随x线性变化的直线。

    结论:如下图,若两类的条件概率密度的协方差相同时(如C1和C2的协方差相同),则决策边界函数是直线;若两类的条件概率密度的协方差不相同时(如C1和C3,C2和C3),则决策边界函数是曲线。判断协方差矩阵是否相同可以根据分布图形形状是否相同来判断,如C1和C2的协方差相同,C3和C1、C2的协方差不相同。

    963e5ca4fc546a105f3bd43d36796309.png

    假设类条件概率密度符合高斯分布且具有相同的协方差矩阵,则决策边界函数是一条直线;若类条件概率密度符合更一般的指数分布且缩放参数s相同,决策边界函数仍然是一条直线。

    logistic模型的参数最优化

    logistic模型损失函数

    logistic回归模型的含义是后验概率分布,因此可以从概率的角度去设计损失函数。

    考虑两分类情况,假设有N个训练样本,logistic模型是

    表示后验概率y=1的概率,则
    表示y=0的概率,变量
    取值1或0,且分别代表模型

    因此,似然函数

    损失函数

    logistic模型的参数最优化

    损失函数最小化等价于模型参数的最优化,如下图:

    利用梯度下降法求最优解,学习速率

    :

    具体求法本文不介绍,只给出算法的思想。
    为了避免过拟合问题,则在原来的损失函数增加正则项,然后利用梯度下降法求最优解,这里也不展开。

    logistic模型与感知机模型的比较

    logistic模型与感知机模型的相同点

    由上面的分析可知,假设类条件概率分布的协方差相同,则logistic模型的决策边界函数是随x线性变化的直线,因此,感知机模型与logistic模型的分类策略一样,即决策边界函数是一样的。如下图:

    d5bb1a5241499612c354f3d7371a1c6e.png

    感知机模型:当点落在直线上方,y>0,则分类结果为C1;反之为C2。
    logistic模型:当点落在上方,y>0,则后验概率P(C1|X)>0.5,分类结果为C1;反之为C2。

    考虑到对输入变量x进行非线性变换

    ,感知机和logistic模型的分类策略仍一样,决策边界函数相同,如下图:

    dba974f00771b1e18ae4ed733eed75aa.png

    感知机模型:当点落在圆外,y>0,则分类结果为C1;反之为C2。
    logistic模型:当点落在圆外,y>0,则后验概率P(C1|X)>0.5,分类结果为C1;反之为C2。

    logistic模型与感知机模型的异同点

    (1) logistic回归模型限制值的范围在0~1,感知机模型对值范围没有限制,因此logistic模型相比感知机模型,对异常点有更强的鲁棒性。如下图,当有异常数据时,logistic模型要好于感知机模型。

    b4fa6f11b6965ac6a678625e5dc4a05d.png

    (2) 感知机模型用误分类点到超平面的距离衡量损失函数,而logistic模型则从概率角度去衡量损失函数。

    总结

    logistic回归的含义是后验概率分布,用概率的角度去设计似然函数,logistic模型相比于感知机模型对异常数据具有更好的鲁棒性。

    展开全文
  • 在这里讲述如何通过MATLAB的代码实现多元logistic回归模型,对于想用MATLAB来实现多元logistic回归模型的朋友有很大的帮助。
  • NBA预测 使用Python中的Logistic回归模型预测NBA比赛模型该模型使用从stats.nba.com刮取的八个因素来确定NBA游戏的预测结果。 每个统计数据都调整为每100个回合,以确保速度不会影响预测。 主队胜率篮板营业额正负...
  • 通过研究logistic回归模型的诊断,对模型的影响分析、均值漂移模型、异常点的score统计量进行了分析.推导出了判别强影响点或者异常点的诊断统计量,如广义cook距离、似然距离,讨论了局部影响分析,最后给出了实例分析...
  • logistic回归分析优点_二元Logistic回归

    千次阅读 2020-11-21 02:46:52
    点击上方蓝字关注我们在社会科学的研究中,经常会遇到二元变量的情况,...如果希望根据一系列预测变量的值来预测某种特征或结果是否存在,且因变量为二元变量,通常采用二元Logistic回归。1二元逻辑回归分析的原理与...
    f6e918aaa3ca09397455f597850de151.png

    点击上方蓝字关注我们

    在社会科学的研究中,经常会遇到二元变量的情况,例如死亡或未死亡、购买或未购买等,对于二元变量,无法直接采用一般的多元线性模型无法进行回归分析,因为残差不满足正态性、无偏性、共方差性等假设,同时解释变量的取值范围不再是-∞~+∞。如果希望根据一系列预测变量的值来预测某种特征或结果是否存在,且因变量为二元变量,通常采用二元Logistic回归。

    1 二元逻辑回归分析的原理 与线性回归模型一样,二元逻辑回归模型也需要对模型进行检验和评价,同样分为对回归方程整体的显著性检验、回归系数的显著性检验和模型拟合优度评价。 1.回归方程整体显著性检验 与一般的线性模型一样,二元逻辑回归方程的显著性检验用于检验In 16b9cee2e2d0c7d19b7746173c4258ea.png 与所有变量之间的线性关系是否显著,检验的原假设是各回归系数同时为零,备选假设为各回归系数不同时为零。 常用的检验方法有对数似然比检验和Hosmer-Lemeshow检验。 2.回归系数的显著性检验 与一般线性回归模型一样,还需要对每个回归系数的显著性进行检验。但是,在二元逻辑回归模型中,回归系数显著性检验不是通过T检验,而是构造Wald统计量来进行,Wald 统计量和似然统计量都是极大似然估计方法中常用的检验统计量。 3.模型拟合优度评价 二元逻辑回归模型拟合优度评价的常用统计量包括Cox-Snell R方 统计量和Nagelkerke  R方 统计量。 2 二元Logistic回归的SPSS实现 “data 09.sav”数据文件是一些肿瘤患者的基本资料。现要求利用通过年龄、肿瘤大小和扩散等级来拟合癌变部位的淋巴结是否含有癌细胞的二元Logistic回归方程。 1.打开 “data 09.sav” 数据文件,选择“分析”—“回归”—“二元Logistic”,弹出如下图所示“Logistic回归”对话框,在左侧的变量列表中选中“癌变部位的淋巴结是否含有癌细胞”,将其选入“因变量列表”,将“年龄”、“肿瘤大小(厘米)”、“扩散等级”变量选入右边的“协变量列表”,“方法”选择系统默认的“输入”。

    3c49e327e2956a09cbdc678299a39bb7.png

    2.单击【分类】按钮,弹出如下图所示的“Logistic回归: 定义分类变量”对话框,将“扩散等级”变量选入分类协变量列表,对比方法选择系统默认的指示灯。 单击【继续】按钮返回主对话框。

    bc33e9467a014f499d37c302eee65af6.png

    3.单击“保存”按钮,弹出如下图所示的“Logistic回归: 保存”按钮。 在“预测值”栏中勾选“概率”和“组成员”复选框,在“影响”栏中勾选“杠杆值”复选框,在“残差”栏中勾选“标准化”复选框,并勾选“包含协方差矩阵”复选框。 单击【继续】按钮返回主对话框。

    25131bdc6aa8ad783923a8c7843a2b9f.png

    4.单击【选项】按钮,弹出如下图所示的“Logistic回归: 选项”对话框。 在“统计和图”栏中勾选“分类图”、“Hosmer-Lemeshow拟合度”、“exp(B)的CI”,其他为系统默认。 单击【继续】按钮返回主对话框。

    5efb0559ccb7d5cdd31f6dacb5b9d893.png

    5.完成所有设置后,单击【确定】按钮执行命令。 3 二元Logistic回归的结果分析 1.从表1中可以看出参与分析的个案为978,无缺失值。

    5333502ad23860b65ccde39c9a1d2760.png

    2.表2为因变量变量的编码。 表3为自变量中的分类变量根据指示变量编码方案所生成的新变量。 新变量的变量名称为扩散等级(1)何扩散等级(2)。

    6aa38dea83c38ec62b30412c6326c7ba.png

    3.表4是拟合开始前模型外变量的卡方检验,所有变量的显著性均小于0.05,整体的显著性也小于0.05,整体的显著性也小于0.05,所以,所有变量进入模型都是有意义的。

    cfb32e94d2e699b7077ec956ab63ae95.png

    4.表5是3种常用的卡方统计量,因拟合方法选择的是输入,所以一步就完成了模型的拟合,所以,步长、块和模型的卡方值都相同,显著性小于0.05,说明解释变量的全体与Logit P之间的线性关系显著,采用此模型是合理的。

    9661bc3d5e1ab39cca61fbf7406c4784.png

    5.表6是模型拟合优度统计量,表中的-2对数似然值为838.913,值较大,说明模型拟合效果不是很好,Cox&snell R平方和Nagelkerke R 平方值分别为0.087和0.142,值较小,说明模型方程能解释的回归变异很小,模型拟合不理想。

    8a866a2c1169ea982ef057db3fafe91f.png

    6.表7给出了Hosmer和Lemeshow检验的统计量,显著性小于0.05,所以拒绝零假设,表示方程拟合效果不理想。

    245269e5446d9af966592b84082acaea.png

    7.表8是Hosmer和Lemeshow检验的列联表,根据预测概率,将数据分为10组,第2行和第3行是“癌变部位的淋巴结是否含有癌细胞=无”的观测值和期望值,第4行和第5行是“癌变部位的淋巴结是否含有癌细胞=有”的观测值和期望值,可见各行的观测值和期望值存在一定的差异,说明模型拟合效果不理想。

    38c8d033e0f75a49ab75de4b1da37c95.png

    8.表9是观测值和预测值的分类表,从表中可以看出798名癌变部位的淋巴结没有癌细胞的患者被准确预测,正确率只有97.9.0%,但是只有16名癌变部位的淋巴结含有癌变细胞的患者被准确预测,正确率只有9.0%,总的正确率为81.7%,说明预测效果不理想。

    60bd36947b2e3334af9a4c933714d973.png

    9.表10给出了各变量的系数(B),可以写出方程: Z=1.116*肿瘤大小(厘米)+2.953*肿瘤扩散等级(1)+2.026*肿瘤扩散等级(2)-5.714 得出估计淋巴结中是否含有癌细胞的概率为:

    90243928b93bf780f28ff81fc93d2fb8.png

     后台回复【二元Logistic回归】获取案例中的数据。

    86093060e82a44a34ef0ab6b71a84808.png

    参考资料:

    李昕,张明明.SPSS 22.0统计分析[M].北京:电子工业出版社,2015.

    12ed731d060bc7e6bade28a5d5c46ca4.png图文:郭鑫排版:郭鑫
    展开全文
  • 解读Logistic回归模型

    千次阅读 多人点赞 2020-08-22 19:36:14
    logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。 由此可见logistic回归是从线性回归模型推广而来的,线性回归模型如下: -----------线性...

    一、logistic回归的由来

    logistic回归在百度百科是这样定义的:

            logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。

            由此可见 logistic回归是从线性回归模型推广而来的,线性回归模型如下:

    h(x)=\theta _{0}+\theta _{1}x_{1}+\theta _{2}x_{2}+ ... +\theta _{n}x_{n}  -----------线性方程形式

    h(x)=\Theta ^{T}X    ----------------向量形式

            h(x)输出为连续的值但是实际中会有"输出为离散型变量"这样的需求,例如:给定特征预测一次金融交易是否是欺诈(1表示是, 0表示不是),显然不能直接使用线性回归模型(上面的线性回归方程自变量的取值范围是-∞到+∞,右侧表达式的的值的范围也是-∞到+∞),而这时逻辑回归就派上用场了。

    二、Logistic回归模型建立

            离散型变量涉及的问题通常称之为 分类问题,在分类问题中,尝试预测的是结果是否属于某一个类,下面我们从0-1二元分类问题开始理解。

            现假设因变量y取值为0和1,在自变量x的条件下因变量y=1的概率为p,记作p=P(y=1|x),那么y=0的概率就为1-p(因变量取1和取0的概率比值p/(1-p)   称为优势比),由 P(y=1|x) 推导 Sigmoid函数,推导过程如下:

    Sigmoid函数公式:h(z)=\frac{1}{1+e^{-z}}         ----------------------- (1)

    Sigmoid函数图形:(上下阈值无限逼近 1 和 0)

    Logistic回归可理解为是在线性回归的基础上加一个Sigmoid函数对线性回归的结果进行压缩,令其最终预测值y在一个范围内(0到1之间),或者说是在用线性回归模型的预测结果去逼近真实标记的对数几率。

    上述由 P(y=1|x) 推导 Sigmoid函数的过程中,设置了:

    \large z=ln \frac{P(x|y=1)P(y=1)}{P(x|y=0)P(y=0)}

    这里,需要一个引经据典,才能进行下一步推导:

    1730 年,法国数学家棣莫弗(1677年-1754年)出版的著作《分析杂论》中包含了著名的棣莫弗─拉普拉斯定理。他使用正态分布取估计n(很大)时抛掷硬币出现正面次数的分布,即二项分布B(n,0.5)。这就是概率论中第二个基本极限定理的雏形。将近80年后,拉普拉斯(1749年-1827年)在 1812 年出版的《概率的分析理论》中,首先明确地对概率作了古典的定义。他指出当n很大时,二项分布B(n,p)(0<p<1)都可以用正态分布逼近。所以后人称之为棣莫弗-拉普拉斯中心极限定理

    所以,我们假设 类条件概率密度 服从正态分布。

    高中的时候我们便学过一维正态分布的公式为:

    N(x|\upsilon ,\sigma ^{2}) = \frac{1}{\sqrt{2\pi\sigma ^{2} }}e^{-\frac{1}{2\sigma ^{2}}(x-\upsilon )^{2}}

    拓展到多维时,就变成:

    N(\bar{x}|\bar{\upsilon},\Sigma ) = \frac{1}{(2\pi) ^{\frac{D}{2}}} \frac{1}{\left |\sum \right |^{\frac{1}{2}}} e^{[ -\frac{1}{2} (\bar{x} - \bar{\upsilon })^{T} \sum ^{-1} (\bar{x} - \bar{\upsilon}) ]}     --------------------------  (2)

    其中,\bar{X} 表示维度为 D 的向量,\bar{u} 则是这些向量的平均值,Σ 表示所有向量 \bar{X} 的协方差矩阵。

    (2)式写成概率的形式:

    P(x|c_{k}) = \frac{1}{(2\pi) ^{\frac{D}{2}}} \frac{1}{\left |\sum \right |^{\frac{1}{2}}} e^{[ -\frac{1}{2} (x - \upsilon _{k})^{T} \sum ^{-1} (x - \upsilon _{k}) ]}    

    下面开始下一步推导:

    由此得到 \large z = w^{^{T}}x + b   

    那么 \large f(x) = w^{^{T}}x + b , 什么时候不需要考虑偏置项b?

    \(x\)\(b\)吸收入向量形式 \(\hat{w} = (w;b)\),此时就不用单独考虑\(b\)了。

    因此令 \theta = (w;b)x ,则 z = w ^{^{T}}x + b = \theta ^{T}x

    即:z = \theta ^{T}x   ----------------------- (3)

    综合上述 (1)式 和 (3)式,得到Logistic回归模型

    h(x) = \frac{1}{1+e^{-\theta ^{T}x}}

    完毕。

     

    展开全文
  • Logistic回归模型是一种非常常见的统计回归模型,在处理大量数据,揭示各自变量对因变量之间的关系时有着十分重要的作用。笔者在写Logit回归模型前参加了一次市场调研比赛,在这次比赛中学到了很多东西,同时发现,...
  • 一、Logistic回归模型:   二、Logistic回归建模步骤 1.根据分析目的设置指标变量(因变量和自变量),根据收集到的数据进行筛选 2.用ln(p/1-p)和自变量x1…xp列出线性回归方程,估计出模型中的回归系数 3.进行模型...
  • 一、逻辑回归的概念逻辑回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。二.逻辑回归不是回归 从名字来理解逻辑回归.在逻辑回归中,逻辑(logistics ),并不...
  • 基于Logistic回归模型的人口预测分析 尹东旭李 阳马雨晨 指导老师徐 慧 (空军工程大学西安 XXXXXX) 摘 要本文在数值微分法和最小二乘法曲线拟合的基础上对Logistic回归模型进行参数估计预测了人口城镇化和老龄化两个...
  • Logistic回归思维导图:原数据部分截图:先看一下是否低出生体重,与是否吸烟之间的关系,使用卡方检验:接下来看一下,相同的单变量,使用Logistic回归应该如何去做:看一下具体的预测概率值:下面,把案例中的连续...
  • 分类器的logistic回归分析,机器学习解决的问题大体上就是两种:数值预测和分类两种问题。从本质上 讲是一样的:都是通过对已有数据的学习,构建模型,然后对未知的数据进行预 测,若是连续的数值预测就是回归问题,...
  • 结合实际情况,可以将Logistic回归分析分为3类,分别是二元Logistic回归分析、多元有序Logistic回归分析和多元无序Logistic回归分析,如下图。Logistic回归分析用于研究X对Y的影响,并且对X的数据类型没有要求,X...
  • logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例,选择...
  • 代码 基于Logistic回归模型评估企业还款能力 代码代码 基于Logistic回归模型评估企业还款能力 代码代码 基于Logistic回归模型评估企业还款能力 代码代码 基于Logistic回归模型评估企业还款能力 代码代码 基于...
  • 代码 基于Logistic回归模型评估企业还款能力代码代码 基于Logistic回归模型评估企业还款能力代码代码 基于Logistic回归模型评估企业还款能力代码代码 基于Logistic回归模型评估企业还款能力代码代码 基于Logistic...
  • 乳腺癌细胞数据分析&Logistic回归模型 :“关爱女性,呵护生命”
  • logistic回归是一种广义线性回归(generalized linear model),因此与多重线性回归分析有很多相同之处。它们的模型形式基本上相同,都具有 w‘x+b,其中w和b是待求参数,其区别在于他们的因变量不同,多重线性回归...
  • logistic回归模型分析

    千次阅读 2021-01-27 06:46:59
    本文脉络:logistic回归模型的含义logistic模型的决策边界函数分析logistic模型的参数最优化logistic回归模型与感知机模型的比较总结logistic回归模型的含义我们把分类模型分成两个阶段,推断阶段和决策...
  • Logistic回归模型和Python实现

    千次阅读 2020-12-09 20:32:55
    Logistic回归模型线性回归先从线性回归模型开始,线性回归是最基本的回归模型,它使用线性函数描述两个变量之间的关系,将连续或离散的自变量映射到连续的实数域。模型数学形式:引入损失函数(loss function,也称为...
  • 作者:朱驰单位:上海市东方医院南院检验科上一篇《超实用干货—检验人最常用的统计学分析方法梳理(一)》我们简单梳理了常用的比较分析的统计...今天我们就来梳理一下SPSS作logistic回归分析。在做logistic回归分...
  • gistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。
  • 参考我的个人博客: 分类器设计之logistic回归分析 http://blog.csdn.net/ranchlai/article/details/10022637
  • Logistic回归模型和判别分析方法都可以达到对样本分类的目的,比较和分析这2种方法的差异以及其各自的特点,可以为更好的应用提供参考。从类别表现、样本情况、归类函数、归类原则、预测功效等5个方面对Logistic回归...
  • 第一节 logistic回归 第二节 条件logistic回归 第三节 logistic回归的应用 及其注意事项 目的:作出以多个自变量(危险因素)估计应变量(结果因素)的logistic回归方程。属于概率型非线性回归。 资料:1. 应...
  • 基于K-均值聚类的多值有序Logistic回归模型在信用卡信用评级中的应用研究.pdf
  • 方法:对586例PICC导管插入患者的数据进行回顾性分析,然后对肿瘤患者的一般数据和导管插入数据进行单变量分析,将具有统计学意义的单因素数据纳入多因素Logistic回归模型中。分析。 结果:PICC导管相关的血流感染...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 54,691
精华内容 21,876
关键字:

logistic回归模型