精华内容
下载资源
问答
  • logistic回归分析
    千次阅读
    2021-03-03 16:46:35

    前面的博客有介绍过对连续的变量进行线性回归分析,从而达到对因变量的预测或者解释作用。那么如果因变量是离散变量呢?在做行为预测的时候通常只有“做”与“不做的区别”、“0”与“1”的区别,这是我们就要用到logistic分析(逻辑回归分析,非线性模型)。

    参数解释(对变量的评价)

    发生比(odds): ODDS=事件发生概率/事件不发生的概率=P/(1-P)

    发生比率(odds ratio):odds ratio=oddsB/oddsA(组B相对于组A更容易发生的比率)

    注:odds ratio大于1或者小于1都有意义,代表自变量的两个分组有差异性,对因变量的发生概率有作用。若等于1的话,该组变量对事件发生概率没有任何作用。

    参数估计方法

    线性回归中,主要是采用最小二乘法进行参数估计,使其残差平方和最小。同时在线性回归中最大似然估计和最小二乘发估计结果是一致的,但不同的是极大似然法可以用于非线性模型,又因为逻辑回归是非线性模型,所以逻辑回归最常用的估计方法是极大似然法。

    极大似然公式:L(Θ)=P(Y1)P(Y2)...p(YN)            P为事件发生概率PI=1/(1+E-(α+βXI))

    在样本较大时,极大似然估计满足相合性、渐进有效性、渐进正太性。但是在样本观测少于100时,估计的风险会比较大,大于100可以介绍大于500则更加充分。

    模型评价

    这里介绍拟合优度的评价的两个标准:AIC准则和SC准则,两统计量越小说明模型拟合的越好,越可信。

    若事件发生的观测有n条,时间不发生的观测有M条,则称该数据有n*m个观测数据对,

    在一个观测数据对中,P>1-P,则为和谐对(concordant)。P<1-P,则为不和谐对(discordant)。P=1-P,则称为结。

    在预测准确性有一个统计量C=(NC-0.5ND+0.5T)/T,其中NC为和谐对数,ND为不和谐对数,这里我们就可以根据C统计量来表明模型的区分度,例如C=0.68,则表示事件发生的概率比不发生的概率大的可能性为0.68。

    使用假设条件

    ①数据来自随机样本

    ②共线性敏感,自变量之间是非线性关系

    ③因变量只能取0、1

    接下来看案例

    PROC LOGISTIC DATA=EX.LOAN PLOTS(ONLY)=(EFFECT(CLBAND X=(DELINQ DEBTINC REASON))

    ODDSRATIO (TYPE=HORIZONTALSTAT RANGE=CLIP));

    CLASS EDUCATION(REF="college") REASON(REF="car")/PARAM=REFERENCE;

    MODEL BAD(EVENT="1")=DELINQ DEBTINC YROPEN EDUCATION REASON DELINQ*DEBTINC DEBTINC*EDUCATION/CLODDS=PL STB PARMLABEL;

    UNITS DEBTINC=5 -5;

    ODDSRATIO EDUCATION/DIFF=ALL CL=PL;

    ODDSRATIO REASON/DIFF=ALL CL=PL;

    TITLE"BAD LOAN MODEL";

    RUN;

    PROC LOGISTIC可以用的常见的选项是noprint 、plots、namelen=n 分别对应功能为:不打印结果、输出画图、变量名长度为N(20~200)。其中plots语句中有ONLY表明指输出接下来指定图形。

    后面跟着个effect选项,括号中的自选项有CLBAND和showobs指定在图形中表明预测概率的置信区域和观测,后面还有子选项X=变量1 变量2.....表明画出多个自变量的预测效应图(假设其余变量都取均值,只考虑指定自变量的因变量预测情况)。这里指定了三个变量,就会输出三个预测效果图。注:因变量分类大于2则effect失效。

    PROC LOGISTIC的选项ODDSRATIO,后面跟着两个子选项TYPE和range,type=horizontalstat表明图形有段显示发生比率和置信区间,range=clip表明图形横坐标的范围是计算到的最小发生比率到最大发生比率。

    语句CLASS,选项PARAM=可以去三个值:EFFECT \REFERENCE\ORDINAL,分别对应了三种不同将一个自变量分解成K-1个新变量的不同取值方法(一个变量有K个水平第  k个水平为参考水平!)三种方法的不同在于对参考水平变量取值分别去-1、0、按水平的升序取值(用于顺序变量)。

    选项REF=‘’的作用为指定变量中的某个取值作为参考水平。

    MODEL语句有且只能有一个。这里的因变量BAD后面跟着选项event=“1”表明bad值为1时代表事件发生,此模型是计算BAD=1发生的概率。然后等号后面跟着可能进入模型的自变量,其中还有两个交互的自变量,为了研究两个变量是否有交互作用。

    model 后面跟着选项CLODDS=表示输出事件发生比率的执行区间(PL表示用剖面函数计算, wald表示根据wald检验计算,both表示两种方法都计算一遍)。

    model后面的选项STB表示对输出标准化,此选项是针对不同变量的度量单位可能不一致作用的,标准化后能更加客观的对比不同变量对预测因变量的作用的大小。

    model后面还有选项parmlabel表明为极大似然估计的表中输出标签。

    UNITS语句:上代码中表示DEBTINNC的值增加或者减少5个单位时计算一次发生比率。(默认变化一个单位计算一次,变化非常微小,步长跨度大一些会更有意义)。

    ODSSRATIO语句,计算某一自变量的水平相对于参考水平的发生比率,选项DIFF=ALL表示比较所有水平间的发生比率,DIFF=REF表明相对参考水平的发生比率。选项CL=WALD\PL\BOTH和上文中讲的一致。

    一下是输出结果:

    776afb21dfdebeaaf407d77a1887818e.png

    先输出一些基本情况,因变量水平数,观测数,以及频数,重要的是以什么条件建模(BAD=1)

    6a41a0382f44145f1a2034564f03dccf.png

    表一为根据两个变量的取不同水平,创建的新变量的取值

    表二为模型的拟合优度判断,几个统计量是用于同一数据不同模型之间的比较才有意义,这里可以暂时忽略。

    表三原假设为无线性关系(全局0假设),而根据三个统计量判断均是拒绝原假设,表示logit于自变量的线性关系显著。

    2796c1577e9fc1eef6c3f64867a1aaf5.png

    上表为变量的联合检验,也成为三效应检验,分别表示各个自变量对模型的显著性,即对因变量事件的发生有没有显著性。

    以0.05的置信水平上有EDUCATION和DEBTINC*EDUCAION变量对模型没有显著性,其余的都有显著性。

    00fbae5ddc4df1a40228125aae11f898.png

    各个变量的参数估计包括截距的估计,还有标准化的参数估计(因为用了STB选项)。标准化后的估计值一般用来衡量不同自变量对因变量影响的大小(仅限于连续自变量,对于分类自变量标准化参数估计无意义)。还有一个统计量用于检查参数非零的显著性。

    需要注意的是这里有两个变量EDUCATION和REASON的不同水平单独作为了一个变量进入模型。

    注:以上是对所有变量都进行的参数估计,若在model后面再加一个选项SELECTION=FORWARD\BCKWARD\STEPWISE\SCORE指明一个模型选择法,则最终的结果就想之前的博客中一样,一步一步选择变量,最终得到一个类似于上表的表,区别在于不能进如模型的变量会不存在表中,如下图是向前选择的最终结果:

    (一下为插入别的代码结果)

    62776840e35bb993e87d40d9b7afcd9f.png

    可见对变量进行筛选之后和不筛选是有区别的,一般认为筛选过的模型更加准确。

    (以上为插入)

    (以下为接着插入前的结果分析)

    0d8ee7c1da31b5104c45eae5f6d6f21d.png

    表一能衡量预测的准确性,一致部分的百分比即和观测于预测相同的占比有85.7,不一致的有14.1,不能确定的有0.2.。比较有价值的统计量是发生比率C=0.858,表明事件发生的概率比事件不发生的概率大的可能性有0.858。证明模型的有效。

    表二,由于程序用了oddsratio语句,最用对象为EDUCATION和REASON,系统对两个变量的不同水平进行了求发生比率估计,即表二。前文说了发生比率不能等于1,而其中有两个新变量的置信区间包含了1,说明不同水平间对于发生比是无差别的,即新变量对发生不显著的。所以该模型中只有REASON 中BUSINESS和car两个水平的发生比是显著的,还有一个reason中house和business两水平的发生比是显著的。

    还可以从图中看出相同结果:

    a61f28d152f7fddaf218c31caaab6d0d.png

    8f138f6be5869dec92fb3ef3433d3a2b.png

    跟之前同理。

    2b892a74968b7c8f049c2c3208df7ec1.png

    7b2374bf50bd89251c7af8a363a4018a.png

    4b42ca6684515701b7d405fcb51847ed.png

    以上三图为自变量的预测效应图,分别控制别的自变量为均值或者参考水平是,单独看指定自变量和对因变量的预测效果。DEBTINC取值越大,预测概率越大。DELINQ取值越大,预测概率越大。对于分类变量得出business的预测概率最大。

    更多相关内容
  • logistic回归分析matlab代码逻辑回归-机器学习 客观的开发机器学习算法,无需使用Octave或Matlab即可在python中进行逻辑回归。 Logistic回归是一种估计事件发生概率的回归类型。 例如,电子邮件是否为垃圾邮件,情绪...
  • 分类器的logistic回归分析,机器学习解决的问题大体上就是两种:数值预测和分类两种问题。从本质上 讲是一样的:都是通过对已有数据的学习,构建模型,然后对未知的数据进行预 测,若是连续的数值预测就是回归问题,...
  • 第一节 logistic回归 第二节 条件logistic回归 第三节 logistic回归的应用 及其注意事项 目的:作出以多个自变量(危险因素)估计应变量(结果因素)的logistic回归方程。属于概率型非线性回归。 资料:1. 应...
  • logistic回归是一种广义线性回归(generalized linear model),因此与多重线性回归分析有很多相同之处。它们的模型形式基本上相同,都具有 w‘x+b,其中w和b是待求参数,其区别在于他们的因变量不同,多重线性回归...
  • logistic回归分析matlab代码有用的位 “我不能创造的东西,我不理解”,费曼(1988) 该存储库旨在收集有用的信息/构件块(例如代码,教程等),用于机器学习,语音分析,Python,TensorFlow,Praat,Matlab等。 ...
  • 多因素Logistic回归分析结果表明,穿刺次数,定位方法和维持频率是肿瘤患者外周置入中心导管相关血流感染的危险因素,风险几率分别为8.762、9.253和10.324。 结论:对于植入外周中心导管的肿瘤患者,在严格的无菌...
  • 课件 课件 课件 4.Logistic回归-- Logistic回归种类 成组资料的非条件Logistic回归 配对资料的条件Logistic回归 两分类反应变量的Logistic回归 多分类有序反应变量Logistic回归 多分类无序反应变量Logistic回归 1:1...
  • SAS Logistic回归分析.doc

    2020-12-30 13:12:22
    《统计软件应用》实验SAS Logistic回归分析实验目的1、 使用SAS LOGISTIC 过程作响应变量为二分类变量的回归分析实验准备 复习相关章节“SAS相关与回归分析(三)”。 实验内容(一) 数据集lab06-1.txt,响应变量Y只...
  • 结合实际情况,可以将Logistic回归分析分为3类,分别是二元Logistic回归分析、多元有序Logistic回归分析和多元无序Logistic回归分析,如下图。Logistic回归分析用于研究X对Y的影响,并且对X的数据类型没有要求,X...

    633f7394e8dcf2cd5518b3dcc805a730.png

    在研究X对于Y的影响时,如果Y为定量数据,那么使用多元线性回归分析(SPSSAU通用方法里面的线性回归);如果Y为定类数据,那么使用Logistic回归分析。

    结合实际情况,可以将Logistic回归分析分为3类,分别是二元Logistic回归分析、多元有序Logistic回归分析和多元无序Logistic回归分析,如下图。

    214bfceeb03053a8a7ae147d2c1005d9.png

    Logistic回归分析用于研究X对Y的影响,并且对X的数据类型没有要求,X可以为定类数据,也可以为定量数据,但要求Y必须为定类数据,并且根据Y的选项数,使用相应的数据分析方法。

    本次内容将针对二元logistic(logit)回归进行说明,后续两篇文章将分别讲解有序logistic(logit)和多分类logistic(logit)回归。

    1、二元logistic分析思路说明

    在进行二元Logistic回归分析时,通常会涉及3个步骤,分别是数据处理、卡方分析和影响关系研究,如下图。

    d71835df14d0c897a637a3589c999584.png

    1.1 第一步为数据处理

    例如,在研究相关因素对样本将来是否愿意购买理财产品的影响情况时,性别,专业等均为影响因素,而且明显的,性别和专业属于定类数据,因此需要进行虚拟哑变量设置,可使用【数据处理->生成变量】完成。

    除此之外,二元logistic回归要求因变量只能为2项,而且数字一定是0和1,数字1表示YES,愿意,购买,患病等,数字0表示no,不愿意,不购买,不患病等。如果不是这样,那么就需要针对因变量Y进行数据编码,使用【数据处理->数据编码】即可完成。

    1.2 第二步为卡方分析或方差分析

    此步不是必需的步骤,通过此步可以试探性了解每个影响因素X与Y之间的影响关系情况,研究影响关系前,首先需要自变量X与Y之间有着差异关系,才可能进一步有着影响关系,也或者说差异关系是一种基础性关系,影响关系是更进一步的深层次关系。所以在进行二元logistic回归分析前,可先对X做差异分析,筛选出与Y有着差异性的X。

    如果X是定类数据,那么就使用卡方分析去分析差异;如果说X是定量数据,那么可使用方差分析去研究X和Y的差异性。

    分析完成X与Y的差异关系之后,筛选出有差异的X,然后再放入模型中,进行二元logistic回归;这样做的目的有两个,一是简化模型,越简单的模型越容易拟合且效果越好;二是做到心里有数,提前了解到数据之间的大致关系情况。

    1.3 第三步为影响关系分析,即二元Logistic回归分析

    在上一步确认了可能的影响因素之后,此步骤直接对题进行二元Logistic回归分析。二元Logistic回归分析时,首先需要看某个题是否呈现出显著性(如果P值小于0.05,则说明呈现出0.05水平的显著性;如果P值小于0.01,则说明呈现出0.01水平的显著性),如果呈现出显著性,那么说明该题对Y有影响关系。具体是正向影响还是负向影响需要结合对应的回归系数值进行说明,如果回归系数值大于0,则说明是正向影响;反之则说明是负向影响。

    除此之外,二元Logistic回归分析会涉及一个术语——对数比(SPSSAU中称其为OR值)。对数比是一个倍数概念指标,该值等于回归系数的指数次方,也称exp(b)值。例如,研究相关因素对样本‘是否购买理财产品’的影响,性别因素呈现出显著性,并且性别以女性为对照项,其对数比(OR值)为1.34,这说明男性样本购买理财产品的可能性是女性样本的1.34倍。

    二元Logistic回归分析模型的拟合情况或模型效果的判断会涉及3个指标,分别是Hosmer和Lemeshow检验、R2值和模型预测准确率表格。Hosmer和Lemeshow检验用于检验事实数据情况与模型拟合结果是否保持一致,如果在进行Hosmer和Lemeshow检验时P值大于0.05,那么说明事实数据情况与模型拟合结果保持一致,即说明模型拟合情况良好。

    R2用于表示模型拟合程度,此值与多元线性回归分析的R2值意义基本一致,此值的取值范围为0~1,值越大意味着相关因素对Y的解释力度越高。SPSSAU提供3个R方值指标,分别是McFadden R 方、Cox & Snell R 方和Nagelkerke R 方。

    除此之外,SPSSAU还会输出模型预测准确率表格,用于分析模型的预测水平情况。比如有多大比例将本身为愿意购买理财产品的样本误判断为不愿意购买理财产品的样本。

    2、如何使用SPSSAU进行二元logistic操作

    在进行二元logistic回归分析时,共分为三个步骤,第1步是数据处理。第二步是进行卡方或者方差分析试控X对于Y的差异,找出有差异关系的X,用于进一步的二元logistic回归分析。

    2.1 数据处理

    如果X是定类数据,比如性别或专业。那么就需要首先对它们做虚拟哑变量处理,使用SPSSAU【数据处理】--【生成变量】。操作如下图:

    990cc99cda21064948d3607840deff11.png

    因变量Y只能包括数字0和1,如果因变量的原始数据不是这样,那么就需要数据编码,设置成0和1,使用SPSSAU数据处理->数据编码功能,操作如下图:

    4b6238a54df73a6b85e662c6f32d68bf.png

    2.2 卡方分析或方差分析

    本例子中想研究性别,专业,年龄,月生活费共4项对于‘是否愿意理财’的影响。性别,专业这两项为定类数据,所以可使用卡方分析它们分别与‘是否愿意理财’的差异关系。而年龄和月生活费可看成定量数据,可使用方差分析(或非参数检验)分析它们分别与‘是否愿意理财’的差异关系情况。

    由于例子里面仅4个X,本身就较少,因此模型本身并不复杂,因此直接忽略此步骤即可,直接进行二元logistic回归分析。

    2.3 二元logistic回归分析

    SPSSAU进行二元logistic回归分两步,分别是在进阶方法里面找到二元logit,第二是拖拽分析项到右我们就是右侧框后开始分析,如下所示:

    899a576d8304de35e03ba79ed69cfa9f.png

    cddc7d7578ef8dba2db5b1c0747f9497.png

    性别和专业均为定类数据,所以进行了虚拟哑变量设置。

    而且性别分为男和女,以女作为参照项,因此框中仅放入‘男’即可;

    专业分为理工类,文科类,艺术类和,体育类;以体育类作为参照项,因此框中会少放体育类,放入另外3项即理工类,文科类和艺术类即可。

    虚拟哑变量在进行影响关系研究时,一定需要有1个参照项,至于具体是哪一项,由研究者自行决定即可,无固定要求,一般是第1个或者最后1个,或者研究者希望设置作为参考项的。

    完成后,SPSSAU会得到一系列的表格和智能分析,包括模型基本汇总表格,模型似然比检验表格,模型参数拟合表格,模型预测准确率表格,Hosmer-Lemeshow拟合度检验等。如下:

    dd67d9a5ab53dae14d48dd4cd055d3bb.png

    二元logit回归分析基本汇总

    5d45a5f4dd910018a28304d2321dd4ff.png

    二元logit回归模型似然比检验结果

    b037e0909dd33c15daf1b76dc52ac20b.png

    二元logit回归结果分析

    d72d9bdb90ae83e59b997e1648b36848.png

    二元logit回归预测准确率表格

    e22b8fc824ea3ed8a8a3f3bdbb9850c9.png

    Hosmer-Lemeshow拟合度检验 

    3、二元logistic相关问题

    在使用SPSSSAU进行二元logistic回归时,可能会出现一些问题,比如提示奇异矩阵,质量异常,Y值只能为0或1等,接下来一一说明。

    6ebf1701cff86e618eeb557a0f324b87.png

    第1点:出现奇异矩阵或质量异常

    如果做二元logistic提示奇异矩阵,通常有两个原因,一是虚拟哑变量设置后,本应该少放1项作为参考项但是并没有,而是把所有的哑变量项都放入框中,这会导致绝对的共线性问题即会出现奇异矩阵矩阵。二是X之间有着太强的共线性(可使用通用方法的线性回归查看下VIF值),此时也可能导致模型无法拟合等。先找出原因,然后把有问题的项移出模型中即可。

    同时,如果自变量X的分布极其不均匀,SPSSAU建议可先对类别进行组合,可使用数据处理里面的数据编码完成。

    第2点:Y值只能为0或1

    二元logistic回归研究X对Y的影响,Y为两个类别,比如是否愿意,是否喜欢,是否患病等,数字一定有且仅为2个,分别是0和1。如果不是这样就会出现此类提示,可使用SPSSAU频数分析进行检查,并且使用数据处理->数据编码功能进行处理成0和1。

    第3点:OR值的意义

    OR值=exp(b)值,即回归系数的指数次方,该值在医学研究里面使用较多,实际意义是X增加1个单位时,Y的增加幅度。如果仅仅是研究影响关系,该值意义较小。

    第4点: wald值或z值

    z 值=回归系数/标准误,该值为中间过程值无意义,只需要看p 值即可。有的软件会提供wald值(但不提供z 值,该值也无实际意义),wald值= z 值的平方。

    第5点: McFadden R 方、Cox & Snell R 方和Nagelkerke R 方相关问题?

    Logit回归时会提供此3个R 方值(分别是McFadden R 方、Cox & Snell R 方和Nagelkerke R 方),此3个R 方均为伪R 方值,其值越大越好,但其无法非常有效的表达模型的拟合程度,意义相对交小,而且多数情况此3个指标值均会特别小,研究人员不用过分关注于此3个指标值。一般报告其中任意一个R方值指标即可。

    展开全文
  • 如何用spss17.0进行二元和多元logistic回归分析.pdf
  • 使用统计软件包程序对借助问卷获得的数据进行有序逻辑回归分析。 430名住在保守旅馆的顾客被要求回答调查中的41个问题。 研究结果表明,在因变量及其受教育程度,职业状况,月收入,国籍,酒店住宿时间,以前的酒店...
  • 本文脉络:logistic回归模型的含义logistic模型的决策边界函数分析logistic模型的参数最优化logistic回归模型与感知机模型的比较总结logistic回归模型的含义我们把分类模型分成两个阶段,推断阶段和决策...

    37d470dacc9b1c4161dad4418a117780.png

    logistic回归模型是一种线性生成模型。本文将介绍logistic回归模型相关的知识,为了更好地理解模型的决策边界函数,本文同时分析了多元变量的协方差对概率分布的影响。

    本文脉络:

    1. logistic回归模型的含义
    2. logistic模型的决策边界函数分析
    3. logistic模型的参数最优化
    4. logistic回归模型与感知机模型的比较
    5. 总结

    logistic回归模型的含义

    我们把分类模型分成两个阶段,推断阶段和决策阶段,推断阶段对联合概率分布建模,然后归一化,得到后验概率。决策阶段确定每个新输入x的类别。

    我们用推断阶段的方法来推导logistic回归模型,首先对类条件概率密度

    和类先验概率分布
    建模,然后通过贝叶斯定理计算后验概率密度。

    考虑二分类的情形,类别C1的后验概率密度;


    则:

    式中的

    就是logistic函数

    因此,logistic回归的值等于输入变量为x的条件下类别为C1的概率

    (1) 当

    分类结果为C1

    (2) 当
    分类结果为C2

    结论:logistic回归值表示所属类的后验概率,无论是二分类还是多分类,分类结果都是后验概率最大所对应的类。

    logistic的决策边界函数分析

    决策边界函数,简而言之,就是函数的两侧是不同的分类结果。

    可定性的分析协方差的三种情况与分布图的关系。

    (a) 图表示正常的协方差矩阵的高斯分布图。
    (b) 图表示协方差矩阵是对角矩阵的高斯分布图。
    (c) 图表示协方差矩阵是对角矩阵且对角元素都相等的高斯分布图。

    ed6eafab10f80176f8821fb8076e367c.png

    ab1d58cb1ff3744093ba4de9798d0cb6.png

    dd7c9ae7fadefc9958a8a7068a70aac3.png

    logistic的决策边界函数分析

    logistic曲线如下图,红色直线(a=0)表示决策边界函数:

    3c229a4600adc57ce68e388acec8d2e0.png

    假设类条件概率密度是高斯分布,即P(x|Ck),然后求解后验概率的表达式,即P(Ck|x)。我们知道,logistic回归值就是所求的后验概率。

    假设类条件概率密度的协方差相同,类条件概率密度为:

    由上面的推导公式得后验概率为:

    其中:

    由后验概率

    的表达式可知,当类条件的协方差矩阵相等时,决策边界函数是随x线性变化的直线。

    结论:如下图,若两类的条件概率密度的协方差相同时(如C1和C2的协方差相同),则决策边界函数是直线;若两类的条件概率密度的协方差不相同时(如C1和C3,C2和C3),则决策边界函数是曲线。判断协方差矩阵是否相同可以根据分布图形形状是否相同来判断,如C1和C2的协方差相同,C3和C1、C2的协方差不相同。

    963e5ca4fc546a105f3bd43d36796309.png

    假设类条件概率密度符合高斯分布且具有相同的协方差矩阵,则决策边界函数是一条直线;若类条件概率密度符合更一般的指数分布且缩放参数s相同,决策边界函数仍然是一条直线。

    logistic模型的参数最优化

    logistic模型损失函数

    logistic回归模型的含义是后验概率分布,因此可以从概率的角度去设计损失函数。

    考虑两分类情况,假设有N个训练样本,logistic模型是

    表示后验概率y=1的概率,则
    表示y=0的概率,变量
    取值1或0,且分别代表模型

    因此,似然函数

    损失函数

    logistic模型的参数最优化

    损失函数最小化等价于模型参数的最优化,如下图:

    利用梯度下降法求最优解,学习速率

    :

    具体求法本文不介绍,只给出算法的思想。
    为了避免过拟合问题,则在原来的损失函数增加正则项,然后利用梯度下降法求最优解,这里也不展开。

    logistic模型与感知机模型的比较

    logistic模型与感知机模型的相同点

    由上面的分析可知,假设类条件概率分布的协方差相同,则logistic模型的决策边界函数是随x线性变化的直线,因此,感知机模型与logistic模型的分类策略一样,即决策边界函数是一样的。如下图:

    d5bb1a5241499612c354f3d7371a1c6e.png

    感知机模型:当点落在直线上方,y>0,则分类结果为C1;反之为C2。
    logistic模型:当点落在上方,y>0,则后验概率P(C1|X)>0.5,分类结果为C1;反之为C2。

    考虑到对输入变量x进行非线性变换

    ,感知机和logistic模型的分类策略仍一样,决策边界函数相同,如下图:

    dba974f00771b1e18ae4ed733eed75aa.png

    感知机模型:当点落在圆外,y>0,则分类结果为C1;反之为C2。
    logistic模型:当点落在圆外,y>0,则后验概率P(C1|X)>0.5,分类结果为C1;反之为C2。

    logistic模型与感知机模型的异同点

    (1) logistic回归模型限制值的范围在0~1,感知机模型对值范围没有限制,因此logistic模型相比感知机模型,对异常点有更强的鲁棒性。如下图,当有异常数据时,logistic模型要好于感知机模型。

    b4fa6f11b6965ac6a678625e5dc4a05d.png

    (2) 感知机模型用误分类点到超平面的距离衡量损失函数,而logistic模型则从概率角度去衡量损失函数。

    总结

    logistic回归的含义是后验概率分布,用概率的角度去设计似然函数,logistic模型相比于感知机模型对异常数据具有更好的鲁棒性。

    展开全文
  • logistic回归分析及SAS实现医学研究中的logistic回归分析及SAS实现
  • 第13章Stata Logistic回归分析

    万次阅读 2021-07-17 10:16:13
    根据因变量得离散特征:常用得Logistic回归分析方法有3终,包括二元Logistic回归分析、多元Logistic回归分析以及有序Logistic回归分析等。 13.1二元Logistic回归分析 我们经常会遇到因变量只有两种取值的情况,...

    目录

    13.1二元Logistic回归分析

    案例延伸 

    延伸1:设定模型预测概率得具体值

    延伸2:使用Probit模型对二分类因变量进行拟合

    13.2多元Logistic回归分析

    案例延伸

    延伸:根据模型预测每个样本视力低下程度的可能性

    13.3有序Logistic回归

    案例延伸

    延伸:试用Probit模型对有序分类因变量进行拟合        


            前面我们讲述得回归分析方法都要求因变量是连续变量,但很多情况下因变量是离散得而非连续得。例如,公司招聘人才时根据对应聘人员得特征做出录用或者不录用得评价、毕业学生对职业得选择等。这时就需要用到Logistic回归分析。根据因变量得离散特征:常用得Logistic回归分析方法有3终,包括二元Logistic回归分析、多元Logistic回归分析以及有序Logistic回归分析等。

    13.1二元Logistic回归分析

            我们经常会遇到因变量只有两种取值的情况,例如是否患病、是否下雨等,这时一般的线性回归分析将无法准确刻画变量之间的因果关系,需要用其他的回归分析方法来进行拟合模型。Stata的二项分类Logistic回归便是一种简便的处理二分类因变量问题的分析方法。

            数据(案例13.1)给出了20名肾癌患者的相关数据。试用二分类Logistic回归分析方法分析患者肾细胞转移情况(有转移y=1、无转移y=0)与患者年龄、肾细胞癌血管内皮生长因子(其阳性表示由低到高3个等级)、肾细胞核组织学分级(由低到高共4级)、肾细胞癌组织内微血管数、肾细胞癌分期(由低到高共4期)之间的关系。

    logit V1 V2 V3 V4 V5 V6 #本命令的含义时以V1为因变量,以V2 V3 V4 V5 V6 为自变量,进行二元Logistic回归分析,研究变量之间的因果影响关系。其中自变量的影响是以回归系数的形式输出的。

                从上述分析结果可以看出由20个样本参与了分析,模型的F值(5,14)=1.64,P值(Prob > F)= 0.2135,说明模型整体是不显著的。模型的可决系数(R-squared)为0.3695,模型的修正的可决系数(Adj R-squared)为0.1444,说明模型的解释能力也是比较差的。下面的不过多赘述哈。我们可以看出最小二乘线性模型的整体显著性、系数显著性以及模型的整体解释能力都是由较大提升看空间的。

            可以得到最小二乘回归方程模型是:

            V1 = -0.0061692*V2+。。。+0.7871698

    logistic V1 V2 V3 V4 V5 V6 #本命令的含义是进行二元Logistic回归分析,研究变量之间的因果关系。其中自变量的影响是以(Odds Ratio)的形式输出的。

             上图是以V1为因变量,以V2 V3 V4 V5 V6 为自变量,进行二元Logistic回归分析。其中,自变量的影响是以优势比(Odds Ratio)的形式输出的。从上图可以看出Logistic相对于最小二乘回归模型得到了很大程度的改进。。模型的整体显著性P值达到了9%左右(Prob > chi2 = 0.0934)伪R方达到了35%(Pseudo R2 = 0.3500),解释能力得到了进一步提高。各个变量系数的显著程度也有不同程度的提高。

            与一般的回归形式不同,此处自变量的影响是以优势比的形式输出的。它的含义是:在自变量保持不变的条件下,被观测自变量每增加1个单位时y=1的发成比的变化倍数。可以看出,各个变量中只有V6变量的增加回引起因变量取1值得大于1倍得增加,这说明只有V6是与因变量呈现正向变化,只有V6使得因变量取1得概率更大。

    logit V1 V2 V3 V4 V5 V6   #本命令得含义是进行二元Logistic回归分析,研究变量之间得因果影响关系。其中变量得影响是以回归系数得形式输出得。

             上图可以看出该模型与使用Logistic命令回归得到得结果是一致得,只是自变量影像输出得形式由优势比换成了回归系数。

            最终模型表达式为:

            LNV1 = -0.0644172*V2+...+3.224457

            其中LNV1  V2 V3 V4 V5 V6 分别表示肾细胞发生癌转移概率得对数值、年龄、肾细胞癌血管内皮生长因子、肾癌细胞核组织学分级、肾细胞癌组织内微血管数和肾细胞癌分期。

            综上所述,我们得到得结论是:年龄、肾细胞癌血管内皮生长因子、肾癌细胞分级、肾细胞癌组织内微血管数与肾细胞癌转移呈反向变化,肾细胞癌分期与肾细胞癌转移呈正向变化,但这些变化并不是特别显著。

    estat clas  #本命令得含义是计算预测准确得百分比,并提供分类统计和分类表
    
    lstat #本命令是上条命令“estat clas”得另一种表达形式
    

             从上图我们可以看出很多信息。按照系统默认设置,系统使用0.5作为分割点。分类中得D、-D、“+”、“-”分别表示以下含义:

            D:表示一个观测样本所关注得事件确实发生了,也就是说Y得值去到了1,在本例中,也就是说肾细胞确实发生了癌转移。

            -D:表示一个观测样本所关注得事件的确没有发生,也就是说Y得值渠道了0,在本例中,也就是说肾细胞的确没有发生癌转移

            +:表示模型预测得概率值大于分割点,本例中,也就是说模型预测得肾细胞发生癌转移得概率为0.5或者更多。

            -:表示模型预测得概率值小于分割点,本例中,也就是说模型预测的肾细胞发生癌转移得概率低于0.5。

            所以按照模型预测肾细胞发生癌转移得概率至少在0.5以上得标准,有6次是肾细胞确实发生了癌转移而且模型预测得概率值大于分割点,有10次是肾细胞确实没有发生癌转移而且模型预测得概率值小于分割点,所以,一共有16个样本得预测是正确得,预测正确率占全部样本得80%。有2次肾细胞确实发生了癌转移但模型预测得概率值小于分割点,有2次肾细胞确实没有发生癌转移但模型预测得概率值大于分割点,一共有4个样本得预测是错误得,预测错误了占全部样本的20%。

    predict yhat #本命令旨在估计因变量得拟合值。它创建一个命名为yhat得新变量,等于最近一次Logistic模型基础上y=1得预测概率

     

             二元Logistic得因变量拟合值预测结果表示得含义是y=1得概率,本例所表示得含义是肾细胞发生癌转移得概率。

    estat gof  #本米兰旨在判断模型得拟合效果或者说模型得解释能力

            可以看到Prob > chi2 = 0.3503,说明模型得解释能力还是差强人意得,但比最小二乘线性回归模型要好处很多。

    案例延伸 

    延伸1:设定模型预测概率得具体值

    estat clas,cutoff(0.8)r

     延伸2:使用Probit模型对二分类因变量进行拟合

    probit V1 V2 V3 V4 V5 V6  #使用Probit回归分析,研究变量之间得因果影响关系

             Probit模型与Logistic模型所得得结果相差不大,模型整体得显著程度和解释能力都相比最小二乘回归分析有所提高。 

    mfx #本命令旨在计算在样本均值处得边际效应

            Probit模型在样本均值处得标记效应与最小二乘回归分析相差不大。 

    estat clas #计算预测百分比,并提供分类统计和分类表
    predict yhat  #估计因变量得拟合值。它创建一个yhat变量,等于最近一次Probit模型基础上y=1得预测概率

            上述结果不过多赘述。

    13.2多元Logistic回归分析

            我们经常回遇到因变量有多个取值而且无大小顺序得情况,例如职业、婚姻情况等,这时一般得线性回归分析无法准确得刻画变量之间得因果关系,需要用其他得回归分析方法来进行拟合模型。多项分类Logistic回归便是一种简便处理该类因变量问题的分析方法。

            数据(案例13.2)给出了山东省某中学20名视力低下学生视力监测的结果数据。试用多项分类Logistic回归分析视力低下程度(由轻到重共3级)与年龄、性别(1代表男性2代表女性)之间的关系。

    reg V1-V3  #对数据进行最小二乘回归分析

    mlogit V1 V2 V3,base(1) #本命令的含义是以V1为因变量,以V2 V3 为自变量,并设定第一组为参照组(视力低下程度为1),进行多元Logistic回归分析,研究变量之间的因果影响关系。其中自变量是以回归系数的形式输出的

            从上图可以看出Logistic模型与最小二乘回归估计效果相差不大。模型的整体显著性达到了0.0079(prob > chi2 = 0.0079)。伪R方达到了33.58%(Pseudo R2 = 0.3358)解释能力进一步提高。

            从上图分析结果可以看到V2和V3系数在第2组和第3组都是大于0的,这意味着V2和V3两个变量的值越大就越容易被分到2,3组,这表示性别为女年龄越大,越容易被分到中度视力低下,重度视力低下组。

            最终模型方程为:

            G1=0 因为轻度时因变量重的参考组,其所有系数均为0

            G2=LOG[P(低下中度)/P(低下轻度)]=-14.82979+0.8356566*年龄+0.732262*性别1

            G3=LOG[P(低下重度)/P(低下轻度)]=-71.13788+2.112522*年龄+18.39871*性别1

    mlogit V1 V2 V3,base(1)rrr  #本命令的含义是以V1为因变量,以V2 V3 为自变量,并设定第一组为参照组(视力低下程度为1),进行多元Logistic回归分析,研究变量之间的因果影响关系。其中自变量是以相对风险比率的形式输出的

             与二元Logistic的优势比(Odds Ratio)的概念类似,相对风险比率的含义是:在其他自变量保持不变的条件下,被观测自变量每增加1个单位y=1的发生比的变化倍数。可以看出,当B2增加或者性别为女生时,他会有相当大的概率会被分到第三组,即重度视力低下,当年龄偏大时,它也有较大概率被分到第三组,即重度视力低下。

    案例延伸

    延伸:根据模型预测每个样本视力低下程度的可能性

    predict eye1 eye2 eye3  

            如图所示,第一个观测样本为男性,15岁,他有80%的概率进入第一组,即轻度视力低下,有极小的甚至可以忽略不记得概率被分到第三组,即重度视力低下。其他得观测样本,可以按照类似得方法逐一进行分析,可以看出,我们得模型构建得不错,模型得预测能力也是比较优秀得。

    13.3有序Logistic回归

             在有些分析研究中,因变量虽然离散但存在这一定得排序,例如消费者对服务行业满意度得评价(很满意、基本满意、不满意、很不满意),又例如消费者对某种品牌产品得忠诚度得衡量(很喜欢、比较喜欢、不喜欢、很不喜欢)。在上述情况下,使用最小二乘回归分析以及二元或多元Logistic回归分析都不能获得比较好得效果,这时就需要用到我们得有序Logistic。

            数据(案例13.3)为了获得消费者得满意情况,某公司对120为随机抽取得消费者进行了调查,其中回收有效样本114个,相关信息如图所示,试用有序Logistic回归方法分析消费者满意程度(1表示很满意、2表示基本满意、3表示不满意)与性别(1代表男生,2代表女生)、学历(1表示大学专科及以下,2表示大学本科,3表示研究生及以上)之间得关系。

             

    reg V1-V3  #对数据进行最小二乘回归分析

    ologit V1 V2 V3  #本命令得含义时以V1为因变量,以V2 V3 为自变量,进行有序Logistic回归分析,研究变量之间得因果影响关系。
     

            可以看出有序Logistic模型与最小二乘回归估计效果相差不大。模型得整体显著性P值远远低于5%伪R方达到了45.54%。       

            从图中可以看出V2和V3得系数在第二组和第三组都是大于0得,这意味着V2和V3两个变量的值越大越容易分到后面的组,表示性别为女,学里越高,越容易被分到消费者满意程度较低得组。

            cut1 / cut2 表示得含义是割点的估计值,两个割点把样本分成了3个区间,也就是消费者3个不同的满意程度。当样本的因变量拟合值在cut1 之下时,他被分到第1组,消费者满意度为最高;当样本介于 cut1 和 cut2 之间时,它被分到第2组,满意度为中等;当样本的因变量拟合值在cut2之上时,它被分到第3组。消费满意程度为最低。

    predict sat1 sat2 sat3

            如图所示,第一个观测样本为男性,学历为学学专科以下,他又88%的概率进入第1组,即消费者满意程度为最高,又极小可能甚至忽略的概率进入第3组,即消费者满意程度最低。

    案例延伸

    延伸:试用Probit模型对有序分类因变量进行拟合        

    oprobit V1 V2 V3  #进行probit回归分析
    
    predict sat11 sat22 sat33 #估计因变量的拟合值。它创建一个命名为yhat的新变量,等于最近一次probit模型基础上y=1的预测概率

            结果不再过多赘述。 

    展开全文
  • Logistic 回归常用于分析二分类因变量与多个自变量的关 系, 本文通过案例解析分类变量的 Logistic 回归, 借助于 SPSS 软件 实现 Logistic 回归过程, 并对多分类因变量的 Logistic 回归做简单 介绍。
  • logistic回归分析报告结果解读分析.pdflogistic回归分析报告结果解读分析.pdflogistic回归分析报告结果解读分析.pdflogistic回归分析报告结果解读分析.pdflogistic回归分析报告结果解读分析.pdflogistic回归分析报告...
  • logistic 回归分析

    万次阅读 2018-04-28 20:53:28
    参考: http://blog.sina.com.cn/s/blog_7147f6870102vxwj.html http://chen.yi.bo.blog.163.com/blog/static/150621109201010301321654/ http://beader.me/2014/05/03/logistic-regression/ log...
  • 利用SPSS进行Logistic回归分析

    千次阅读 2020-12-28 23:22:06
    第8章 利用SPSS进行Logistic回归分析现实中的很多现象可以划分为两种可能,或者归结为两种状态,这两种状态分别用0和1表示。如果我们采用多个因素对0-1表示的某种现象进行因果关系解释,就可能应用到logistic回归。...
  • 上期学习了怎样汇总单因素 Cox 回归的结果,这期学习单因素;回归分的汇总,由于使用的是 coxph和 glm 两个函数结果的展示有所不同,因此整理过程略有不同,但是提取的信息是一致的。
  • logistic回归分析优点_二元Logistic回归

    千次阅读 2020-11-21 02:46:52
    点击上方蓝字关注我们在社会科学的研究中,经常会遇到二元变量的情况,...如果希望根据一系列预测变量的值来预测某种特征或结果是否存在,且因变量为二元变量,通常采用二元Logistic回归。1二元逻辑回归分析的原理与...
  • spss logistic回归分析结果如何分析

    万次阅读 2020-12-24 13:09:17
    如何用spss17.0进行二元和多元logistic回归分析一、二元logistic回归分析二元logistic回归分析的前提为因变量是可以转化为0、1的二分变量,如:死亡或者生存,男性或者女性,有或无,Yes或No,是或否的情况。...
  • 应用LOGISTIC回归分析(第2版)
  • Logistic回归思维导图:原数据部分截图:先看一下是否低出生体重,与是否吸烟之间的关系,使用卡方检验:接下来看一下,相同的单变量,使用Logistic回归应该如何去做:看一下具体的预测概率值:下面,把案例中的连续...
  • 一、逻辑回归的概念逻辑回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。二.逻辑回归不是回归 从名字来理解逻辑回归.在逻辑回归中,逻辑(logistics ),并不...
  • 医学研究中的logistic回归分析及SAS实现,相关程序代码
  • 参考我的个人博客: 分类器设计之logistic回归分析 http://blog.csdn.net/ranchlai/article/details/10022637
  • logistic回归为概率型非线性回归模型,是研究分类观察结果(y)与一些影响因素(x)之间关系的一种多变量分析方法
  • 采用Minitab进行logistic回归分析

    千次阅读 2020-04-07 09:41:52
    在研究Y与X之间的因果关系时,如果Y不是一个定比或定距变量时,就需要进行logistic回归。logistic回归是一种广义线性... logistic回归分析类型 因变量Y的特征 举例 二元logistic...
  • 用于logisti回归分析的数据材料,可以参见我的文章进行练习logisti回归分析的方法,正在大学课上练习。

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 30,605
精华内容 12,242
关键字:

logistic回归分析

友情链接: Shader.zip