精华内容
下载资源
问答
  • 对数线性回归模型的解释
    2022-04-10 15:54:34

    一、线性回归

    线性回归(linear regression:试图学得一个线性模型以尽可能准确地预测实值输出标记。

    1.最简单的形式:输入属性的数且只有一个,
    最小二乘法:基于均方差误差最小化来进行模型的求解,在线性回归中,最小二乘法就是试图找到一条直线,使得样本到直线上的欧氏距离之和最小。
    2.但是更一般的形式:输入的属性有多个
    求解这个的过程称为“多元线性回归”

    二、对数几率回归

    在 一 中讲到使用线性模型进行回归学习,若要进行分类任务,应该怎样做呢?
    此时需要借助某些函数,将分类的任务的结果与回归得到的预测值联系起来。
    在这里插入图片描述
    从上图可以看出,对数几率函数是一种“Sigmoid函数”
    对数几率回归,虽然名字带有“回归”,但实际上是一种分类学习方法(二分类问题)

    对数几率回归(logistic regression),又称为对率回归、逻辑回归

    三、线性判别分析(LDA)

    线性判别分析(Linear Discriminant Analysis,简称LDA)是一种经典的线性学习方法。
    LDA思想:给定训练集样集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新的样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。

    更多相关内容
  • 对数线性回归; y的衍生物 3.1 基本形式 假设样本x有d个属性,线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数,即f(x)=w1x1+w2x2+⋅⋯+wdxd+bf(x)=w1x1+w2x2+⋅⋯+wdxd+bf(x)=w_{1}x_...

    墙裂推荐阅读:y的衍生物

    关键词:最小二乘法;正则化;对数线性回归; y的衍生物

    3.1 基本形式

    假设样本x有d个属性,线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数,即 f(x)=w1x1+w2x2++wdxd+b f ( x ) = w 1 x 1 + w 2 x 2 + ⋅ ⋯ + w d x d + b ,向量形式 f(x)=wTx+b f ( x ) = w T x + b

    3.2 线性回归

    关键词:无序属性连续化。
    对离散属性,若属性值之间存在“序”(order)关系,可通过连续化将其转化为连续值,例如二值属性身高的取值,“高”“矮”可和转化为{1.0 , 0}。 若属性值之间不存在序的关系,例如属性“瓜类”的取值为西瓜,南瓜,冬瓜,则可转化为(0,0,1),(0,1,0),(1,0,0)。

    关键词:最小二乘法(least square method)。
    基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。

    关键词: 正则化(regularization)项。
    假设解一个线性方程组,当方程数大于自由变量数时,是没有解的。反过来,当方程数小于自由变量数的时候,解就有很多个了。往往,我们会碰到这种情况,参数多,“方程”少的情况,那么有很多个w(权值向量)都能使均方误差最小,那么该选哪一个呢? 这就涉及到 归纳偏好问题了,常见的做法是引入正则化项。

    关键词:对数线性回归(log-linear regression);y的衍生物
    把线性回归模型简写为: f(x)=wTx+b f ( x ) = w T x + b ,当我们希望线性模型的预测值逼近真实标记y,这样就是线性模型。那可否令模型的预测值毕竟y的衍生物呢? 作者的这一描述实在太妙了!y的衍生物,通俗易懂! 假设y的衍生物是 y的对数即lny,那么就可以得到对数线性回归模型: lny=wTx+b l n y = w T x + b , 也就是让模型 去逼近 lny,而不是y。也可以对 lny=wTx+b l n y = w T x + b 做一下变换就变成了 y=ewTx+b y = e w T x + b ,也可以理解为让 ewTx+b e w T x + b 去逼近y。形式上还是线性回归的,但实质上已是在求取输入空间到输出空间的非线性函数映射。如图:
    这里写图片描述

    来思考一个问题
    想从线性模型出发,去扩展线性模型,就是让线性模型 f(x)=wTx+b f ( x ) = w T x + b 去拟合y的衍生物,那么我们常说的逻辑回归(对数几率回归)是怎么从线性模型演变而来的呢?是让 wTx+b w T x + b 去拟合哪一种“y的衍生物” 什么呢?这个可以思考思考后,请看下篇:逻辑回归

    展开全文
  • 如何理解和使用对数线性模型

    千次阅读 2020-12-24 14:58:37
    对数线性模型看到上面的交叉单元格,以及单元格内的频数数据,你是否很快就会联想到可以使用卡方检验来分析分类变量A和分类变量B的相关关系?上面这个表只有一个行变量和一个列变量,因此使用卡方检验非常方便快捷,...

    对数线性模型

    看到上面的交叉单元格,以及单元格内的频数数据,你是否很快就会联想到可以使用卡方检验来分析分类变量A和分类变量B的相关关系?上面这个表只有一个行变量和一个列变量,因此使用卡方检验非常方便快捷,但是当涉及的分类变量很多,例如研究4个以上分类变量之间的相关关系时,卡方检验就不够用了,因为它不可以同时对多个分类变量之间的相关关系给出一个综合评价,也不可以在控制其它变量作用的同时对变量的效应做出估计,而对数线性模型可以解决卡方检验不能解决的这些问题,它可以一次性给出多个分类变量之间的两两相关关系。

    前面提到对数线性模型与混合线性模型有相同的地方,都是围绕分类变量展开的,因此首先回顾混合线性模型,可以参考下面的表格,混合线性模型表格中的数据不是频数数据,而是连续型数据,可以理解成某项血液指标:

    在混合线性模型中,将每个单元格内血液指标y的变异看作是病症类型(A)变量,治疗效果(B)变量、病症类型(A)和治疗效果(B)交互作用、随机误差共同影响的总和。如果将每个单元格中的数据换成频数,例如,总共调查了180名患者,这些患者的人数(频数)分布情况如下:

    如果要研究病症类型与治疗效果是否相关,也就是研究病症类型是否影响到治疗效率,如果两者无关,可以发现一般类型和特殊类型的治疗效果人数比例是基本相同的,反映到对数线性模型中,就是研究交互作用项是否等于零。从对数线性模型可以看出,对数线性模型除了能够解决分类变量(因素)之间是否相关的问题,还能够分析分类变量对频数的独立影响,也就是分类变量对频数的主效应。

    对数线性模型VS方差分析模型

    前面介绍对数线性模型的分析逻辑是以方差分析模型(一般线性模型)为基础,由此可见它们的作用是类似的,都能够分析每个变量的主效应及变量之间的交互效应。对数线性模型与方差分析模型的差异为:方差分析模型的因变量是连续性变量,对数据的分布要求为正态性和方差齐性;对数线性模型主要研究多个分类变量之间的独立性和相关性,对数线性模型一般不分因变量和自变量,只分析各分类变量对交叉单元格内频数的影响,通常频数服从多项式分布。

    对数线性模型VS逻辑回归模型

    通过前面的介绍,大家可以发现很多对数线性模型能够分析的问题其实用逻辑回归模型也能够进行分析。对数线性模型主要研究多个分类变量之间的独立性与相关性,而逻辑回归模型的因变量也是分类变量,如果自变量也是分类变量,那么就和对数线性模型的效果相同了。

    差别在于,一般对数线性模型通常将频数数据做自然对数变换(ln),而逻辑回归对频数的处理是做常用对数变换(lg);此外,对数线性模型不用区分因变量和自变量,而逻辑回归则需要明确因变量和自变量。因此对数线性模型与逻辑回归两种方法之间存在着非常密切的联系,两者的分析结果是等价的。对数线性模型的应用不如逻辑回归普遍,主要原因是如果考虑的分类变量太多,对数线性模型过于复杂。

    SPSS的对数线性模块

    SPSS的对数线性菜单总共提供了三个子菜单:常规、分对数和选择模型;这三个子菜单的分析过程都应用对数线性模型的基本原理,但在拟和方法和结果输出上有不同。常规菜单在分析中只考虑变量之间是否相关,不考虑它们之间的因果关系,不过分析者可以在最后的结果解释中加入经验解释。

    分对数菜单;有些情况,分析者已经明白变量之间的因果关系,此时继续用常规模型就无法利用因果信息,这样就会增添很多结果解释的工作量。这种情况适合使用分对数菜单。

    选择模型菜单;在建立模型之前,分析者往往会收集很多变量信息,但是那些变量之间相关,那些变量不相关,那些变量应该纳入模型,那些变量应该剔除,除了根据经验进行选择以外,很难取舍。选择模型菜单能够对变量进行筛选,帮助分析者筛选出有用的变量,这样就能使原本复杂的模型简化,排除一些变量的影响。

    总结一下

    以上这些内容的介绍,我们通过方差分析模型引出对数线性模型。大家可以根据这个规律理解清楚对数线性模型的分析逻辑。在SPSS中,根据数据情况的不同,应该选择合适的菜单进行分析,接下来,我们会分别制作文章,详解介绍。

    展开全文
  • 回归分析线性回归Logistic回归对数线性模型PPT学习教案.pptx
  • SPSS专题回归分析线性回归Logistic回归对数线性模型PPT教案.pptx
  • 每当我们估计回归模型时,都必须假定回归具有正确的函数形式。该假设可能会有以下几种错误:■可以从回归中忽略一个或多个重要变量。■在估计回归之前,可能需要转换一个或多个回归变量(例如,通过对变量取自然对数)...

    更多CFA官方教材详解,请关注“边际实验室”。

    “边际实验室”是一家专注于金融科技、金融大数据领域的工作室,同时提供CFA、FRM等金融考试内容的免费讲解。

    每当我们估计回归模型时,都必须假定回归具有正确的函数形式。该假设可能会有以下几种错误:

    ■可以从回归中忽略一个或多个重要变量。

    ■在估计回归之前,可能需要转换一个或多个回归变量(例如,通过对变量取自然对数)。

    ■回归模型汇集了来自不同样本中不应该被汇集的数据。

    首先,考虑从回归中忽略一个重要的自变量的影响(遗漏变量偏差)。如果真正的回归模型是:

    Yi= b0 + b1X1i + b2X2i +εi

    但是我们估计的模型是:

    Yi= a0 + a1X1i +εi

    那么我们的回归模型将被错误指定。该模型有什么问题?如果省略的变量(X2)与其余变量(X1)相关,则模型中的误差项将与(X1)相关,并且回归系数a0和a1的估计值将有偏差且不一致。另外,这些系数的标准误估计值也将不一致,因此我们既不能使用系数估计值也不能使用估计的标准误差来进行统计检验。 案例遗漏变量偏差和买卖价差

    在本例中,我们扩展了对买卖价差的研究,以显示从回归中省略重要变量的影响。在此前的案例中,我们证明了[(买卖价差)/价格]的自然对数与做市商数量的自然对数和公司市值的自然对数存在显著相关。

    下表显示了结果:

    46a8462efc41ab79435659d2ae69936c.png

    如果我们去除市值的自然对数,只对[(买卖价差)/价格]的自然对数与做市商数量的自然对数进行一个自变量的回归,结果如下表所示。

    dd1107f4e4064e34c779611a22e371df.png
    e5a2efab14153675c52c7f38e83ce0c8.png

    请注意,ln(纳斯达克做市商数量)的系数从原始回归(正确结果)的-1.5186变为错误的-3.1027。同样,截距从原始回归中的1.5949变为5.0707。这些结果说明,遗漏回归中应包含的自变量会导致其余回归系数的不一致。

    回归模型发生错误指定的第二个常见原因是,对于需要转换的数据,在回归中没有进行转换,或使用了错误的数据形式。例如,有时分析人员无法判断因变量和自变量之间的非线性关系,进而指定了变量之间的线性关系。在指定回归模型时,应考虑经济理论是否暗示了非线性关系。我们通常可以通过绘制数据图表来确认非线性关系,如下面的案例所示。如果当一个或多个变量的比例变化表现出线性关系时,我们可以通过取自然对数来对错误指定进行纠正。在其他时候,分析师更倾向于使用无单位的数据进行回归分析(例如将净收入或现金流量除以销售额)。在此前的案例中,我们用股票价格对买卖差价进行了除法计算,因为对于投资者而言,买卖差价在交易成本方面的意义取决于股票价格;如果我们没有调整买卖差价,那么回归模型就会发生错误指定。

    案例 非线性与买卖价差

    在此前的案例中,我们的结果表明[(买入-卖出价差)/价格]的自然对数与做市商数量的自然对数和公司市值的自然对数均显著相关。但是,为什么我们在回归中使用的是变量的自然对数呢?

    关于[(买入-卖出点差)/价格]及其决定因素(自变量)之间的关系的性质,有什么理论基础吗?Stoll(1978)建立了市场中买卖差价百分比决定因素的理论模型。他的模型如下:

    b822bf94cdf3da140805454bcf9d800c.png

    其中,c是常数。在初始变量中,买卖差价百分比与做市商数量与市值的关系不是线性的。但是,如果对上述模型等式两边取自然对数,转换后的变量是线性的(对数-对数回归):

    Yi= b0 + b1X1i + b2X2i +εi

    其中

    Yi= 股票i(买入-卖出价差)/价格的自然对数

    b0= 常数,ln(c)

    X1i= 股票i的做市商数量的自然对数

    X2i= 公司i市值的自然对数

    εi= 残差

    如此前案例所述,对数-对数模型的斜率系数被解释为弹性,准确地说,因变量相对于自变量存在部分弹性(“部分”是指保持其他自变量不变)。

    我们可以绘制数据以评估对数转换后变量是否线性相关。例如,下图展示了一个股票的做市商数量自然对数的散点图(X轴)、(买卖价差)/价格的自然对数(Y轴)及回归线。这两个经过转换后的变量之间的关系显然是线性的。

    035e3076766a236daccf2f553e3db718.png
    8ce4a9c40bd93e34b2e7d949774b8004.png

    如果我们不取[(买卖价差)/价格]的对数,回归线就不是线性的。上面第二张图显示了做市商数量自然对数(X轴)和[(买卖价差)/价格](Y轴)之间的关系。我们看到这两个变量之间的非线性关系非常明显的。因此,我们不应该以[(买卖价差)/价格]为因变量来估计回归。另外,考虑到需要确保预测的买卖价差是正的,因此我们不能直接使用[(买卖价差)/价格]作为因变量。如果我们直接使用[(买卖价差)/价格]作为因变量,模型也可以将买卖价差预测为负值。这个结果是荒谬的——在现实中,没有买卖价差是负的(交易员不可能同时在高位买入和低位卖出),因此能够预测买卖价差为负的模型肯定是错误的。我们下面将讨论预测买卖价差为负值的问题。

    下表显示了以[(买卖价差)/价格]为因变量,做市商数量的自然对数和公司市值的自然对数为自变量的回归结果。

    57541f78e1b6143f34fac6a7430185d9.png

    1、假设对于在纳斯达克上市的特定股票,做市商的数量为50,市值为60亿美元。根据上述模型,该股票的预期买卖差价与价格的比率是多少?

    做市商数量的自然对数等于ln50 = 3.9120,股票市值(百万美元)的自然对数等于ln6000 = 8.6995。

    在这种情况下,预期买卖差价与价格的比率为0.0674+(-0.0142×3.9120)+(-0.0016×8.6995)=-0.0021。因此,该模型预测买卖价差与股票价格之比为-0.0021。

    2、上述股票的预期买卖价差是否有意义?如果没有,如何避免这个问题?

    预测的买卖差价为负,这在经济上没有意义。

    通过使用[(买卖价差)/价格]的对数作为因变量,可以避免此问题。

    通常,分析师在比较公司之间的数据之前必须决定是否对变量进行加工。例如,在财务报表分析中,分析师通常会使用百分比财务报表。在百分比利润表中,所有金额都除以了公司的收入。

    百分比财务报表使公司之间的可比性更加容易。对于想要使用回归分析来比较一组公司业绩的分析师来说,可能会出现可比性问题。如以下案例所示。

    案例 经营现金流和自由现金流之间的关系

    假设有一位分析师想解释美国11家服装公司2001年自由现金流与经营现金流量的关系。

    为了调查此问题,分析师可能在线性回归中将自由现金流作为因变量,将经营现金流作为自变量。下图显示了回归的结果。请注意,经营活动现金流的斜率系数的t统计量非常高(6.5288),回归的F统计量的显著性水平很低(0.0001),R方值非常高。我们可能会倾向于认为这种回归是准确的。如果经营活动现金流增加1.00美元,我们可以有把握地预测公司的自由现金流量将增加0.3579美元。

    d1d41e030fcf7f8df32905bc012c7806.png
    de3280f07b6b9ca0ab019c5a0f9151c4.png

    但是这个估计是正确吗?该回归没有考虑样本中公司之间的规模差异。

    我们可以通过使用常见的现金流百分比结果来解决规模差异。在使用回归分析之前,我们将经营活动现金流和公司的自由现金流除以公司的销售额。我们将(自由现金流/销售额)作为因变量,并使用(经营活动现金流/销售额)作为自变量。下图显示了回归结果。请注意,(经营活动现金流/销售额)斜率系数的t统计量为1.6262,在0.05水平上不显著。另外,F统计量的显著性水平为0.1383,因此我们不能在0.05水平上拒绝“回归不能解释服装公司(自由现金流/销售额)的差异”该假设。

    最后,我们也应该注意到,此回归中的R方比以前的回归低得多。

    16d2cebcad5f18ea9781122659c5be80.png

    哪种回归更有意义?通常,等比例的回归更有意义。我们想知道如果来自经营活动的现金流量(与销售额的比率)发生变化,自由现金流(与销售额的比率)会发生什么。如果不进行缩除法,则回归结果可以仅基于公司之间的规模差异,而不是基于公司的基本经济状况。

    回归模型中错误指定的第三种常见形式是合并不应合并的来自不同样本的数据。我们用图形方式说明这种类型的错误指定。下图显示了变量X和Y的两个数据集,并带有拟合的回归线。数据可以表示两个不同时间段的两个金融变量之间的关系。

    67aae09bc9e1fba70a3e5b4342fd8146.png

    在X和Y的每个数据集中,两个变量之间的相关性几乎为0。由于组合样本中两个数据集的X和Y的均值不同,所以X和Y高度相关。然而,这种相关性是假的,因为它反映了X和Y在两个不同时期的关系的差异。

    本文由边际实验室自媒体原创,如需转载请务必注明出处!

    be86df410fb4d999e353ee3c398fceee.png
    展开全文
  • 线性回归模型是学习机器学习首先要学习的模型
  • 公式推导对数几率回归用于处理二分类问题,其数学基础为对数几率函数,是一种 Sigmoid 函数\[y = \frac{1}{1+e^{-z}} \tag 1\]其函数图像如下取 $z = \boldsymbol{w}^T\boldsymbol{x}+b$,并对式 $(1)$ 进行一定变换...
  • 实验课单元(三)双对数线性回归模型MicrosoftWord文档[定义].pdf
  • R语言使用glm函数构建泊松对数线性回归模型处理三维列联表数据构建饱和模型、使用step函数基于AIC指标实现逐步回归筛选最佳模型
  • 包括指数、对数、幂指数、双曲线、Logistic、多项式、Gamma等模型的非线性拟合,每行代码均有中文注释便于理解
  • 对数线性模型(Logistic回归算法)

    万次阅读 2017-09-07 19:42:37
    二项Logistic回归模型由条件概率分布P(Y|X)表示,X为随机变量,取值为实数,Y同为随机变量,但取值为1或0; 二项 Logistic回归模型的条件概率分布: 其中,w称为权值向量,b为偏置,x为输入,Y为输出...
  • 事实上选择如何处理特征是要有一定的“具象”理由的,常见的两个原因有:一:在对变量和预测值做线性相关性分析以后发现不是线性关系。你可以简单的理解为,随便挑一个特征x_0,把y=f(x_0)画出图来一看,线是弯的,...
  • 线性回归回归分析实质上就是研究一个或多个自变量X对一个因变量Y(定量数据)的影响关系情况。当自变量为1个时,是一元线性回归,又称作简单线性回归;自变量为2个及以上时,称为多元线性回归。在SPSSAU里均是使用...
  • 对数几率回归(logistic regression),有时候会译为逻辑回归(音译),其实是我们把回归模型应用到分类问题时,线性回归的一种变形,主要是针对二分类提出的。既然是线性回归的一种变形,那么在理解对数几率回归时,...
  • sklearn:线性回归与逻辑回归(对数几率回归)
  • 本文介绍对数线性分类模型,在线性模型的基础上通过复合函数(sigmoid,softmax,entropy )将其映射到概率区间,使用对数损失构建目标函数。首先以概率的方式...
  • 如果是分类任务,如何使用线性回归模型呢?答案在广义线性模型的公式中,只需要找到一个单调可微函数将分类任务的真实标记y 与线性回归模型的预测值联系起来。 考虑二分类任务,输出 $y \in ${0,1} , 线性回归的预测...
  • 当所分析变量的标准差相对于均值而言比较大时,这种变换特别有用。对数据作对数变换常常起到降低数据波动性和减少不对称性的作用。。这一变换也能有效消除异方差性library(MASS)library(openxlsx)data= read.xlsx(...
  • 常用的三个线性模型的原理及python实现——线性回归(Linear Regression)、对数几率回归(Logostic Regression)、线性判别分析(Linear Discriminant)。 这可能会是对线性模型介绍最全面的博客一、线性模型 ...
  • 文章目录通用形式简介重要概念指数族分布线性回归简介正则化基扩展和核函数对数几率回归简介多分类策略[4]凸函数求解一些问题# 参考链接 通用形式 简介 ​ 广义线性模型(Generalized Linear Model),将线性模型...
  • 首先,如其他海报所指出的那样,提高模型拟合度。例如,如果您的残差不是正态分布的,那么采用偏斜变量的对数可以通过更改比例并使变量更“呈正态”分布来改善拟合。例如,收入被截断为零,并且经常表现出正偏斜。...
  • 手写笔记,字是丑了点,仅用作个人复习。
  • R语言使用glm函数构建泊松对数线性回归模型处理三维列联表数据构建饱和模型、使用summary函数获取模型汇总统计信息
  • 线性模型基本形式:f(x)=w1*x1+w2*x2+w3*x3+...+wd*xd+b 向量形式:f(x)=w'x+b(w'指w转置w'=(w1,w2,w3,...,wd)) 回归任务最常用均方误差作为性能度量,见下图 ...如对数线性回归:lny=w'x+b,让e^(w'x+b)逼近y ...
  • 1 线性回归 线性回归其实就是高中讲过的那种回归,但是不同的是线性回归在神经网络这个学科里大多使用梯度下降来计算参数w,bw,bw,b,而高中讲的是使用最小二乘法。 线性回归想解决的问题也是回归问题,公式: y=wx+b...
  • 现在我从线性回归的数学原理出发,结合python代码,对线性回归模型进行系统性的总结。 线性回归的数学原理 线性回归从实质上说为通过训练进而得到一个线性模型来根据输入数据XXX来拟合输出yyy。面对多元化的线性回归...
  • 线性回归模型公式推导

    千次阅读 2021-09-09 09:40:23
    线性回归公式推导线性模型线性回归一元线性回归公式推导多元线性回归公式推导对数几率回归介绍对数几率回归公式推导 线性模型 线性回归 一元线性回归公式推导 多元线性回归公式推导 对数几率回归 介绍 对数几率回归...
  • 常见的广义线性模型有:probit模型、poisson模型对数线性模型等等。对数线性模型里有:logistic regression、Maxinum entropy。本篇是对逻辑回归理论和应用的学习总结、以及广义线性模型导出逻辑回归的过程,下一...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 26,652
精华内容 10,660
热门标签
关键字:

对数线性回归模型的解释