精华内容
下载资源
问答
  • 对数线性回归; y的衍生物 3.1 基本形式 假设样本x有d个属性,线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数,即f(x)=w1x1+w2x2+⋅⋯+wdxd+bf(x)=w1x1+w2x2+⋅⋯+wdxd+bf(x)=w_{1}x_...

    墙裂推荐阅读:y的衍生物

    关键词:最小二乘法;正则化;对数线性回归; y的衍生物

    3.1 基本形式

    假设样本x有d个属性,线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数,即 f(x)=w1x1+w2x2++wdxd+b f ( x ) = w 1 x 1 + w 2 x 2 + ⋅ ⋯ + w d x d + b ,向量形式 f(x)=wTx+b f ( x ) = w T x + b

    3.2 线性回归

    关键词:无序属性连续化。
    对离散属性,若属性值之间存在“序”(order)关系,可通过连续化将其转化为连续值,例如二值属性身高的取值,“高”“矮”可和转化为{1.0 , 0}。 若属性值之间不存在序的关系,例如属性“瓜类”的取值为西瓜,南瓜,冬瓜,则可转化为(0,0,1),(0,1,0),(1,0,0)。

    关键词:最小二乘法(least square method)。
    基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。

    关键词: 正则化(regularization)项。
    假设解一个线性方程组,当方程数大于自由变量数时,是没有解的。反过来,当方程数小于自由变量数的时候,解就有很多个了。往往,我们会碰到这种情况,参数多,“方程”少的情况,那么有很多个w(权值向量)都能使均方误差最小,那么该选哪一个呢? 这就涉及到 归纳偏好问题了,常见的做法是引入正则化项。

    关键词:对数线性回归(log-linear regression);y的衍生物
    把线性回归模型简写为: f(x)=wTx+b f ( x ) = w T x + b ,当我们希望线性模型的预测值逼近真实标记y,这样就是线性模型。那可否令模型的预测值毕竟y的衍生物呢? 作者的这一描述实在太妙了!y的衍生物,通俗易懂! 假设y的衍生物是 y的对数即lny,那么就可以得到对数线性回归模型: lny=wTx+b l n y = w T x + b , 也就是让模型 去逼近 lny,而不是y。也可以对 lny=wTx+b l n y = w T x + b 做一下变换就变成了 y=ewTx+b y = e w T x + b ,也可以理解为让 ewTx+b e w T x + b 去逼近y。形式上还是线性回归的,但实质上已是在求取输入空间到输出空间的非线性函数映射。如图:
    这里写图片描述

    来思考一个问题
    想从线性模型出发,去扩展线性模型,就是让线性模型 f(x)=wTx+b f ( x ) = w T x + b 去拟合y的衍生物,那么我们常说的逻辑回归(对数几率回归)是怎么从线性模型演变而来的呢?是让 wTx+b w T x + b 去拟合哪一种“y的衍生物” 什么呢?这个可以思考思考后,请看下篇:逻辑回归

    展开全文
  • 我总是告诉学生,采用自然对数来转换变量的三个原因。记录变量的原因将决定您是要记录独立变量还是因变量或两者。为了清楚起见,我正在谈论采用自然对数。首先,如其他海报所指出的那样,提高模型拟合度。例如,如果...

    我总是告诉学生,采用自然对数来转换变量的三个原因。记录变量的原因将决定您是要记录独立变量还是因变量或两者。为了清楚起见,我正在谈论采用自然对数。

    首先,如其他海报所指出的那样,提高模型拟合度。例如,如果您的残差不是正态分布的,那么采用偏斜变量的对数可以通过更改比例并使变量更“呈正态”分布来改善拟合。例如,收入被截断为零,并且经常表现出正偏斜。如果变量具有负偏斜,则可以先取变量,然后再取对数。我在这里特别考虑的是作为连续变量输入的李克特量表。虽然这通常适用于因变量,但您有时会遇到因自变量引起的残差(例如,异方差)问题,有时可以通过取该变量的对数来进行校正。例如,当运行一个模型来解释一组讲师的讲师评估并与班级进行协变量时,变量“班级规模”(即讲课的学生人数)的异常值会导致异方差,因为讲师评估中的方差较小,而较大队列比较小的队列。记录学生变量将有所帮助,尽管在此示例中,计算稳健标准误差或使用加权最小二乘可能会使解释更容易。

    在模型中记录一个或多个变量的第二个原因是为了解释。我称此为便利原因。如果同时记录因变量(Y)和自变量(X),则回归系数()将具有弹性,解释将如下所示:X增加1%将导致ceteris paribus% Y的增加(平均)。仅记录回归“方程式”的一侧将导致如下所述的其他解释:βββ ββ

    Y和X-X的单位增加将导致增加/减少ββ

    对数Y和对数X-X增加1%将导致%增加/减少Yββ

    对数Y和X-X增加一个单位将导致%增加/减少β∗100β∗100

    Y和Log X-X增加1%将导致增加/减少β/100β/100

    最后,这样做可能有理论上的原因。例如,我们要估计的一些模型是可乘的,因此是非线性的。采用对数可以通过线性回归估计这些模型。很好的例子包括经济学中的Cobb-Douglas生产函数和教育中的Mincer方程。Cobb-Douglas生产函数解释了如何将输入转换为输出:

    Y=ALαKβY=ALαKβ

    哪里

    YY是某个实体(例如公司,农场等)的总生产或产出。

    AA是总要素生产率(不是由投入(例如,技术变化或天气)引起的输出变化)

    LL是劳动投入

    KK是资本投入

    βαα&是输出弹性。ββ

    取这个的对数可以使函数易于使用OLS线性回归估算,如下所示:

    log(Y)=log(A)+αlog(L)+βlog(K)log⁡(Y)=log⁡(A)+αlog⁡(L)+βlog⁡(K)

    展开全文
  • 线性模型基本形式:f(x)=w1*x1+w2*x2+w3*x3+...+wd*xd+b 向量形式:f(x)=w'x+b(w'指w转置w'=(w1,w2,w3,...,wd)) 回归任务最常用均方误差作为性能度量,见下图 ...如对数线性回归:lny=w'x+b,让e^(w'x+b)逼近y ...

    线性模型基本形式:f(x)=w1*x1+w2*x2+w3*x3+...+wd*xd+b

    向量形式:f(x)=w'x+b(w'指w转置w'=(w1,w2,w3,...,wd))

    回归任务最常用均方误差作为性能度量,见下图

     

    广义线性模型:

    y=g^-1(w'x+b)(g^-1表示g(.)的逆函数,即g(y)=w'x+b)

    如对数线性回归:lny=w'x+b,让e^(w'x+b)逼近y

     

    广义线性模型处理二分类任务

    思路:将z=w'x+b转化为0/1值

    对数几率函数(s函数):y=1/(1+e^-z),将z映射为0~1之间的值,如下图:

     

    求解w,b步骤如下:

     

     

     

    对数几率回归matlab代码实现(梯度下降法,涉及对上图L(w;b)函数的矩阵求导):

    function [w,L] = logisticFunc(x,y,iters,lambda)
    
    x_span = [x ones(length(y),1)];
    
    cols_x = size(x,2);
    rows_x = size(x,1);
    
    w = zeros(cols_x+1,1);
    L = zeros(1,iters);
    
    %梯度下降
    for i=1:iters
      grad = zeros(cols_x+1,1);
      for j=1:rows_x
        %计算梯度
        grad += -x_span(j,:)'*(y(j,1)-e^(x_span(j,:)*w)/(1+e^(x_span(j,:)*w)));
        
        %最小化目标,记录值
        L(1,i) += -y(j,1)*x_span(j,:)*w+log(1+e^(x_span(j,:)*w));
      end;
      %更新参数
      w = w - lambda*grad;
    end;
    微信交流
    多谢打赏

    参考资料:周志华《机器学习》

    展开全文
  • 对数线性模型看到上面的交叉单元格,以及单元格内的频数数据,你是否很快就会联想到可以使用卡方检验来分析分类变量A和分类变量B的相关关系?上面这个表只有一个行变量和一个列变量,因此使用卡方检验非常方便快捷,...

    对数线性模型

    看到上面的交叉单元格,以及单元格内的频数数据,你是否很快就会联想到可以使用卡方检验来分析分类变量A和分类变量B的相关关系?上面这个表只有一个行变量和一个列变量,因此使用卡方检验非常方便快捷,但是当涉及的分类变量很多,例如研究4个以上分类变量之间的相关关系时,卡方检验就不够用了,因为它不可以同时对多个分类变量之间的相关关系给出一个综合评价,也不可以在控制其它变量作用的同时对变量的效应做出估计,而对数线性模型可以解决卡方检验不能解决的这些问题,它可以一次性给出多个分类变量之间的两两相关关系。

    前面提到对数线性模型与混合线性模型有相同的地方,都是围绕分类变量展开的,因此首先回顾混合线性模型,可以参考下面的表格,混合线性模型表格中的数据不是频数数据,而是连续型数据,可以理解成某项血液指标:

    在混合线性模型中,将每个单元格内血液指标y的变异看作是病症类型(A)变量,治疗效果(B)变量、病症类型(A)和治疗效果(B)交互作用、随机误差共同影响的总和。如果将每个单元格中的数据换成频数,例如,总共调查了180名患者,这些患者的人数(频数)分布情况如下:

    如果要研究病症类型与治疗效果是否相关,也就是研究病症类型是否影响到治疗效率,如果两者无关,可以发现一般类型和特殊类型的治疗效果人数比例是基本相同的,反映到对数线性模型中,就是研究交互作用项是否等于零。从对数线性模型可以看出,对数线性模型除了能够解决分类变量(因素)之间是否相关的问题,还能够分析分类变量对频数的独立影响,也就是分类变量对频数的主效应。

    对数线性模型VS方差分析模型

    前面介绍对数线性模型的分析逻辑是以方差分析模型(一般线性模型)为基础,由此可见它们的作用是类似的,都能够分析每个变量的主效应及变量之间的交互效应。对数线性模型与方差分析模型的差异为:方差分析模型的因变量是连续性变量,对数据的分布要求为正态性和方差齐性;对数线性模型主要研究多个分类变量之间的独立性和相关性,对数线性模型一般不分因变量和自变量,只分析各分类变量对交叉单元格内频数的影响,通常频数服从多项式分布。

    对数线性模型VS逻辑回归模型

    通过前面的介绍,大家可以发现很多对数线性模型能够分析的问题其实用逻辑回归模型也能够进行分析。对数线性模型主要研究多个分类变量之间的独立性与相关性,而逻辑回归模型的因变量也是分类变量,如果自变量也是分类变量,那么就和对数线性模型的效果相同了。

    差别在于,一般对数线性模型通常将频数数据做自然对数变换(ln),而逻辑回归对频数的处理是做常用对数变换(lg);此外,对数线性模型不用区分因变量和自变量,而逻辑回归则需要明确因变量和自变量。因此对数线性模型与逻辑回归两种方法之间存在着非常密切的联系,两者的分析结果是等价的。对数线性模型的应用不如逻辑回归普遍,主要原因是如果考虑的分类变量太多,对数线性模型过于复杂。

    SPSS的对数线性模块

    SPSS的对数线性菜单总共提供了三个子菜单:常规、分对数和选择模型;这三个子菜单的分析过程都应用对数线性模型的基本原理,但在拟和方法和结果输出上有不同。常规菜单在分析中只考虑变量之间是否相关,不考虑它们之间的因果关系,不过分析者可以在最后的结果解释中加入经验解释。

    分对数菜单;有些情况,分析者已经明白变量之间的因果关系,此时继续用常规模型就无法利用因果信息,这样就会增添很多结果解释的工作量。这种情况适合使用分对数菜单。

    选择模型菜单;在建立模型之前,分析者往往会收集很多变量信息,但是那些变量之间相关,那些变量不相关,那些变量应该纳入模型,那些变量应该剔除,除了根据经验进行选择以外,很难取舍。选择模型菜单能够对变量进行筛选,帮助分析者筛选出有用的变量,这样就能使原本复杂的模型简化,排除一些变量的影响。

    总结一下

    以上这些内容的介绍,我们通过方差分析模型引出对数线性模型。大家可以根据这个规律理解清楚对数线性模型的分析逻辑。在SPSS中,根据数据情况的不同,应该选择合适的菜单进行分析,接下来,我们会分别制作文章,详解介绍。

    展开全文
  • 前言
  • 线性回归、最小二乘法
  • 以航运市场中重要船型-好望角型散货船为研究对象,在分析相关可量化因素与新船价格关系的基础之上,构建双对数线性回归模型分析各因素对新船船价的影响程度,发现对于新造好望角型散货船而言,二手船船价、新造船...
  • 线性模型即用线性代数中的线性方程表示一个模型,...1.线性回归 试图学得fx=wTx+b ≈ y y即实际值。在输出的所有(w,b)中,采用均方误差最小的原则来选取最好的性能度量。 更一般的情形是如本节开头的数据集D,样例
  • 常用的三个线性模型的原理及python实现——线性回归(Linear Regression)、对数几率回归(Logostic Regression)、线性判别分析(Linear Discriminant)。 这可能会是对线性模型介绍最全面的博客一、线性模型 ...
  • 如果是分类任务,如何使用线性回归模型呢?答案在广义线性模型的公式中,只需要找到一个单调可微函数将分类任务的真实标记y 与线性回归模型的预测值联系起来。 考虑二分类任务,输出 $y \in ${0,1} , 线性回归的预测...
  • 一个采用两个列向量并对数据进行线性回归的函数。 它假定数据已记录。 它需要两个列向量、一个描述、x 标签和 y 标签并进行线性回归。 然后绘制数据并输出所有统计数据(r 平方、OLS 斜率、RMA 斜率和 95% 置信区间...
  • 1 线性回归 线性回归其实就是高中讲过的那种回归,但是不同的是线性回归在神经网络这个学科里大多使用梯度下降来计算参数w,bw,bw,b,而高中讲的是使用最小二乘法。 线性回归想解决的问题也是回归问题,公式: y=wx+b...
  • 对数几率回归(logistic regression),有时候会译为逻辑回归(音译),其实是我们把回归模型应用到分类问题时,线性回归的一种变形,主要是针对二分类提出的。既然是线性回归的一种变形,那么在理解对数几率回归时,...
  • 线性回归 线性回归的模型是求出特征向量Y和输入样本矩阵X之间的线性关系系数θ,满足Y = Xθ。此时Y是连续的,所以是回归模型。 对应n维样本数据,对应的模型是这样的: 其中θ为模型参数。 一般用均方误差作为...
  • 线性回归是一种研究影响关系的方法,在实际研究里非常常见。本文就来梳理下线性回归分析的分析流程,闲话少说,我们开始吧!线性回归回归分析实质上就是研究一个或多个自变量X对一个因变量Y(定量数据)的影响关系情况...
  • 对数线性模型(Logistic回归算法)

    万次阅读 2017-09-07 19:42:37
    二项Logistic回归模型由条件概率分布P(Y|X)表示,X为随机变量,取值为实数,Y同为随机变量,但取值为1或0; 二项 Logistic回归模型的条件概率分布: 其中,w称为权值向量,b为偏置,x为输入,Y为输出...
  • 线性回归的数学解释

    2020-02-06 11:52:04
    百度百科:线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法 在实际中考虑,则是我们有一些x和y的数据,需要根据这些数据找到他们的关系式,也就是找到系数Θ ...
  • BG:在box-cox变换中,当λ = 0时即为对数变换。当所分析变量的标准差相对于均值而言比较大时,这种变换特别有用。对数据作对数变换常常起到降低数据波动性和减少不对称性的作用。。这一变换也能有效消除异方差性...
  • 更多CFA官方教材详解,请关注“边际实验室”。“边际实验室”是一家专注于金融科技...■在估计回归之前,可能需要转换一个或多个回归变量(例如,通过对变量取自然对数)。■回归模型汇集了来自不同样本中不应该被汇集...
  • 文章目录对数线性回归(波士顿房价预测)导入模块获取数据训练模型可视化 对数线性回归(波士顿房价预测) 导入模块 import pandas as pd import numpy as np import matplotlib.pyplot as plt from matplotlib.font_...
  • 包括指数、对数、幂指数、曲线、Logistic、多项式、Gamma等模型的非线性拟合,每行代码均有中文注释便于理解
  • 并不是大的量和小的量放在一起大的就要对数,那我必然要问你,为什么不选择开N次方呢?或者把小的求阶乘(当然这种操作可能也不太“自然”)?事实上选择如何处理特征是要有一定的“具象”理由的,常见的两个原因有:...
  • 考虑二分类任务,其输出标记,而线性回归模型产生的预测值是连续分布的实数,需要一个阶跃函数将连续值映射为离散二值。用一个对数几率函数近似阶跃函数,得到。从而y和1-y可以分别视为类后验概率和,简记为和。  ...
  • 基本形式 优点:线性模型形式简单、易于建模。 很多非线性模型是在线性模型的基础上通过引入层级结构或...线性回归(linear regeression)试图学习一个线性模型以尽可能准确预测实值输出标记。 对于预测值本...
  • 常见的广义线性模型有:probit模型、poisson模型、对数线性模型等等。对数线性模型里有:logistic regression、Maxinum entropy。本篇是对逻辑回归理论和应用的学习总结、以及广义线性模型导出逻辑回归的过程,下一...
  • 对数线性模型有:最大熵模型和逻辑斯谛回归。 特征和指示特征 对数线性模型的一般形式 [概率图模型原理与技术] 某小皮 对数线性模型的不同形式 因子图 将因子转换到对数空间,成为对数线性模型...
  • 分为一元线性回归(简单线性回归)和多元线性回归,其中一元线性回归是多元线性回归的一种特殊情况,我们主要讨论多元线性回归 做什么? 回归问题关注的是一个因变量和一个或多个自变量的关系,根据已知的自变量来预测因...
  • 常见的广义线性模型有:probit模型、poisson模型、对数线性模型等等。对数线性模型里有:logistic regression、Maxinum entropy。本篇是对逻辑回归的学习总结,以及广义线性模型导出逻辑回归的过程。下一篇将是对...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 26,028
精华内容 10,411
关键字:

双对数线性回归