精华内容
下载资源
问答
  • 2021-05-08 10:12:12

    广义线性回归总结

    无序变量

    广义线性回归是指通过连接函数将随机成分和系统成分连接起来,其中连接函数是一一对应,连续可导的变换。
    因变量服从指数族分布,就可用广义线性逻辑回归。
    二分类变量使用logistic连接函数,也可用probit连接函数,互补从log连接函数,三者的主要区别是收敛到01的速度不一样,速度越来越快
    logistic一般用来直接判别类别,probit一般用来判断每一个类别的概率
    多分类变量可用softmax来进行分类

    有序变量

    更多相关内容
  • 广义线性回归.zip

    2019-10-28 15:35:00
    广义线性回归分析matlab程序,可以运行,代码中有详细调用方法和例子
  • 主要为大家详细介绍了Python数据拟合与广义线性回归算法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
  • 系统总结线性回归模型、logistic回归模型、广义线性模型相关知识。 ...

    0 引言

    在机器学习、数据挖掘中线性回归、Logistic回归(一种非线性回归)是比较基础而且常用回归与分类算法,比如结合L-BFGS优化算法在工业级的大规模推荐系统中被比较多地应用。
    如果只了解这两个算法,那就陷入了只见树木不见森林的圈子。本文企图用一篇博客的篇幅让大家系统了解这一块儿的知识。

    1 线性回归

    1.1问题

    给定训练数据集 T = { ( x i , y i ) ∣ x i ∈ R n , y i ∈ R , i ∈ { 1 , 2 , . . , N } } T=\{(x_i,y_i)|x_i \in R^n, y_i \in R,i\in\{1,2,..,N\}\} T={(xi,yi)xiRn,yiR,i{1,2,..,N}}
    注意, x i x_i xi是有n维特征的数据 ( x i 1 , x i 2 , . . . , x i n ) (x_{i1},x_{i2},...,x_{in}) (xi1,xi2,...,xin) ( x i , y i ) (x_i,y_i) (xi,yi)构成一条数据记录, y i ∈ R y_i \in R yiR
    要求构建合适的模型,根据给定数据 x i x_i xi该模型能够准确拟合 y i y_i yi

    1.2 数学模型

    构建线性回归模型:
    h ( x i ; w ) = w 0 x i 0 + w 1 x i 1 + . . . + w n x i n = ∑ j = 0 n w j x i j \begin{aligned} h(x_i;w)&= w_0x_{i0}+w_1x_{i1}+...+w_nx_{in}\\ &=\sum_{j=0}^n {w_{j} x_{ij}} \end{aligned} h(xi;w)=w0xi0+w1xi1+...+wnxin=j=0nwjxij
    其中, w = ( w 0 , w 1 , . . . , w n ) , x i 0 = 1 w=(w_0,w_1,...,w_n),x_{i0}=1 w=(w0,w1,...,wn),xi0=1,
    线性回归的目的就是通过建立模型并通过选择合适的算法来求出合适的参数 w i w_i wi下的 h ( x i ; w i ) h(x_i;w_i) h(xi;wi)和实际的 y i y_i yi之间的差值尽量的小,也就是预测的准确率在训练集和测试集足够高。
    进而我们可以定义损失函数:
    L ( w ) = 1 N ∑ i = 1 n ( h ( x i ; w ) − y i ) 2 = 1 N ( x w − y ) T ( x w − y ) \begin{aligned} L(w)&=\frac{1}{N}\sum_{i=1}^n{(h(x_i;w)-y_i)^2} \\ &=\frac{1}{N}(xw-y)^T(xw-y) \end{aligned} L(w)=N1i=1n(h(xi;w)yi)2=N1(xwy)T(xwy)
    从运筹优化的角度来看,该模型是无约束非线性优化问题:
    min ⁡ w L ( w ) ,    x ∈ R n + 1 , y ∈ R \begin{aligned} &\min_w L(w) ,\ \ x\in R^{n+1}, y\in R \end{aligned} wminL(w),  xRn+1,yR

    1.3 求解方法

    (1)当矩阵x为满秩矩阵时,可通过:
    ∂ L ( w ) ∂ w = 1 N ∂ ( w T x T x w − w T x T y − y T x w − y T y ) ∂ w = 1 N ( x T x w − x T y ) 令 ∂ L ( w ) ∂ w = 0 得到: w = ( x T x ) − 1 x T y \begin{aligned} \frac {\partial L(w)}{\partial w}&=\frac {1}{N}\frac{\partial(w^Tx^Txw-w^Tx^Ty -y^Txw-y^Ty)}{\partial w} \\ &=\frac {1}{N}(x^Txw-x^Ty ) \\ \text{令} \frac {\partial L(w)}{\partial w}&=0 \text{得到:}\\ w&=(x^Tx)^{-1}x^Ty \end{aligned} wL(w)wL(w)w=N1w(wTxTxwwTxTyyTxwyTy)=N1(xTxwxTy)=0得到:=(xTx)1xTy
    缺点:
    当矩阵x很大时,计算非常耗时且占用资源。
    (2)当矩阵x不是满秩矩阵(大部分情况都是这种),可采用梯度下降算法。
    初始化向量 w w w,对每个分量 w j w_j wj沿着负梯度方向进行迭代:
    w j ( t + 1 ) = w j ( t ) − α ∂ L ( w ) ∂ w j \begin{aligned} w_j^{(t+1)}=w_j^{(t)} -\alpha \frac {\partial L(w)}{\partial w_j} \end{aligned} wj(t+1)=wj(t)αwjL(w)
    直到梯度变化很小或者不变化时停止迭代。

    梯度下降中涉及到的参数是,步长 α \alpha α,迭代次数t,这些对于计算最终的都会影响,所以需要调参优化。
    常用的梯度下降算法有SGD,BGD,mBGD,实际中以mBGD使用最多。

    1.4 过拟合处理

    抑制过拟合最常用的方法是引入正则化项,也就惩罚项,给损失函数L(w)的参数w赋予一个约束项,使其不能任意的无限大或者无限小,将 L p L_p Lp范数作为正则化项加入到损失函数:
    L ( w ) = 1 N ∑ i = 1 n ( h ( x i ; w ) − y i ) 2 + ∣ ∣ w ∣ ∣ p \begin{aligned} L(w)=\frac{1}{N}\sum_{i=1}^n{(h(x_i;w)-y_i)^2} + ||w||_p\\ \end{aligned} L(w)=N1i=1n(h(xi;w)yi)2+wp
    关于 L p L_p Lp范数的全面介绍请看本人另一篇博文:损失函数、风险函数及正则化知识系统总结

    2 非线性回归

    典型的非线性回归有 logistic回归、softmax回归等, logistic回归解决二分类问题,softmax回归是解决多分类问题,我们以logistics回归为例介绍。

    2.1 logistic回归

    2.1.1数据集

    给定训练数据集 T = { ( x i , y i ) ∣ x i ∈ R n , y i ∈ { 0 , 1 } , i ∈ { 1 , 2 , . . , N } } T=\{(x_i,y_i)|x_i \in R^n, y_i \in\{ 0,1\},i\in\{1,2,..,N\}\} T={(xi,yi)xiRn,yi{0,1},i{1,2,..,N}}
    注意, x i x_i xi是有n维特征的向量, ( x i , y i ) (x_i,y_i) (xi,yi)构成一条数据记录, y i ∈ { 0 , 1 } y_i \in \{0,1\} yi{0,1}

    2.1.2 数学模型

    假设回归模型:
    P ( Y = 1 ∣ x ; w ) = π w ( x ) P ( Y = 0 ∣ x ; w ) = 1 − π w ( x ) \begin{aligned} P(Y=1|x;w)&=\pi_w(x) \\ P(Y=0|x;w)&=1-\pi_w(x) \end{aligned} P(Y=1x;w)P(Y=0x;w)=πw(x)=1πw(x)
    其中,w是待估计参数。
    我们可以使用统计学中的极大似然估计法,首先写出似然函数:
    L ( w ) = ∏ i N P ( y i = 1 ∣ x i ; w ) y i P ( y i = 0 ∣ x i ; w ) 1 − y i = ∏ i N π w ( x i ) y i ( 1 − π w ( x i ) ) 1 − y i \begin{aligned} L(w)&=\prod _i^N P(y_i=1|x_i;w)^{y_i}P(y_i=0|x_i;w)^{1-y_i}\\ &=\prod _i^N \pi_w(x_i)^{y_i} (1-\pi_w(x_i))^{1-y_i} \\ \end{aligned} L(w)=iNP(yi=1xi;w)yiP(yi=0xi;w)1yi=iNπw(xi)yi(1πw(xi))1yi
    似然函数中含有指数,所以最好取对数似然函数:
    L ( w ) = log ⁡ ∏ i N P ( y i = 1 ∣ x i ; w ) y i P ( y i = 0 ∣ x i ; w ) 1 − y i = log ⁡ ∏ i N π w ( x i ) y i ( 1 − π w ( x i ) ) 1 − y i = ∑ i N ( y i log ⁡ π w ( x i ) + ( 1 − y i ) log ⁡ ( 1 − π w ( x i ) ) ) = ∑ i N ( y i log ⁡ π w ( x i ) 1 − π w ( x i ) + log ⁡ ( 1 − π w ( x i ) ) ) = ∑ i N ( y i ( w x i ′ ) + log ⁡ ( 1 + e w x i ′ ) ) \begin{aligned} L(w)&=\log \prod _i^N P(y_i=1|x_i;w)^{y_i}P(y_i=0|x_i;w)^{1-y_i}\\ &=\log \prod _i^N \pi_w(x_i)^{y_i} (1-\pi_w(x_i))^{1-y_i} \\ &=\sum_i^N({y_i} \log \pi_w(x_i)+({1-y_i}) \log(1 - \pi_w(x_i))) \\ &=\sum_i^N({y_i} \log \frac {\pi_w(x_i) }{1 - \pi_w(x_i)}+ \log(1 - \pi_w(x_i))) \\ &=\sum_i^N({y_i} (wx_i')+ \log(1 + e^{wx_i'})) \\ \end{aligned} L(w)=logiNP(yi=1xi;w)yiP(yi=0xi;w)1yi=logiNπw(xi)yi(1πw(xi))1yi=iN(yilogπw(xi)+(1yi)log(1πw(xi)))=iN(yilog1πw(xi)πw(xi)+log(1πw(xi)))=iN(yi(wxi)+log(1+ewxi))
    其中,
    x i ′ = ( 1 x i ) x_i'=\begin{pmatrix} 1 \\ x_i \end{pmatrix} xi=(1xi),
    w x i ′ wx_i' wxi代换了 log ⁡ π w ( x i ) 1 − π w ( x i ) \log \frac {\pi_w(x_i) }{1 - \pi_w(x_i)} log1πw(xi)πw(xi),这是因为logistic回归定义的输入输出关系就是输出 Y = 1 Y=1 Y=1的几率的对数等于 x x x的线性函数,即:
    log ⁡ π w ( x i ) 1 − π w ( x i ) = w x i ′ , w ∈ R n + 1 , x ∈ R n + 1 \log \frac {\pi_w(x_i) }{1 - \pi_w(x_i)}=wx_i',\\ w\in R^{n+1},\\ x\in R^{n+1} log1πw(xi)πw(xi)=wxi,wRn+1,xRn+1
    极大似然估计法就是求:
    w ∗ = arg ⁡ max ⁡ w L ( w ) w^*=\arg \max_w L(w) w=argwmaxL(w)
    从运筹优化的角度来看,该模型是一个无约束非线性优化问题:
    max ⁡ w L ( w ) , w ∈ R n + 1 . \max_w L(w) ,\\ w \in R^{n+1}. wmaxL(w),wRn+1.

    2.1.3 求解方法

    由数学模型可知,L(w)为无约束、可微函数,我们可以考虑使用梯度下降算法、牛顿法、拟牛顿法等等,在应用这些优化算法之前需要先将问题转化成最小化问题,即:
    min ⁡ w − L ( w ) , w ∈ R n + 1 . \min_w-L(w) ,\\ w \in R^{n+1}. wminL(w),wRn+1.

    2.1.4 过拟合处理

    过拟合处理方式同2.4节介绍的方法,也是在 L ( w ) L(w) L(w)基础上加入正则化项,通常是L1,L2正则化项。

    3 广义线性回归

    广义线性模型 (generalized linear model) 是在普通线性模型的基础上推广而得出的应用范围更广,更具实用性的回归模型。
    广义线性模型可以定义为:
    Y = f ( w 0 x i 0 + w 1 x i 1 + . . . + w n x i n ) Y=f(w_0x_{i0}+w_1x_{i1}+...+w_nx_{in}) Y=f(w0xi0+w1xi1+...+wnxin)
    其中, f ( . ) f(.) f(.)函数称为link function,意思是通过该函数将Y和 w 0 x i 0 + w 1 x i 1 + . . . + w n x i n w_0x_{i0}+w_1x_{i1}+...+w_nx_{in} w0xi0+w1xi1+...+wnxin联结起来;

    显而易见,线性回归模型的link function就是 f ( x ) = x f(x)=x f(x)=x,且 Y Y Y服从正态分布;

    广义线性模型与普通线性模型的区别为
    (1)响应变量 Y Y Y的分布推广至指数分散族 (exponential dispersion family):比如正态分布、泊松分布、二项分布、负二项分布、伽玛分布、逆高斯分布;
    (2)预测量和未知参数的非随机性:仍然假设预测量 具有非随机性、可测且不存在测量误差;未知参数 认为是未知且不具有随机性的常数;
    (3)研究对象:广义线性模型的主要研究对象仍然是响应变量的均值 ;
    (4)联接方式:广义线性模型里采用的联连函数 (link function) 理论上可以是任意的,而不再局限于 f ( x ) = x f(x)=x f(x)=x当然了联接函数的选取必然地必须适应于具体的研究案例。同时存在着与(1)里提及的分布对应的联接函数,称之为标准联接函数(canonical link or standard link),如正态分布对应于恒等式,泊松分布对应于自然对数函数等。标准联接函数的推导及其应用上的优点涉及到指数分散族的标准化定义,这里不做详述。

    指数分布族中的一类分布都可以用下面一个统一的公式描述:
    p ( y ; η ) = b ( y ) e η T ( y ) − a ( η ) p(y;\eta)=b(y)e^{\eta T(y)-a(\eta)} p(y;η)=b(y)eηT(y)a(η)

    其中:
    b ( y ) b(y) b(y):是底层观测值(underlying measure);
    η \eta η:分布的自然参数,跟具体分布有关,通常 η = w T x \eta=w^Tx η=wTx
    T ( y ) T(y) T(y):充分统计量(sufficient statistic),通常取 T ( y ) = y T(y)=y T(y)=y;
    a ( η ) a(\eta) a(η):log partition function, e − a ( η ) e^{-a(\eta)} ea(η)本质上起着规范化常数的作用,保证概率分布 ∑ ( y ; η ) \sum(y;\eta) (y;η)为1。

    当T、a、b固定之后实际上就确定了指数分布族中的一种分布模型,就得到了以η为参数的模型。
    比如指定:
    b ( y ) = 1 2 π e ( − y 2 2 ) b(y)=\frac{1}{\sqrt{\smash[b]{2\pi}}}e^{(-\frac {y^2}{2})} b(y)=2π 1e(2y2),
    η = μ \eta=\mu η=μ,
    T ( y ) = y T(y)=y T(y)=y,
    a ( η ) = μ 2 2 = η 2 2 a(\eta)=\frac{\mu^2}{2}=\frac{\eta^2}{2} a(η)=2μ2=2η2,
    这样就得到了线性回归模型。
    发现一篇博客比较详细地介绍了推导过程,推荐大家直接参考:从广义线性模型(GLM)理解逻辑回归

    4 参考资料

    [1].统计机器学习,李航;
    [2].从线性模型到广义线性模型(1)——模型假设篇,张缔香;

    展开全文
  • 一、广义线性回归是什么 1、广义线性回归满足三条定理 二、指数族分布(The exponential family distribution)有哪些? 指数族分布有:高斯分布、二项分布、伯努利分布、多项分布、泊松分布、指数分布、 beta ...

    一、广义线性回归是什么

    1、广义线性回归满足三条定理

    二、指数族分布(The exponential family distribution) 有哪些?

    指数族分布有:高斯分布、二项分布、伯努利分布、多项分布、泊松分布、指数分布、
    beta 分布、拉普拉斯分布、gamma 分布

    三、广义线性模型公式

     η 是 自然参数(natural parameter,also called thecanonical parameter)。
    T(y) 是充分统计量 (sufficient statistic) ,一般情况下就是 y。
    a(η) 是 对数部分函数(log partition function),这部分确保 Y

    展开全文
  • 例如在上面提到了预测商品房房价的例子中,我们假设这些数据之间符合线性关系,就可以得到一元线性回归模型。 那么能否假设为其他模型呢?我们也可以假设为x和y的对数之间是线性关系。如下图所示。 这也被称为对数...

    课程回顾

    在这里插入图片描述
    线性模型只能应用在自变量和因变量是线性或者接近线性的情况。在现实生活中,数据之间存在着大量非线性的关系。为了解决这类问题,我们就需要对线性模型进行改进。

    例如在上面提到了预测商品房房价的例子中,我们假设这些数据之间符合线性关系,就可以得到一元线性回归模型。
    在这里插入图片描述
    那么能否假设为其他模型呢?我们也可以 假设为 x 和 y 的对数之间是线性关系。如下图所示。
    在这里插入图片描述
    这也被称为对数线性回归,表达式为:
    在这里插入图片描述
    也可以写成
    在这里插入图片描述
    可以看到,x 实际上是在 e 的指数尺度上的变化,x 和 y之间是非线性关系。
    如果把这个 lny 用 Y 表示,那么从 x 到 Y之间,仍然是线性回归。
    在这里插入图片描述
    Y 是在 y 的外面又包裹了一层函数 g,或者说在线性组合 wx+b 的外面又包裹了一层函数 h ,在这里插入图片描述
    这个 h 和 g 互称为逆运算。因此,函数 y 也可以表示为这种形式:
    在这里插入图片描述
    得到的这个模型就称之为广义线性模型。

    (这里在理解上需要注意,突出的是 y = h(wx+b),然后再 y 作为 g(y) 的自变量,而不是说g(y)=wx+b,其实上面的 g(y)=wx+b 写成 g(y) = y 更准确,它写成g(y)=wx+b,只是为了说明广义线性模型可以抽象成什么样子。)

    其中,函数 g 也称为联系函数,
    在这里插入图片描述
    在这个例子中,这个 g 的逆函数是指数函数,它还可以是任何一个单调可微函数,使用不同的联系函数就可以描述多种不同分布的数据。

    我们还可以把广义线性回归推广到高维模型。这里的 W 和 X 都是 m+1 维的向量,m是属性的个数,x0 等于1。在这里插入图片描述
    可以看到,线性模型虽然简单,却可以通过广义线性回归产生丰富的变化,满足实际任务中对非线性关系的需求。

    展开全文
  • 一、线性回归 y=ax+b 给出一个离散点,咱们想办法表示出a和b.(最小二乘法) 多个变量的情况: 考虑两个变量: 咱们的未知数是x1,x2,把Living area和price看成x1,x2.然后咱们只需要求出θ就可以完成拟合。 咱们的...
  • 机器学习(三)线性回归模型、广义线性回归模型、非线性回归模型   线性回归(数据集要满足正态分布) 一元线性回归模型: 在这里会想到,如何确定方程中的系数呢?我们先来了解最小二乘法,简单来说就是这个点...
  • >> hold on >> plot3(p(:),t(:),z(:),'k*') 拟合结果: ------------------------------------方差分析表------------------------------------ 方差来源 自由度 平方和 均方 F值 p值 回归 5.0000 11548....
  • 1、广义线性回归 广义线性模型有三个组成部分: (1) 随机部分, 即变量所属的指数族分布 族成员, 诸如正态分布, 二项分布, Poisson 分布等等. (2) 线性部分, 即 η = x⊤β. (3) 连接函数 g(µ) = η。 R 中的广义...
  • 多元线性回归和广义线性回归 (1)

    千次阅读 2020-04-21 00:05:51
    目录背景多元线性回归常规公式拟合思路最小二乘法的推导将自变量系数与自变量整合为矩阵模拟过程存在误差项误差项符合高斯分布最大似然函数的引入自变量系数的估值求解评估β的估值是否合理 背景 线性回归模型的建立...
  • 线性回归1.线性回归1.1 线性模型(Linear Model)1.2 损失函数(Loss Function):Square Loss1.3 求解1.3.1 最小二乘法(Least Square Method)1.3.2 梯度下降法(Gradient Descent)1.4 正则化(Regularization) 1.线性回归 ...
  • 数据回归-基于广义线性回归模型的统计预测及其应用.pdf
  • 广义线性回归 ?glm data(breslow.dat, package="robust") names(breslow.dat) summary(breslow.dat[c(6,7,8,10)]) attach(breslow.dat) > fit <-glm(sumY ~ Base + Age + Trt,data=breslow.dat, ...
  • 5.广义线性回归

    千次阅读 2017-10-01 01:33:51
    :我们假设y满足高斯分布,之后我们得到了基于最小二乘的线性回归模型。 2) y取0或者1,在这种情况下,最为自然的0~1之间的分布是伯努利分布,对于这种情况我们得到了逻辑回归; 3) 若你忘记了Bernoulli分布,这里...
  • 数据回归-凸约束广义线性回归模型参数的极大似然估计研究.pdf
  • 线性回归的推广一共体现在两个方面 求取预测值:我们通过对特征的线性组合施加一个非线性变换,得到新的预测值,从而达到一部分非线性回归的功能 不同的损失函数:在OLE中,我们的损失函数是均方误差,但是,我们...
  • 广义线性回归在研究学生成绩相关性的应用,白春玲,樊顺厚,目前学风建设是高校管理中至关重要的一环。学风建设的好坏主要是由学生的学习来反映。本文从学生成绩角度出发,应用多元统计的广
  • 多项式逻辑回归A nominal response variable has a restricted set ofpossible values with no natural order between them. A nominal responsemodel explains and predicts the probability that an observation ...
  • 考虑广义线性回归模型Y=X?+e,E(e)=O,Cov(e)=σ2∑;,当设计矩阵Xnxp呈现病态时,定义广义线性回归模型的Moore-Penrose逆阵岭估计为?(k)=(X`∑-1X+kI)+X+KI)+X`∑-ly,k>0,讨论了广义线性回归模型的...
  • (4)再利用多项式回归对数据进行拟合,并进行预测;将观测值与拟合值,进行图形展示(同上)。 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.preprocessing import ...
  • R语言与广义线性回归模型

    千次阅读 2019-11-16 12:39:20
    广义线性模型(GLM)是常见正态线性模型的直接推广,它可以适用于连续数据和离散数据,特别是后者,如属性数据、计数数据。这在应用上,尤其是生物、医学、经济和社会数据的统计分析上,有着重要意义。 对于广义...
  • 在博文 多元线性回归和广义线性回归 (1)中我们有聊到多元线性回归模型的拟合思路以及模型求解的过程。但上一篇博文还未解答如何评估模型的好坏。在这篇博文中,我将通过一个简单的实例记录一下回归模型的建立流程...
  • 广义线性回归分析PPT学习教案.pptx
  • 浅谈广义线性回归

    千次阅读 2017-08-22 11:06:12
     实际上线性最小二乘回归和Logistic回归都是广义线性模型的一个特例。当随机变量服从高斯分布,那么  得到的是线性最小二乘回归,当随机变量服从伯努利分布,则得到的是Logistic回归。  那么如
  • 广义线性回归模型(GLM)是常见正太线性模型的直接推广,它适用于连续数据和离散数据,特别是后者,如属性数据、计数数据。广义线性回归模型要求响应变量只能通过线性形式依赖于自变量,从而保持了线性自变量的思想。...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 15,341
精华内容 6,136
关键字:

广义线性回归

友情链接: 加密打印.zip