精华内容
下载资源
问答
  • 用tensorflow构建简单的线性回归模型是tensorflow的一个基础样例,但是原有的样例存在一些问题,我在实际调试的过程中做了一点自己的改进,并且有一些体会。 首先总结一下tf构建模型的总体套路 1、先定义模型的整体...
  • 1.总体多元回归的定义 2.多元回归的指标   对于一个二元的线性回归:y^=b0+b1x1+b2x2\hat{y}=b_{0}+b_{1} x_{1}+b_{2} x_{2}y^​=b0​+b1​x1​+b2​x2​我们说它的残差是 %y-\hat{y}$,。在一元线性回归中,我们...

    18 多元回归与模型回归

    1.总体多元回归的定义

    在这里插入图片描述

    2.多元回归的指标

      对于一个二元的线性回归:y^=b0+b1x1+b2x2\hat{y}=b_{0}+b_{1} x_{1}+b_{2} x_{2}我们说它的残差是 %y-\hat{y}$,。在一元线性回归中,我们说这是实际数据点与回归线之间的垂直距离,在多元回归中,我们说这是数据点和回归平面(或超平面)之间的垂直距离。此外,3类平方和还有R方依然可以使用:
    SSE=(yy^)2SSR=(y^y)2SST=(yy)2R2=SSRSST \begin{aligned} \mathrm{SSE} &=\sum(y-\hat{y})^{2} \\ \mathrm{SSR} &=\sum(\hat{y}-\overline{y})^{2} \\ \mathrm{SST} &=\sum(y-\overline{y})^{2} \end{aligned} \\ R^{2}=\frac{\mathrm{SSR}}{\mathrm{SST}}
      我们给出方差分析表:
    在这里插入图片描述
    (测试统计F)
      看R方的变化,只要有新的预测变量加入模型时,R2的值总是会上升。如果新变量是有用的,则R’的值将会显著增加;如果新变量名不起作用,则R2值几乎不会有增加。
      看标准误差s的变化,它的变化和R方不一样。如果新加入的变量对预测变量有用的话,这个值就会减小,如果没用,就会增加。这就使得我们可以更好的考察是否该将某个值加入模型有很好的帮助。

    3. 关于误差项的假设

    ①零均值假设。误差项 ε\varepsilon 是一个随机变量,其均值或期望值为0。换句话说, E(ε)=0E(\varepsilon)=0
    ②常数方差假设。误差项ε\varepsilon的方差定义为 σ2\sigma^{2},无论 x1,x1,,xmx_{1}, x_{1}, \dots, x_{m} 取何值,均为常量。
    ③独立性假设。误差项 ε\varepsilon 的值具有独立性。
    ④正态假设。误差项 ε\varepsilon 是一个满足正态分布的随机变量。

    4. 响应变量 y 行为假设的含义

    ①基于零均值假设,我们有:
    E(y)=E(β0+β1x1+β2x2++βmxm+ε)=E(β0)+E(β1x1)++E(βmxm)+E(ε)=β0+β1x1+β2x2++βmxm \begin{aligned} E(y) &=E\left(\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\cdots+\beta_{m} x_{m}+\varepsilon\right) \\ &=E\left(\beta_{0}\right)+E\left(\beta_{1} x_{1}\right)+\dots+E\left(\beta_{m} x_{m}\right)+E(\varepsilon) \\ &=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\cdots+\beta_{m} x_{m} \end{aligned}
    即,对 x1,x1,,xm| x_{1}, x_{1}, \ldots, x_{m} 的每个值集, yy 的均值处于回归线上。
    ②基于方差为常数的假设,我们给出y的方差Var(y)Var(y)
    Var(y)=Var(β0+β1x1+β2x2++βmxm+ε)=Var(ε)=σ2 \operatorname{Var}(y)=\operatorname{Var}\left(\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\cdots+\beta_{m} x_{m}+\varepsilon\right)=\operatorname{Var}(\varepsilon)=\sigma^{2}
    即,无论预测变量 x1,x1,,xm| x_{1}, x_{1}, \ldots, x_{m} 取何值,y的方差始终为常数。
    ③基于独立性假设,可得出,对, x1,x1,,xm| x_{1}, x_{1}, \ldots, x_{m} 的任意特定值集,yy 值也具有独立性。
    ④基于正态分布假设,可得出,yy 也是满足正态分布的随机变量。换句话说,响应变量 yy,的值是独立的正态分布随机变量,其均值为:β0+β1x1+β2x2++βmxm\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\ldots+\beta_{m} x_{m},方差为σ2\sigma^2

    5.多元回归推理

    我们将验证如下5个推理方法:
    ①在存在其他预测变量 x(i)x_{(i)} 的情况下,响应变量 yy 与特定预测变量 xx ,之间关系的 t-检捡。其中x(i)=x1,x2,,xi1,xi+1,,+xmx_{(i)}=x_{1}, x_{2}, \ldots, x_{i-1}, x_{i+1}, \ldots,+x_{m}表示除 xix_i ,之外的所有预测变量集。
    ②总体回归显著性的 F-检验。
    ③第 ii 个预测变量斜率βi\beta_i的置信区间。
    ④在给定特定预测变量值集石,x1,x2,,xmx_{1}, x_{2}, \dots, x_{m}时,响应变量 yy 均值的置信区间。
    ⑤在给定特定预测变量值集高,x1,x2,,xmx_{1}, x_{2}, \dots, x_{m}时,响应变量 yy 为随机变量取值时的预测区间。

    6.y 与xix_i之间的关系的 t-检验

    该检验的假设如下:
    H0:βi=0Ha2:βi0 \begin{array}{ll}{H_{0} : \beta_{i}}{=0} \\ {H_{\mathrm{a}^{2}}}: {\beta_{i} \neq 0}\end{array}
    该假设所隐含的模型如下:
    H0H_0 情况下:β0+β1x1++0++βmxm+ε\beta_{0}+\beta_{1} x_{1}+\cdots+0+\cdots+\beta_{m} x_{m}+\varepsilon
    H1H_1 情况下:β0+β1x1++βixi++βmxm+ε\beta_{0}+\beta_{1} x_{1}+\cdots+\beta_{i} x_{i}+\cdots+\beta_{m} x_{m}+\varepsilon
      注意两个模型的唯一差别是有没有第 ii 项,除此以外,模型中其他项都是相同的。因此,对 t-检验结果的解释必须包括其他保持不变的预测变量作为参考。
      零假设情况下,检验统计量t=bisbit=\frac{b_{i}}{s_{b_i}},总满足自由度为 nm1n-m-1 的 t 分布,其中sbis_{b_{i}}表示第 ii 个预测变量斜率的标准误差。

    7.多元回归 t-检验的例子

    在这里插入图片描述
    ①含糖量与营养等级

    • H0:β1=0H_{0} : \beta_{1}=0模型:y=β0+β2()+εy=\beta_{0}+\beta_{2}(纤维含量)+\varepsilon
    • Ha:β10H_{\mathrm{a}} : \beta_{1} \neq 0 模型:y=β0+β1()+β2()+εy=\beta_{0}+\beta_{1}(含糖量)+\beta_2(纤维含量)+\varepsilon
        图中,我们们可以看到 “Sugars”(含糖量) 的 Coedf列的值 b1=2.2436b_1=-2.2436
        在 “Sugars”(含糖量) 行的 SE Coedf 列可得到含糖量的斜率的标准误差值:sb1=0.1632s_{b_{1}}=0.1632
        在 “Sugars”(含糖量) 行的 T 列可得到 t-统计值, 即 t-检验的检验统计量,t=b1sb1=2.24360.1632=13.75t=\frac{b_{1}}{s_{b_1}}=\frac{-2.2436}{0.1632}=-13.75
        在 “Sugars”(含糖量) 行的 P 列可获得 t-统计量的 p-值。因为双尾检验,p-值按照以下形式获得:p=P(t>tobs)p-值 = P(|t|>|t_{obs}|),其中 tobst_{obs} 表示回归结果 t-统计量的观察智。此处,$ p-值=P(|t|>|t_obs|)=P(|t|>|-13.75|)\approx 0.000KaTeX parse error: Expected 'EOF', got '&' at position 23: … p-值不会精确地等于 0。 &̲emsp; p-值方…p-值\cong 0$,比所有合理的显著性阀值都要小。因此结论为拒绝零假设。对该结论的解释是,在纤维含量存在的情况下,有证据表明营养等级与含糖量之间存在线性关系。
      ②纤维含量与营养等级
    • H0:β2=0H_{0} : \beta_{2}=0模型:y=β0+β1()+εy=\beta_{0}+\beta_{1}(含糖量)+\varepsilon
    • Ha:β20H_{\mathrm{a}} : \beta_{2} \neq 0 模型:y=β0+β1()+β2()+εy=\beta_{0}+\beta_{1}(含糖量)+\beta_2(纤维含量)+\varepsilon
        图中,我们们可以看到 “Fibers(纤维含量)”的 Coedf列的值 b1=2.8665b_1=-2.8665
        在 “Fibers(纤维含量)”行的 SE Coedf 列可得到含糖量的斜率的标准误差值:sb2=0.2979s_{b_{2}}=0.2979
        在 “Fibers(纤维含量)”行的 T 列可得到 t-统计值, 即 t-检验的检验统计量,t=b2sb2=2.86650.2979=9.62t=\frac{b_{2}}{s_{b_2}}=\frac{2.8665}{0.2979}=9.62
        在 “Fibers(纤维含量)”行的 P 列可获得 t-统计量的 p-值。同样$ p-值\approx 0.000$。据此,我们再次拒绝零假设。对此的解释为,在存在含糖量的情况下,有证据表明营养等级与纤维含量之间存在线性关系。

    8.多元回归F-检验

    在这里插入图片描述
    营养等级 与 含糖量和纤维含量:

    • H0H_0β1=β2=0\beta_1= \beta_2 = 0 模型:$y= \beta_0 + \varepsilon $。
    • HaH_aβ1\beta_1β2\beta_2 至少有一个不等于0。而HaH_a的隐含模型未定义,有以下可能:
      y=β0+β1(含糖量)+εy=β0+β2(纤维含量)+εy=β0+β1(含糖量)+β2(纤维含量)+ε y=\beta _0+\beta _1\left( \text{含糖量} \right) +\varepsilon \\ y=\beta _0+\beta _2\left( \text{纤维含量} \right) +\varepsilon \\ y=\beta _0+\beta _1\left( \text{含糖量} \right) +\beta _2\left( \text{纤维含量} \right) +\varepsilon
        从图中的“Regression”部分,所对应的MS列看到 MSR 的值为6094.3。
        “Residual Error”部分的MS列可以看到 MSE 的值为37.5。
        而F列那里可以看到 F-检验统计量F=MSRMSE=6094.337.5=162.32F=\frac{M S R}{M S E}=\frac{6094.3}{37.5}=162.32
        此处看到DF列,可以得到F-统计量的自由度:n-m-1=73。
        p-值近似等于零,远小于任何显著性阈值。因此,我们拒绝零假设。对该结论的解释如下。有证据表明营养等级与预测变量集、含糖量和纤维含量之间存在线性关系。
      更确切地说,总体回归模型是显著的。

    9.特定系数βi\beta_i的置信区间

      与简单线性回归类似,我们可以为某个特定系数 βi\beta_i构建100(1α)100(1-\alpha)%置信区间。如下所示,我们能够有100(1α)100(1-\alpha)%可信度认为某个特定系数βi\beta_i,位于以下区间内:
    βi±(tnm1)(sb1) \beta_{i} \pm\left(t_{n-m-1}\right)\left(s_{b_{1}}\right)
      其中tnm1t_{n-m-1}自由度为 nm1n-m-1sbis_{b_i}表示第 ii 个系数估计的标准误差。
      例如,让我们为含糖量x1x_1的系数βi\beta_i的实际值构建 9595% 置信区间。上例中,点估计合出的值是β1=2.2436\beta_1=-2.24369595% 置信度及 nm1=73n-m-1=73 自由度的t-关键值为tnm1=1.99t_{n-m-1}=1.99 。系数古计的标准误差为sbi=0.1632s_{b_i}=0.1632。因此,可得置信区间为:
    β1±(tnm1)(sh)=2.2436±1.99(0.1632)=(2.57,1.92) \begin{aligned} \beta_{1} & \pm\left(t_{n-m-1}\right)\left(s_{h}\right) \\ &=-2.2436 \pm 1.99(0.1632) \\ &=(-2.57,-1.92) \end{aligned}
      我们有95%的置信度认为系数B1的值处于-2.57~-1.92之间。换句话说,当纤维含量保持不变时,含糖量每增加1克,营养等级将会减低1.92至2.57点。例如,假设某个营养研究师声称在纤维含量为常量的情况下,含糖量每增加1克,营养等级将会下降2点。因为-2.0处于95%置信区间内,因此我们可以认为其说法是正确的可能性为95%。

    展开全文
  • 相关表和相关图可反映两个变量之间相互关系及其相关方向,但无法确切地表明两个变量之间相关程度。相关系数是用以反映变量之间相关关系密切...从直观上来看,协方差表示是两个变量总体误差期望。 如果两...

    相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度。相关系数是用以反映变量之间相关关系密切程度的统计指标。 从协方差出发,了解相关系数的真实含义和数学计算。

      

    期望值分别为E[X]与E[Y]的两个实随机变量XY之间的协方差Cov(X,Y)定义为:

    从直观上来看,协方差表示的是两个变量总体误差的期望。

    如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;

    如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

    说的简单一些,协方差表示了两个变量同向变化的方向(同向还是反向)和幅度,但存在一个问题,例如下图(来自知乎),两种情况下,两个变量变化的方向和单一变量变化的相对幅度是一样的,但协方差却差别很大(情况一的协方差≈15428,情况二的协方差≈1.5428),原因仅仅是情况二中的红色变量的取值范围小了很多。

    似乎有点不合理,这两种情况下他们的相关程度我们认为应该是一样的;

    问题在于两个变量中的一个的取值范围变小了,同时也注意到,他们的协方差差别刚好是红色变量变小的倍数,所以我们想衡量两个变量之间的相关程度,应该引入类似标准化类似的操作,这就是协方差到相关系数的自然需求。

    相关系数是研究变量之间线性相关程度的量

    其中,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差

    我对相关系数的理解就是协方差的标准化,协方差的正负符号表明了两个变量变化的大体方向(同向还是反向),而标准化则是去除因为取值范围带来的幅度的变化

    事实上,经过标准化的协方差(也就是相关系数)的取值在[-1,1]之间,-1表示完全负相关,1表示完全正相关,0表示不相关

    相关系数的取值范围证明参见施瓦茨不等式

    转载于:https://www.cnblogs.com/qwj-sysu/p/8493945.html

    展开全文
  • 从广义线性模型到逻辑回归

    千次阅读 2018-09-16 19:49:15
    基本形式都是先设定h_θ (x),然后求最最大似然估计L(θ),然后求出l(θ)=logL(θ),然后用梯度上升法或其它方法求出θ,二种回归如此相似原因就是在于它们都是广义线性模型一员。所以为了有个总体把握,...

    一.广义线性回归

    回归方式比较常用的有线性回归和logistic回归.基本的形式都是先设定h_θ (x),然后求最最大似然估计L(θ),然后求出l(θ)=logL(θ),然后用梯度上升法或其它方法求出θ,二种回归如此相似的原因就是在于它们都是广义线性模型里的一员。所以为了有个总体上的把握,从广义线性回归说起。
    1.1指数家族
    1.1.1 定义
    如果一个概念分布可以表示成
            (1)

    那么这个概率分布可以称之为指数分布, 其中η为自然参数(Natural Parameter);T(y)为充分统计量(Sufficient Statistics);h(η)为归一化常量(Normalization Constant),使得上式满足概率分布的条件,即p(y;η)∈[0,1]并且

    如果y为离散型变量,上式由积分形式变为求和形式即可。
    对于给定的b,h,T三个函数,上式定义了一个以η为参数的概率分布集合,即改变η可以得到不同的概率分布,参考参考文献【1】。
    T(y)为什么被称为充分统计量呢?下面来解释这个问题。我们将概率加和为1法则对应的公式左右两边同时对η求导,可得

    对上式变形,并再次利用概率加和为1法则,得到下式

    用更精简的形式来表述:

    假设现在有N个样本组成的数据集Y={y1,y2,⋯,yN},我们用最大似然的方法来估计参数η,其对数似然函数形式如下:

    将L对参数η求导并令其为0,得到

    根据上式可以求解出。我们可以看到最大似然估计仅仅通过依赖样本点,因此被称为充分统计量。我们只需要存储充分统计量T(y)而不是数据本身。在Bernoulli分布中T(y)=y,我们只需保存所有样本的加和 ;在Gauss分布中,T(y)=(y,y^2 )^T,因此我们只要保持 即可。当N→∞时,上式的右侧就等价于E[T(y)],此时也就等于η的真实值。实际上,该充分特性仅仅适用于贝叶斯推理(Bayesian Inference),详情请见《Pattern Recognition and Machine Learning》的第八章内容。 
    广义线性模型是经典线性模型的一个概括。广义线性模型包括了一些特殊模型,如线性回归,方差分析模型,量子反应中常用的对数和概率模型,对数线性模型和计数中用到的多反应模型,以及存活数据使用的一些通用模型。以上模型有一些共同的属性,如线性——可以利用其良好的性质;有通用的参数估计的方法。这些通用的属性让研究者可以把广义线性模型当作一个单独的组来学习,而不是一系列不相关的主题来学习。
     

    1.1.2 广义线性模型

        指数家族的问题可以通过广义线性模型(generalized linear model, GLM)来解决。如何构建GLM呢?在给定x和参数后,y的条件概率p(y|x,θ) 需要满足下面三个假设:
        assum1) y | x; θ ∼ ExponentialFamily(η),,给定观测值x和参数θ,y的分布服从参数为η的指数族分布;
        assum2) h(x) = E[y|x]. 即给定x,目标是预测T(y)的期望,通常问题中T(y)=y
        assum3) ,即自然参数η和观测值x之间存在线性关系.
    广义线性模型的三步是:
        a)将y|x;θ变换成以η为参数的指数分布的形式
        b)因为h(x)=E[y|x],所以能过第1步的变换可以得到E[y|x]与η的对应关系(对于logistic回归,期望值是ø,ø与η的关系是{\o} = 1/\left( {1 + {e^{ - \eta }}} \right);对于线性回归,期望值是μ,μ与η的关系是η=μ)。
        c)设定(如果η是一个向量值的话,那么)

     

    1.1.3 从指数家族到线性回归

    第一步,高斯分布与线性回归。
    假设根据特征的预测结果与实际结果有误差ϵ_i,那么预测结果和真实结果满足下式:

    一般来讲,误差ϵ_i满足平均值为0的高斯分布,也就是正态分布.

    这是一个假设,这个假设符合客观规律。如果误差不符合高斯分布,那有可能数据θ选的不好,要不就是数据本身的分布是均匀的,回归做不了了。
    有了预测结果和真实结果的关系,从上面的公式能得到xi和yi的条件概率
                                  (2)

    上式可以看出,选择的θ较好,就能让预测结果和真实结果的误差较小的情况出现的条件概率较大。
    这样就估计了一条样本的结果概率,然而我们期待的是模型能够在全部样本上预测最准。那么,就需要利用极大似然估计了,先写出似然函数
                                           (3)

    再写出对数似然函数

                                                             (4)

    其中有些变量如σ,跟自变量θ无关,然后还有第一项也与自变量θ无关,可以去掉这些项。
    极大似然估计是要求L(θ)的最大值,根据上面的讨论,可以最终转化为下面的优化问题来解。

                                          (5)

    其中

    就是线性回归的损失函数。
    第二步,指数家族与高斯分布。
    上面已经说过,,设方差为1(方差并不影响结果,仅仅是变量y的比例因子)。这种情况下高斯概率密度函数为:

           (6)

    对于上面的情况,只要对指数分布

    就能得到上面的式子(6)。

     

    1.1.4 从指数家族到logistic回归

    第一步,伯努利分布与logistic回归。
    在logistic回归中,因变量y不再是连续的变量,而是二值的{0,1},中间用到logit变换,将连续性的y值通过此变换映射到比较合理的0~1区间。在广义线性回归用于分类问题中,也有一个假设(对应于上面回归问题中误差项独立同分布于正态分布)。

    统一表示成

    其中h(x)是logistic function,即给定x和参数θ,y服从伯努利分布(上面回归问题中,给定x和参数,y服从正态分布)。从而似然函数和对数似然函数可以写成

                                          (7)

                             (8)

    就是logistic回归的损失函数。求解θ,使得l(θ)最大,就能得到问题的解。
    第二步,指数家族与伯努利分布。

                                    (9)

    对于上面的情况,只要对指数分布

    取b(y)=1,,T(y)=y,就能得到上面的式子(9)。

    1.2有关logistic回归

    1.2.1拟合模型

    拟合的定义是:由测量的数据,估计一个假定的模型(也称为函数)f。对于每一个数据x,可以通过计算得到f(x),加入x的因变量是y,那么一般有y=f(x),当然,可以不用绝对相等(这个往往做不到),但是差距一定要小。
    如何拟合,拟合的模型是否合适?可分为以三类:a)合适拟合;b)欠拟合;c)过拟合。分别由下图表示。

       a)欠拟合                                                                                                       b)合适的拟合                                                                       c)过拟合

    对于上面的几种情况,假设函数定义为,蓝线右上方的数据为正类(也就是定义一个函数g(x),函数的曲线就是那个蓝线,然后f(x)=sgn(g(x)),其中sgn是符号函数),具体参看文献【4】。

    欠拟合的问题是训练数据中有很多规律没有学习到,会导致在模型训练完后(函数f(x)的形式学习完),使用f(x)进行判别新的样本时出现大量的错误,这个对使用该算法是很不好的。
    过拟合的问题是把训练数据学习的规律学习得太好,在模型训练完成后,使用f(x)进行判别新的样本时,对出现两种情况:a)新样本与训练样本分布完全一致,那判别的效果很好;b)新样本与训练样本分布不完全一致,判别的结果就是会出现大量的错误。也就是说过拟合的话,对新样本没有比较好的容错能力,要求新来的样本必须跟原来的一致,这样在实际应用中也是不合适的。另外,学习一个过拟合的模型(函数f(x)的形式)花费的时间很多,而且函数f(x)的形式也很复杂,实际操作起来非常困难,也就是模型复杂度很高。
    把新的样本判别好的能力叫泛化能力。训练一个模型时泛化能力和模型复杂度都是需要考虑的问题。一个模型要应用起来,都希望是尽可能简单的模型。
    过拟合的问题有几个原因:模型太复杂,参数过多,特征数目过多。
    解决方法有几种。
    方法: 1) 减少特征的数量,有人工选择,或者采用模型选择算法
    http://www.cnblogs.com/heaad/archive/2011/01/02/1924088.html (特征选择算法的综述),目前能在工业界应用较广的是人工选择特征,评估特征与选择特征几乎是数据挖掘工程师日常的主要工作了。现在工业界比较火的deeplearning,就是号称能让算法自动选择特征,所以比较火,但对于很多应用来说,还是比较难做到自动选择的;但是对于语音和图像这些比较规则的数据,自动选择特征还是可以做的,据说效果很好。
    2) 正则化,即保留所有特征,但降低参数的值的影响。正则化的优点是,特征很多时,每个特征都会有一个合适的影响因子。工业界用L1正则,能自动选择一些有用的特征,下面会再讨论。


    1.2.2经验风险与结构风险

    期望风险(真实风险),可理解为 模型函数固定时,数据平均的损失程度,或“平均”犯错误的程度。 期望风险是依赖损失函数和概率分布的。
    只有样本,是无法计算期望风险的。
    所以,采用经验风险,对期望风险进行估计,并设计学习算法,使其最小化。即经验风险最小化(Empirical Risk Minimization)ERM,而经验风险是用损失函数来评估的、计算的。
    对于分类问题,经验风险,就训练样本错误率。
    对于函数逼近,拟合问题,经验风险,就平方训练误差。
    对于概率密度估计问题,ERM,就是最大似然估计法。
    而经验风险最小,并不一定就是期望风险最小,无理论依据。只有样本无限大时,经验风险就逼近了期望风险。
    如何解决这个问题? 统计学习理论SLT,支持向量机SVM就是专门解决这个问题的。
    有限样本条件下,学习出一个较好的模型。
    由于有限样本下,经验风险Remp[f]无法近似期望风险R[f] 。因此,统计学习理论给出了二者之间的关系。
    记h为函数集F的VC维(VC维水很深,在这就不深入讨论了,基本结论是VC维越大,分类函数集F越大),l是样本数,若

    则对于任意的概率分布P(x,y),任意的δ∈(0,1]和任意的F中的函数f都有至少以1-δ的概率成立的不等式

    其中是经验风险,第二项称为置信区间,这两项之和称为结构风险。
    结构风险是期望风险R[f]的一个上界。
    看下图,结构风险与经验风险、置信区间的关系

    图中的横坐标t可以认为是决策函数集合F的大小,纵坐标是风险。当集合F增大时,候选函数增多,经验风险会减少;然而另一方面,当集合F增大时,它的VC维h会增大,注意上图中,置信区间会随着h的增大而增大。要使结构风险最小,就要兼顾决策函数集F对经验风险和置信区间两个方面的影响,选择一个适当大小的集合F。

     

    二.逻辑回归问题与解法

    2.1问题

    上面讨论过的logistic回归问题的损失函数,但是这个损失函数是没有正则项的,为了能建立模型的时候控制一下过拟合问题,需要对损失函数加上正则项,目的是为了让每个特征的权重不要过大。
    为了整合上面的logistic回归以及过拟合的需求,同时为了方便表示,下面用x代替θ,以后再遇到样本,就用v表示。
    下面介绍一个带正则的logistic回归问题。对于类似于Logistic Regression这样的Log-Linear模型,一般可以归结为最小化下面这个问题。
    J(x)=l(x)+r(x)

    等号的右边的第一项是上面的对数似然函数,其具体形式为

                             (2.1)

    其中的g(t)的形式是

    后者r(x)为regularization项,用来对模型空间进行限制,从而得到一个更“简单”的模型,从而降低模型的置信区间。
    根据对模型参数所服从的概率分布的假设的不同,regularization term一般有:L1-norm(模型参数服从Gaussian分布);L2-norm(模型参数服从Laplace分布);以及其他分布或组合形式。

    L2-norm的形式类似于:

                                (2.2)

    L1-norm的形式类似于:

                           (2.3)

    L1-norm和L2-norm之间的一个最大区别在于前者可以产生稀疏解,这使它同时具有了特征选择的能力,此外,稀疏的特征权重更具有解释意义。

    对于损失函数的选取就不在赘述,看三幅图:

    image

    图1 - 红色为Laplace Prior,黑色为Gaussian Prior 

     

    image

    图2 直观解释稀疏性的产生

     

    图3 求导角度解释稀疏性的产生

     

    2.2解法相关

    解这个问题有两种情况。
    一种是直接根据所有的样本求解到一个最优解有多种算法。
    其中一个解法是,顺序一条一条地扫描训练样本,每来一个样本,model的参数进行一次迭代,经过若干轮的扫描,得到最优解,这样的一个求解方式叫SGD(Stochastic gradient descent)。另一种是把大量数据分成多批,数据一批一批地过来,每过来一批数据,model进行一次迭代,这样进行多轮,这种方式叫做mini批量梯度下降(mini Batch gradient descent)。还有一种是所有的数据作为一批过来,每一轮迭代就扫描所有的样本,这种方式叫做批量梯度下降(Batch gradient descent)。
    批量迭代算法的基础可以参考博文《无约束优化方法读书笔记—入门篇》。
    其中一种工业界常用解法LBFGS参看转载的博文《OWL-QN算法》。
    第二种是要保证model(也就是最优解)的快速更新,训练样本是一条一条地过来的,每来一个样本,model的参数对这个样本进行一次迭代,从而保证了model的及时更新,这种方法叫做OGD(Online gradient descent),也叫在线学习算法。
    其中一种工业界使用的在线学习算法FTRL参考博文《在线学习算法FTRL》。
     

    致谢

    多位CSDN和博客园的博主,他们在我写这个笔记的过程中提供了多方面的资料。

    课本《支持向量机:理论、算法与拓展》的作者 邓乃扬、田英杰

     

    参考文献

    [1] http://blog.csdn.net/maverick1990/article/details/12564973 @maverick1990的csdn博客

    [2] http://www.cnblogs.com/frog-ww/archive/2013/01/06/2846955.html@frog_ww的博客园博客

    [3] http://blog.csdn.net/lilyth_lilyth/article/details/10032993 @玉心sober的csdn博客

    [4] http://blog.csdn.net/viewcode/article/details/8794401  @viewcode D的csdn博客

    [5] http://www.cnblogs.com/jeromeblog/p/3405458.html Jerome's BlogDeep 博客园

    [6] http://blog.csdn.net/wangjinyu501/article/details/7689767 OWL-QN算法--gongxue

    [7] 支持向量机:理论、算法与拓展. 邓乃扬、田英杰

    文章来源:http://blog.csdn.net/mytestmy/article/details/18983889

    展开全文
  • 保序回归的数学定义 保序回归,名字很形象,就是建立一种保证数据递增关系的回归函数。 如下图所示,当X从0增加到100时,Y变化是波动,但总体是往上增加,此时做一个直线拟合,就是一个保序回归。 也可以...

    保序回归的数学定义

    保序回归,名字很形象,就是建立一种保证数据递增关系的回归函数。

    如下图所示,当X从0增加到100时,Y的变化是波动的,但总体是往上增加的,此时做一个直线拟合,就是一个保序回归。

    也可以采用isotonic回归,做成分段直线。

    参考:

    https://zhuanlan.zhihu.com/p/88623159

    https://stat.fandom.com/wiki/Isotonic_regression

    保序回归在二分类模型中的作用

    我们做二分类模型时,模型通常会用model.predict_proba()这样的函数来得到预测概率。

    但是此时模型输出的概率并不直接等同于发生风险。

    此时通过保序回归变换,可以理解为事件实际发生的概率。

    如下图,X轴是模型预测的概率,Y轴是保序回归变换后的概率。原始数据0.4的点,经过isotonic保序回归后,变成了0.66左右。

    那这个0.66就可以认为实际发生的概率为66%。

    这样改变的好处是对真正使用模型的人更直观地理解数据的意义。

    此时的保序回归并不会改变准确率或者ROC,而只是改变了数据的单位或者意义。

     

     

    为了检验这种变换的效果,可以用brier_score来计算经过回归变换后的值与事件真实发生的频率是否更一致。

    如图所示,原始数据的得分是0.034,两个保序回归后的结果都变得更好,尤其是isotonic回归,效果比较出众。

    但是这只是在训练集上做的变换,换到测试集上,效果就不一定了。

    下图是测试集上的结果。变换后的结果反而还略微变差了。

     

    结论:针对分类模型的预测概率结果进行保序回归并不会改变准确率,但是会使得概率与事件真实发生的频率更接近。

     

     

    保序回归的其他应用

    参考https://stat.fandom.com/wiki/Isotonic_regression

    给出了保序回归的几个其他方面的应用:

    1。 可以针对X(连续变量)->Y(0/1变量)之间作用关系给出一个描述。如下图通过保序回归,可以得到一个X->Y的关系曲线。

    2. 剔除离群点。

    如上图所示,当X增加到1.0后,Y基本就没有变化了,都基于到1上。那这样的点可以认为是一种离群点。所以通过上图,可以筛选出离群点。

    3. 无监督中的距离函数。

    对于无监督学习模型,需要保持相似度与距离函数的单调关系:越相似,距离应该越接近。所以通过保序回归,可以达到这一效果。

    展开全文
  • 我在Logistic ...当从模型总体随机抽取n组样本观测值后,最合理参数估计量应该使得模型能最好地拟合样本数据,也就是估计值和观测值之差平方和最小。 2.在线性回归损失函数 θ表示要求参数,h(x...
  • 高校社会科学研究中的立项问题 分析: Step-1定义解释变量与被...结果分析 上表为逐步回归模型的总体效果参数逐步回归进行了2次每个模型的R及R2都很大总体回归效果是相当好的 变量的多重共线性问题 逐步回归系数表 第一
  • 最大熵模型原理

    2019-04-22 20:16:00
    1. 最大熵模型的定义  将最大熵原理应用到分类得到最大熵模型。  用最大熵模型选择一个最好的分类模型。训练集,其中x为n维特征向量,y为类别输出。  训练集总体联合分布 P(X, Y)的经验分布,和边缘分布P(X)的...
  • A1 正交假定:误差项矩阵与X中每一个x向量都不相关 高斯-马尔科夫定理:若满足A1和A2假定,则采用最小二乘法得到回归参数估计是最佳线性无偏估计 ...误差项:针对总体真实回归模型而言,它由一些不可观测因素或测量...
  • 其中每个模型的形式一旦定义,则其最终就由模型中的参数决定了。 根据参数估计的性质不同,可以将参数估计的方法分为点估计和区间估计。 点估计是通过样本统计量来推断未知总体的参数,如调查一个地区...
  • 1.通过市场敏感性因子alpha,自相关参数gama,关系参数omiga提供了两个标的之间关联以这三者为参数来构造了一个回归模型 总体来说分为如下几个部分 首先定义了这个回归任务形式,标准回归任务是一个这样...
  • §2.2 多元正态分布的定义与基本性质 §2.3 条件分布和独立性 §2.4 随机阵的正态分布 §2.5 多元正态分布的参数估计 习题二 第三章 多元正态总体参数的假设检验 §3.1 几个重要统计量的分布 §3.2 单总体均值向量的...
  • 说明回归模型的假设以及当这些假设不成立时的应对方法 多元回归模型的基本假定有: 若模型中存在多重共线性时,解决的方法有: (1)将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关。 (2)如果要...
  •  针对英文语义自动化识别的需求,文中对英文的语义角色标注方法进行了研究,通过引入集成学习算法,...模型的总体准确率可达到93.24 %,召回率90.83 %,F值92.02 %,能够实现较为准确的英文语义角色识别与标注。
  • 回归分析是相关分析扩展,通过分析指标之间是否存在关系从而建立回归模型,若相关分析出指标之间没有关系则就没有必要做下一步回归分析。 相关系数: 两个变量线性相关程度可以用简单线性相关系数来度量,...
  • 异方差产生与解决

    2017-03-12 11:28:00
    同方差:总体回归函数中随机误差项满足同方差性,即它们都有相同方差。如果这一假定不满足,即:随机误差项具有不同方差,则称线性回归模型存在异方差性。 产生原因在于: a.模型中缺少某些解释变量,从而...
  • 卷积网络反向传播总结

    千次阅读 2018-08-14 21:02:49
    新手上路,小心晕车 总体目标:利用梯度下降方式,使损失函数尽快达到最小值。 第一步:定义损失函数 ... 该函数计算输出结果与预期结果欧式距离和,主要用于线性回归模型 2. 交叉熵代价函数 ...
  • 8.1 软件维护的定义189 8.2 软件维护的特点190 8.2.1 结构化维护与非结构化维护差别巨大190 8.2.2 维护的代价高昂190 8.2.3 维护的问题很多191 8.3 软件维护过程192 8.4 软件的可维护性194 8.4.1 决定软件可维护性的...
  • GBDT(GBM)调参方法

    千次阅读 2018-06-08 16:12:08
    其他模型参数:调节模型总体的各项运作  GBDT类库弱学习器参数,即定义一个决定树所需要参数: 由于GBDT使用了CART回归决策树,因此它参数基本来源于决策树类,也就是说,和DecisionTreeClassifier和...
  • 风控特征学习笔记

    2019-09-04 11:03:24
    总体业务建模流程: 1、将业务抽象为分类or回归问题 2、定义标签,得到y 3、选取合适样本,并匹配出全部信息作为特征来源 4、特征工程 + 模型训练 + 模型评价与调优(相互之间可能会有交互) 5、输出...
  • 什么是” 最小二乘法” 呢定义:最小...原则:以” 残差平方和最小” 确定直线位置 (在数理统计中,残差是指实际观察值与估计值之间差)数学公式:基本思路:对于一元线性回归模型, 假设从总体中获取了 n 组观察值...
  • 最小二乘法实现

    2020-11-27 15:42:55
    什么是”最小二乘法”呢? 定义:最小二乘法(又称最小平方法)是一种数学优化技术,它通过最小化误差平方和... 基本思路:对于一元线性回归模型, 假设从总体中获取了n组观察值(X1,Y1),(X2,Y2), …,...
  • 软件工程教程

    热门讨论 2012-07-06 23:10:29
    只有在修饰增强了图的整体清晰性和可读性或者突出模型的某些重要特征时,才应该表示那些修饰 公共分类 描述认识世界的特殊方法 类和实例 类元:一类事物的抽象概念;如“银行帐户” 实例:一类事物的特定实例;如...
  • •有关回归的一章,解释了在实际问题中如何设置,使用和理解线性回归和最近邻回归。 •一章涉及主成分分析,仔细发展直觉,并包括许多实际示例。通过主坐标分析对多元缩放进行了简要描述。 •一章通过聚集方法和k...
  • 研究者检测了GMN 模型中不同组件的效果,并将 GMN 模型与图卷积网络(GCN)、图神经网络(GNN)和 GNN/GCN 嵌入模型的 Siamese 版本进行对比。 下表 2 展示了实验结果,表明: GNN 嵌入模型是具备竞争力的模型(比...
  • 2019数据运营思维导图

    2019-03-29 21:34:09
    近7日等级变化 堆叠图显示每日各个等级人数变化情况 分析新用户成长 (首日等级, 首周等级, 14日等级) 关卡/任务系统 新手引导转化率 任务参与人数及完成情况 支付转化率 漏斗模型的合理使用 用户传播 分享、互动、...
  • 数据运营思维导图

    2018-04-26 14:24:22
    漏斗模型的合理使用 用户传播 分享、互动、邀请等 付费分析 整体数据 付费总额 时间段内付费用户消费总额 收入下降,原因? 付费率下降? 付费用户流失比活跃用户流失严重 流失的是大R用户还是中小R用户?...
  • MS医院BI解决方案Doc.pdf

    热门讨论 2012-11-01 09:30:40
    再如,某院进行出院手续办理时间调查,通过收集患者调查问卷及药房、划价处、医生/护士工作站等系统时间数据进行回归分析,通过图表呈现迅速找到耽误出院办理时间几个关键节点,从而准确做出调整,辅助实行医院...

空空如也

空空如也

1 2
收藏数 32
精华内容 12
热门标签
关键字:

总体回归模型的定义