精华内容
下载资源
问答
  • 相关分析定义 相关分析(correlation analysis),相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。 相关...

    相关分析

    相关分析定义

    相关分析(correlation analysis),相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。

    相关关系是一种非确定性的关系,例如,以X和Y分别记一个人的身高和体重,或分别记每公顷施肥量与每公顷小麦产量,则X与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系。

    [编辑本段]

    相关分析的分类

    1、线性相关分析:研究两个变量间线性关系的程度。用相关系数r来描述。

    -正相关:如果x,y变化的方向一致,如身高与体重的关系,r>0;一般地,

    ·|r|>0.95 存在显著性相关;

    ·|r|≥0.8 高度相关;

    ·0.5≤|r|<0.8 中度相关;

    ·0.3≤|r|<0.5 低度相关;

    ·|r|<0.3 关系极弱,认为不相关

    负相关:如果x,y变化的方向相反,如吸烟与肺功能的关系,r<0;

    无线性相关:r=0。

    如果变量Y与X间是函数关系,则r=1或r=-1;如果变量Y与X间是统计关系,则-1

    r的计算有三种:

    ·Pearson相关系数:对定距连续变量的数据进行计算。

    ·Spearman和Kendall相关系数:对分类变量的数据或变量值的分布明显非正态或分布不明时,计算时先对离散数据进行排序或对定距变量值排(求)秩。

    2、偏相关分析:研究两个变量之间的线性相关关系时,控制可能对其产生影响的变量。如控制年龄和工作经验的影响,估计工资收入与受教育水平之间的相关关系。

    3、距离分析:是对观测量之间或变量之间相似或不相似程度的一种测度,是一种广义的距离。分为观测量之间距离分析和变量之间距离分析。

    - 不相似性测度:

    ·a、对等间隔(定距)数据的不相似性(距离)测度可以使用的统计量有Euclid欧氏距离、欧氏距离平方等。

    ·b、对计数数据使用卡方。

    ·c、对二值(只有两种取值)数据,使用欧氏距离、欧氏距离平方、尺寸差异、模式差异、方差等。

    - 相似性测度:

    ·a、等间隔数据使用统计量Pearson相关或余弦。

    ·b、测度二元数据的相似性使用的统计量有20余种。

    [编辑本段]

    相关分析与回归分析的关系

    相关分析与回归分析在实际应用中有密切关系。然而在回归分析中,所关心的是一个随机变量Y对另一个(或一组)随机变量X的依赖关系的函数形式。而在相关分析中 ,所讨论的变量的地位一样,分析侧重于随机变量之间的种种相关特征。例如,以X、Y分别记小学生的数学与语文成绩,感兴趣的是二者的关系如何,而不在于由X去预测Y。

    [编辑本段]

    复相关

    研究一个变量 x0与另一组变量 (x1,x2,…,xn)之间的相关程度。例如,职业声望同时受到一系列因素(收入、文化、权力……)的影响,那么这一系列因素的总和与职业声望之间的关系,就是复相关。复相关系数R0.12…n的测定,可先求出 x0对一组变量x1,x2,…,xn的回归直线,再计算x0与用回归直线估计值悯之间的简单直线回归。复相关系数为

    R0.12…n的取值范围为0≤R0.12…n≤1。复相关系数值愈大,变量间的关系愈密切。

    偏相关 研究在多变量的情况下,当控制其他变量影响后,两个变量间的直线相关程度。又称净相关或部分相关。例如,偏相关系数 r13.2表示控制变量x2的影响之后,变量 x1和变量x3之间的直线相关。偏相关系数较简单直线相关系数更能真实反映两变量间的联系。

    回归分析

    目录[隐藏]

    回归分析

    回归分析的应用

    [编辑本段]

    回归分析

    回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。

    方差齐性

    线性关系

    效应累加

    变量无测量误差

    变量服从多元正态分布

    观察独立

    模型完整(没有包含不该进入的变量、也没有漏掉应该进入的变量)

    误差项独立且服从(0,1)正态分布。

    现实数据常常不能完全符合上述假定。因此,统计学家研究出许多的回归模型来解决线性回归模型假定过程的约束。

    研究一 个或多个随机变量Y1 ,Y2 ,…,Yi与另一些变量X1、X2,…,Xk之间的关系的统计方法。又称多重回归分析。通常称Y1,Y2,…,Yi为因变量,X1、X2,…,Xk为自变量。回归分析是一类数学模型,特别当因变量和自变量为线性关系时,它是一种特殊的线性模型。最简单的情形是一个自变量和一个因变量,且它们大体上有线性关系,这叫一元线性回归,即模型为Y=a+bX+ε,这里X是自变量,Y是因变量,ε是随机误差,通常假定随机误差的均值为0,方差为σ^2(σ^2大于0)σ2与X的值无关。若进一步假定随机误差遵从正态分布,就叫做正态线性模型。一般的情形,差有k个自变量和一个因变量,因变量的值可以分解为两部分:一部分是由自变量的影响,即表示为自变量的函数,其中函数形式已知,但含一些未知参数;另一部分是由于其他未被考虑的因素和随机性的影响,即随机误差。当函数形式为未知参数的线性函数时,称线性回归分析模型;当函数形式为未知参数的非线性函数时,称为非线性回归分析模型。当自变量的个数大于1时称为多元回归,当因变量个数大于1时称为多重回归。

    回归分析的主要内容为:①从一组数据出发确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法。②对这些关系式的可信程度进行检验。③在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。④利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。

    [编辑本段]

    回归分析的应用

    相关分析研究的是现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量。而回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系。比如说,从相关分析中我们可以得知“质量”和“用户满意度”变量密切相关,但是这两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来确定。

    一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测。

    例如,如果要研究质量和用户满意度之间的因果关系,从实践意义上讲,产品质量会影响用户的满意情况,因此设用户满意度为因变量,记为Y;质量为自变量,记为X。根据图8-3的散点图,可以建立下面的线性关系:

    Y=A+BX+§

    式中:A和B为待定参数,A为回归直线的截距;B为回归直线的斜率,表示X变化一个单位时,Y的平均变化情况;§为依赖于用户满意度的随机误差项。

    在SPSS软件里可以很容易地实现线性回归,回归方程如下:

    y=0.857+0.836x

    回归直线在y轴上的截距为0.857、斜率0.836,即质量每提高一分,用户满意度平均上升0.836分;或者说质量每提高1分对用户满意度的贡献是0.836分。

    740)this.width=740">

    上面所示的例子是简单的一个自变量的线性回归问题,在数据分析的时候,也可以将此推广到多个自变量的多元回归,具体的回归过程和意义请参考相关的统计学书籍。此外,在SPSS的结果输出里,还可以汇报R2,F检验值和T检验值。R2又称为方程的确定性系数(coefficient of determination),表示方程中变量X对Y的解释程度。R2取值在0到1之间,越接近1,表明方程中X对Y的解释能力越强。通常将R2乘以100%来表示回归方程解释Y变化的百分比。F检验是通过方差分析表输出的,通过显著性水平(significant level)检验回归方程的线性关系是否显著。一般来说,显著性水平在0.05以下,均有意义。当F检验通过时,意味着方程中至少有一个回归系数是显著的,但是并不一定所有的回归系数都是显著的,这样就需要通过T检验来验证回归系数的显著性。同样地,T检验可以通过显著性水平或查表来确定。在上面所示的例子中,各参数的意义如表8-2所示。

    8线性回归方程检验

    指标

    显著性水平

    意义

     

    R

    0.89

     

    “质量”解释了89%的“用户满意度”的变化程度

    F

    276.82

    0.001

    回归方程的线性关系显著

    T

    16.64

    0.001

    回归方程的系数显著

    示例  SIM手机用户满意度与相关变量线性回归分析

    我们以SIM手机的用户满意度与相关变量的线性回归分析为例,来进一步说明线性回归的应用。从实践意义讲上,手机的用户满意度应该与产品的质量、价格和形象有关,因此我们以“用户满意度”为因变量,“质量”、“形象”和“价格”为自变量,作线性回归分析。利用SPSS软件的回归分析,得到回归方程如下:

    用户满意度=0.008×形象+0.645×质量+0.221×价格

    对于SIM手机来说,质量对其用户满意度的贡献比较大,质量每提高1分,用户满意度将提高0.645分;其次是价格,用户对价格的评价每提高1分,其满意度将提高0.221分;而形象对产品用户满意度的贡献相对较小,形象每提高1分,用户满意度仅提高0.008分。

    方程各检验指标及含义如下:

    指标

    显著性水平

    意义

     

    R2

    0.89

     

    “质量”和“形象”解释了89%的“用户满意度”的变化程度

    F

    248.53

    0.001

    回归方程的线性关系显著

    T(形象)

    0.00

    1.000

    “形象”变量对回归方程几乎没有贡献

    T(质量)

    13.93

    0.001

    “质量”对回归方程有很大贡献

    T(价格)

    5.00

    0.001

    “价格”对回归方程有很大贡献

    从方程的检验指标来看,“形象”对整个回归方程的贡献不大,应予以删除。所以重新做“用户满意度”与“质量”、“价格”的回归方程如下:

    用户满意度=0.645×质量+0.221×价格

    对于SIM手机来说,质量对其用户满意度的贡献比较大,质量每提高1分,用户满意度将提高0.645分;用户对价格的评价每提高1分,其满意度将提高0.221分(在本示例中,因为“形象”对方程几乎没有贡献,所以得到的方程与前面的回归方程系数差不多)。

    方程各检验指标及含义如下:

    指标

    显著性水平

    意义

     

    R

    0.89

     

    “质量”和“形象”解释了89%的“用户满意度”的变化程度

    F

    374.69

    0.001

    回归方程的线性关系显著

    T(质量)

    15.15

    0.001

    “质量”对回归方程有很大贡献

    T(价格)

    5.06

    0.001

    “价格”对回归方程有很大贡献

    扩展阅读:

    1.简明农业词典 科学出版社 1978年8月 188页

    2.农业试验设计与统计方法一百例 陕西科学技术出版社 1987年9月 473页,569页

    3.http://www.dina.com.cn/ShowInfoContent4.asp?ID=106

    回归分析与相关分析的区别与联系
    区别:
    1、相关分析研究的两个变量是对等关系,回归分析研究的两个变量不是对等关系
    2、相关分析的两个变量都是随机变量,回归分析自变量是可以设定和控制的普通变量,因变量是随机变量
    3、回归方程在进行预测估计时,只能由自变量的数值来估计因变量的可能值,不能由因变量来推测自变量
    联系:
    1、相关分析是回归分析的基础
    2、回归分析是相关分析的继续

    展开全文
  • 第一章 回归模型分析

    千次阅读 2020-03-03 16:43:10
    第一章 回归模型分析

    第一章 回归模型分析

    1.1 回归模型的主要内容及其一般模型

    在这里插入图片描述

    1.2 建立实际问题回归模型的过程

    在这里插入图片描述

    1.3 课程主要内容

    在这里插入图片描述

    1.4 机器学习主要流程

    (一)定义问题

    • ➢判断是否有人脸(目标检测,分类问题)
    • ➢判断性别(分类,输出变量离散)
    • ➢判断年龄(回归,输出变量连续)

    (二)收集数据

    • ➢大量的照片数据
    • ➢标注信息
      • ➢是否是人脸
      • ➢性别
      • ➢年龄

    (三)特征设计

    • 特征: 给定数据集的特性

      • ➢统计理解: 指标、概括性的统计量等
      • ➢数学理解: 变量及其数学变换等
    • 例如

      • ➢目标检测: 图像中的各种轮廓和边缘信息
      • ➢判断性别和年龄: 脸型、发型、眼镜大小、鼻子形状
      • ➢文字处理: 单词、符号、词频、长度

    (四)训练模型

    • ➢对象: 在训练集上进行
    • ➢任务: 通常是调整拟合模型的参数
    • ➢目标: 拟合的总体偏差最小
    • ➢通常需定义各种损失函数
    • ➢技术:
      • ➢传统: 基于数理统计,各种统计量
      • ➢现代: 基于数值计算优化技术

    (五)测试模型

    • ➢对象: 在测试集上进行
    • ➢实现: 交叉验证、自助法等
    展开全文
  • 回归模型

    2019-06-27 20:50:06
    一元回归模型的检验 一元非线性回归分析 多元线性回归分析 Logistic回归分析 相关关系 回归模型 变量间的关系分为函数关系和相关关系 函数关系:一一对应,设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,...

    目录

     

    相关关系 基本概念

    一元线性回归分析

    一元回归模型的检验

    一元非线性回归分析

    多元线性回归分析

    Logistic回归分析


    相关关系 回归模型

    变量间的关系分为函数关系和相关关系

    函数关系:一一对应,设有两个变量 x y ,变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称  y x 的函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量。

    相关关系

    1、定义:变量间有一定关系,各观测点分布在直线周围;变量间关系不能用函数关系精确表达;一个变量 y 的取值不能由另一个变量 x 唯一确定。

          例如:商品的消费量y与居民收入x。

    2、分类:完全正线性相关、完全负线性相关、非线性相关、正线性相关、负线性相关、不相关。

    什么是回归分析?

    1.从一组样本数据出发,确定变量之间的数学关系式

    2.对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著

    3.利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度

    回归模型的类型

    一元线性回归分析

    一、一元线性回归模型

    概念:

    基本假定:

    1.误差项e是一个期望值为0的随机变量,

                即E(e)=0     E ( y ) =b 0+ b 1 x

    1.对于所有的 x 值,e的方差σ2 都相同

    2.误差项e相互独立。

          ——独立性意味着对于一个特定的 x 值,它所对应的e与其他 x 值所对应的e不相关。

    二、参数的最小二乘估计

           定义:使因变量的观察值与估计值之间的离差平方和达到最小来求得两个回归系数的方法。

           回归系数的标准解:

         

    一元回归模型的检验

          从线性回归模型可见,当|β1|≠0时,则认为Y与X之间有线性相关关系。于是,问题归结为对统计假设检验 H0:β1=0,H1:β1≠0。

           如果拒绝H0,则认为Y与X之间有线性关系,所求的回归直线有意义。

           如果接受H0,则认为Y与X之间不存在线性相关关系,所求样本的回归直线没有意义。

           三种检验方法:F检验法、t检验法、相关系数检验法

           相关系数检验法:

            相关关系的测度:对变量之间关系密切程度的度量。对两个变量之间线性相关程度的度量称为简单相关系数;相关系数是根据全体数据计算的,称为总体相关系数,记为;若是根据样本数据计算,则称为样本相关系数,记为r。

           样本相关系数的计算公式:

          

    1.   r 的取值范围是 [-1,1]

    2.  |r|=1,为完全相关

            •  r =1,为完全正相关

            •  r =-1,为完全负正相关

    3.   r = 0,不存在线性相关关系

    4.  -1 £ r < 0,为负相关

    5.  0 < r £ 1,为正相关

    6.  |r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切

    一元非线性回归分析

    一、指数函数

    二、幂函数

    三、双曲函数

    四、对数函数

    五、S形曲线

    曲线回归分析的基础步骤:

    1.根据变数X Y 之间的确切关系,选择适当的曲线类型。

    2.对选定的曲线类型,在线性化后按最小二乘法原理配置直线回归方程,并作显著性测验。

    3.将直线回归方程转换成相应的曲线回归方程,并对有关统计参数作出推断。 

    非线性回归实例

           分别用SPSS和Excel对数据进行回归分析

           Excel进行线性回归分析

    红色字体为注释

     

    多元线性回归分析

    定义

    例题:

    我国民航客运量的有关数据:

    yx1x2x3x4x5
    231.003010.001888.0081491.0014.89180.92
    298.003350.002195.0086389.0016.00420.39
    343.003688.002531.0092204.0019.53570.25
    401.003941.002799.0095300.0021.82776.71
    445.004258.003054.0099922.0023.27792.43
    391.004736.003358.00106044.0022.91947.70
    554.005652.003905.0011353.0026.021285.22
    744.007020.004879.00112110.0027.721783.30
    997.007859.005552.00108579.0032.432281.95
    1310.009313.006386.00112429.0038.912690.23
    1442.0011738.008038.00122645.0037.383169.48
    1283.0013176.009005.00113807.0047.192450.14
    1660.0014384.009663.0095712.0050.682746.20
    2178.0016557.0010969.0095081.0055.913335.65
    2886.0020223.0012985.0099693.0083.663311.50
    3383.0024882.0015949.00105458.0096.08

    4152.70

    利用SPSS软件分析,结果:

    进行回归系数的显著性检验:

                

     

    多元非线性回归

    一、多项式回归方程

            多项式回归(polynomial regression):当两个变数间的曲线关系很难确定时,可以使用多项式去逼近。

            二次多项式:

            三次多项式:

            多项式方程的一般形式为:

             

     

    1、多项式方程次数的初步确定

            多项式回归方程取的次数:散点所表现的曲线趋势的峰数+谷数+1。若散点波动较大或峰谷两侧不对称,可再高一次。

    2、多项式回归统计数的计算

           采用类似于多元线性回归的方法,令,......, 可化为

           

    二、多元非线性回归

           Logistic 回归预测

           定义:研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法,属于概率型非线性回归。

          

           

         例题:

                 在一次住房展销会上,与房地产商签订初步购房意向书的有n=313人,而实际购买人数不足。购买房屋的顾客记为1,否则记为0。购买房屋的顾客记为1,否则记得0。以顾客的年家庭收入为X,对以下数据建立Logistic回归模型。

     年家庭收入X(万元)   签订意向人数    实际购买人数

                      1.5    25    8
                      2.5    32    13
                      3.5    58    26
                      4.5    52    22
                      5.5    43    20
                      6.5    39    22
                      7.5    28    16
                      8.5    21    12
                      9.5    15    10

    展开全文
  • 回归分析

    2019-07-24 21:55:21
    回归模型分类 一、线性回归:因变量与自变量是线性关系 算法描述:对一个或多个自变量和因变量的线性关系进行建模,可用最小二乘法求解模型系数 二、非线性回归:因变量和自变量之间不都是线性关系 算法描述:对一个...

    回归分析

    回归分析是通过建立模型来研究变量之间相互关系的密切程度、结构状态及进行模型预测的有效工具

    回归模型分类

    一、线性回归:因变量与自变量是线性关系

    算法描述:对一个或多个自变量和因变量的线性关系进行建模,可用最小二乘法求解模型系数

    二、非线性回归:因变量和自变量之间不都是线性关系

    算法描述:对一个或多个自变量和因变量之间的非线性关系进行建模。如果非线性关系可以通过简单函数变化转化成线性关系,用线性回归的思想求解;如果不能转化,用非线性最小二乘法求解

    三、Logistic回归:因变量只有 1 1 1 0 0 0 两种取值

    算法描述:是广义线性模型的特例子,利用 Logistic 函数将因变量的取值范围控制在 0 0 0 1 1 1 之间,表示取值为 1 1 1 的概率

    四、岭回归:参与建模的自变量之间具有多重共线性

    算法描述:是一种改进最小二乘估计的方法

    五、主成分回归:参与建模的自变量之间有多重共线性

    算法描述:主成分回归是根据主成分分析的思想提出来的,是对最小二乘法的一种改进,它是参数估计的一种有偏估计(无偏估计: 估计量的数学期望等于被估计参数的真实值,则称此此估计量为被估计参数的无偏估计,即 E ( θ ˆ ) E(θˆ) E(θˆ) θ θ θ。样本均值的期望等于总体均值,所以样本均值为无偏估计;有偏估计: 若 θ ˆ θˆ θˆ的数学期望不为 θ θ θ,即 E ( θ ˆ ) E(θˆ) E(θˆ) θ θ θ ,则称为 θ θ θ的有偏估计。
    样本方差的期望是有偏估计)。可以消除自变量之间的多重共线性

    线性回归模型是相对简单的回归模型,但是通常因变量和自变量之间呈现某种曲线关系,就需要建立非线性回归模型。
    Logistic 回归属于概率型非线性回归,分为二分类和多分类的回归模型。对于二分类的 Logistic 回归,因变量 y y y 只有“是、否”两个取值,记为 1 1 1 0 0 0
    当自变量之间出现多重共线性时,用最小二乘估计的回归系数将会不准确,消除多重共线性的参数改进的估计方法主要有岭回归和主成分回归。

    Logistic 回归分析介绍

    (1)Logistic函数

    Logistic 回归模型中的因变量的只有 1 、 0 1、0 10 两种取值。假设在 p 个独立自变量 x 1 x_1 x1, x 2 x_2 x2,… x p x_p xp, 记 y y y 1 1 1的概率是 p = P ( y = 1 ∣ X ) p=P(y=1|X) p=P(y=1X,取 0 0 0的概率是 1 − p 1-p 1p,取 1 1 1 0 0 0 的概率之比为 p 1 − p \frac{p}{1-p} 1pp, 称为事件的优势比(odds),对 odds 取自然对数即得 Logistic 变换 L o g i t ( p ) Logit(p) Logit(p) = = = l n ln ln ( ( ( p 1 − p \frac{p}{1-p} 1pp ) ) )。令 L o g i t ( p ) Logit(p) Logit(p) = = = l n ln ln ( ( ( p 1 − p \frac{p}{1-p} 1pp ) ) ) = = = z z z,则 p p p = = = 1 1 + e − z \frac{1}{1+ e^{-z}} 1+ez1 即为 Logistic函数,如图所示:
    Logistic函数,转自百度百科
    p p p ( 0 , 1 ) (0,1) (0,1) 之间变化时,odds 的取值范围是 ( 0 , + ∞ ) (0,+\infty) (0,+),则 l n ( p 1 − p ) ln(\frac{p}{1-p}) ln(1pp) 的取值范围是 ( − ∞ , + ∞ ) (-\infty,+\infty) (,+)

    (2)Logistic 回归模型

    Logistic 回归模型是建立 l n ( p 1 − p ) ln(\frac{p}{1-p}) ln(1pp) 与自变量的线性回归模型。
    Logistic 回归模型为:

    l n ( p 1 − p ) = β 0 + β 1 x 1 + . . . + β p x p + ξ ln(\frac{p}{1-p}) = \beta_0 + \beta_1x_1 + ... + \beta_px_p + \xi ln(1pp)=β0+β1x1+...+βpxp+ξ

    因为 l n ( p 1 − p ) ln(\frac{p}{1-p}) ln(1pp) 的取值范围是 ( − ∞ , + ∞ ) (-\infty,+\infty) (,+),这样,自变量 x 1 , x 2 , . . . , x p x_1,x_2,...,x_p x1,x2,...,xp 可在任意范围内取值。
    g ( x ) = β 0 + β 1 x 1 + . . . + β p x p g(x) = \beta_0 + \beta_1x_1 + ... + \beta_px_p g(x)=β0+β1x1+...+βpxp,得到:
    p = P ( y = 1 ∣ X ) = 1 1 + e − g ( x ) p = P(y = 1|X) = \frac{1}{1 + e^{-g(x)}} p=P(y=1X)=1+eg(x)1

    1 − p = P ( y = 0 ∣ X ) = 1 − 1 1 + e − g ( x ) = 1 1 + e g ( x ) 1 - p = P(y = 0|X) = 1 - \frac{1}{1 + e^-g(x) } = \frac{1}{1 + e^g(x)} 1p=P(y=0X)=11+eg(x)1=1+eg(x)1

    (3) Logistic 回归模型解释
    p 1 − p = e β 0 + β 1 x 1 + . . . + β p x p + ξ \frac{p}{1-p} = e^{\beta_0 + \beta_1x_1 + ... + \beta_px_p + \xi} 1pp=eβ0+β1x1+...+βpxp+ξ

    β 0 : \beta_0: β0: 在没有自变量,即 x 1 , x 2 , . . . , x p x_1,x_2,...,x_p x1,x2,...,xp 全部取 0 , y = 1 0,y = 1 0,y=1 y = 0 y = 0 y=0发生概率之比的自然对数;
    β i : \beta_i: βi: 某自变量 x i x_i xi变化时,即 x i = 1 x_i = 1 xi=1 x i = 0 x_i = 0 xi=0 相比, y = 1 y = 1 y=1优势比的对数值。

    预测函数

    对于二分类问题, y ∈ { 0 , 1 } y\in \begin{Bmatrix}0, 1\end{Bmatrix} y{0,1} 1 1 1表示正例, 0 0 0表示负例。逻辑回归是在线性函数 z z z 输出预测实际值的基础上,寻找一个假设函数 p = 1 1 + e − z p = \frac{1}{1+ e^{-z}} p=1+ez1 ,将实际值映射到 0 , 1 0, 1 0,1之间,如果 p &gt; = 0.5 p &gt;= 0.5 p>=0.5 ,则预测 y = 1 y = 1 y=1,及 y y y 属于正例;如果 p &lt; 0.5 p &lt; 0.5 p<0.5,则预测 y = 0 y = 0 y=0,及 y y y 属于负例。
    例如,如果对于给定的 x x x,通过已经确定的参数计算得出 p = 0.7 p = 0.7 p=0.7,则表示有 70 % 70\% 70% 的几率 y y y 为正例,相应的 y y y 为负例的几率为 0.3 0.3 0.3

    决策面

    在逻辑回归中,我们预测:

    • p p p 大于等于 0.5 0.5 0.5 时,则预测 y = 1 y = 1 y=1
    • p p p 小于 0.5 0.5 0.5 时,则预测 y = 0 y = 0 y=0

    根据上面绘制出的 S S S 形函数图像,我们知道:

    • z = 0 z = 0 z=0 时, g ( z ) = 0.5 g(z) = 0.5 g(z)=0.5
    • z &gt; 0 z &gt; 0 z>0 时, g ( z ) &gt; 0.5 g(z) &gt; 0.5 g(z)>0.5
    • z &lt; 0 z &lt; 0 z<0 时, g ( z ) &lt; 0.5 g(z) &lt; 0.5 g(z)<0.5

    假设我们有一个模型: 1 1 + e − z = g ( β 0 + β 1 x 1 + β 2 x 2 ) \frac{1}{1 + e^{-z}} = g(\beta_0 + \beta_1x_1 + \beta_2x_2) 1+ez1=g(β0+β1x1+β2x2),并且参数 β \beta β 是向量 [ − 3 , 1 , 1 ] \begin{bmatrix}-3,1, 1\end{bmatrix} [3,1,1]。则当 − 3 + x 1 + x 2 -3 + x_1 + x_2 3+x1+x2 >= 0,即当 x 1 + x 2 &gt; = 3 x_1 + x_2 &gt;= 3 x1+x2>=3 时,模型将预测 y = 1 y = 1 y=1
    绘制直线 x 1 + x 2 = 3 x_1 + x_2 = 3 x1+x2=3,便是我们模型的分界线,将预测为 1 1 1 的区域和预测为 0 0 0 的区域分隔开。
    在这里插入图片描述

    损失函数

    衡量模型预测的好坏。我们希望我们预测的公式与实际值差值越小越好,所以就定义了一种衡量模型好坏的方式,即损失函数(用来表现预测与实际数据的差距程度)。损失函数越小,模型就越好。
    既然是分类任务,那么我们可以对于每个类别分别取计算它们各自的损失呀。对于真实标记是1的样本,我们希望预测值越接近于 1 1 1,损失越小;对于真实标记是 0 0 0 的样本,我们希望预测值越接近于 0 0 0 时损失越小, − l o g -log log 函数正好满足以上情况
    在这里插入图片描述

    Logistic 回归建模步骤

    1)根据分析目的设置指标变量(因变量和自变量),然后搜集数据,根据收集到的数据,对特征再次进行筛选;
    2) y y y 1 1 1 的概率是 p = P ( y = 1 ∣ X ) p = P(y = 1|X) p=P(y=1X), ,取 0 0 0 的概率是 1 − p 1-p 1p,用 l n ( p 1 − p ) ln(\frac{p}{1 - p}) ln(1pp) 和自变量列出线性回归方程,估计出模型中的回归系数;
    3)进行模型试验。模型有效性的检验指标有很多,最基本的有正确率,其次是混淆矩阵、ROC曲线、KS值等。
    4)模型应用:输入自变量的取值,就可以得到预测变量的值,或者根据预测变量的值去控制自变量的值。

    下面对某银行在降低贷款拖欠率的数据进行逻辑回归建模,该数据示例如下表所示:

    年龄教育工龄地址收入负债率信用卡负债其他负债违约
    4131712176.009.3011.365.011
    27110631.0017.301.364.000
    401151455.005.500.862.170
    4111514120.002.902.660.820
    2422028.0017.301.793.061

    详细表格数据bankloan.xls

    利用 Scikit-Learn 对这个数据进行逻辑回归分析。首先特征筛选,特征筛选的方法有很多,主要包含在 Scikit-Learn 的 feature_selection 库中,比较简单的有通过 F 检验(f_regresson)来给出各个特征的 F 值和 p 值,从而可以筛选变量(选择 F 值大的或者 p 值小的特征)。其次有 递 归 特 征 消 除 ① 递归特征消除^① (Recursive Feature Elimination, RFE)和 稳 定 性 选 择 ② 稳定性选择^② (Stability Selection)等比较新的方法。这里使用了稳定性选择方法中的随机逻辑回归进行特征筛选,然后利用筛选后的特征建立逻辑回归模型,输出平均正确率,代码如下:

    import pandas as pd
    from sklearn.linear_model import LogisticRegression as LR  # 逻辑回归
    from sklearn.linear_model import RandomizedLogisticRegression as RLR   # 随机逻辑回归
    import warnings
    warnings.filterwarnings("ignore")
    
    
    # 参数初始化
    filename = '../Data/bankloan.xls'
    data = pd.read_excel(filename)
    x = data.iloc[:, :8].values  # 每行前8列转换成数组形式
    y = data.iloc[:, 8].values  # 每行最后一列转换成数组形式
    
    
    rlr = RLR()  # 建立随机逻辑模型,筛选变量
    rlr.fit(x, y)  # 训练模型
    rlr.get_support(indices=True)  # 获取特征筛选结果,也可以通过.scores_方法获取各个特征的分数
    print(u'通过随机逻辑回归模型筛选特征结束。')
    print(u'有效特征为:%s' % ','.join(data.columns[rlr.get_support(indices=True)]))
    x = data[data.columns[rlr.get_support(indices=True)]].values  # 筛选好特征
    
    
    lr = LR()  # 建立逻辑回归模型
    lr.fit(x, y)  # 用筛选后的特征数据来训练模型
    print(u'逻辑回归模型训练结束')
    print(u'模型的平均正确率为:%s' % lr.score(x, y))  # 给出模型的平均正确率
    
    

    结果:
    在这里插入图片描述
    从上面的结果看出,采用随机逻辑回归剔除变量,分别剔除了 x2、x8、x1、x5,最终构建的模型包含的变量为常量 x3、x4、x6、x7。在建立随机逻辑回归模型时,使用了默认阈值 0.25 ,可以用 RLR(selection_threshold = 0.5) 手动设置阈值。逻辑回归本质上还是一种线性模型,因此这里的模型有效性检验本质还是在做线性相关检验,因此,筛选出来的结果说明具有比较强的线性相关性,然而,被筛选掉的变量并不一定就跟结果没有关系,因为他们之间很可能是非线性关系。对于非线性关系的变量筛选方法有决策树、神经网络等。

    递归特征消除 的主要思想是反复的构建模型(如 SVM 或者回归模型),然后选出最好的(或者最差的)的特征(可以根据系数来选),把选出来的特征放到一边,然后在剩余的特征上重复这个过程,直到遍历所有特征。这个过程中特征被消除的次序就是特征的排序。因此这是一种寻找最有特征子集的贪心算法。

    稳定性选择 是一种基于二次抽样和选择算法相结合较新的方法,选择算法可以是回归、 SVM 或其他类似的方法。它的主要是想是在不同的数据子集和特征子集上运行特征选择算法,不断重复,最终汇总特征选择结果。比如,可以统计某个特征被认为是重要特征的频率(被选为重要特征的次数除以它所在的子集被测试的次数)。在理想情况下,重要特征的得分会接近 100%。稍微弱一点的特征得分是非 0 的数,而最无用特征得分将会接近于 0 。

    展开全文
  • 7.1 单因素方差分析 7.1.1 方差分析概念 7.1.2 单因素方差分析的数据结构 ...7.3.2 一元线性回归模型 1.回归参数的估计 2.回归模型、参数的显著性检验 7.3.3 一元线性回归分析应用 多元线性回归分析
  • 许栩原创专栏《从入门到高手:线性回归分析详解》第9章:总体回归、置信度、置信区间及其计算方法。多元回归方程求解后,我们分别确认了回归方程的精度和进行了回归方程的显著性验证,接下来,我们需要计算置信区间...
  • (2)根据因变量和自变量之间的关系,初步设定回归模型; (3)求解合理的回归系数; (4)进行相关性检验,确定相关系数; (5)利用模型对因变量作出预测或解释,并计算预测值的置信区间。 一元线性回归分析 (一...
  • 用Excel做回归分析

    万次阅读 多人点赞 2019-02-27 22:17:37
    Excel数据分析工具库是个很强大的工具,可以满足基本的统计分析,这里介绍用Excel数据分析工具库中的回归回归分析。本文仅作为学习笔记之用,欢迎各位交流指正。 本节知识点: Excel数据分析工具库—回归 ...
  • 线性回归模型

    2015-06-28 13:38:10
    线性回归模型
  • 回归模型评估_评估回归模型的方法

    千次阅读 2020-08-12 02:05:50
    回归模型评估Evaluation metrics; 评估指标; Mean/Median of prediction 预测的均值/中位数 Standard Deviation of prediction 预测标准差 Range of prediction 预测范围 Coefficient of Determination (R2) 测定...
  • 定义最终模型 方差分析 预测值图 检查模型的假设 模型拟合标准 将模型与似然比检验进行比较 我从马里兰州生物流调查中提取了一些数据,以进行多元回归分析。数据因变量是每75米长的水流中长鼻鱼(Rhinichthys ...
  • 一元线性回归及Excel回归分析

    千次阅读 2019-06-08 19:26:54
    一元线性回归可以说是数据分析中非常简单的一个知识点,有一点点统计、分析、建模经验的人都知道这个分析的含义,也会用各种工具来做这个分析。这里面想把这个分析背后的细节讲讲清楚,也就是后面的数学原理。 什么...
  • 用tensorflow构建简单的线性回归模型是tensorflow的一个基础样例,但是原有的样例存在一些问题,我在实际调试的过程中做了一点自己的改进,并且有一些体会。 首先总结一下tf构建模型的总体套路 1、先定义模型的整体...
  • 逻辑回归 自由度Back in middle and high school you likely learned to calculate the mean and standard deviation of a dataset. And your teacher probably told you that there are two kinds of standard ...
  • 通过一元线性回归可以衍生出了许多模型,所以学好一元线性回归是非常有必要的,是目前所有回归模型的基础。即使跳出统计、计量的领域,到了数据挖掘、人工智能的领域,线性回归模型也是打好基础的重中之重。 谈到...
  • 本文主要介绍:Excel数据分析工具库—回归线性回归和非线性回归简单线性回归和多重线性回归逻辑斯蒂回归一、什么是回归分析(Regression)1、定义确定两种或两种以上变量间相关关系的一种统计分析方法。通过数据间...
  • 本节知识点:Excel数据分析工具库—回归线性回归和非线性回归简单线性回归和多重线性回归逻辑斯蒂回归一、什么是回归分析(Regression)1、定义确定两种或两种以上变量间相关关系的一种统计分析方法。通过数据间...
  • 回归测试的策略集中体现在对于回归测试的测试用例的选择上面,一般来讲,总体分为两大类,一种是完全回归,一种是部分回归,而部分回归又分为几种具体的回归方法,完全回归和部分回归定义如下: 完全回归(Retest ...
  • 在如今机器学习、数据科学、人工智能热潮下,回归分析似乎成了家喻户晓的东西。实际上回归分析自Galton爵士提出以及Pearson和Fisher的理论的加持,经过一百多年的发展,早已成了发现客观规律的有力武器。回归分析的...
  • 1回归分析:定义:利用样本(已知数据),产生拟合方程,从而对位置数据进行预测 用途:预测,判别合理性 例子:利用身高预测体重,利用广告费用预测商品销售量; 线性(一定是一次的)回归分析:一元线性,多元线性;广义线性...
  • 统计学:回归分析

    千次阅读 2018-05-21 10:31:57
    统计模型 统计学要学好,其他的才有的搞。 前言 最近在做信号处理,其中遇到各种小问题,深深地发现自己的统计学知识不够用,于是开始了知识补习之路,但光学没有用,要学以致用,因此写下本系列稿子,造福大家...
  • 加载数据 from tensorflow.examples.tutorials.mnist import input_data import tensorflow as tf mnist = input_data.read_data_sets('./MNIST_data', ...构建回归模型,我们需要输入原始真实值(group truth),计算...
  • 什么是回归分析? 相关性 ≠ 因果性 ...[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NKvCz36V-1600444325643)(figures/多元线性回归模型/image-20200824222649255.
  • 回归模型评价指标

    千次阅读 2018-11-20 10:37:13
    回归模型应用场景:预测,趋势分析、投资风险分析等 (1)MAE(Mean Absolute Error)平均绝对差值 (2)MSE(Mean Square Error)均方误差,是回归任务最常用的性能度量,最小二乘估计也是使用均方误差 (3)...
  • 回归模型中的哑变量

    千次阅读 2018-06-06 17:27:24
    在构建回归模型时,如果自变量X为连续性变量,回归系数β可以解释为:在其他自变量不变的条件下,X每改变一个单位,所引起的因变量Y的平均变化量;如果自变量X为二分类变量,例如是否饮酒(1=是,0=否),则回归系数...
  • 2.4 评估线性回归模型 再次利用lm()函数,用线性回归模型来拟合数据。我们的两套数据集会用到上述数据框里剩下的所有输入特征。R提供了一种编写公式的简写方式,它可以把某个数据框里的所有列作为特征,除了被选为...
  • 本节知识点:Excel数据分析工具库—回归线性回归和非线性回归简单线性回归和多重线性回归逻辑斯蒂回归一、什么是回归分析(Regression)1、定义确定两种或两种以上变量间相关关系的一种统计分析方法。通过数据间相关性...
  • 线性回归算法问题分为有监督问题和无监督问题两类 当用到标签来划分的时候就是有监督问题,当没有用标签值的时候就是无监督问题。线性回归求解的结果是值 比如: 根据工资和年龄来预测出一个具体的值,根据工资和...
  • 高校社会科学研究中的立项问题 分析: Step-1定义解释变量与被...结果分析 上表为逐步回归模型的总体效果参数逐步回归进行了2次每个模型的R及R2都很大总体回归效果是相当好的 变量的多重共线性问题 逐步回归系数表 第一
  • SPSS-回归分析

    2018-10-16 18:25:00
    回归分析(一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析以及逻辑回归分析回归分析中,一般首先绘制自变量和因变量间的散点图,然后通过数据在...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 19,562
精华内容 7,824
关键字:

总体回归模型的定义