精华内容
下载资源
问答
  • 回归标准系数

    千次阅读 2018-05-15 10:15:07
    对于非标准化的系数,数据在未标准化之前是不能直接用来直接比较“重要性大小”的。因为因子本身数据存在差异,看...那么在解释时就要说,当x变化1个标准差是,y变化a个标准差。 标准化后的回归系数在不同自变量之...

    对于非标准化的系数,数据在未标准化之前是不能直接用来直接比较“重要性大小”的。因为因子本身数据存在差异,看因子重要程度要用标准化系数。

    标准化的回归系数是指将数据标准化(减均值除方差)后计算得到的回归系数。因为数据进行了标准化,因此就取消了量纲的影响。

    假设因变量为y,自变量为x,标准回归系数为a。那么在解释时就要说,当x变化1个标准差是,y变化a个标准差。

    标准化后的回归系数在不同自变量之间是可比的,没有标准化之前是不可比的。

    举一个例子:
    假设因变量是一个人的外貌给人的印象(y),自变量有身高(x1)、体重(x2)
    假如未标准化的回归系数分别为a1、a2。在解释时就要说,在体重不变的前提下,当身高增加1厘米时,y增加a1个单位;在身高不变的前提下,体重(x2)增加1千克,y就增加a2个单位。假设a1>a2,那我们能说身高对一个人的外貌比体重更重要吗?这是不能的,因为身高的1厘米和体重的一厘米对于他们自身来说重要的程度是不一样的。

    必须用标准化的回归系数才能比较,因为那时都是身高或体重增加一个标准差,外貌打分增加多少。这时,身高跟体重都增加了一个标准差,这对于他们自身的重要程度是一样的。

    展开全文
  • 在前期内容中,我们介绍了如何对数据进行标准化处理,将...那么,提到不同变量的效应大小,大家一定会联想到在多因素回归模型中所得到的回归系数。例如,我们假设自变量分别为身高和体重,根据回归系数很容易就知...

    在前期内容中,我们介绍了如何对数据进行标准化处理,将原始的连续型变量转化为一个无量纲的标准化数值,消除不同变量之间因性质、量纲、数量级等属性的差异而带来的影响,从而使不同变量的效应大小具有可比性,因此数据的标准化处理在实际的统计分析中也得到了较为广泛的应用。

    那么,提到不同变量的效应大小,大家一定会联想到在多因素回归模型中所得到的回归系数。例如,我们假设自变量分别为身高和体重,根据回归系数很容易就知道每增加1cm的身高或每增加1kg的体重,引起的对因变量Y的影响大小,但是两者相比之下,到底谁的作用大谁的作用小呢?

    原始的回归系数已经无法回答这样的问题,我们需要借助标准化回归系数来进行判断,今天我们就来向大家介绍一下,在回归模型中这个标准化回归系数到底是个什么鬼?

    标准化回归系数

    VS

    未标准化回归系数

    1、未标准化回归系数

    通常我们在构建多因素回归模型时,方程中呈现的是未标准化回归系数,它是方程中不同自变量对应的原始的回归系数。它反映了在其他因素不变的情况下,该自变量每变化一个单位对因变量的作用大小。通过未标准化回归系数和常数项构建的方程,便可以对因变量进行预测,并得出结论。

    2、标准化回归系数

    而对于标准化回归系数,它是在对自变量和因变量同时进行标准化处理后所得到的回归系数,数据经过标准化处理后消除了量纲、数量级等差异的影响,使得不同变量之间具有可比性,因此可以用标准化回归系数来比较不同自变量对因变量的作用大小。

    通常我们主要关注的是标准化回归系数的绝对值大小,绝对值越大,可认为它对因变量的影响就越大

    3、两者的区别

    未标准化回归系数体现的是自变量变化对因变量的绝对作用大小,而标准化回归系数反映的是不同自变量对因变量的相对作用大小,可以显示出不同自变量对因变量影响的重要性。

    如果用标准化回归系数构建方程,得到的结论是有偏差的,因为此时自变量和因变量的数据都发生了转化,成为了标准化数据,因此标准化回归系数不能用于构建回归方程。

    标准化回归系数

    VS

    每变化1个标准差的回归系数

    我们在前期文章《回归模型中引入连续变量,还有哪些玩法?》中,介绍到对于连续型变量,在纳入多因素回归模型中时,可以将其转变为每变化1个标准差的形式,具体的操作方法是对原始的自变量进行标准化处理,然后再带入到回归模型中,所得到的回归系数即为该自变量每变化1个标准差对应的回归系数。

    那么,我们假设此时有两个自变量,一个自变量的标准差为1,另一个自变量的标准差为100,两者对因变量都具有一定的影响。如果用上述每增加1个标准差对应的回归系数,来判断哪个自变量对因变量的影响更大的话,当同样变化1个标准差时,第一个自变量只需要改变1个单位,而第二个自变量则需要改变100个单位,因此标准差大的自变量改变起来就显得比较困难。此时,我们就需要用标准化回归系数来救场。

    每增加1个标准差对应的回归系数,反映的是自变量每变化1个标准差时对因变量原始值变化产生的影响。而标准化回归系数,它反映的是自变量每变化1个标准差时,对因变量变化1个标准差产生的影响。

    在计算每增加1个标准差对应的回归系数时,我们只需要对原始自变量进行标准化处理;而如果要计算标准化回归系数,则需要对原始的自变量和因变量同时进行标准化处理,标准化为标准正态分布对应的值后再构建回归模型。

    SPSS操作

    一、研究实例

    某研究人员收集了100名研究对象的最大摄氧量(VO2 max),并记录了他们的年龄、体重、心率等信息,拟探讨年龄、体重、心率对VO2 max的作用大小,同时评价上述哪一个因素对VO2 max的影响作用更大。

    e81554fa3fa7a6d58bfac4fde92b73f6.png

    二、操作步骤

    1、多重线性回归

    (操作步骤参考文章《SPSS实例教程:多重线性回归,你用对了么?》)

    4e3261c47bf83d2fd6862c91c4cd6529.png

    根据多重线性回归分析的结果,回归方程可写为:

    VO2 max = 72.581 – 0.188 * age – 0.184 * weight – 0.059 * heart_rate

    其实不难发现,在SPSS的回归结果中,不仅展示了未标准化回归系数(Unstandardized Coefficients),同时也得出了标准化回归系数(Standardized Coefficients)。

    注意,未标准化回归系数更大的自变量,其标准化回归系数不一定更大。例如本例中,age的未标准化回归系数绝对值为0.188,大于weight的绝对值0.184,但是weight的标准化回归系数绝对值为0.325,却大于age的标准化回归系数绝对值0.200,说明weight对于VO2 max的影响较age更大。

    2、数据标准化处理

    (操作步骤参考前期推送文章《你听说过数据标准化处理吗?》)

    虽然SPSS在回归结果中可以直接输出标准化回归系数,但为了加深对它的理解,我们可以亲自对数据进行一遍标准化处理,对上述结果进行一下验证。

    Analyze → Descriptive Statistics → Descriptives → Save standardized values as variables

    通过上述步骤分别生成4个标准化处理后的新变量。

    f0abc1f94b885cb86162bb5a999efc43.png

    3、标准化回归系数

    在进行多重线性回归时,以VO2 max的标准化形式作为因变量,以age、 weight、 heart_rate的标准化形式作为自变量构建模型。结果发现,所得的结果与上述结果一致。

    50ce5eb2c189d25da6cdede590c9a234.png 30fca3bb9acb7c0ab05551cc65d7df93.png

    相互转换关系

    今天我们介绍了未标准化回归系数、每变化1个标准差的回归系数、以及标准化回归系数,最后再跟大家补充一下三者之间的相互转换关系。

    每变化1个标准差的回归系数= 未标准化回归系数 * 该自变量的标准差

    标准化回归系数= 未标准化回归系数 * 该自变量的标准差 / 因变量的标准差

    大家可以根据上述转换关系自行进行验证哈。

    哦,对了,细心的同学会发现,在SPSS中多重线性回归可以直接输出标准化回归系数,但是在logistic回归中,SPSS只能输出原始的未标准化的回归系数,如果我们想要计算logistic回归的标准化回归系数,比较不同自变量对因变量的相对作用大小,应该怎么办呢?

    根据上述标准化回归系数的转换关系,在logistic回归中随机变量分布函数的标准差为π / √3 = 1.8138[1],故标准化回归系数 = 未标准化回归系数 * 该自变量的标准差 / 1.8138,即可计算logistic回归的标准化回归系数。

    参考文献

    [1] 宋娜. 多元Logistic分布及其参数估计[D]. 北京工业大学, 2007.

    医咖会微信:medieco-ykh

    关注医咖会,及时获取最新统计教程

    展开全文
  • 回归分析标准系数

    万次阅读 2018-07-30 11:21:41
    那么在解释时就要说,当x变化1个标准差是,y变化a个标准差。标准化后的回归系数在不同自变量之间是可比的,没有标准化之前是不可比的。举一个例子:假设因变量是一个人的外貌给人的印象(y),自变量有身高(x1)、...

    标准化的回归系数是指将数据标准化(减均值除方差)后计算得到的回归系数。因为数据进行了标准化,因此就取消了量纲的影响。

    假设因变量为y,自变量为x,标准回归系数为a。那么在解释时就要说,当x变化1个标准差是,y变化a个标准差。

    标准化后的回归系数在不同自变量之间是可比的,没有标准化之前是不可比的。

    举一个例子:
    假设因变量是一个人的外貌给人的印象(y),自变量有身高(x1)、体重(x2)
    假如未标准化的回归系数分别为a1、a2。在解释时就要说,在体重不变的前提下,当身高增加1厘米时,y增加a1个单位;在身高不变的前提下,体重(x2)增加1千克,y就增加a2个单位。假设a1>a2,那我们能说身高对一个人的外貌比体重更重要吗?这是不能的,因为身高的1厘米和体重的一厘米对于他们自身来说重要的程度是不一样的。

    必须用标准化的回归系数才能比较,因为那时都是身高或体重增加一个标准差,外貌打分增加多少。这时,身高跟体重都增加了一个标准差,这对于他们自身的重要程度是一样的。 

    展开全文
  • matlab标准差公式代码GENRE(GPU弹性网回归):CUDA加速包,用于通过弹性网正则化进行大规模并行线性回归 目录 概述 GENRE (GPU弹性网回归)是一种CUDA加速包,允许在GPU上并行执行带有弹性网正则化的线性回归的...
  • 均方根误差(RMSE),平均绝对误差(MAE),标准差(Standard Deviation) RMSE Root Mean Square Error,均方根误差 是观测值与真值偏差的平方和与观测次数m比值的平方根。 是用来衡量观测值同真值之间的偏差 MAE ...

    均方根误差(RMSE),平均绝对误差(MAE),标准差(Standard Deviation)

    RMSE

    • Root Mean Square Error,均方根误差
    • 观测值与真值偏差的平方和与观测次数m比值的平方根。
    • 是用来衡量观测值同真值之间的偏差

    MAE

    • Mean Absolute Error ,平均绝对误差
    • 是绝对误差的平均值
    • 能更好地反映预测值误差的实际情况.

    标准差

    • Standard Deviation ,标准差
    • 是方差的算数平方根
    • 是用来衡量一组数自身的离散程度
    • 其中N应为n-1

    这里写图片描述


    RMSE与标准差对比:标准差是用来衡量一组数自身的离散程度,而均方根误差是用来衡量观测值同真值之间的偏差,它们的研究对象和研究目的不同,但是计算过程类似。

    RMSE与MAE对比:RMSE相当于L2范数,MAE相当于L1范数。次数越高,计算结果就越与较大的值有关,而忽略较小的值,所以这就是为什么RMSE针对异常值更敏感的原因(即有一个预测值与真实值相差很大,那么RMSE就会很大)。

     

    平均值、标准差、相关系数、回归线及最小二乘法

     

     

    • N个数据平均值计算公式:

       [1]

     

     

     

    • 标准差表示了所有数据与平均值的平均距离,表示了数据的散度,如果标准差小,表示数据集中在平均值附近,如果标准差大则表示数据离标准差比较远,比较分散。标准差计算公式:

     [1]

     

    x、y两个变量组成了笛卡尔坐标系中的一个坐标(x,y),这个坐标标识了一个的位置。

    各包含n个常量的X,Y两组数据在笛卡尔坐标系中以n个点来进行表示。

     

    • 相关系数用字母r来表示,表示两组数据线性相关的程度(同时增大或减小的程度),从另一方面度量了相对于标准差的散布情况,它没有单位。包含n个数值的X、Y两组数据的相关系数r的计算方法:

    简单的说,就是 r=[(以标准单位表示的 x )X(以标准单位表示的 y )]的平均数

    根据上面点的定义,将X、Y两组数据的关系以点的形式在笛卡尔坐标系中画出,SD线表示了经过中心点(以数据组X、Y平均值为坐标的点),当r>0时,斜率=X的标准差/Y的标准差;当r<0时,斜率=-X的标准差/Y的标准差;的直线。通常用SD线来直观的表示数据的走向:

    1、当r<0时,SD线的斜率小于0时,则说明数据负相关,即当x增大时y减少。

    2、当r>0时,SD线的斜率大于0时,则说明数据正相关,此时当x增大时y增大。

    3、相关系数r的范围在[-1,1]之间,当r=0时表示数据相关系数为0(不相关)。当r=正负1时,表示数据负相关,此(x,y)点数据都在SD线上。

    4、r的值越接近正负1说明(x,y)越靠拢SD线,说明数据相关性越强,r的值越接近0说明(x,y)点到SD线的散度越大(越分散),数据相关性越小。

     

     

     

    • 回归方法主要描述一个变量如何依赖于另一个变量。y对应于x的回归线描述了在不同的x值下y的平均值情况,它是这些平均值的光滑形式,如果这些平均值刚好在一条直线上,则这些平均值刚好和回归线重合。通过回归线,我们可以通过x值来预测y值(已知x值下y值的平均值)。下面是y对应于x的回归线方程:

    简单的说,就是当x每增加1个SD,平均而言,相应的y增加r个SD。

    从方程可以看出:

    1、回归线是一条经过点,斜率为的直线。

    2、回归线的斜率比SD线小,当r=1或-1时,回归线和SD线重合。

     

    当用回归线从x预测y时,实际值与预测值之间的差异叫预测误差。而均方根误差就是预测误差的均方根。它度量回归预测的精确程度。y关于x的回归线的均方根误差用下面的公式进行计算:

    由公式可以看出,当r越接近1或-1时,点越聚集在回归线附近,均方根误差越小;反之r越接近0时,点越分散,均方根误差越大。

     

     

     

    • 最小二乘法寻找一条直线来拟合所有的点,使得这条直线到所有的点之间的均方根误差最小。可以看到,当求两个变量之间的关系时,最小二乘法求出的直线实际上就是回归线。只不过表述的侧重点不同:

     

    1、最小二乘法强调求出所有点的最佳拟合直线。

    2、回归线则是在SD线的基础上求出的线,表示了样本中已知变量x的情况下变量y的平均值。

     

    由以上可知,一个散点图可以用五个统计量来描述:

    1、所有点x值的平均数,描述了所有点在x轴上的中心点。

    2、所有点x值的SD,描述了所有点距离x中心点的散度。

    3、所有点y值的平均数,描述了所有点在y轴上的中心点。

    4、所有点y值的SD,描述了所有点距离y中心点的散度。

    5、相关系数r,基于标准单位,描述了所有点x值和y值之间的关系。

     

    相关系数r将平均值、标准差、回归线这几个概念联系起来:

    1、r描述了相对于标准差,沿SD线的群集程度。

    2、r说明了y的平均数如何的依赖于x --- x每增加1个x标准差,平均来说,y将只增加r个y标准差。

    3、r通过均方根误差公式,确定了回归预测的精确度。

     

    注意:以上相关系数、回归线、最小二乘法的计算要在以下两个条件下才能成立:

    1、x、y两组样本数据是线性的,如果不是线性的先要做转换。

    2、被研究的两组样本数据之间的关系必须有意义。

     

    参考:

    https://blog.csdn.net/capecape/article/details/78623897

    https://blog.csdn.net/Raymond_Lu_RL/article/details/6701064

    展开全文
  • 平均值、标准差、相关系数回归线及最小二乘法 相关性 线性相关 数据在一条直线附近波动,则变量间是线性相关 非线性相关 数据在一条曲线附近波动,则变量间是非线性相关 不相关 数据在图中没有显示任何关系...
  • 平均值、标准差、相关系数回归线及最小二乘法  相关性 线性相关 数据在一条直线附近波动,则变量间是线性相关 非线性相关 数据在一条曲线附近波动,则变量间是非线性相关 不相关 数据在图中没有显示任何...
  • 机器学习——回归系数的计算(2)

    千次阅读 2020-01-12 12:09:05
    1、最小二乘法(min square)求解回归系数 将训练特征表示为 X 矩阵,结果表示成 y 向量,仍然是线性回归模型,误差函数不变。那么 θ 可以直接由下面公式得出 用矩阵可表示为 因为要求函数的极小值,对θ求导...
  • Logistics回归系数解读

    千次阅读 2021-03-09 05:29:47
    Logistic回归虽然名字叫”回归” ,但却是一种分类学习方法。使用场景大概有两个:第一用来预测,第...并通过最小二乘法估计各个β系数的值。 如果y为二分类变量,只能取值0或1,那么线性回归方程就会遇到困难: 方程右
  • 标准差,协方差与相关系数

    千次阅读 2019-04-04 11:16:07
    学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标准差。首先我们给你一个含有n个样本的集合,依次给出这些概念的公式描述,这些高中学过数学的孩子都应该知道吧,一带而过。 很...
  • Python3:《机器学习实战》之Logistic回归(2)最佳回归系数确定 转载请注明作者和出处:http://blog.csdn.net/u011475210 代码地址:https://github.com/WordZzzz/ML/tree/master/Ch05 操作系统:WINDOWS 10 软件...
  • 一、内在关系 直线回归与相关的性质或方向(正或负)相同,显著性测验等价,说明两者之间... 回归系数b是有单位的,但若对b作消去单位的标准化处理,即对b中x,y的离均差以各自的标准差 和 为单位:      ...
  • 原文地址:深入解读Logistic回归结果(一):回归系数,OR作者:王江源转文地址https://blog.csdn.net/sjpljr/article/details/70169046  作者:sjpljr我想说,你们真是太厉害了!Logistic回归虽然名字叫”回归” ...
  • 回归系数: 两个变量的关系, 构建回归模型, y = a + b*x, b为回归系数 相关系数: 两个变量的相关系数 遗传力: 可以遗传的比例 这些概念有什么联系呢? 假定表型值由均值+育种值+残差 表型值 VS 育种值::::::结论: ...
  • 线性回归--公式推导

    万次阅读 2018-11-01 10:11:16
    线性回归 -- LIner regression 线性回归(Linear regression)是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析 —维基百科   线性回归--理论推导 &lt;...
  • 一、相关系数 对于坐标点呈直线趋势的两个变数,如果并不需要由X来估计Y,而仅需了解X和Y是否确有相关以及相关的性质(正相关或负相关),则首先应算出表示X和Y 相关密切程度及其性质的统计数 —— 相关系数。一般...
  • 两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商: 上式定义了总体相关系数,常用希腊小写字母 作为代表符号。估算样本的协方差和标准差,可得到皮尔逊相关系数,常用英文小写字母 代表:...
  • 线性回归[求W/中心化/标准差]

    千次阅读 2018-09-22 09:42:08
    使用最小二乘法求解回归系数W: 求解W:[对W求导,当导数为零时,平方误差最小,此时W=] 参数: class sklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False, copy_X=True, n_jobs=...
  • 机器学习之多元线性回归模型梯度下降公式与代码实现(篇二)
  • 本文大纲: 数据挖掘分析&amp;算法前奏之data exploration做什么 基本统计有哪些,怎么定义的 优缺点和应用场景,集中趋势...标准差-&gt;变异系数 发散程度指标的重要实际意义 可汗学院-统计学简单介...
  • 2019独角兽企业重金招聘Python工程师标准>>> ...
  • 分类问题的评价指标是准确率,那么回归算法的评价指标就是MSE,RMSE,MAE、R-Squared。下面一一介绍: 1、均方误差(MSE) MSE (Mean Squared Error)叫做均方误差,是反映估计量与被估计量之间差异程度的一种...
  • 两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商。 第一种形式(也就是定义的形式): 第二种形式: 第三种形式: 第四种形式: (其中,E为数学期望或均值,N为数据的数目,E{ [X-E(X)] ...
  • 我们通常采用MSE、RMSE、MAE、R2来评价回归预测算法。 1、均方误差:MSE(Mean Squared Error) 其中,为测试集上真实值-预测值。 def rms(y_test, y): return sp.mean((y_test - y) ** 2) 2、均方根误差:...
  • 1、回归的:RMSE(平方根误差)、MAE(平均绝对误差)、MSE(平均平方误差)、Coefficient of determination (决定系数R2)、 MAPE(平均绝对百分误差)、MSLE(均方根对数误差)等。 2、分类的:混淆矩阵、精确率、召回...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 9,655
精华内容 3,862
关键字:

回归系数的标准差公式