精华内容
下载资源
问答
  • 我们通常采用MSE、RMSE、MAE、R2来评价回归预测算法。 1、均方误差:MSE(Mean Squared Error) 其中,为测试集上真实值-预测值。...2、方根误差:RMSE(Root Mean Squard Error) 可以看出,RMSE=sqrt(MS...

    我们通常采用MSE、RMSE、MAE、R2来评价回归预测算法。

    1、均方误差:MSE(Mean Squared Error)

    其中,为测试集上真实值-预测值。

    def rms(y_test, y):
    return sp.mean((y_test - y) ** 2)

     

    2、均方根误差:RMSE(Root Mean Squard Error)

    可以看出,RMSE=sqrt(MSE)。

    3、平均绝对误差:MAE(Mean Absolute Error)

    以上各指标,根据不同业务,会有不同的值大小,不具有可读性,因此还可以使用以下方式进行评测。

    4、决定系数:R2(R-Square)

    def R2(y_test, y_true):
    return 1 - ((y_test - y_true)**2).sum() / ((y_true - y_true.mean())**2).sum()

     

    其中,分子部分表示真实值与预测值的平方差之和,类似于均方差 MSE;分母部分表示真实值与均值的平方差之和,类似于方差 Var。

    根据 R-Squared 的取值,来判断模型的好坏,其取值范围为[0,1]:

    如果结果是 0,说明模型拟合效果很差;

    如果结果是 1,说明模型无错误。

    一般来说,R-Squared 越大,表示模型拟合效果越好。R-Squared 反映的是大概有多准,因为,随着样本数量的增加,R-Square必然增加,无法真正定量说明准确程度,只能大概定量。

    5、校正决定系数(Adjusted R-Square)

    其中,n 是样本数量,p 是特征数量。

    Adjusted R-Square 抵消样本数量对 R-Square的影响,做到了真正的 0~1,越大越好。

    python中可以直接调用

    from sklearn.metrics import mean_squared_error #均方误差
    
    from sklearn.metrics import mean_absolute_error #平方绝对误差
    
    from sklearn.metrics import r2_score#R square
    
    #调用
    
    MSE:mean_squared_error(y_test,y_predict)
    
    RMSE:np.sqrt(mean_squared_error(y_test,y_predict))
    
    MAE:mean_absolute_error(y_test,y_predict)
    
    R2:r2_score(y_test,y_predict)
    
    Adjusted_R2::1-((1-r2_score(y_test,y_predict))*(n-1))/(n-p-1)

     

     

     

    方差、协方差、标准差(标准偏差/均方差)、均方误差、均方根误差(标准误差)、均方根值

    本文由博主经过查阅网上资料整理总结后编写,如存在错误或不恰当之处请留言以便更正,内容仅供大家参考学习。


    • 方差(Variance)

           方差用于衡量随机变量或一组数据的离散程度,方差在在统计描述和概率分布中有不同的定义和计算公式。①概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度;②统计中的方差(样本方差)是每个样本值与全体样本均值之差的平方值的平均数,代表每个变量与总体均值间的离散程度。

    概率论中计算公式

    离散型随机变量的数学期望: 

                                                                                                                 ---------求取期望值

    连续型随机变量的数学期望:

                                                                                                          ----------求取期望值

    其中,pi是变量,xi发生的概率,f(x)是概率密度。

                                                          ---------求取方差值

     

    统计学中计算公式

     总体方差,也叫做有偏估计,其实就是我们从初高中就学到的那个标准定义的方差:

                                                                                                    -----------求取总体均值

    其中,n表示这组数据个数,x1、x2、x3……xn表示这组数据具体数值。

                                                        ------------求取总体方差

    其中,\bar{X}为数据的平均数,n为数据的个数,s^{2}为方差。

    样本方差,无偏方差,在实际情况中,总体均值\bar{X}是很难得到的,往往通过抽样来计算,于是有样本方差,计算公式如下

                                                        --------------求取样本方差           

    此处,为什么要将分母由n变成n-1,主要是为了实现无偏估计减小误差,请阅读《为什么样本方差的分母是 n-1》。    

    • 协方差(Covariance)

          协方差概率论统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

    formula

    formula

    其中,E[X]与E[Y]分别为两个实数随机变量X与Y的数学期望,Cov(X,Y)为X,Y的协方差。

    •  标准差(Standard Deviation)

           标准差也被称为标准偏差,在中文环境中又常称均方差,是数据偏离均值的平方和平均后的方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度,只是由于方差出现了平方项造成量纲的倍数变化,无法直观反映出偏离程度,于是出现了标准差,标准偏差越小,这些值偏离平均值就越少,反之亦然。

     

                                                                                                   ------------求取样本标准差

    其中,  代表所采用的样本X1,X2,...,Xn的均值。

                                                                                                     -------------求取总体标准差

     其中, 代表总体X的均值。

    :有一组数字分别是200、50、100、200,求它们的样本标准偏差。

    = (200+50+100+200)/4 = 550/4 = 137.5

    = [(200-137.5)^2+(50-137.5)^2+(100-137.5)^2+(200-137.5)^2]/(4-1)

    样本标准偏差 S = Sqrt(S^2)=75

    • 均方误差(mean-square error, MSE

           均方误差是反映估计量与被估计量之间差异程度的一种度量,换句话说,参数估计值与参数真值之差的平方的期望值。MSE可以评价数据的变化程度,MSE的值越小,说明预测模型描述实验数据具有更好的精确度。

    • 均方根误差(root mean squared error,RMSE

          均方根误差亦称标准误差,是均方误差的算术平方根。换句话说,是观测值与真值(或模拟值)偏差(而不是观测值与其平均值之间的偏差)的平方与观测次数n比值的平方根,在实际测量中,观测次数n总是有限的,真值只能用最可信赖(最佳)值来代替。标准误差对一组测量中的特大或特小误差反映非常敏感,所以,标准误差能够很好地反映出测量的精密度。这正是标准误差在工程测量中广泛被采用的原因。因此,标准差是用来衡量一组数自身的离散程度,而均方根误差是用来衡量观测值同真值之间的偏差。

    • 均方根值(root-mean-square,RMES

           均方根值也称作为方均根值或有效值在数据统计分析中,将所有值平方求和,求其均值,再开平方,就得到均方根值。在物理学中,我们常用均方根值来分析噪声。

            比如幅度为100V而占空比为0.5的方波信号,如果按平均值计算,它的电压只有50V,而按均方根值计算则有70.71V。这是为什么呢?举一个例子,有一组100伏的电池组,每次供电10分钟之后停10分钟,也就是说占空比为一半。如果这组电池带动的是10Ω电阻,供电的10分钟产生10A 的电流和1000W的功率,停电时电流和功率为零。

    展开全文
  • 计算机中的表示

    千次阅读 2018-11-27 22:20:40
    若无符号保存在寄存器中,寄存器的位数,反映了无符号的表示范围。 如:如果寄存器位数为8位,存储数据范围为: 如果寄存器位数为16位,存储数据的位数范围: 有符号 (一)真值和机器 首先要明白...

    数据表示:在计算机中能够直接被硬件直接识别和处理的数据类型。即在计算机的指令系统中有对这些中数据类型进行操作的指令。

    无符号数

    若无符号数保存在寄存器中,寄存器的位数,反映了无符号数的表示范围。
    如:如果寄存器位数为8位,存储数据范围为:
    在这里插入图片描述

    如果寄存器位数为16位,存储数据的位数范围:
    在这里插入图片描述

    有符号数

    (一)真值和机器

    首先要明白真值和机器数 的区别:
    真值: 平时用的真实的值,带有符号的。
    机器数: 保存在计算机中的数。
    在这里插入图片描述
    把一个数据保存在计算机中需要保存三部分内容,符号、小数点位置,数的数值位,如上图中的+0.1011,使用0和1两种状态代表正负状态,1011保存在寄存器中,在计算机中没有专门硬件表示小数点,计算机中的小数点都是以约定的方式给出的,如+0.1011在设计计算机硬件的时候,就约定对于保存小数,小数点默认在符号位的后面(这种)。而对于整数,小数点的位置在设计硬件时约定放于数值部分的最后。这样可以把定点计算机(小数点位置固定的计算机)分为两类,小数定点机和整数定点机。

    下面说到的原码,补码,反码,移码表示法都是在计算机中的表示,都属于机器数。

    (二)原码表示法

    1、整数表示

    对于正数,原码表示方式为将数据的符号位用0表示。为了使得符号位用0表示,只需要在数值位的最高位添加0即可。
    对于负数,原码表示方式为将数据的符号位用1表示。为了使得符号位用1表示,只需要在真值的绝对值的基础上加上2^n即可。

    根据以上分析,得到如下定义:
    在这里插入图片描述

    根据以上的定义举例如下:
    在这里插入图片描述

    定义中,正数的范围X>=0,负数X<=0,如果X = 0,计算出来的X原码不同。

    在这里插入图片描述

    2、小数表示

    对于正数,原码的表示方式和真值去掉符号后相同,但是,小数点前面的0,在真值中表示这是这小数,在原码中表示这个原码的符号位为正号。

    对于负数,原码的表示方式为:去掉符号,将小数点前的0变为1,表示符号为负。只需要在真值的绝对值的基础上加1即可。

    得到定义如下:
    在这里插入图片描述

    根据以上定义,举例如下:
    在这里插入图片描述
    无论是整数中的逗号,还是小数中的小数点,在计算机中是不存储的,仅仅是为了为的直观识别而添加的。

    3、原码特点

    原码的表示形式是简单,直观,但是使用原码进行加减法运算是会会出现如下问题:
    在这里插入图片描述

    对于上面的操作,同样的加法操作,但是运算器实际的操作可能是加法,也可能是减法,对于运算器来说是比较麻烦的,那能不能对加法和减法进行归一化:只用加法就能完成加法和减法的操作。即:找到一个与负数等价的正数 来代替这个负数, 就可使得加负数和加另一个正数结果相同,即将减法操作转化为了加法操作。这样就能将加法和减法操作统一为加法操作。补码就是为了解决加减法归一化的问题。

    (三)补码表示法

    1、补的概念
    对于时钟,如果我们要把时钟从6点调整到3点,我们可以进行哪些操作?
    在这里插入图片描述

    很显然能想到可以进行顺时针调整和逆时针调整。
    在这里插入图片描述

    顺时针调整减去12,因为时钟以12为模,即如果显示的时间到12,时间归零。所以,对于上面的调整操作,对于这种有模的、能够记录数据的设备,我们可以使用9代替-3,把减法变成加法操作。这时候我们可以称 +9 是 -3 以12为模的补数。记作:
    在这里插入图片描述

    对于对时钟的调整操作,可以得出以下结论:
    (1)一个负数加上 “模” 即得该负数的补数 。
    (2)一个正数和一个负数互为补数时,它们绝对值之和即为模数。

    计算机中的数据存储设备和时钟是相似的,比如我们要存放一个整数,存放这个整数的寄存器的位数为4位,那这个寄存器计数的时候,一旦进行加法操作的时候,它的值大于或者等于16,进位部分将会被自动的丢弃,这点和时钟很相似,区别在于时钟以12为模,4为的寄存器以16为模。如把1011变为0有两种方式:
    在这里插入图片描述

    可见 1011 可用 + 0101 代替,记作:
    在这里插入图片描述

    同样的可以可以的到如下事例:
    在这里插入图片描述

    以上计算的都是负数的补数,那正数的补数是多少呢?
    在这里插入图片描述

    根据上图可知,正数的补数为其本身。

    因为0101即是-1011的补数,又是+0101(其本身)的补数,那+0101到底是谁的补数呢?

    所以在计算机中,表示0101的补数时,在其补数前面添加0表示符号位,用逗号与数值部分隔开,表示为:” 0,0101” 。表示-1011的补数时,在其补数前面添加1表示符号位,用逗号与数值部分隔开,表示为:” 1,0101” 。如下图所示:
    在这里插入图片描述

    0101是-1011的补数,而10101是-1011的补码,如何计算补码呢?
    -1011 + 10000 = 补数 = 0101
    补数 + 10000 = 补码 = 10101
    即得到:-1011的补码 = -1011 + 10000 + 10000 = -1011 + 2 ^ 4 + 2 ^ 4 = -1011 + 2^5。
    这样,得到的补码,就可以用最高位区分是正数还是负数。而此时原数和补码之间的模就是2^( n+1),即如下所示:
    在这里插入图片描述

    2、补码定义
    根据上面的分析,可以得出补码的定义如下:

    (1)整数的补码

    在这里插入图片描述

    举例如下:
    在这里插入图片描述

    (2)小数的补码

    在这里插入图片描述

    举例如下:
    在这里插入图片描述

    3、求补码的快捷方式

    推导过程如下:
    在这里插入图片描述

    如上图所示,将2 ^ 5表示为 2 ^ 5 - 1 + 1, 其中 2 ^ 5 - 1 - 1010 为11111 - 1010,即相当于原码(11010)符号位不变按位取反。所以可以得出如下结论:

    当真值为 负 时,补码 = 原码除符号位外 每位取反,末位加 1 。从补码的定义 [X]补 = 2^(n + 1) + X 可知,从补码到原码的推导过程依然符合以上结论。

    举例如下:
    在这里插入图片描述
    上图中,补码1.0000表示的真值是-1.0000,没有对应的原码。

    (四)反码表示法

    反码表示为符号位不变,其余位按位取反。具体定义如下:

    1、整数
    在这里插入图片描述

    举例如下:
    在这里插入图片描述

    2、小数
    在这里插入图片描述

    举例如下:
    在这里插入图片描述

    下面对前面讲到的原码,补码,反码就行简单的总结:

    (1)最高位为符号位,书写上用“,”(整数)或“.”(小数)将数值部分和符号位隔开。

    (2)对于正数,原码 = 补码 = 反码

    (3)对于负数 ,符号位为 1,其 数值部分
    补码 = 原码除符号位外每位取反末位加 1
    反码 = 原码除符号位外每位取反

    (4)设机器数字长为 8 位(其中1位为符号位) 对于整数,当其分别代表无符号数、原码、补码和 反码时,对应的真值范围各为多少?
    在这里插入图片描述
    (5)已知 [y]补 求[ -y]补?
    在这里插入图片描述
    结论:[y]补连同符号位在内,,每位取反,末位 + 1 即得[- y]补

    (五)移码表示法

    补码表示很难直接判断其真值大小,具体情况如下:
    在这里插入图片描述

    如果此时不使用补码比较大小,而是将 X + 2^n得:
    在这里插入图片描述

    这种表示方法为移码,移码定义如下:
    在这里插入图片描述

    移码在数轴上表示:
    在这里插入图片描述

    举例:
    在这里插入图片描述

    移码定义中:
    (1) 不管是正数还是负数,变成移码的方式都是加上2^n
    (2) 从定义中看,只有整数形式定义,没有小数形式定义,这和移码在计算机的数据表示中的作用有关,通常情况下,移码用于表示浮点数据表示的阶码部分,阶码都是整数,所以移码中只给出了整数形式的定义。

    移码和补码比较:
    在这里插入图片描述

    结论:补码与移码只差一个符号位。

    真值、补码和移码的对照表如下:
    在这里插入图片描述
    移码的特点:
    在这里插入图片描述
    可见,最小真值的移码为全 0。用移码表示浮点数的阶码 ,能方便地判断浮点数的阶码大小。

    定点数和浮点数表示

    (一)定点表示

    定点表示中,小数点按照约定方式给出,位置由计算机体系结构设计人员在设计计算机体系结构的时候约定的,在硬件实现和软件实现的时候,都要遵守这个约定, 根据约定位置的不同,有两种形式:

    在这里插入图片描述

    根据上图:
    (1)如果小数点在左图中的位置,表示计算机中存放或者处理的定点数都是小数,如果是补码形式,它能够表示的唯一的整数就是-1。

    (2)如果小数点放在右图中的位置,计算机中的定点数都是整数。

    根据一台定点计算机约定的小数点的位置,可以吧定点计算机分为两类:

    小数定点机: 小数点放在数符的后面,数值的前面。如上左图。

    整数定点机: 小数点位置放在数值部分的后面。如上右图。
    在这里插入图片描述

    (二)浮点表示

    1、为什么在计算机中要引入浮点数表示?

    定点存储存在如下问题:
    (1)编程困难,程序员要调节小数点的位置;
    在编写程序过程中,经常会使用到浮点数,在定点机中,如果用到浮点数,需要程序员自己调整小(2)数据的表示范围非常小,为了能够表示两个大小相差很大的数据,需要很长的机器字长。
    在这里插入图片描述

    如上图,如果在某一个科学计算的问题上,需要同时保存电子的质量和太阳的质量,两者的差距是10^61 ,为了能够在计算机中同时保存两个数据,如果用二进制数表示这么大的差距,需要203位的二进制数据。即使有了203位存储单元,这个存储单元可以两个数据,但是保存电子质量的那个存储单元大部分的值都是0,尤其是高位部分,就会导致大量的空间被浪费。
    (3)数据存储的利用率很低

    2、浮点表示的格式是什么?
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    r = 2,尾数中1位二进制数,表示了一位2进制的数。
    r = 4,尾数中2位二进制数,表示了一位4进制的数。
    r = 8,尾数中3位二进制数,表示了一位8进制的数。
    r = 16,尾数中4位二进制数,表示了一位16进制的数。
    在这里插入图片描述

    如上面的举例中,阶码j用二进制表示,11.0101将其右移2位变为0.110101,相当于将其变为原来的四分之一,为了保持不变,需要将0.110101乘以4,所以是2的2次方,j = 2用二进制表示,为10.所以为0.110101 * 2^10。其余同理。

    在上面,对于r = 2,N = 11.0101共使用了五中表示形式,其中有两种表示形式是合法的,如上图中划对号的两个,两个的尾数我们采用小数定点表示,尾数的值均是小于等于1的,两种方式都可以把其存放于计算机中,但是其中第一种方式是比较特殊的,数值位的最高位是非0的,这种表示形式称为规格化数。

    在计算机中,浮点数如何进行存储呢,前面说过,数据在计算机中表示方式为机器数,浮点数在计算机中进行存储,也需要以机器数形式进行存储,如果在设计计算机过程中,我们已经约定了我们尾数的基值r采用二进制(r = 2),或者采用四进制(r = 4)等,那么,在浮点数的存储过程中,只需要把浮点数的尾数部分,阶码部分,包括数符和阶符存储起来,用之前讲解的机器数的表示形式,按照计算机设计的时候的规定尾数取多少位,数符是一位,阶符是一位,这样就可以把浮点数存放在计算机中。经过分析,得出浮点数存放形式如下:
    在这里插入图片描述
    3、浮点数的表示范围?

    依据刚刚给出的浮点数的表示格式,分析浮点数的表示范围,假设,现在不考虑数据的规格化,无论是尾数还是阶码,都是用原码形式进行表示,那么给定浮点数的表示方式,在数轴上可以分析浮点数表数范围:
    在这里插入图片描述
    上图中,表示了浮点数的范围,并将m = 4,n = 10带入计算,当m = 4, n = 10时,实际上这种方式能表示的数据的长度一共是16位,一位表示阶符,一位表示尾符,4位表示阶码,10表示尾数数值部分。能够表示的二进制数的个数是2^ 16,如果我们的机器使用这样的格式表示浮点数,那就是使用2^16个二进制数来表示最小负数和最大整数之间的所有的数。

    由上可知,位数决定数据的精度,阶码决定数据大小。

    举例:
    在这里插入图片描述
    4、为什么要引入规格化表示?

    尽可能保证数据的精度,如果不进行规格化,尾数的小数点后面可能会有若干个0,在计算机中,尾数的长度是有限的,超出给定长度的尾数的值被截断扔掉,要种影响尾数精度,为了尽可能保证数据精度,所以要让有效位数尽可能多,所以采用规格化形式,则有:
    在这里插入图片描述

    即,基数不同,浮点数的规格化形式不同。将浮点数进行规格化的方式:

    在这里插入图片描述

    从上面可以看出:
    基数 r 越大,可表示的浮点数的范围越大 ,浮点数的精度降低。

    举例:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述在这里插入图片描述
    在这里插入图片描述
    5、机器0

    (1)当浮点数 尾数为 0 时,不论其阶码为何值 按机器零处理 。
    (2)当浮点数阶码等于或小于它所表示的最小数时,不论尾数为何值,按机器零处理。

    举例:
    在这里插入图片描述

    这种机器零方式,有利于机器中“ 判 0 ” 电路的实现。

    6、目前浮点数表示格式的标准是什么?

    IEEE 754 标准,格式如下:
    在这里插入图片描述

    上面的格式中,小数点的位置即是阶码小数点位置,又是尾数小数点位置,要求尾数为规格化表示 ,如果使用这种方式进行表示,在基值为2的情况下,不管是原码、补码、反码,尾数非 “0” 的有效位最高位为 “1”。既然最高位一定是1,那第一位就可以直接隐含掉,可以不在数据中进行表示,在计算中进行补齐即可,这样做的好处实际上增加了尾数的位数,增大了尾数能够表示的精度。

    IEEE 754 标准中对实数有三种规定:
    在这里插入图片描述

    展开全文
  • 单纯介绍概念不易理解,所以应...别名:方差(mean square error)、标准偏差、实验标准。 定义:标准是观测值与其平均偏差的平方和的平方根,即方差的算术平方根。 公式: 公式意义:所有减去其...

    单纯介绍概念不易理解,所以应从实际应用出发介绍其区别。四者的不同可从研究对象和研究目的进行区分。

    一 区别比较

    1. 方差
      定义:方差在统计描述和概率分布中各有不同的定义,并有不同的公式。
      (1)统计学
      统计学中的方差(样本方差)是各个数据分别与其平均数之差的平方的和的平均数。
      (2)概率论
      度量随机变量和其数学期望(即均值)之间的偏离程度。
      来源
      离均差:即一个样本中的数据与均值之差。将离均差进行改进得到了方差。
      。。。
      补充:
      离均差又是从极差发展而来的。
      极差是最大值-最小值,最初用极差来评价一组数据的离散度。
      因为由两个数据来评判一组数据是不科学的,所以从极差进行改进,改用离均差之和。
      使用离均差不好吗?为什么又设置方差
      (1)为避免出现离均差总和为零,所以对离均差求平方。
      (2)而为避免离均差平方和受样本含量的影响,所以对离均差平方和除以样本数,求平均值。
      这样就得到了方差。
      公式
      (1)统计学
      针对总体数据的公式,其中N是总体数据的数量:
      统计学方差
      这里写图片描述 为总体方差, 这里写图片描述 为变量, 这里写图片描述 为总体均值, 这里写图片描述 为总体数据数量。
      针对样本抽样的公式(日常工作中用):
      S^2= ∑(X- 这里写图片描述) ^2 / (n-1)
      实际工作中,总体均数难以得到时,应用样本统计量(即样本数量)代替总体参数,经校正后,样本方差计算公式如上。除以n-1的原因见自由度(为什么样本方差自由度是n-1)_张之海_CSDN
      其中S^2为样本方差,X为变量,这里写图片描述为样本均值,n为样本例数。
      (2)概率论
      离散型随机变量:
      D(X)=E{[X-E(X)]2}=E(X2) - [ E(X)]^2
      连续型随机变量:
      定义域为(a,b),概率密度函数为f(x),连续型随机变量X方差计算公式:
      D(X)= 这里写图片描述 (x-μ)^2 f(x) dx
      意义
      当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小。因此方差越大,数据的波动越大;方差越小,数据的波动就越小。

    2. 标准差(std —— Standard Deviation)
      别名:均方差(mean square error)、标准偏差、实验标准差。
      定义:标准差是观测值与其平均数偏差的平方和的平方根,即方差的算术平方根。
      公式:
      这里写图片描述
      公式意义:所有数减去其平均值的平方和,所得结果除以该组数之个数(或个数减一),再把所得值开根号,所得之数就是这组数据的标准差。
      注意:如是总体,标准差公式根号内除以N。如是样本,标准差公式根号内除以(N-1) 。因为我们大量接触的是样本,所以普遍使用根号内除以(N-1)。
      理论意义
      (1)标准差反映组内个体间的离散程度。
      (2)描述一组数值自平均值分散开来的程度。一个较大的标准差,代表大部分的数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。
      (3)标准差越高,表示实验数据越离散,也就是说越不精确。标准差越低,代表实验的数据越精确。
      实际应用
      标准差应用于投资上,可作为量度回报稳定性的指标。标准差数值越大,代表回报远离过去平均数值,回报较不稳定故风险越高。相反,标准差数值越细,代表回报较为稳定,风险亦较小。
      方差、标准差的关系与异同
      (1)两者的关系
      样本中各数据与样本平均数的差的平方和的平均数叫做样本方差;样本方差的算术平方根叫做样本标准差。
      (2)相同点
      两者都是描述一组(协方差描述两组数据,参考[4])数据的离散程度的。样本方差或样本标准差越大,样本数据的离散程度就越大。
      (3)不同点
      方差与我们要处理的数据的量纲是不一致的,虽然能很好的描述数据与均值的偏离程度,但是处理结果是不符合我们的直观思维的。
      标准差与方差不同的是,标准差和变量的计算单位相同,比方差清楚,因此很多时候我们分析的时候更多的使用的是标准差。
      标准差和均值的量纲(单位)是一致的,在描述一个波动范围时标准差比方差更方便。比如一个班男生的平均身高是170cm,标准差是10cm,那么方差就是10cm^2。可以进行的比较简便的描述是本班男生身高分布是170±10cm,方差就无法做到这点。

    3. 协方差
      用途:衡量两个变量的总体误差。
      .
      与方差、标准差的不同:协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
      .
      公式
      这里写图片描述
      这里写图片描述
      从公式中可以看出,协方差是各随机变量与其均数离差之积的均值;如果我们把随机变量与其均数的差值成为“均值化“的随机变量,这么这两个均值化的随机变量应该都具有相同的均值就是0;同时如果二者是相互独立的,那么当X大于其均值的情况下Y应该是有可能大于也有可能小于其均值,这样导致其乘积之和应该为0;也就是说,如果X、Y相互独立,则二者协方差为0。同样可知,如果X、Y线性相关,则其一个大于均值的时候另一个也会大于均值的(因为其均值也是线性相关的)。于是可以看出协方差是判断两个随机变量是否线性相关的很好的物理量。
      特殊情况
      如果X与Y是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足E[XY]=E[X]E[Y]。
      但是,反过来并不成立。即如果X与Y的协方差为0,二者并不一定是统计独立的。(相关有两种:线性相关、非线性相关。Cov(X,Y)等于0,说明X与Y一定不是线性相关,但是X与Y可能是非线性相关(eg:Y = X^2),这样X与Y仍不是相互独立的。)
      .
      协方差与期望、方差的关系
      协方差与方差之间有如下关系:
      D(X+Y)=D(X)+D(Y)+2Cov(X,Y)
      D(X-Y)=D(X)+D(Y)-2Cov(X,Y)
      协方差与期望值有如下关系:
      Cov(X,Y)=E(XY)-E(X)E(Y)。
      .
      协方差与pearson系数的关系
      协方差作为描述X和Y相关程度的量,在同一物理量纲之下有一定的作用,但同样的两个量采用不同的量纲使它们的协方差在数值上表现出很大的差异。因此才引入了Pearson相关系数。
      这里写图片描述
      若ρXY=0,则X与Y不线性相关。
      即ρXY=0的充分必要条件是Cov(X,Y)=0,亦即不相关和协方差为零是等价的。
      设ρXY是随机变量X和Y的相关系数,则有
      (1)∣ρXY∣≤1;
      (2)∣ρXY∣=1充分必要条件为P{Y=aX+b}=1,(a,b为常数,a≠0)

    4. 均方根误差(rmse —— root-mean-square error)
      别名:标准误差、均方根差。
      定义:观测值与真值偏差的平方和,与观测次数n比值的平方根。
      公式
      (1)表示1:√[∑(di^2)/n]
      (2)表示2:S={[(x1-x’1)2+(x2-x’2)2+…(xn-x’n)2]/n}0.5(x’1、x’2…x’n为真实值,n为样本个数)
      理论意义:衡量观测值同真值之间的偏差。
      实际用途:衡量测量精度。
      实际应用:标准误差 对一组测量中的特大或特小误差反映非常敏感,所以,标准误差能够很好地反映出测量的精密度。这正是标准误差在工程测量中广泛被采用的原因。

    5. 平均绝对误差(MAE)
      别名:平均绝对离差
      定义:所有单个观测值与算术平均值的偏差,的绝对值,的平均。
      公式在这里插入图片描述
      理论意义:平均绝对误差可以避免偏差相互抵消的问题。
      实际用途:描述数据离散程度。

    二 离散度形容指标发展历史

    极差、方差和标准差等都是形容离散度的指标。
    离散度
      标准差是反应一组数据离散程度最常用的一种量化形式,是表示精密确的最要指标。说起标准差首先得搞清楚它出现的目的。我们使用方法去检测它,但检测方法总是有误差的,所以检测值并不是其真实值。检测值与真实值之间的差距就是评价检测方法最有决定性的指标。但是真实值是多少,不得而知。因此怎样量化检测方法的准确性就成了难题。这也是临床工作质控的目的:保证每批实验结果的准确可靠。   
      虽然样本的真实值是不可能知道的,但是每个样本总是会有一个真实值的,不管它究竟是多少。可以想象,一个好的检测方法,其检测值应该很紧密的分散在真实值周围。如果不紧密,那距真实值的就会大,准确性当然也就不好了,不可能想象离散度大的方法,会测出准确的结果。因此,离散度是评价方法的好坏的最重要也是最基本的指标。   
      一组数据怎样去评价和量化它的离散度呢?人们使用了很多种方法:
    极差
      最直接也是最简单的方法,即最大值-最小值(也就是极差)来评价一组数据的离散度。这一方法在日常生活中最为常见,比如比赛中去掉最高最低分就是极差的具体应用。
    离均差的平方和
      由于误差的不可控性,因此只由两个数据来评判一组数据是不科学的。所以人们在要求更高的领域不使用极差来评判。其实,离散度就是数据偏离平均值的程度。因此将数据与均值之差(我们叫它离均差)加起来就能反映出一个准确的离散程度。和越大离散度也就越大。   但是由于偶然误差是成正态分布的,离均差有正有负,对于大样本离均差的代数和为零的。为了避免正负问题,在数学有上有两种方法:一种是取绝对值,也就是常说的离均差绝对值之和。而为了避免符号问题,数学上最常用的是另一种方法--平方,这样就都成了非负数。因此,离均差的平方和成了评价离散度一个指标。  
    方差(S2)
      由于离均差的平方和与样本个数有关,只能反应相同个数样本的离散度,而实际工作中做比较很难做到样本的个数相同,因此为了消除样本个数的影响,增加可比性,将标准差求平均值,这就是我们所说的方差成了评价离散度的较好标准。   
      样本量越大越能反映真实的情况,而算数均值却完全忽略了这个问题,对此统计学上早有考虑,在统计学中样本的方差多是除以自由度(n-1),它是意思是样本能自由选择的程度。当选到只剩一个时,它不可能再有自由了,所以自由度是n-1。为什么除以n-1呢?请参考:自由度(为什么样本方差自由度是n-1)_张之海_CSDN

    ##参考文献:
    [1] 均方根误差与标准差 — 新浪博客
    [2] 均方根误差 — 百度百科
    [3] 标准误差standard error,均方根误差/中误差(RMSE,root mean squared error)— 新浪博客
    [4] 方差、标准差和协方差三者之间的定义与计算—寻自己—博客园
    [5] 方差—百度百科
    [6]方差、标准差、均方差、均方误差区别总结
    [7] 协方差_百度百科

    展开全文
  • 利用EXCEL计算标准

    万次阅读 2018-06-24 00:18:33
    标准能够表示一组数据的离散程度,数值越大离散...在EXCEL中选“自动求和”,接着选择“其他函数”,最后选中STDEVP函数来计算标准。选中STDEVP函数后,需要选中计算标准的数据的范围,之后会自动得出结果。...

    标准差能够表示一组数据的离散程度,数值越大离散程度越大。

    在EXCEL中选“自动求和”,接着选择“其他函数”,最后选中STDEVP函数来计算标准差。

    选中STDEVP函数后,需要选中计算标准差的数据的范围,之后会自动得出结果。

    展开全文
  • 数据标准/归一normalization

    万次阅读 多人点赞 2016-08-19 09:42:40
    这里主要讲连续型特征归一的常用方法。 连续型特征还有一种处理方式是,先分桶/分箱(如等频/等距的分)[待写]进行离散后再使用离散数据的处理方法。 离散数据处理参考[数据预处理:独热编码(One-Hot ...
  • 1、方根值(RMS)也称作为效值,它的计算方法是先平方、再平均、然后开方。   2、方根误差,它是观测值与真值偏差的平方和观测次数n比值的平方根,在实际测量中,观测次数n总是有限的,真值...
  • 数字栅格地图矢量及三维显示教程

    万次阅读 多人点赞 2018-04-22 14:31:19
    对等高线地形图扫描件在ArcMap中依次进行地理配准、地理要素矢量、拓扑检查、等高线平滑、附高程值、生成TIN、在TIN间拉伸操作,在ArcScene中进行叠加遥感影像、浮动于自定义表面操作,最终得到一幅三维地形图。...
  • 2019上交、上科、北航、中科大、自动所计算机夏令营简记写在前面个人情况简述夏令营前准备什么?怎么准备?学硕OR专硕OR直博?为什么要联系导师?什么时候联系导师?怎么联系导师?面试怎么准备?基础知识怎么复习...
  • 根据国际标准组织(ISO)的定义:标准σ是方差σ2的正平方根;而方差是随机变量期望的二次偏差的期望,这个就不用解释了。  什么是标准误差(standard error)呢?看了些文献,有的还是大牛的,定义都不统一,...
  • 本文用实例说明了多指标综合评价中,用“倒数逆变换法”进行指标正向时会完全改变原指标的分布规律,影响综合...对三种常用无量纲方法——极变换法、标准法和均值法的选择使用问题,用实例进行了比较分析。
  • 2020线上保研之路 清华北大交大复旦自动计算所 无聊在飞机上编辑的这几个月来的经历吧。我真的感觉好累,巨累。该死的疫情。 今年保研,往届的学长学姐的去路都没有什么参考性了,一个原因在于cs内卷更严重了,...
  • 并行计算机未来发展前景

    千次阅读 2016-11-24 20:37:47
    20世纪60年代初期, 由于晶体管以及磁芯...现代计算机的发展历程可以分为2个时代:串行计算时代和并行计算时代。并行计算是在串行计算的基础上发展起来的。并行计算将一项大规模的计算任务交由一组相同的处理单元共同完
  • 案例上手 Python 数据可视

    万次阅读 多人点赞 2019-02-27 23:30:05
    课程亮点 ...数据可视是数据分析和机器学习的重要环节,比如数据清洗、特征工程、机器学习、数据分析(特别是报告)、评估等环节都会用到“数据可视”技术。 数据可视同时还广泛存在于各...
  • 存储虚拟概述

    千次阅读 2015-07-07 20:50:45
    存储虚拟概述 一、基本概念   存储虚拟(Storage Virtualization)最通俗的理解就是对存储硬件资源进行抽象表现。典型的虚拟包括如下一些情况:屏蔽系统的复杂性,增加或集成新的功能,仿真、整合或分解...
  • 根据国际标准组织(ISO)的定义:标准σ是方差σ2的正平方根;而方差是随机变量期望的二次偏差的期望,这个就不用解释了。 什么是标准误差(standard error)呢?看了些文献,有的还是大牛的,定义都不统一,...
  • 最小曼哈顿距离

    千次阅读 2019-07-07 18:10:30
    通过对离散和连续两种情况的考虑,我们可以得到结论:使上述公式取最小值的元素为中位,不过我们可以统一选择排序之后的第n/2+1个元素,奇偶如此。 最小高维曼哈顿距离 由于在高维曼哈顿距离中只有加法...
  • 转自:https://blog.csdn.net/capecape/article/details/78623897RMSERoot Mean Square Error,方根误差是观测值与真值偏差的平方和与观测次数m比值的平方根。是用来衡量观测值同真值之间的偏差...标准Standard ...
  • withassign流类的对象,代表标准输入设备键盘,也称为cin流或标准如流,后3个为ostream_withassign流类的对象,cout代表标准输出设备显示器,也成为cout或标准输出流,cerr和clog含义相同,代表错误信息输出设备...
  • # -*-coding:utf-8-*- import os import numpy as np from PIL import Image img_dir = '/disk2/xjt/data/saliency/pascalvoc-s/' number_of_picture = len(os.listdir(img_dir)) # 850 pictures ...
  • 计算机文化基础—计算机硬件系统

    千次阅读 2017-03-16 17:12:00
    第2章 计算机硬件系统 本章内容 ... 人类所使用的计算工具从简单到复杂、从低级到高级的发展过程中,相继出现了如算盘、计算尺、手摇机械计算机、电动机械计算机等。 1946年2月,世界上第一台数字电...
  • IEEE-754标准与浮点数运算

    万次阅读 多人点赞 2018-11-29 00:02:55
    阅读这篇文章之前,最好有关于有关于机器中的原码、反码、补码三种形式的一些概念。 计算机&quot;眼中&quot;的数字 计算机内数据和指令都是由晶体管和门电路等元件完成的,对于这些元件来说,开或者关是...
  • 前五篇文章讲解了神经网络基础概念、Theano库的安装过程及基础用法、theano实现回归神经网络、theano实现分类神经网络、theano正规处理,这篇文章讲解神经网络的评价指标、特征标准和特征选择,是基础性知识。...
  • 科普文章-另一个视角解读计算机编码(修订版)

    万次阅读 多人点赞 2017-06-17 17:59:55
    有了这个形象的概念之后,下面看一下加法的实质,一个 x 在圆环上,另一个 y 肯定也在圆环上, x+y 的计算过程则是维持 x 不变,将 00000000 到 y 的这一段圆弧ar摘下来,拼接到 x 处,最终的ar的终点处的编码...
  • LPCM,即线性脉冲编码调制,是一种非压缩音频数字技术,是一种未压缩的原音重现,在普通CD、DVD及其他各种要求最高音频质量的场合中已经得到广泛的应用。 各种应用场合中的LPCM(PCM)原理是一样的,区别在于采样...
  • 统计学知识——标准与标准误差

    千次阅读 2018-04-27 18:59:05
    根据国际标准组织(ISO)的定义:标准σ是方差σ2的正平方根;而方差是随机变量期望的二次偏差的期望,这个就不用解释了。 什么是标准误差(standard error)呢?看了些文献,有的还是大牛的,定义都不统一,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 56,133
精华内容 22,453
关键字:

如何计算标化均数差