精华内容
参与话题
问答
  • ISO9001:2015正式版标准下载 中文版

    热门讨论 2015-10-26 19:34:34
    ISO9001:2015正式版标准,iso90012015版标准于9月发布,这里是中文翻译版,最新的国标还在翻译中,iso9001最新 标准下载 正式版标准,本标准仅供参考!
  • 三种常用数据标准化方法

    万次阅读 多人点赞 2017-04-15 17:42:41
    引入 评价是现代社会各领域的一项经常性的工作,是科学做出管理决策的重要依据。随着人们研究领域的不断扩大,所面临的评价对象日趋复杂,如果仅依据单一指标对事物进行评价往往不尽合理,必须全面地从整体的角度...

    引入

    评价是现代社会各领域的一项经常性的工作,是科学做出管理决策的重要依据。随着人们研究领域的不断扩大,所面临的评价对象日趋复杂,如果仅依据单一指标对事物进行评价往往不尽合理,必须全面地从整体的角度考虑问题,多指标综合评价方法应运而生。所谓多指标综合评价方法,就是把描述评价对象不同方面的多个指标的信息综合起来,并得到一个综合指标,由此对评价对象做一个整体上的评判,并进行横向或纵向比较。

    而在多指标评价体系中,由于各评价指标的性质不同,通常具有不同的量纲和数量级。当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。因此,为了保证结果的可靠性,需要对原始指标数据进行标准化处理。

    目前数据标准化方法有多种,归结起来可以分为直线型方法(如极值法、标准差法)、折线型方法(如三折线法)、曲线型方法(如半正态性分布)。不同的标准化方法,对系统的评价结果会产生不同的影响,然而不幸的是,在数据标准化方法的选择上,还没有通用的法则可以遵循

    常见的方法有:min-max标准化(Min-max normalization),log函数转换,atan函数转换,z-score标准化(zero-mena normalization,此方法最为常用),模糊量化法。本文只介绍min-max法(规范化方法),z-score法(正规化方法),比例法(名字叫啥不太清楚,归一化方法)。

     

    数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上,常见的数据归一化的方法有:min-max标准化(Min-maxnormalization)也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:其中max为样本数据的最大值,min为样本数据的最小值。这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。log函数转换通过以10为底的log函数转换的方法同样可以实现归一下,具体方法如下:看了下网上很多介绍都是x*=log10(x),其实是有问题的,这个结果并非一定落到[0,1]区间上,应该还要除以log10(max),max为样本数据最大值,并且所有的数据都要大于等于1。atan函数转换用反正切函数也可以实现数据的归一化:使用这个方法需要注意的是如果想映射的区间为[0,1],则数据都应该大于等于0,小于0的数据将被映射到[-1,0]区间上。而并非所有数据标准化的结果都映射到[0,1]区间上,其中最常见的标准化方法就是Z标准化,也是SPSS中最为常用的标准化方法:z-score 标准化(zero-meannormalization)也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为:其中μ为所有样本数据的均值,σ为所有样本数据的标准差。

     


    1 什么是数据标准化(Normalization

    将数据按比例缩放,使之落入一个小的特定区间。在某些比较评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值便于不同单位或量级的指标能够进行比较和加权

    2 有哪些常用方法呢?

    方法一:规范化方法

    pic1

    •  也叫离差标准化,是对原始数据的线性变换,使结果映射到[0,1]区间。

    方法二:正规化方法pic2

    • 这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将A的原始值x使用z-score标准化到x’。
    • z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。
    • spss默认的标准化方法就是z-score标准化。
    • 用Excel进行z-score标准化的方法:在Excel中没有现成的函数,需要自己分步计算,其实标准化的公式很简单。

    步骤如下:
    1.求出各变量(指标)的算术平均值(数学期望)xi和标准差si ;
    2.进行标准化处理:
    zij=(xij-xi)/si
    其中:zij为标准化后的变量值;xij为实际变量值。
    3.将逆指标前的正负号对调。
    标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。


    方法三:归一化方法

    pic3

    http://yuenshome.sinaapp.com/2014/08/三种常用数据标准化方法/

    展开全文
  • IEEE 802.11标准全部版本(无线局域网协议标准)

    千次下载 热门讨论 2009-05-19 14:20:32
    IEEE 802.11标准全部版本(无线局域网协议标准),这是俺在IEEE的官方网站上收集的哦。。。
  • ISO27001-2013-中文版本,属于标准类,有助于相关人员工作查阅
  • 标准

    2019-09-22 04:39:48
    https://www.w3.org/TR/html51/ https://www.w3.org/TR/html401/ https://www.w3.org/TR/CSS2/ 转载于:https://www.cnblogs.com/zyip/p/5281945.html

     

    https://www.w3.org/TR/html51/

     

    https://www.w3.org/TR/html401/

     

    https://www.w3.org/TR/CSS2/

    转载于:https://www.cnblogs.com/zyip/p/5281945.html

    展开全文
  • 中心化和标准

    千次阅读 2018-09-03 20:55:01
    1 为什么会谈到中心化和标准化呢? 因为在阅读《推荐系统》一书,学习“改进余弦相似度”和“Pearson”相关系数时,都谈到了减去均值(当然两者中用到的,是不同的均值)。这便是“中心化”,至于标准化,是在搜索...

    1 为什么会谈到中心化和标准化呢?

    因为在阅读《推荐系统》一书,学习“改进余弦相似度”和“Pearson”相关系数时,都谈到了减去均值(当然两者中用到的,是不同的均值)。这便是“中心化(Zero-centered或者Mean-subtraction(subtraction表示减去)),至于标准化(Standardization或Normalization),是在搜索中心化的内容附带学习的,以这种比较的方式拓展知识面,也是比较有效的。

    2 中心化和标准化是什么?—— 定义

    中心化
    根据侯杰泰的话:所谓中心化, 是指变量减去它的均值(即数学期望值)。对于样本数据,将一个变量的每个观测值减去该变量的样本平均值,变换后的变量就是中心化的。[3]

    标准化
    数值减去均值,再除以标准差

    处理结果
    (1)中心化(零均值化)后的数据均值为零。
    (2)z-score 标准化后的数据均值为0,标准差为1(方差也为1)。

    3 为什么要提出中心化和标准化的方法?

    • 中心化
      1 变量单位 —— 统一单位
      在是为了统一单位,例如有数据集1, 2, 3, 6, 3,其均值为3,那么中心化之后的数据集为1-3,2-3,3-3,6-3,3-3,即:-2,-1,0,3,0。数据中心化是为了消除量纲对数据结构的影响,因为不同变量之间单位不一样,会造成各种统计量的偏误。
      2 模型构建 —— 多重共线
      中心化可以解决模型运行不稳定,最重要的是解决交互项变量和主变量之间的多重共线问题。[4]
      3 增加基向量的正交性
      举例分析
      以PCA为例说下中心化的作用。
      下面两幅图是数据做中心化(centering)前后的对比,可以看到其实就是一个平移的过程,平移后所有数据的中心是(0,0)。
      这里写图片描述
      在做PCA的时候,我们需要找出矩阵的特征向量,也就是主成分(PC)。比如说找到的第一个特征向量是a = [1, 2],a在坐标平面上就是从原点出发到点(1,2)的一个向量。如果没有对数据做中心化,那算出来的第一主成分的方向可能就不是一个可以“描述”(或者说“概括”)数据的方向了。还是看图比较清楚。
      这里写图片描述
      黑色线就是第一主成分的方向。只有中心化数据之后,计算得到的方向才能比较好的“概括”原来的数据。
    • 标准化
      数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。
      对数据进行标准化,消除特征之间的差异性,也便于一心一意学习权重
      举例分析
      在一些实际问题中,我们得到的样本数据都是多个维度的,即一个样本是用多个特征来表征的。比如在预测房价的问题中,影响房价的因素有房子面积、卧室数量等,我们得到的样本数据就是这样一些样本点,这里的样本点又被称为特征。很显然,这些特征的量纲和数值得量级都是不一样的,在预测房价时,如果直接使用原始的数据值,那么他们对房价的影响程度将是不一样的,而通过标准化处理,可以使得不同的特征具有相同的尺度(Scale)。简言之,当原始数据不同维度上的特征的尺度(单位)不一致时,需要标准化步骤对数据进行预处理。
      .
      下图中以二维数据为例:左图表示的是原始数据;中间的是中心化后的数据,数据被移动到原点周围;右图将中心化后的数据除以标准差,得到标准化后的数据,可以看出每个维度上的尺度是一致的(红色线段的长度表示尺度)。
      这里写图片描述
      图片解释:
    • 左图表示的是原始数据。
    • 中间的是中心化后的数据,可以看出就是一个平移的过程,平移后中心点是(0,0)。同时中心化后的数据对向量也容易描述,因为是以原点为基准的。
    • 右图将中心化后的数据除以标准差,得到为标准化的数据,可以看出每个维度上的尺度是一致的(红色线段的长度表示尺度,右图中的红色横线和竖线,两者长度相等),而没有处理之前的数据是不同的尺度标准。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。

    4 中心化和标准化的实际应用有哪些?

    理论研究:
    回归问题、一些机器学习算法,以及训练神经网络的过程中,通常需要对原始数据进行中心化处理和标准化处理。

    [1] 中心化和标准化_CSDN博客
    [2] 数据的中心化和标准化_CSDN博客
    [3] 怎样进行中心化处理_百度知道
    [4] 数据中心化处理的原因Stata专版经管之家(原人大经济论坛)
    [5] 统计学里面的中心化是什么意思知乎_百度知道
    [6] 数据什么时候需要中心化和标准化处理?- 知乎

    展开全文
  • 归一化化定义:归一化化就是要把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内。归一化的原因是什么那: 一是为了后面数据处理的方便,把不同量纲的东西放在同一量纲下比较,即把...特征标准

    1、归一化定义

    归一化化就是要把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内。归一化的原因是什么那?

    2、归一化原因

    一是,为了后面数据处理的方便,把不同量纲的东西放在同一量纲下比较,即把不同来源的数据统一到一个参考系下,这样比较起来才有意义。
    简单的举个例子:一张表有两个变量,一个是体重kg,一个是身高cm。假设一般情况下体重这个变量均值为60(kg),身高均值为170(cm)。1,这两个变量对应的单位不一样,同样是100,对于身高来说很矮,但对于体重来说已经是超重了。另外,单位越小,数值越大,对结果的影响也越大,譬如170cm=1700mm。 简单讲,归一化的目的是可以用数值来直接进行比较,如果不归一化由于变量特性不同,同样加10,代表的意义不一样。
    二是,保正程序运行时收敛加快,大部分模型归一化后收敛速度会加快。例如,下面的例子,房间数和面积数不在一个量纲上,面积数值太小,房间数太大,成椭圆状,按照梯度收敛速度会慢,理想的是数据类似圆圈的形状,经过有限几个步骤则收敛了。

    三是,要注意的是,有的模型在归一化之后会影响效果,有的模型则不会。对于归一化是否影响模型效果,主要看模型是否具有伸缩不变性。

    有些模型在各个维度进行不均匀伸缩后,最优解与原来不等价,例如SVM。对于这样的模型,除非本来各维数据的分布范围就比较接近,否则必须进行标准化,以免模型参数被分布范围较大或较小的数据dominate。
    有些模型在各个维度进行不均匀伸缩后,最优解与原来等价,例如标准的logistic regression 和linear regression(加正则项后,正则项可能不具备伸缩不变性),简单的树模型(各个节点各算个的切分点)。对于这样的模型,是否标准化理论上不会改变最优解。但是,由于实际求解往往使用迭代算法,如果目标函数的形状太“扁”,迭代算法可能收敛得很慢甚至不收敛。所以对于具有伸缩不变性的模型,最好也进行数据标准化。但SVM则必须进行归一化。同的模型对特征的分布假设是不一样的。比如SVM 用高斯核的时候,所有维度共用一个方差,这不就假设特征分布是圆的么,输入椭圆的就坑了人家。
    首先,对于gradient descent算法来说,learning rate的大小对其收敛速度至关重要。如果feature的scale不同,理论上不同的feature就需要设置不同的learning rate,但是gradient descent只有一个learning rate,这就导致不同feature的收敛效果不同,从而影响总体的收敛效果。所以在求解模型之前归一化不同feature的scale,可以有效提高gradient descent的收敛速度。

    除此之外,如果feature的scale相差很大,则会出现scale越大的feature,对模型的影响越大。比如对于multivariate regression, 极端情况下, 有一个特征的值特别特别大,其他特征的值都特别特别小,那么cost function就被这个特别大的特征主导,甚至退化为univariate。即feature scale相差很大,线性回归模型得优化结果也会受到影响。

    也需要注意的是,各维分别做归一化会丢失各维方差这一信息,但各维之间的相关系数可以保留

    三、标准化方法

    没有一种数据标准化的方法,放在每一个问题,放在每一个模型,都能提高算法精度和加速算法的收敛速度。
    是否应该做数据标准化,用哪种标准化的方法,更多的是源于一种经验和尝试。
    如果你长期做某个行业的某几类数据挖掘需求,自然知道选用哪种算法好,用什么标准化方法更优。这需要时间的积累,需要对数据挖掘的热情来支撑。
    当然,也可以先做个较为合理的抽样(更倾向于分层抽样),比较不做数据标准化和做了数据标准化的效果,比较不同数据标准化方法之间的效果。毕竟数据总是多种多样,如果企业BI做得好,数据质量本身就高了,那其实可以偷一下懒的。反之,就多下功夫做好数据与处理,把数据打磨好了再放进模型里。方法有如下:
    1、线性函数转换,表达式如下:
      y=(x-MinValue)/(MaxValue-MinValue)
      说明:x、y分别为转换前、后的值,MaxValue、MinValue分 别为样本的最大值和最小值。
      2、对数函数转换,表达式如下:
      y=log10(x)
      说明:以10为底的对数函数转换。
      3、反余切函数转换,表达式如下:
      y=atan(x)*2/PI
      4、式(1)将输入值换算为[-1,1]区间的值,在输出层用式(2)换算回初始值,其中 和分别表示训练样本集中负荷的最大值和最小值。
      在统计学中,归一化的具体作用是归纳统一样本的统计分布性。归一化在0-1之间是统计的概率分布,归一化在-1--+1之间是统计的坐标分布。
    方法很多,min-max,z-score,p范数等

    参考:
    http://www.zhihu.com/question/37129350/answer/70640800
    http://www.zhihu.com/question/30038463/answer/50491149
    http://www.zhihu.com/question/30038463/answer/74894932
    https://www.zhihu.com/question/20455227/answer/25237171




    展开全文
  • 数据标准化/归一化normalization

    万次阅读 多人点赞 2016-08-19 09:42:40
    连续型特征还有一种处理方式是,先分桶/分箱(如等频/等距的分)[待写]进行离散后再使用离散数据的处理方法。 离散数据处理参考[数据预处理:独热编码(One-Hot Encoding)]。 基础知识参考: [均值、方差与...
  • 数据标准化

    千次阅读 2015-06-13 17:07:53
    不同数据往往具有不同的量纲,会影响到数据分析的结果,为了消除数据之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比...
  • 一、数据标准化(归一化) 首先,数据标准化处理主要包括数据同趋化处理(中心化处理)和无量纲化处理。同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑...
  • 数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果。为了消除指标(特征)之间的量纲影响,数据集需要进行数据标准化处理,以解决...
  • python数据预处理 :数据标准化

    万次阅读 2018-11-25 17:14:41
    在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化...
  • Python3实现常用数据标准化方法

    万次阅读 多人点赞 2018-06-16 12:32:50
    常用数据标准化方法python实现 数据标准化是机器学习、数据挖掘中常用的一种方法。包括我自己在做深度学习方面的研究时,数据标准化是最基本的一个步骤。数据标准化主要是应对特征向量中数据很分散的情况,防止小...
  • 数据标准化处理方法

    千次阅读 2017-10-31 11:56:53
    数据标准化处理方法 在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个...
  • 数据标准化的方法与意义

    万次阅读 多人点赞 2017-07-01 16:28:54
    含义数据标准化和归一化存在区别 数据归一化是数据标准化的一种典型做法,即将数据统一映射到[0,1]区间上. 数据的标准化是指将数据按照比例缩放,使之落入一个特定的区间.意义 求解需要 比如在SVM中处理分类问题是...
  • 数据标准化
  • 数据标准化 Data Normalization

    万次阅读 2017-05-09 21:48:59
    很显然,这些特征的量纲和数值得量级都是不一样的,在预测房价时,如果直接使用原始的数据值,那么他们对房价的影响程度将是不一样的,而通过标准化处理,可以使得不同的特征具有相同的尺度(Scale)。
  • 一、标准化和归一化的区别归一化其实就是标准化的一种方式,只不过归一化是将数据映射到了[0,1]这个区间中。标准化则是将数据按照比例缩放,使之放到一个特定区间中。标准化后的数据的均值=0,标准差=1,因而标准...
  • 3.4.2数据标准化(一) - Z-Score标准化

    万次阅读 多人点赞 2018-05-14 18:05:25
    数据标准化中,常见的方法有如下三种:Z-Score 标准化最大最小标准化小数定标法本篇主要介绍第一种数据标准化的方法,Z-Score标准化。此方法在整个数据分析与挖掘体系中的位置如下图所示。Z-Score处理方法处于整个...
  • python中的数据标准化

    万次阅读 2017-10-14 21:32:46
    在python中进行数据标准化可以通过sklearn中的StandardScaler模块来实现。 1)模块的导入 我们可以通过下边的命令来导入StandardScaler模块   from sklearn.preprocessing import StandardScaler 2)常用...

空空如也

1 2 3 4 5 ... 20
收藏数 3,784,251
精华内容 1,513,700
关键字:

标准