精华内容
下载资源
问答
  • 一、简单描述意义:数据中心化和标准化在回归分析中是取消由于...二、中心化处理数据的中心化是指原数据减去该组数据的平均值,经过中心化处理后,原数据的坐标平移至中心点(0,0),该组数据的均值变为0,以此也被...

    一、简单描述

    1. 意义:数据中心化和标准化在回归分析中是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。

    2. 原理

      数据标准化:是指数值减去均值,再除以标准差;

      数据中心化:是指变量减去它的均值;

      归一化:把数变为(0,1)之间的小数。

    二、中心化处理

            数据的中心化是指原数据减去该组数据的平均值,经过中心化处理后,原数据的坐标平移至中心点(0,0),该组数据的均值变为0,以此也被称为零均值化。

            简单举例:譬如某小公司老板员工共5人,5人的工资,分别为12000、5000、8000、3000、4000元,这5个数据作为一个独立的数据集,平均值为6400元,每个人的工资依次减去平均水平6400,得到5600、-1400、1600、-3400、-2400,新的5个数据其平均值等于0,这个过程就是数据的中心化。

            下面详细讲解在SPSS中的操作步骤。

            第一步:在分析选择描述统计,接着选择描述

    dff4570e48bdaebf48e95d717aadabe0.png

            第二步:选择所要分析的变量,在选项中勾选平均值即可。

    280c0dfcdd251d55f5d1449fbcc0d71b.png

            输出得到每个变量的平均值如下

    444e94da9a74716d9c6aff26eb5b0e3d.png

            第三步:在工具栏区,在转换中选择计算变量

    a8884647458f15c7865dfb207fe9f7d9.png

            这里,我们第一个计算的是 授课水平这个变量,一开始先给中心化后的变量命名,接着选择变量,然后在输出的结果复制这个变量的平均值(建议直接复制过去),粘贴到数学表达式里面

    1b112279d8cf790cc4733f8edbb10b7d.png
    acab1580348762ba41dd03593e2d148d.png

            我们第二个计算的是对自己大学教育质量评价这个变量,步骤同第一个变量。

    575544fca9f4eb4662671b5ff368c53a.png
    44d49833425fc458b74368e2cfd7fa30.png

            最后,我们得到得到两个新的中心化处理的变量。

    a712541bdd7f72285ced384bad1788a7.png

            我们把这两个变量和新变量的描述性统计数据输出,查看它们的变化结果。

    625a9f9bb1dbb207fe0a5337eb4f7901.png

            我们可以发现,它们的最大值和最小值都发生了改变,并且新变量的均值均为0,这是因为新的两个变量都用变量中的每个值减去均值,所以均值为0,而且我们可以发现它们的标准差和方差都没有发生变化,说明这个数据的形态和分布情况是没有发生改变的,只是平均值进行了移动。

    d7911689bfdaa758d7778e902abb6e3c.png

    三、标准化处理

            大型数据分析项目中,数据来源不同,量纲及量纲单位不同,为了让它们具备可比性,需要采用标准化方法消除由此带来的偏差。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。这就是数据标准化。

            基本原理:数值减去平均值,再除以其标准差,得到均值为0,标准差为1的服从标准正态分布的数据。

            在SPSS中,使用最多的就是Z-score标准化(0-1标准化)方法,这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1。

            在SPSS的处理步骤如下:

            第一步:在分析中选择描述统计,接着选择描述

    b9c0bc9124c77d2045abdaa4d2b83702.png

            第二步:选择所要标准化的变量。在下面勾选将标准化值另存为变量(Z),点击确定。

    3d0e00c02c79c7c05a93c9b93351b69e.png

            我们可以在变量视图发现这个时候新增加了标准化后的三个变量。

    7a5437255741873d5506ea574828709d.png

    四、归一化处理

    归一化方法

    1. 把数变为(0,1)之间的小数 主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速

    2. 把有量纲表达式变为无量纲表达式 归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。

            归一化,也算是数据标准化方法之一。常见的计算公式如下,得到新数据范围在[0,1]之间,归一化由此得名。 

    f7a9aaff55fcc13f8c169f293c4096b3.png

            在SPSS的操作步骤如下:

            第一步:在分析选择描述统计,接着选择描述

    199f0aa53664429a1eb15871421da065.png

    第二步:选择变量和指定输出最大值和最小值。

    eaa9b9394c38aa0eb41a6124918ae75c.png

            第三步:在转换中选择计算变量

    62b5182421e1a989de0f3af06f22f35f.png

            接着在表达式中输入相应的计算公式

    0fc22a5b2414068609b15fc77f49dbeb.png

            可直接在输出窗口复制最大值和最小值。

    10a5efb1640c160b09340ddc9c0f6388.png

            我们可以在描述统计里面查看授课水平和归一化处理后变量的统计结果的区别。

    9b0d6e12925c859911f327c22f233721.png

            我们可以看到,归一化后,新数据范围在[0,1]之间。

    d54c2dee7abbf8c7c642e073003a7212.png

    五、参考资料

    • 什么是数据标准化、中心化、归一化?SPSS又如何实现?

      http://www.datasoldier.net/archives/505

    • 数据的中心化、标准化和归一化

      https://blog.csdn.net/si444555666777/article/details/79743151

    展开全文
  • 关于数据处理,很常见的一个方法就是“去量纲处理”,在大家数据处理中经常使用到数据的标准化处理,后边的主成分分析法,因子分析,聚类分析等,都会使用到数据归一化处理。,在此分享一下关于去量纲的一些方法。...

    关于数据处理,很常见的一个方法就是“去量纲处理”,在大家数据处理中经常使用到数据的标准化处理,后边的主成分分析法,因子分析,聚类分析等,都会使用到数据归一化处理。,在此分享一下关于去量纲的一些方法。希望能在建模路上帮助到大家,如果有什么错误也欢迎大家指正。

    在前边两节是介绍了背景知识,第三节是编的、方便大家理解的一个案例,前两节看的迷迷糊糊的没有关系,不要纠结,先把整篇文章看完。


    1

    方法介绍

    从名字上看常见的方法主要有:规范化方法、正规化方法 ( 标准化方法 ) 、归一化方法,不同处理方法各有各的优势及缺点。每一种方法各给出一种计算公式(还有其他的公式,不仅仅是只有这几个),大家体会一下它们之间的不同。

    1、规范化处理:

    80954cf2a10d75bb35b98a8b8ca92d75.png

    2、正规化处理:

    d7158e794b2c52ea7cc79fe03cfd5d1e.png

    3、归一化处理:

    754d313dd88e93d582ab47b71c763712.png

    规范化和归一化处理的特点非常明显,而正规化处理后的数据隐含了一些数理统计的知识:处理后的数据均值为 0 ,方差为 1 ,通过简单的计算大家都能得到,但是明显改变了数据之间的欧式距离,使用的时候需要分场合。

    关于归一化处理,有不同的两种解释:第一种解释是各个量归一化后的和为 1 ;第二种解释是归一化后的值在 0-1 之间。大家应该经常碰到的是第二种解释方法,但是在数理统计学上说,归到 0-1 之间叫做规范化(归到某个区间内,也可以归到除了 0-1 的其他区间),在满足规范化的基础上各个标准化后的和为 1 才叫归一化。大家还记得概率论中讲的归一化处理吧。但是在很多教程中的归一化处理就是简单的归到 0-1 之间,希望大家以后纠正过来,第二种解释是一种规范化处理。

    在这里强调一个点,「归一化」和「标准化」的区别,关于国外名词有很多翻译的并不是很好,直接看维基百科上的解释会更好,更加清晰。大家就直接看第三篇推文吧单独推文中介绍的比较详细。

    2

    变量类型划分

    (一个非常重要的思想)

    规范化的思想是归到 0-1 之间,不带正负号的。面对众多的变量,所要研究的目标与众多变量不可能都是正相关关系,有很多负相关或者其他类型的关系。但是我们希望所研究的目标与标准化处理后的指标呈现的都是正相关关系,。所以需要对变量类型进行划分。一般变量分成收益型、成本型、偏离型、区间型,下边分类型给出计算公式。

    1、收益型(原变量越大越好):

    9d984e62c87816a356877d0036974ad4.png

    2、成本型(原变量越小越好):

    5aa5279ad74a88ed14c5475f9da376cb.png

    3、偏离型(原变量越接近某个值越好)

    1f05d629f96146b1d1f8225cbc2c03cd.png

    4、区间型(原变量分区间):公式比较复杂,而且不常用,这里就不给出公式了。

    这一部分的公式在后边案例解释中仍会出现,后边的带着示例会更好理解,所以看到这里,就不要费太多时间研究了,一会可以再回来体会一下。

    3

    案例解释

    在自己的学习过程中,对标准化有一点认识,比起课本上的解释,我的理解方式更方便大家理解,就在这里耍一下斧。如果懂归一化的人可能会觉得我这个场景很傻批——多此一举;不懂标准化处理的人也会觉得我傻批——莫名其妙。但是我还是希望大家跟着我的思路,认真看一下啊,一定会有收获的。

    假设有这么一个场景:有这么三个地主,A B C,他们的资产构成如下

    0135515b589280b51ebdd3e6f031f1e7.png

    黄金:固定资产手里的钱。

    土地:作为地主家里的地,可以种粮食。

    交税:场景里的单位是“斗”,也就是直接交粮食。

    下雨天数:下雨天越接近100天,粮食成长的越好。

    哪个地主更有钱?

    在没有学会数据标准化处理之前,我的思路是这样——都转化成钱。黄金就不用说了,土地按照价格换成钱,交的税换成钱,下雨天数,造成粮食的减少,也换成钱。一目了然。但是这个转化存在很多的麻烦,而且这是一个比较简单的案例,在真实的建模中很多无法通过合适的中间量来表示,使用标准化的优势立马凸显出来。

    有了数据标准化,就有新的思路。上边的一通操作的原因是什么?最大的原因就是指标量纲,指标是有单位的,所以不能直接相加,黄金的万两和土地的公顷怎么能直接相加呢?如果我们能把单位去掉呢?把他们都转成没有单位的数,这样他们的相加就有意义了。

    1、对于黄金和土地(收益型):

    cefb07c69fd72bbe9737d0fee398d881.png

    xi 愈大,标准化后的 yi 也就越大,地主越有钱。

    2、对于交税(成本型),

    3c0f7c125c361451a7e071fb19dd2bce.png

    xi 愈小,标准化后的 yi 也就越大,地主越有钱。

    3、对于下雨天数(偏离型),

    31163c2e9955747b24b82a0e156b5760.png

    xi 愈接近 100 ,标准化后的 yi 也就越大,地主越有钱。

    通过以上的公式我们完成了一个任务,基于变量类型的分类,将它们都变成了标准化后值越大,地主越有钱的任务,这个工作是很有价值的,让它们与同一个目标(地主有钱)有了相同的关系(正相关)。

    根据以上的公式进行的规范化处理如下所示:

    ed5360087cb25cf74b226158fcfac238.png

    规范化结束后,应该是有几个问题的大家需要注意一下:

    1、算到这里,既然没有量纲了,可以直接相加吗?肯定是不可以的,虽然没有量纲了,他们的重要程度也是不一样的,俗话说的好,“盛世古董,乱世黄金”,在不同的是历史时刻价值都不一样,所以需要考虑实际情况进行分析,得到他们的权重,进而算得他们的得分情况,比如以线性为例:

    5fda72b0db4f2bbdab1c5b47473f3856.png

    2、计算出来的数据都是真实可靠的吗?方法是方法,但是是否使用,仍需要大家认真的思考。以下雨天数为例,80 天和 120 天规范化处理后成为零了,零的含义的绝产,可是 80 天和 120 天可能并不意味着绝产,这时候我们处理的方法就应该适当的进行转变了,可以这样:如果我们知道的粮食导致粮食绝产的下雨天,在上下限之间平均分配就就可以完成规范化的任务。ps:这也是我们需要认真学习建模原理的的道理,只有认真学了,才会在在需要进行适当发挥的时候有针对性的提出自己的想法。

    有什么问题可以后台私聊我,如果交流的比较多的话,我以后可以在文章后边呼唤一个留言小程序,方便大家交流。

    撰文 / 科研狗Doggy

    排版 / 科研狗Doggy

    -数学与物理-原创内容  转载请联系后台

    往期精彩回顾

    —————————————————————

    经验 | 过来人谈数学建模
    认知 | 时间也是巨大成本
    软件 | MATLAB2014a软件及安装教程

    ——————————————————————

    1d7c909f589b117b2e79d9352e643a47.png

    af0dd8e3606097760c7e3f5604169b28.png公众号ID:maths-physics*****************************************数学建模 || 物理学术竞赛

    软件安装 || 资料大礼包   

    数学、物理的历史  

    认知、逻辑的提升  

    数学与物理 伴你优秀起来
    展开全文
  • 欢迎关注”生信修炼手册”!... 反映到上图中,则对应的为IP样本中reads出现了峰值,比如下图红色标记的区域通过这种可视化的方式,可以直观的反映出peak区域的情况,但是在实际使用中需要注意归一化的问题。bi...

    欢迎关注”生信修炼手册”!

    在chip_seq数据展示时,经常会用到bigwig文件,导入igvtools等基因组浏览器中,产生如下所示的图片

    ae7c75f6c6657c41318299d13a81e5a1.png

    我们将IP样本相对Input样本中reads富集的区域定义为peak, 反映到上图中,则对应的为IP样本中reads出现了峰值,比如下图红色标记的区域

    63946598b11917d3e9db69a97887d340.png

    通过这种可视化的方式,可以直观的反映出peak区域的情况,但是在实际使用中需要注意归一化的问题。

    bigwig文件本质上展示的是测序深度的分布信息,而原始的测序深度是和测序的reads量呈正相关关系的,比如Input样本测序5G, IP样本测序10G, 在原始的测序深度看,会看到Input样本相比IP样本,其测序深度是偏高的。当然这个是一个极端的例子,但是很好的说明了测序量的差异对原始的测序深度会有直接的影响。

    为了消除样本间测序数据量差异的影响,很当然的我们想到了归一化,类似转录组中的定量策略,原始的测序深度就是raw count, 那么当然类似RPKM, CPM等归一化方式,对于bigwig文件而言,同样适用。

    在deeptools中,提供了多种归一化方式

    1. RPKM

    RPKM的公式如下

    RPKM (per bin) = number of reads per bin / (number of mapped reads (in millions) * bin length (kb))

    用法如下

    deeptools bamCoverage \
    -p 10 \
    --bam input.bam \
    --normalizeUsing RPKM \
    --outFileName rpkm.bigwig

    2. CPM

    CPM的公式如下

    CPM (per bin) = number of reads per bin / number of mapped reads (in millions)

    用法如下

    deeptools bamCoverage \
    -p 10 \
    --bam input.bam \
    --normalizeUsing CPM \
    --outFileName cpm.bigwig

    3. BPM

    BPM的公式如下

    BPM (per bin) = number of reads per bin / sum of all reads per bin (in millions)

    用法如下

    deeptools bamCoverage \
    -p 10 \
    --bam input.bam \
    --normalizeUsing BPM \
    --outFileName bpm.bigwig

    4. RPGC

    RPGC的公式如下

    RPGC (per bin) = number of reads per bin / scaling factor for 1x average coverage
    scaling factor = (total number of mapped reads * fragment length) / effective genome size

    用法如下

    deeptools bamCoverage \
    -p 10 \
    --bam input.bam \
    --normalizeUsing RPGC \
    --effectiveGenomeSize 2864785220 \
    --outFileName rpgc.bigwig

    对于同一个样本而言,导入igvtools中,几种归一化方式产生的bigwig文件和原始的bigwig文件的峰形是完全一样的 ,示意如下

    b139405a0240c41606417b351e1c51a9.png

    注意红色方框标记的纵轴的范围,可以看到不同方式,其纵轴范围不一样。

    归一化主要用于样本间的比较, 比如在比较Input和Ip两个样本时,就应该使用归一化之后的数据,以RPKM为例,导入之后可以看到如下所示的结果

    14ef2e91f0b8c248307c01e25e9a4200.png

    可以看到纵轴的范围是不一致的,为了更好的比较样本间的差异,我们需要把二者的纵轴范围调整成一致的,因为数据已经做了归一化处理,所以可以直接在同一范围内进行比较,设置成同一范围后,效果如下

    2464375fe192f14b898992c11dc9a389.png

    对于上述多种归一化方式,其实都是可以拿来在样本间比较的。在实际操作中,由于RPKM的概念最为经典,应用的也最为广泛。

    ·end·

    —如果喜欢,快分享给你的朋友们吧—

    扫描关注微信号,更多精彩内容等着你!

    8784db9dd41a5323711248ddf2e4e959.png

    展开全文
  • 作者:Microstrong0305链接:...(2) 标准化归一化和线性归一化的应用场景是什么。本文通过图形的方式解释了为什么归一化能够提高最优模型的收敛速度,以及通过方...

    作者:Microstrong0305

    链接:

    https://blog.csdn.net/program_developer/article/details/78637711

    编辑:石头

    前几天有网友咨询我关于归一化的两个问题:

    (1) 归一化是否能够提高最优模型的收敛速度。

    (2) 标准化归一化和线性归一化的应用场景是什么。

    本文通过图形的方式解释了为什么归一化能够提高最优模型的收敛速度,以及通过方差的角度去理解标准化归一化和线性归一化的应用场景问题。

    目录


    1. 背景

    2. 目的

    3. 归一化的优点

    4. 常用归一化方法的定义

    5. 归一化方法的应用场景

    5. 总结

    1. 背景

    6062bd63faf1a64b7e6329c3defde339.png

    从左至右来看,第一个模型是一个线性模型,拟合度很低,也称作欠拟合(Underfitting),不能很好地适应我们的训练集;第三个模型是一个高次方的模型,属于过度拟合,虽然能很好的适应我们的训练数据集,但是在新输入变量进行预测的时候,可能效果会很差。第二个模型可能是刚刚适合我们数据的模型。

    那么问题来了,如果我们发现这样过度拟合的情况,如何处理呢

    有两种方式:

    1). 丢弃一些不能帮助我们正确预测的特征。采用的方法如下:

        a). 手工选择保留哪些特征。

        b). 使用降维算法。(例如PCA等)

    2). 归一化处理

         保留所有的特征,但是减少参数的大小(或者说:减少参数的重要性)

    2. 目的

    不同的评价指标往往具有不同的量纲(例如:对于评价房价来说量纲指:面积、房价数、楼层等;对于预测某个人患病率来说量纲指:身高、体重等。)和量纲单位(例如:面积单位:平方米、平方厘米等;身高:米、厘米等),这样的情况会影响到数据分析的结果,为了消除指标之间量纲的影响,需要对数据进行归一化处理,以解决数据指标之间的可比性原始数据经过数据归一化处理后,各指标处于同一数量级,适合进行综合对比评价。

    3. 归一化方法的优点

    (1)归一化后加快了梯度下降法求最优解的速度。

    (2)归一化有可能提高精度(归一化是让不同维度之间的特征在数值上有一定的比较性)。

    解释:

    (1)加快梯度下降求解最优解的速度:

    例子:假定为了预测房子价格,自变量为面积,房间数两个,因变量为房价。

    那么可以得到的公式为:

    3d87570760e31b8579cf21926884f538.png

    首先我们给出两张图代表数据是否均一化的最优解寻解过程。

    未归一化:

    d462f6a73321636601402d7a984b2eb2.png

    归一化之后:

    57fa8c28d864eaaa486a780a65c65b27.png

    我们在寻找最优解的过程中也就是求使得损失函数值最小的theta1和theta2,上述两幅图代表的是损失函数的等高线。我们很容易看出,当数据没有归一化的时候,面积数的范围可以从0-1000,房间数的范围一般为0-10,可以看出面积数的取值范围远大于房间数。

    归一化和没有归一化的影响:

    数据没有归一化的损失函数表达式为:

    1cdca13d60df3bf0bc65ac27b90cc0e8.png

    造成图像的等高线为类似的椭圆形状,最优解的寻优过程如下图所示:

    3e395e801b220b120ca1721bb53ee006.png

    数据归一化后的损失函数表达式为:

    1b854260f9f048c6391b85f048d895fa.png

    其中系数3dbc68371b9b6a50a5038af34b3e6a25.png2f129703d92f781eabb920135f811739.png均处于[0,1]范围内,则图像的等高线为类似圆的形状,最优解的寻优过程如下图所示:

    adea80e2e2741f466821e0c7620aa8c4.png

    从上面可以看出,数据归一化后,最优解的寻优过程明显会变得平缓,更容易正确的收敛到最优解 。

    (2). 归一化有可能提高精度(归一化是让不同维度之间的特征在数值上有一定的比较性)

    解释:

    一些分类器需要计算样本之间的距离(如欧式距离)来描述相似度,比如KNN。如果一个特征值域范围非常大,那么距离计算就主要取决于这个特征,可能与实际情况不符  。

    4. 常用归一化方法的定义

    两种常用的归一化方法:

    (1) min-max标准化

    (2) Z-score标准化方法

    min-max标准化(Min-Max Normalization),也称线性函数归一化

    定义: 对原始数据进行线性变换,使数据结果映射到0-1之间。

    本质: 把数变为[0,1]之间的小数。

    转换函数: (X-Min)/(Max-Min)

    如果将数据映射到[-1,1]范围,则将转换公式写成 :                                    

    ec20bf67ef2ddb6078bae23941ffccc0.png

    其中max为样本数据的最大值,min为样本数据的最小值,Mean表示数据的均值。

    缺陷: 

    (1). 当有新数据加入时,可导致max和min的变化,需要重新定义。

    (2). 若数据出现较大或较小的异常值,则该标准化方法存在较大的误差。

    0均值标准化(Z-score standardization)

    定义:通过原始数据的均值(mean)和标准差(standard deviation)进行标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1。

    本质:把有量纲表达式变成无量纲表达式。

    转换函数:(X-Mean)/(Standard deviation)

    其中,Mean为所有样本数据的均值。Standard deviation为所有样本数据的标准差。

    5. 归一化方法的使用场景

    (1). 在分类、聚类算法中,需要使用距离来度量相似性的时候或者使用PCA技术进行降维的时候,第二种方法(Z-score standardization)表现更好

    解释:第一种方法(线性变换后),其协方差产生了倍数值的缩放,因此这种方式无法消除量纲对方差、协方差的影响,对PCA分析影响巨大;同时,不同的量纲计算的距离也会不同。

    (2). 在不涉及距离度量、协方差计算、数据不符合正太分布的时候,可以使用第一种方法或其他归一化方法。比如图像处理中,将RGB图像转换为灰度图像后将其值限定在[0 255]的范围。

    第二种归一化方法对新的数据进行了方差归一化,这时候每个维度的量纲其实已经等价了,每个维度都服从均值为0、方差1的正态分布,在计算距离的时候,每个维度都是去量纲化的,避免了不同量纲的选取对距离计算产生的巨大影响。

    为什么在距离度量相似性和PCA中使用第二种方法(Z-score standardization)会更好呢?我们进行了以下的推导分析:

    归一化方法对方差、协方差的影响:

    假设我们数据为2个维度(X、Y),我们使用Z-score标准化进行计算,我们先不做方差归一化,只做0均值化为:

    73f797073c5063afdd19781ed81dd63a.png

    新数据的协方差为:

    bc5dedb8b69b0e1050ec89dab12c762d.png

    由于:

    e74e118efa2dd8fd3133fe86c34a6b2a.png

    因此:

    0a6bd95639823eacce49724e0b7ac322.png

    而原始数据协方差为 :

    02cfc16c84ef281549bd1e7e2cb0e9c6.png

    因此:

    499a52a838727315dfb3157c45b41eae.png

    做方差归一化后:

    db52764275f1b131389ad3924959e7aa.png

    方差归一化后的协方差为:

    3a33a1c70fdae2ff61b6cd44b0c32253.png

    由上式可知,方差归一化后的协方差也进行了类似求解相关系数的算法处理(可参考相关系数公式),相关系数取值范围在0到1之间,因此,方差归一化后的协方差也进行了类似的归一化处理。

    使用Min-Max标准化方法进行计算,为了方便分析,我们只对X维进行线性函数变换:

    e8d6e07513ac4ad1557794d604933e47.png

    计算协方差:

    e4550e406cd04f486639fa50ce06c14f.png

    (1)使用Max-Min标准化后,其协方差产生了倍数值得缩放,因此这种方式无法消除量纲对方差、协方差的影响,对PCA分析影响巨大;同时由于量纲的存在,使用不同的量纲,距离的计算结果会不同。

    (2)使用0均值标准化后,新数据进行了方差归一化,新数据样本的多维变量间进行了协方差归一化,因此在计算距离的时候,每个维度都是去量纲化的,避免了不同量纲的选取对距离的计算产生的巨大影响。

    6. 总结

    总的来说,在算法的后续计算中涉及距离度量(聚类分析)或者协方差分析(PCA、LDA等)且数据分布近似为正态分布,应当使用0均值化的归一方法,其它应用则根据具体情况选用合适的归一化方法。

    参考

    http://blog.csdn.net/yehui_qy/article/details/53787386

    http://blog.csdn.net/zbc1090549839/article/details/44103801

    知乎:处理数据时不进行归一化会有什么影响?归一化的作用是什么?什么时候需要归一化?有哪些归一化的方法? - 忆臻的回答 

    https://www.zhihu.com/question/20455227/answer/197897298

    http://blog.csdn.net/mysteryhaohao/article/details/51261300

    推荐阅读

    为什么要对数据进行归一化

    正态分布为什么常见

    机器学习算法文章目录汇总

    7d4dd187628c19c7bb6785d5405da33c.png

    展开全文
  • 特征预处理在scikit-learn中的模块是:sklearn.preprocessing对于不同的数据类型,有不同的处理方式,三种常见的数据类型:数值型类别型时间类型· 这里我们先看数值型的预处理:标准缩放:有两种常见方式,归一化和...
  • 数据分析过程中,在训练模型之前,需要对特征进行归一化处理,数据的归一化作用主要有两个:去掉量纲,使得指标之间具有可比性;将数据限制到一定区间,使得运算更为便捷。一般在使用梯度下降法求参数的时候,都会...
  • 在脑科学领域的研究中,我们往往需要对计算得到的结果数据(如fMRI中计算得到功能连接等指标)进行归一化(Normalization)处理。其实不止在脑科学领域,在其他领域也常常需要对结果数据进行归一化。对数据归一化的...
  • 数据的标准化、归一化在多指标评价体系中,由于各评价指标的性质不同,通常具有不同的量纲和数量级。当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对...
  • BN是由Google于2015年提出,这是一个深度神经网络训练的技巧,它不仅可以加快了模型的收敛...从字面意思看来Batch Normalization(简称BN)就是对每一批数据进行归一化,确实如此,对于训练中某一个batch的数据{x1,x...
  • 点击标题下「小小挖掘机」可快速关注连续特征离散化可以使模型更加稳健,比如当我们预测用户是否点击某个商品...连续特征经常是用户或者事物对应一些行为的统计值,常见的处理方法包括:归一化标准化离散化缺失值处...
  • 参考:树模型为什么是不能进行梯度下降​blog.csdn.net七月在线:树形结构为什么不需要归一化?​zhuanlan.zhihu.com概率模型不需要归一化,因为它们不关心变量的值,而是关心变量的分布和变量之间的条件概率,如...
  • 1.处理空值:空值是数据中任何行或列中缺失的值。空值出现的原因可能是没有记录或数据损坏。在python中,它们被标记为“Nan”。您可以通过运行以下代码来检查它data.isnull().sum()我们可以用该列的平均值或...
  • 数据归一化处理

    2019-04-30 09:25:01
    数据归一化处理公式:x=(x-min)/(max-min) 代码如下: public class AlgorithmService { /** * 数据归一化处理 * @param dataArray 需要处理的数据 * @param map 每列数据的最大值和最小值 * @return 返回...
  • 数据归一化处理 公式:(每个值-最小值)/(最大值-最小值) 数据归一化处理,不会改变数据原有的分布情况 模拟的数据集 data = [[-1,201],[-0.5,189],[0,199],[1,187],[1,200],[2,196]] data = pd.DataFrame(data...
  • 在机器学习过程中,对数据的处理过程中,常常需要对数据进行归一化处理,下面介绍(0, 1)标准化的方式,简单的说,其功能就是将预处理的数据的数值范围按一定关系“压缩”到(0,1)的范围类。通常(0, 1)标注化处理的...
  • 在机器学习过程中,对数据的处理过程中,常常需要对数据进行归一化处理,下面介绍(0, 1)标准化的方式,简单的说,其功能就是将预处理的数据的数值范围按一定关系“压缩”到(0,1)的范围类。通常(0, 1)标注化处理的...
  • 在机器学习过程中,对数据的处理过程中,常常需要对数据进行归一化处理,下面介绍(0, 1)标准化的方式,简单的说,其功能就是将预处理的数据的数值范围按一定关系“压缩”到(0,1)的范围类。通常(0, 1)标注化处理的...
  • 二:图像归一化处理

    千次阅读 2019-11-08 22:19:59
    二:图像归一化处理 图像归一化最常见的就是最大最小值归一化方法,公式如下: OpenCV中实现图像最大与最小值归一化的函数如下: normalize( src, // 表示输入图像, numpy类型 dst, // 表示归一化之后图像,...
  • 在机器学习中,经常需要对数据进行归一化处理。那么,为什么需要进行归一化处理呢,本文从寻找最优解这个角度解析。例子假定为预测房价的例子,自变量为面积,房间数两个,因变量为房价。那么可以得到的公式为: 其中...
  • 网上很多关于标准化和归一化的文章,不少是误人子弟的存在。这篇文字希望给大家讲清讲透这两个概念。一、标准化(standardization) 公式一般为:(X-mean)/std,其中mean是平均值,std是方差。从公式我们可以看出,...
  • 归一化概念 将不同范围的数值列进行归一化,映射到[0,1]区间 好处 更容易做数据横向对比,比如价格字段是几百到几千,增幅字段是0到100;同时机器学习模型学的更快性能更好 公式 代码示例 # 实现按照用户ID分组,...
  • 归一化处理数据组

    2018-12-14 17:04:23
    有时候需要将数据归一化到0-1之间,便于对比,可使用如下公式 A=rand(1,10) R=(A-min(A))./(max(A)-min(A))%源数据规化到0-1 有时需要将数据归一化到具体某一个区间范围内,可以使用如下公式。 minv=0.2; ...
  • 在机器学习过程中,对数据的处理过程中,常常需要对数据进行归一化处理,下面介绍(0, 1)标准化的方式,简单的说,其功能就是将预处理的数据的数值范围按一定关系“压缩”到(0,1)的范围类。通常(0, 1)标注化处理的...
  • 对矩阵进行归一化处理

    万次阅读 2018-07-08 16:42:01
    1. 对样本特征进行归一化处理,减少某一数值太大的特征对其他较小特征的影响将特征值的取值范围转化为0到1区间内。import numpy as np # 公式:newValue = (oldValue-min)/(max) group=np.array([ [1, 7, 3], [1, 3...
  • 归一化与标准化处理

    千次阅读 2015-10-29 10:56:24
    1, 归一化把数据经过处理后限制在想要的范围内,比如[0,1],有量纲表达式变为无量纲表达式,成为纯量。 一般采用最大-最小规范化对原始数据进行线性变换公式:X=(X−Xmin)/(Xmax−Xmin)X =(X-Xmin)/(Xmax-Xmin)...
  • ArcGIS中的归一化处理(normalized)

    千次阅读 2021-01-25 14:55:20
    在Spatial Analyst Tools→Overlay →Fuzzy membership(模糊隶属度)中Membership type(分类值)选择Linear(线性函数),即利用最大值、最小值公式实现栅格数据归一化处理
  • 在机器学习过程中,对数据的处理过程中,常常需要对数据进行归一化处理,下面介绍(0, 1)标准化的方式,简单的说,其功能就是将预处理的数据的数值范围按一定关系“压缩”到(0,1)的范围类。 通常(0, 1)标注...
  • python实现数据归一化处理的方式:(0,1)标准化

    万次阅读 多人点赞 2019-06-25 20:37:56
    在机器学习过程中,对数据的处理过程中,常常需要对数据进行归一化处理,下面介绍(0, 1)标准化的方式,简单的说,其功能就是将预处理的数据的数值范围按一定关系“压缩”到(0,1)的范围类。 通常(0, 1)标注...
  • 矩阵归一化处理原理和方法

    千次阅读 2019-12-05 22:37:53
    最近一直在学习机器学习和人工神经网络,总是设计矩阵的归一化处理,以达到无量纲的效果。一直是调用函数包,没有去研究其原理,今天遇到了问题,研究了下。这里说的矩阵归一化是两个层面的应用及其对应的处理方法,...

空空如也

空空如也

1 2 3 4 5 ... 16
收藏数 315
精华内容 126
关键字:

归一化处理公式