-
2017-11-17 15:06:09
简介:
意义:数据中心化和标准化在回归分析中是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。
原理:数据标准化:是指数值减去均值,再除以标准差;
数据中心化:是指变量减去它的均值。
目的:通过中心化和标准化处理,得到均值为0,标准差为1的服从标准正态分布的数据。在回归问题和一些机器学习算法中,以及训练神经网络的过程中,还有PCA等通常需要对原始数据进行中心化(Zero-centered或者Mean-subtraction)处理和标准化(Standardization或Normalization)处理。
- 目的:通过中心化和标准化处理,得到均值为0,标准差为1的服从标准正态分布的数据。计算过程由下式表示: x′=x−μσ
- 原因:在一些实际问题中,我们得到的样本数据都是多个维度的,即一个样本是用多个特征来表征的。很显然,这些特征的量纲和数值得量级都是不一样的,而通过标准化处理,可以使得不同的特征具有相同的尺度(Scale)。这样,在学习参数的时候,不同特征对参数的影响程度就一样了。简言之,当原始数据不同维度上的特征的尺度(单位)不一致时,需要标准化步骤对数据进行预处理。
下图是二维的示例:
- 左图表示的是原始数据
- 中间的是中心化后的数据,可以看出就是一个平移的过程,平移后中心点是(0,0)。同时中心化后的数据对向量也容易描述,因为是以原点为基准的。
- 右图将中心化后的数据除以标准差,得到为标准化的数据,可以看出每个维度上的尺度是一致的(红色线段的长度表示尺度),而没有处理之前的数据是不同的尺度标准。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。
更多相关内容 -
一款真正可以操作的数据中心可视化管理软件
2021-12-22 10:54:52所有行业的工业组织都在生产和使用大量数据,因此需要数据中心来运行其业务,新冠疫情为数字化转型铺平了道路,数字能力将越来越成为经济弹性的晴雨表,能够在新冠疫情危机之后蓬勃发展的行业是那些能够完全数字化的...数据如今已成为当今全球数字经济的命脉,而数据中心正是这种数据涌入的支柱。随着我们数字世界中数据的扩散以惊人的速度加速,预计到2025年每年将产生超过175ZB的数据。世界已经发生了重大变化,我们开展业务的方式已经发生了变化,这种变化将继续加速。所有行业的工业组织都在生产和使用大量数据,因此需要数据中心来运行其业务,新冠疫情为数字化转型铺平了道路,数字能力将越来越成为经济弹性的晴雨表,能够在新冠疫情危机之后蓬勃发展的行业是那些能够完全数字化的行业。
为顺应大数据时代的潮流,必须进行数据中心运维管理的深度优化,为数据中心的整体发展提供新鲜的科技动力。通过提升运维管理人员各方面的能力还有利用先进的管理工具从而为数据中心的运维管理提供强大的人力支持和技术支持,助力大数据时代背景下,数据中心运维管理的长足发展。
那么Nvisual配线可视化运维管理平台到底是什么?有哪些功能?又能为用户带来哪些价值?接下来小编将逐一为大家介绍。
NVisual网络可视化运维管理平台的核心功能主要以下几点:
- 可视化记录
NVisual不仅能够记录机房、机柜以及各种IT设备的位置信息和资产信息,更重要的同时也是Nvisual配线可视化运维管理平台最具有优势和特色的地方就是还可以记录设备的端口占用情况,机房各类型线缆的使用情况,包括每一个设备端口和线缆的属性我们又叫它资产信息都可以无限的自定义扩展。
这个功能最大的意义是可以帮助企业管理者摸清家底,可以简单快捷的查看我们设备还有哪些端口可用,哪种线缆的使用量占比最大。疫情之后,各个单位都在提倡降本增效,个人认为,最大限度的优化使用现有资源本身就是降本的一种体现,那么在已经优化现有资源的基础上企业再去合理的扩展何尝不是降本增效的一种体现呢?
- 查询分析
1、设备对端查看
当一个机柜里面装的设备比较多的时候,线缆的数量就会更多,少则几十根,多则几百根,此时如果我们就想查看某个设备和与之相关联的设备有哪些的时候就可以把其他没关联的设备全部都隐藏掉。相比查看传统的EXCEL表要更加的直观和清晰,即使非技术人员也能一目了然的明白,而且当故障发生的时候方便运维管理人员查找分析故障原因。
2、基于线缆和设备端口的路由查看
通过某条线缆或者是某个设备的端口可以查看上下连接关系、从设备本端到终端中间经过了多少跳、经过了哪些设备的哪些端口、中间经过的这些设备分别位于什么位置等等。
3、IT设备物理拓扑分析我们可以把这个功能理解为在机房室内或者室外与某个指定设备有关联有关系的设备都有哪些,NVisual网络可视化运维管理平台会自动显示物理连接拓扑图,我们强调的是物理拓扑,相当于是对逻辑拓扑的补充。因为当故障已经发生了的时候,网管系统已经监测不到也起不到太大作用,这时候我们首先要做的是定位故障,查找故障原因,而这个时候可以在NVisual平台去查找和分析原因。
4、机柜容量分析
用不同的颜色代表机柜的不同容量,当新来业务的时候我们可以相应的往机架空间比较充足的地方去规划或者上架设备。
5、报表分析NVisual网络可视化运维管理平台自带标准报表、报表上的数据支持自定义,并且用户可以自主选择展示哪些数据或者隐藏哪些数据。
- 快速检索
通过线缆、设备、机柜、光缆等其中任何一个资产信息或者属性信息可以快速检索到设备或者线缆在整个机房中所在的位置以及上线连接关系,此功能在机房出现故障时可以节省运维人员排查故障时间,快速定位故障和判断故障所带来的直接或者间接影响。
- 附件上传
设备的配置文件、维修记录、验收图纸、检测报告等等一些比较重要的资料可以直接上传到具体某个设备上面,方便重要资料的保存和多年后依然能使用。
- 规划设计
1、创建设备端口连线
NVisual配线可视化运维管理平台与3D可视化和机房环控系统最大的区别在于可以直接在系统中创建设备之间端口连线,同时会自动生成工单,也就是说不仅仅支持所有类型设备的上下架操作而且还可以在系统中进行线缆端接。
2、标签编码自动化
NVisual网络可视化运维管理平台可以根据用户指定的规则自动生成线缆标签编码,不需要运维管理人员手动操作,生成线缆标签后可以直接在打印机上点击打印即可出标签,目前已经实现与各类型打印机对接,极大的减少了运维人员的工作量,提高运维整体工作效率。
3、智能链路规划
系统可以自动判断和推荐一条链路应该经过几跳、从本端到终端应该经过哪些设备的哪些端口、最短路径或者说最优路径是什么、这个功能让运维人员理线更加方便,从而使机柜看起来更加美观。同时NVisual平台还可以自动测量出线缆的长度,根据这个功能运维人员就可以快速下单采购,不用担心采购的线缆与实际应用不符的问题,预端接产品众所周知价格贵并且都是定制化产品,一旦下单厂商正常情况下是不退不换的,如果长度定错了会影响施工进度并且增加项目成本。
采用NVisual网络可视化运维管理平台进行规划,系统可以依据标准自动选择线缆类型,对于超过接口标准支持最大传输距离的链路主动提示报错。
- 自动化工单
NVisual网络可视化运维管理平台可以自动生成设备上下架工单与标签打印工单,自带简单工作流程,对于设备数量较少的单位单独使用NVisua系统也可以完成闭环工作流。然也可以与用户现有流程系统对接,在运维人员原来使用习惯基础上微调一些工作流程。
- 状态监测
NNVisual网络可视化运维管理平台通过网络协议可以实现对设备状态、端口状态以及端口流量等监测,实时跟踪物理层连接的所有变更,对未授权或者计划外的变更发出警告,对关键链路出现变更时也可以发出警告,核心目的是提高系统安全可靠性,提高运维工作效率、减少企业财产损失。
- 建立业务与资源分配映射
增值服务在数据中心业务中的占比不断提高,高端增值服务逐渐成为数据中心服务商的核心竞争力。如果是企业自建数据中心管理者需要了解内部每项业务各自占用了多少基础设施资源,每年的创收是多少,方便管理者做企业成本分析,管理者只有重视了企业基础设施资源以及资源的合理分配才能够让这些资源发挥更大的价值,从而达到降本增效。如果是IDC那么就更需要了解每一个客户租用了自己多少基础设施资源,各项业务什么时候服务到期,如何收费更合理,针对零零散散的小客户可能有时候只是租用了几个设备或者端口,如果没有更精细化的系统来管理很有可能服务到期管理者并不知道,长期以往造成了经济损失。
NVisual网络可视化运维管理平台核心价值主要有以下几点:
- 通过操作行为审计提高系统安全可靠性;
- 现有资源最大限度优化使用基础上再去合理扩展提高资源利用率;
- 智能工单自动化标签等提高工作效率、智能统计分析、线上规划线下实施自动生成工单和标签减少人为工作量。
更多NVisual网络可视化平台功能介绍,请点击链接进入Nvisual产品官方网站
-
机器学习:样本去中心化目的
2018-11-09 11:12:56在回归问题和一些机器学习算法中,以及训练...目的:通过中心化和标准化处理,得到均值为0,标准差为1的服从标准正态分布的数据。 计算过程由下式表示: 下面解释一下为什么需要使用这些数据预处理步骤。 在一些实...在回归问题和一些机器学习算法中,以及训练神经网络的过程中,通常需要对原始数据进行中心化(Zero-centered或者Mean-subtraction)处理和标准化(Standardization或Normalization)处理。
- 目的:通过中心化和标准化处理,得到均值为0,标准差为1的服从标准正态分布的数据。
- 计算过程由下式表示:
- 下面解释一下为什么需要使用这些数据预处理步骤。
在一些实际问题中,我们得到的样本数据都是多个维度的,即一个样本是用多个特征来表征的。比如在预测房价的问题中,影响房价
的因素有房子面积
、卧室数量
等,我们得到的样本数据就是
这样一些样本点,这里的
、
又被称为特征。很显然,这些特征的量纲和数值得量级都是不一样的,在预测房价时,如果直接使用原始的数据值,那么他们对房价的影响程度将是不一样的,而通过标准化处理,可以使得不同的特征具有相同的尺度(Scale)。这样,在使用梯度下降法学习参数的时候,不同特征对参数的影响程度就一样了。
- 简言之,当原始数据不同维度上的特征的尺度(单位)不一致时,需要标准化步骤对数据进行预处理。
- 下图中以二维数据为例:左图表示的是原始数据;中间的是中心化后的数据,数据被移动大原点周围;右图将中心化后的数据除以标准差,得到为标准化的数据,可以看出每个维度上的尺度是一致的(红色线段的长度表示尺度)。
其实,在不同的问题中,中心化和标准化有着不同的意义,- 比如在训练神经网络的过程中,通过将数据标准化,能够加速权重参数的收敛。
- 另外,对于主成分分析(PCA)问题,也需要对数据进行中心化和标准化等预处理步骤
作者:Spark
链接:https://www.zhihu.com/question/37069477/answer/132387124
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 -
中心化(又叫零均值化)和标准化(又叫归一化)概念及目的?
2020-10-30 15:36:45一、中心化(又叫零均值化)和标准化(又叫归一化)概念及目的? 1、在回归问题和一些机器学习算法中,以及训练神经网络的过程中,通常需要对原始数据进行中心化(Zero-centered或者Mean-subtraction(subtraction...一、中心化(又叫零均值化)和标准化(又叫归一化)概念及目的?
1、在回归问题和一些机器学习算法中,以及训练神经网络的过程中,通常需要对原始数据进行中心化(Zero-centered或者Mean-subtraction(subtraction表示减去))处理和标准化(Standardization或Normalization)处理
数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。
意义:数据中心化和标准化在回归分析中是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。 原理:数据标准化:是指数值减去均值,再除以标准差;
数据中心化:是指变量减去它的均值。
目的:通过中心化和标准化处理,得到均值为0,标准差为1的服从标准正态分布的数据。
2、(1)中心化(零均值化)后的数据均值为零
(2)z-score 标准化后的数据均值为0,标准差为1(方差也为1)
三、下面解释一下为什么需要使用这些数据预处理步骤。
在一些实际问题中,我们得到的样本数据都是多个维度的,即一个样本是用多个特征来表征的。比如在预测房价的问题中,影响房价的因素有房子面积、卧室数量等,我们得到的样本数据就是这样一些样本点,这里的、又被称为特征。很显然,这些特征的量纲和数值得量级都是不一样的,在预测房价时,如果直接使用原始的数据值,那么他们对房价的影响程度将是不一样的,而通过标准化处理,可以使得不同的特征具有相同的尺度(Scale)。简言之,当原始数据不同维度上的特征的尺度(单位)不一致时,需要标准化步骤对数据进行预处理。
下图中以二维数据为例:左图表示的是原始数据;中间的是中心化后的数据,数据被移动大原点周围;右图将中心化后的数据除以标准差,得到为标准化的数据,可以看出每个维度上的尺度是一致的(红色线段的长度表示尺度)。
其实,在不同的问题中,中心化和标准化有着不同的意义,比如在训练神经网络的过程中,通过将数据标准化,能够加速权重参数的收敛。
· 对数据进行中心化预处理,这样做的目的是要增加基向量的正交性。
两个优点:
1)归一化后加快了梯度下降求最优解的速度;
2)归一化有可能提高精度。
1、 归一化为什么能提高梯度下降法求解最优解的速度?
如下图所示,蓝色的圈圈图代表的是两个特征的等高线。其中左图两个特征X1和X2的区间相差非常大,X1区间是[0,2000],X2区间是 [1,5],其所形成的等高线非常尖。当使用梯度下降法寻求最优解时,很有可能走“之字型”路线(垂直等高线走),从而导致需要迭代很多次才能收敛;而右图对两个原始特征进行了归一化,其对应的等高线显得很圆,在梯度下降进行求解时能较快的收敛。因此如果机器学习模型使用梯度下降法求最优解时,归一化往往非常有必要,否则很难收敛甚至不能收敛。
注:等高线是相同目标函数值的线,即用一个平行于自变量平面的面去截取曲面得到交线,此交线即为等高线。
2、归一化有可能提高精度一些分类器需要计算样本之间的距离(如欧氏距离),例如KNN。如果一个特征值域范围非常大,那么距离计算就主要取决于这个特征,从而与实际情况相悖(比如这时实际情况是值域范围小的特征更重要)。
3、以下是两种常用的归一化方法:
1)min-max标准化(Min-MaxNormalization)
也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0 - 1]之间。转换函数如下:其中max为样本数据的最大值,min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。
2)Z-score标准化(0-1标准化)方法
这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1。转化函数为:
其中μ为所有样本数据的均值,σ为所有样本数据的标准差。
五、中心化(以PCA为例)
下面两幅图是数据做中心化(centering)前后的对比,可以看到其实就是一个平移的过程,平移后所有数据的中心是(0,0).在做PCA的时候,我们需要找出矩阵的特征向量,也就是主成分(PC)。比如说找到的第一个特征向量是a = [1, 2],a在坐标平面上就是从原点出发到点 (1,2)的一个向量。
如果没有对数据做中心化,那算出来的第一主成分的方向可能就不是一个可以“描述”(或者说“概括”)数据的方向了。还是看图比较清楚。
黑色线就是第一主成分的方向。只有中心化数据之后,计算得到的方向才2能比较好的“概括”原来的数据。
-
数据预处理之中心化(零均值化)与标准化(归一化)
2020-12-02 22:37:05在机器学习回归问题,以及训练神经网络过程中,通常需要对原始数据进行中心化(零均值化)与标准化(归一化)处理。背景在数据挖掘数据处理过程中,不同评价指标往往具有不同的量纲...目的通过中心化和标准化处理,最终... -
数据的中心化,标准化及意义
2019-07-17 19:25:02在机器学习回归问题,以及训练神经网络过程中,通常需要对原始数据进行中心化(零均值化)与标准化(归一化)预处理。 目的 通过中心化和标准化处理,最终得到均值为0,标准差为1的服从标准正态分布的数据。 在多... -
深度学习中的数据预处理之中心化(零均值化)与标准化(归一化)
2019-04-30 15:56:41目的:通过中心化和标准化处理,最终得到均值为0,标准差为1的服从标准正态分布的数据。 原理: 中心化(又叫零均值化):是指变量减去它的均值。其实就是一个平移的过程,平移后所有数据的中心是(0,0)。 ... -
“双碳政策”下关于数据中心网络可视化管理的一些思考
2022-03-11 16:00:16nVisual通过统一的数据模型对信息通信基础设施资源与关联关系进行流程化、精细化、规范化、智能化、可视化的管理,帮助组织轻松的管理复杂的信息通信基础设施,从而达到资源的可视化、管理的精细化、运用的高效化和... -
r语言怎么将数据标准化和中心化
2017-02-27 13:53:55#r语言中怎么做中心化和标准化。...#数据中心化: scale(data,center=T,scale=F) #数据标准化: scale(data,center=T,scale=T) 或默认参数scale(data) scale方法中的两个参数center和scale -
为什么要对数据做中心化和标准化处理?
2018-11-05 13:40:32在回归问题和一些机器学习算法中,以及训练神经网络的过程中,通常需要对原始数据进行中心化(Zero-centered 或者 Mean-subtraction)处理和标准化(Standardization 或者 Normalization)处理。 1.矩阵中心化 矩阵... -
数据预处理之中心化和归一化
2020-10-21 09:47:49在机器学习中为了解决分类和回归问题,通常需要对原始数据进行中心化与标准化处理。 1.背景 在数据挖掘和数据处理过程中,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除... -
数据的中心化(零均值化)和标准化(归一化)
2019-09-06 14:50:52一、中心化(又叫零均值化)和标准化(又叫归一化)概念及目的? 1、在回归问题和一些机器学习算法中,以及训练神经网络的过程中,通常需要对原始数据进行中心化(Zero-centered或者Mean-subtraction(subtraction... -
数据的中心化和标准化处理
2018-09-16 19:08:371.意义:数据中心化和标准化在回归分析中是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。 注解: 单位具有实际的物理意义,而量纲则不一定。比如说焦耳,表示能量,具有实际物理意义就是单位(同时也... -
一个去中心化的数据中心操作系统模型
2019-01-11 23:11:523.一个去中心化的数据中心操作系统模型 3.1定义和概念 3.2要求 3.2.1效率要求 3.2.2安全要求 3.2.3其他要求 3.3分布式对象 3.4资源命名 3.5资源管理 3.6永久存储 3.7并发访问 3.8总结 前言 本文是Malte... -
数据中心能耗结构、PUE、WUE
2021-12-31 00:00:22数据中心能耗结构 数据中心一般由所在地电网或专用的发电设施提供电力供应,经过变、配电等环节处理后,为数据中心的用电设备提供电源。目前,数据中心耗电量占全球耗电总量的1%。2011年,美国... -
数据的中心化、标准化和归一化
2018-03-29 15:13:38意义:数据中心化和标准化在回归分析中是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。 原理:数据标准化:是指数值减去均值,再除以标准差; 数据中心化:是指变量减去它的均值。 目的:... -
样本数据的真实值为什么需要做中心化处理
2019-11-18 08:27:18假设下面的七个点是原始数据, 不做中心化需要用 一维的线性回归:y=kx+b 拟合得到红线,红线更容易被一些离群点影响,而产生偏差,而绿线更稳定一些...基于以上几点对样本数据做中心化效果会更好,那去中心化 到底... -
为何对数据进行“中心化、归一化”处理
2019-02-15 10:32:49来自知乎回答: ...1、神经网络中,将原始数据进行去中心、归一化这样的标准化处理,(归一化)使得不同的特征具有相同的尺度(量纲),即消除特征之间的差异...(去中心化)增加基向量的正交性。 2、使用PCA时,一般只... -
数据预处理-中心化和标准化
2018-07-13 14:45:16一、中心化(又叫零均值化)和标准化(又叫归一化)概念及目的?1、在回归问题和一些机器学习算法中,以及训练神经网络的过程中,通常需要对原始数据进行中心化(Zero-centered或者Mean-subtraction(subtraction... -
虚拟机、集群、数据中心虚拟化
2018-06-09 23:13:381、虚拟机的实现层次虚拟化技术通过在同一个硬件主机上多路复用虚拟机的方式来共享昂贵的硬件资源,虚拟化的基本思想是分离软硬件以产生更好的系统性能 VMM代表虚拟机监视器1、1虚拟化实现层次1、1、1指令集体系... -
为什么深度学习 数据需要做中心化和标准化处理?
2020-04-05 18:01:52在回归问题和一些机器学习算法中,...目的:通过中心化和标准化处理,得到均值为0,标准差为1的服从标准正态分布的数据。 计算过程由下式表示: 下面解释一下为什么需要使用这些数据预处理步骤。 在一些实际问题... -
数据中心的安全现状是什么,数据中心主要存在哪些安全缺陷?
2019-04-11 11:59:21一、数据中心的安全现状 数据中心是现代社会的信息资源库,能够...在少数别有用心的人眼中,数据中心保存的各种关键数据是无价之宝,在经济利益或其他特定目的的驱使下,这些人会利用种种手段对数据中心发动攻击或... -
传统数据中心网络架构基本情况
2022-03-26 14:12:53在分析云数据中心网络架构之前,还是要先充分了解一下传统数据中心。否则,脱离实际去谈,可能会存在捡了芝麻丢了西瓜的情况。因此,结合自己对于运营商数据中心的学习理解,先对传统模式下数据中心网络架构究竟是... -
H3C数据中心虚拟化解决方案技术白皮书
2016-05-25 16:23:57缩略语清单:缩略语英文全名中文解释IDCInternet Data Center互联网数据中心VRFVirtual Router Forwarding虚拟路由器转发SMPSymmetrical Multi-Processing对称多处理SNIAStorage Networking Industry Association... -
数据处理中的归一化、标准化(Standardization)、中心化和正则化(Normalization)区别详解
2019-09-21 15:18:12利用数据集对机器学习或深度学习模型进行训练前要对数据进行预处理,除了数据清洗(如处理数据缺失、数据异常等问题),还有一类数据预处理的方法经常用到,即数据的归一化、标准化和正则化等。作者在浏览了大量网上... -
数据匿名化
2022-03-11 16:02:11数据安全和个人隐私合规 -
DID去中心化身份认证技术调研
2022-01-22 10:08:34(1)中心化身份:中心化身份是由单一的权威机构进行管理和控制的,现在互联网上的大多数身份还是中心化身份,比如ICANN管理的域名与IP地址分配,以及PKI(Public Key Infrastructure)系统中的CA(Cert