-
去量纲、数据归一化
2020-04-18 09:01:141、去量纲 指是去除数据单位之间的不统一,将数据统一变换为无单位(统一单位)的数据集,也可以作为指标的权重,进行后续的加权计算。 2、数据归一化 数据分标准化是将数据按比例缩放,使之落入一个小的特定区间...1、去量纲
指是去除数据单位之间的不统一,将数据统一变换为无单位(统一单位)的数据集,也可以作为指标的权重,进行后续的加权计算。
2、数据归一化
数据分标准化是将数据按比例缩放,使之落入一个小的特定区间,在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
A、对一维数据的缩放有如下定义:
0-1归一化(normalization):(Xi-Xmax)/(Xmax-Xmin)
标准化(standardization):(Xi-均值)/方差
B、0-1归一化和标准化的本质:缩放和平移。线性变化得性质:线性变化不会改变原始数据的数值排序
C、0-1归一化和标准化的区别:
0-1归一化的缩放时拍扁统一到区间(仅由极值决定);标准化的缩放是更加弹性和动态的,和整体样本的分布有很大的关系。
0-1归一化:缩放仅仅跟最大和最小值得差别有关(输出范围在0-1)
标准化:缩放和每个点都有关系,通过方差体现出来。与归一化对比,标准化中所有数据点都有贡献(通过均值和标准差造成影响)。(输出范围在负无穷到正无穷)
D、0-1归一化和标准化使用情况:
如果对输出数据结果范围有要求,用归一化;
如果数据较为稳定,不存在极端的最大最小值,用归一化;
如果数据存在异常值和较多噪音,用标准化,可以间接通过中心化避免异常值和极端值得影响。
E、归一化的好处:
提升模型的收敛速度;提升模型的精度
F、常见的数据归一化方法
0-1归一化;log函数转换(通过以10为底的log函数转化的方法实现归一化);atan函数转换(反正切函数)
————————————————
版权声明:本文为CSDN博主「努力努力MT」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/ab19920904/article/details/80093549 -
数据质量管理_第二篇 去量纲、数据归一化
2018-04-26 15:10:141、去量纲指是去除数据单位之间的不统一,将数据统一变换为无单位(统一单位)的数据集,也可以作为指标的权重,进行后续的加权计算。2、数据归一化数据分标准化是将数据按比例缩放,使之落入一个小的特定区间,在...1、去量纲
指是去除数据单位之间的不统一,将数据统一变换为无单位(统一单位)的数据集,也可以作为指标的权重,进行后续的加权计算。
2、数据归一化
数据分标准化是将数据按比例缩放,使之落入一个小的特定区间,在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
A、对一维数据的缩放有如下定义:
0-1归一化(normalization):(Xi-Xmax)/(Xmax-Xmin)
标准化(standardization):(Xi-均值)/方差
B、0-1归一化和标准化的本质:缩放和平移。线性变化得性质:线性变化不会改变原始数据的数值排序
C、0-1归一化和标准化的区别:
0-1归一化的缩放时拍扁统一到区间(仅由极值决定);标准化的缩放是更加弹性和动态的,和整体样本的分布有很大的关系。
0-1归一化:缩放仅仅跟最大和最小值得差别有关(输出范围在0-1)
标准化:缩放和每个点都有关系,通过方差体现出来。与归一化对比,标准化中所有数据点都有贡献(通过均值和标准差造成影响)。(输出范围在负无穷到正无穷)
D、0-1归一化和标准化使用情况:
如果对输出数据结果范围有要求,用归一化;
如果数据较为稳定,不存在极端的最大最小值,用归一化;
如果数据存在异常值和较多噪音,用标准化,可以间接通过中心化避免异常值和极端值得影响。
E、归一化的好处:
提升模型的收敛速度;提升模型的精度
F、常见的数据归一化方法
0-1归一化;log函数转换(通过以10为底的log函数转化的方法实现归一化);atan函数转换(反正切函数)
-
机器学习(4)-去量纲:归一化、标准化
2020-02-03 16:20:14去量纲:归一化、标准化1.归一化(Normalization)1.1 Min-Max Normalization1.2 非线性Normalization2.标准化(Standardlization)2.1 Z-score Normalization3.标准化在梯度下降算法中的重要性 本系列博文为葫芦书《百...去量纲:归一化、标准化
本博文为葫芦书《百面机器学习》阅读笔记。去量纲化 可以消除特征之间量纲的影响,将所有特征统一到一个大致相同的数值区间内;以便不同量级的指标能够进行比较和加权处理。
去量纲化的好处:
(1).使得不同量纲之间的特征具有可比性,消除量纲引起的特征数值量级对分析结果的影响;(2).未归一化的特征数值太大,将引起数值计算问题;
(3).利用梯度下降算法求解的模型,输入特征数据通常需要归一化处理(线性回归,逻辑回归,支持向量机,神经网络模型),可以加速算法的收敛过程。
去量纲化的方法:
两类常用的方法:归一化、标准化1.归一化(Normalization)
1.1 Min-Max Normalization
作用: 将原始特征数据线性映射到[0,1]
优点: 线性变换,对数据进行处理,不会改变原有数据的性质
缺点: 新数据加入,可能会发生变化,所有数据需要重新进行归一化处理。1.2 非线性Normalization
对数变换:
反正切变换:
适用情况:用于数据分化较大的场景,有些数据很大,有些数据很小 。需要依据数据分布情况,决定使用的非线性函数。2.标准化(Standardlization)
2.1 Z-score Normalization
零均值标准化
其中: 原始数据均值,原始数据标准差 (数据量很大的情况下,这两个统计量对 加入新数据 不敏感,故可以处理新添加数据的情况); 为数据中心化,将数据中心平移到原点。适用情况: 原始数据分布接近正态分布,将原始数据 标准化 为均值为0 ,方差为1 的分布。
优点: 线性变换,对数据进行处理,不会改变原有数据的性质3.标准化在梯度下降算法中的重要性
参考博文:通俗易懂理解特征归一化对梯度下降算法的重要性https://blog.csdn.net/feijie7788/article/details/89812737
涉及数学知识:
1.一个三维曲面被一系列平面所截得到一系列等值线。2.曲面上某点P 梯度方向 定义:函数在该点增长最快的方向。
通过方向导数与和的关系得出函数在P点增长最快的方向为:,即为梯度方向。3.等值线上 P点法线方向,垂直于P点切线方向。P点切线方向,斜率为, 由隐函数求导规则可得. 则法线斜率为,即,法线方向为 .所以曲线上某点的梯度方向,与过该点的等值线的法线方向相同。
4.c=f(x,y)隐函数求导:(两边同时对x求导)
5.相互垂直两个向量,夹角
内积定义垂直关系:
坐标垂直关系:(带入)
两向量与x轴夹角正玄值关系:参考博文:
1.梯度方向与等高线方向垂直的理解:https://blog.csdn.net/bitcarmanlee/article/details/85275016
2.等值线与梯度的几何意义:https://jingyan.baidu.com/article/da1091fb475551027849d6b7.html
3.一文读懂梯度下降算法(各种导数):https://www.cnblogs.com/hithink/p/7380838.html
4.据预处理之中心化(零均值化)与标准化(归一化):https://www.cnblogs.com/wangqiang9/p/9285594.html
5.归一化 (Normalization)、标准化 (Standardization)和中心化/零均值化 (Zero-centered)(简书):https://www.jianshu.com/p/95a8f035c86c -
数据去量纲化(归一化、标准化、正则化)
2020-01-21 16:48:32https://blog.csdn.net/qq_45315982/article/details/103289412 https://www.cnblogs.com/aabbcc/p/9719383.html -
疑问:数据清洗过程中的“归一化”、“标准化”等等去量纲的操作应该在数据集划分前还是在数据集划分后?
2019-03-25 17:20:50问:如题。 找到的相关解答:应该数据集划分后,不然测试集里面实际上是包含了训练集的信息的,这会影响模型的测试效果。但其实当样本量足够大的时候,随机划分的训练集和测试集其实是有相同的分布的,所以理论上是... -
七个基本量纲_基本几何量纲定义
2020-12-24 09:56:44这是任何一个几何建模系统在搭建之初都必须做的事情,对于CAD而言,这里有几项是需要特殊注意的:1 任何一个...再比如对于Matrix操作,在意义明确的状况下就很容易确定一些操作是无法进行的,可以省去很多麻烦,另外... -
量纲对回归结果的影响_逻辑回归在目标用户挖掘方面的应用
2021-01-05 06:18:28编辑导读:企业为了更精准地定位用户,通常会开展自己的用户洞察项目。...所谓用户洞察,其输出主要是两种,其一是现有用户的画像:通俗的讲就是通过现有用户群去分析自己的目标用户特征;其二是... -
大气顶层反射率无量纲_Landsat7 ETM+与环境一号A图像融合实践探索
2020-12-19 09:04:51关于Landsat7ETM+与环境一号A(ER)影像缺失的互补融合方法探索——以太湖西岸丁蜀镇为例初稿姓名:**学号**专业:地理信息系统研究的初衷是,为了去除多光谱影像中由于云及其阴影造成的零星区块地物信息的缺失,通过... -
量纲对回归结果的影响_关于SPSS回归分析与数据预处理的心得体会,句句都是肺腑之言...
2020-12-22 01:47:55原标题:关于SPSS回归分析与数据预处理的心得体会,句句都是肺腑之言 关于SPSS学习与交流的专业论坛,小兵博客一直推荐大家去人大经济论坛(现在叫做经管之家)SPSS专版。这个板块几乎覆盖了SPSS统计分析从理论到实践... -
kaggle--House Price(房价预测)--线性回归模型
2020-03-11 09:50:26相关系数矩阵 异常值处理 get_dummies去除量纲 交叉验证 -
k均值聚类算法优缺点_聚类算法(1)--k-means聚类
2020-11-22 05:16:581.常见的距离计算公式1)Minkowski距离公式...相似度越高的样本欧式距离越小,这种以距离为度量准则的聚类算法需要对样本的各特征值进行去量纲,防止在某个特征上值太大而导致其它特征值的差异被忽视。常见的去量纲... -
归一化处理公式_数学建模中的数据处理——归一化处理
2020-12-05 15:52:02关于数据处理,很常见的一个方法就是“去量纲处理”,在大家数据处理中经常使用到数据的标准化处理,后边的主成分分析法,因子分析,聚类分析等,都会使用到数据归一化处理。,在此分享一下关于去量纲的一些方法。... -
一个刚刚学习Matlab的小白,求助下面问题如何编写代码!
2020-05-22 11:52:56在 UCI 数据库中将 wine 数据集导出,再导入 Matlab 中,并进行数据简单预处理(均值补全、 去量纲、归一化或标准化,保留类标签),标注每类样本的个数和特征数 -
Kmeans聚类①——数据标准化&归一化&正则化
2019-06-14 20:55:34**1)去除量纲的影响,将有量纲的数值变成无量纲的纯数值; 2)是去除各特征之间数值差异过大的问题,比如一个向量(uv:10000, rate:0.03,money: 20),如果要与其它向量一起计算欧氏距离或者余弦相似度时,会向uv... -
pca主成分分析结果解释_PCA(主成分分析)分析策略
2020-11-21 13:18:12绘制PCA(主成分分析)PCA步骤(1)对数据集进行标准化处理,主成分分析受量纲的影响很大,所以需要通过标准化去除量纲。(2)计算协方差矩阵。(3)计算协方差矩阵的特征值和特征向量,并将特征向量进行单位化。(4)选择... -
python 相关性矩阵_Python 主成分分析和因子分析,到底是求协方差矩阵还是相关性矩阵?...
2020-12-08 10:16:58因为我们在做FA或者PCA时,由于各个变量的量纲一般不一致,所以需要提前对原始数据进行标准化。而对于标准化之后的数据集来言,协方差矩阵就是相关系数矩阵了。我们拆开来说下上面的内容。关于通过标准化来去除量纲... -
sklearn数据预处理和特征工程
2021-01-30 21:34:21一般来说,当我们将数据导入模型的时候,无量纲化的可以帮我们去除量纲对模型的影响(决策树和随机森林不需要这样做,它可以处理大多数数据) 一般来说线性的无量纲化包括去中心化和缩放处理,中心化就是将原本的... -
数学建模--灰色关联分析(系统分析、评价)
2020-07-01 14:10:033.对变量进行预处理(两个目的:去量纲,缩小变量范围简化计算) 均值:excel,平均值函数 $B16,一个16,一个16,一个就锁定一行或一列。 4.计算子序列中各指标与母序列的关联系数。 C10-$B10, ... -
采场断层活化期望模型的构建及应用
2020-06-26 22:24:03用GM(1,1),Verhust,残差GM和GMANN构建数据挖掘模型实现比较准确拓展样本数据,选择成本型或效益型函数去除量纲实现归一。综合关联分析表明,有效隔水层厚度和工作面长度是断层失稳活化主导因素,以接近关联和相似关联... -
MATLAB实现多元线性回归
2019-08-05 15:17:37function [ b, bint, r, rint, stats ] = Multiple_linear_...%对于输入数据(必须是去除量纲之后的数据)进行多元线性回归处理 % 输入变量 % X:由自变量组成的矩阵(第一列必须全为1) % y:因变量(列向量) % a... -
数据预处理
2019-09-01 15:53:10数据预处理1.归一化/标准化1.1 标准化目的1.2 适用算法1.3 不适用算法1.4 方法2.缺失值2.1 缺失原因2.2 缺失类型2.3 处理方法2.3.1 删除2.3.2 填补2.3.2.1 替代2.3....去除量纲限制 提升模型收敛速度 提升模型的精... -
数据挖掘相关知识点梳理
2018-08-23 18:10:411 特征工程 ... 1.1.3 去量纲化:标准化和归一化 1.1.4 定性特征转化为哑变量:参考https://www.zhihu.com/question/28641663/answer/110165221 定性特征不能直接使用:某些机器学习算法和模型只... -
机器学习 距离 相似度
2019-06-20 18:51:06皮尔森:计算离散度 协方差单位化(去量纲) 杰卡德:交集/并集 集合中元素相似度 计算样本相似度 网页去重 论文查重 向量空间余弦相似度:https://www.cnblogs.com/dsgcBlogs/p/8619566.html 余弦距离,也称为... -
机器学习之数值特征处理及数据探索
2019-03-09 20:03:291. 分析数据是否有缺失值,是否有噪声。 2. 对不同类型的数值特征进行处理。 (1)对于类别型特征要进行独热编码。...(2)对于数值特征,要将其去量纲化,即归一化数值范围,变为统一的单位。 ... -
对线性回归,logistic回归和一般回归的认识
2016-08-17 15:29:00http://www.cnblogs.com/llhthinker/p/5248586.html ... Feature Scaling(数据规范化) 不同的特征量由于单位不同,可能在数值上相差较大,Feature Scaling可以去量纲,减少梯度下降法的迭代次数,提高... -
【数学建模】多元线性回归模型 - 一元线性回归
2020-09-18 23:52:24这里要注意,因为涉及到不同自变量的权重,所以一般要去量纲,不然没意义。 回归分析的分类: 多元线性回归: 不同数据的处理: 横截面数据:多元线性回归 时间序列数据:最常用的是ARMA 横截面数据: [外链... -
数据的归一化与标准化
2019-02-27 15:14:06归一化/标准化可以去除数据单位对计算带来的影响,也就是所谓的去量纲行为,归一化/标准化实质是一种线性变换,线性变换有很多良好的性质,这些性质决定了对数据改变后不会造成“失效”,反而能提高数据的表现,... -
建模算法(十)——灰色理论之关联度分析
2019-10-05 11:21:01一、数据变换技术 为了保证建模的质量和系统分析结果的准确性,对原始的数据要进行去量纲处理。 1、定义 设有序列,则成映射为序列x到序列y的数据变换。 (1) f 是初值化变换。 (2) f 是均值化变换。 (3) f 是... -
2-1 机器学习型--决策树算法
2019-12-13 10:10:45一、决策树(不需要对数据进行去量纲化,归一化,标准化) 公司中不用决策树:使用决策树的升级版:集成算法(随机森林,梯度提升树,极限森林,adaboost提升树) 作用:分类,回归。 划分节点的标准:熵 或 Gini系数 ...