精华内容
下载资源
问答
  • 数据的无量纲处理方法及示例在对实际问题建模过程中,特别...数据规范化处理主要包括同趋化处理和无量纲化处理两个方面。数据的同趋化处理主要解决不同性质的数据问题,对不同性质指标直接累加不能正确反应不同作用...

    数据的无量纲处理方法及示例

    在对实际问题建模过程中,特别是在建立指标评价体系时,常常会面临不同类型的数据处理及融合。而各个指标之间由于计量单位和数量级的不尽相同,从而使得各指标间不具有可比性。在数据分析之前,通常需要先将数据规范化,利用规范化后的数据进行分析。数据规范化处理主要包括同趋化处理和无量纲化处理两个方面。数据的同趋化处理主要解决不同性质的数据问题,对不同性质指标直接累加不能正确反应不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对评价体系的作用力同趋化。数据无量纲化主要解决数据的不可比性,在此处主要介绍几种数据的无量纲化的处理方式。

    (1)极值化方法

    可以选择如下的三种方式:

    (A )'

    max min i i i x x

    x R

    =

    =-

    即每一个变量除以该变量取值的全距,规范化后的每个变量的取值范围限于[-1,1]。 (B)'

    min min

    max min i i

    i x x x R

    --=

    =- 即每一个变量与变量最小值之差除以该变量取值的全距,规范化后各变量的取值范围限于[0,1]。

    (C) '

    max

    i

    i x x =,即每一个变量值除以该变量取值的最大值,规范化后使变量的最大取值为1。

    采用极值化方法对变量数据无量纲化是通过变量取值的最大值和最小值将原始数据转换为界于某一特定范围的数据,从而消除量纲和数量级的影响。由于极值化方法对变量无量纲化过程中仅仅对该变量的最大值和最小值这两个极端值有关,而与其他取值无关,这使得该方法在改变各变量权重时过分依赖两个极端取值。

    (2)规范化方法 利用'i i x x

    x s

    -=

    来计算,即每一个变量值与其平均值之差除以该变量的规范差,无量纲化后各变量的平均值为0,规范差为1,从而消除量纲和数量级的影响。虽然该方法在无量纲化过程中利用了所有的数据信息,但是该方法在无量纲化后不仅使得转换后的各变量均值相同,且规范差也相同,即无量纲化的同时还消除了各变量在变异程度上的差异。

    (3)均值化方法 计算公式为:'

    i

    i i

    x x x =,该方法在消除量纲和数量级影响的同时,保留了各变量取值差异程度上的信息。

    (4)规范差化方法 计算公式为:'i

    i x x s

    =

    。该方法是规范化方法的基础上的一种变形,两者的差别仅在无量纲化后各变量的均值上,规范化方法处理后各变量的均值为0,而规范差化方法处理后各

    展开全文
  • matlab无量纲化处理数据代码rf-mono-matlab 这个 repo 包含 Matlab 代码,用于计算能源高效的感受野,以对图像数据集进行编码。 在这段代码进入 GitHub 之前,它出现在我的实验室网站上。 这组最小的 MATLAB 函数将...
  • 数据预处理——无量纲化处理

    千次阅读 2020-10-15 20:18:20
    数据预处理——无量纲化处理 1.无量纲化定义        无量纲化,也称为数据的规范化,是指不同指标之间由于存在量纲不同致其不具可比性,故首先需将指标进行无量纲化,消除量纲影响后再进行接...

    数据预处理——无量纲化处理

    1.无量纲化定义

           无量纲化,也称为数据的规范化,是指不同指标之间由于存在量纲不同致其不具可比性,故首先需将指标进行无量纲化,消除量纲影响后再进行接下来的分析。

    2.无量纲化方法

           无量纲化方法有很多,但是从几何角度来说可以分为:直线型、折线型、曲线形无量纲化方法。

    (1)直线型无量纲化方法

           直线型无量纲化方法是指指标原始值与无量纲化后的指标值之间呈现线性关系,常用的线性量化方法有阈值法、标准化法与比重法。

    • 阈值法。阀值化是将指标的实际值与该指标的阀值相比较,从而得到指标评价值的方法,公式如下:
      y i = x i / x 0 y_i = x_i/x_0 yi=xi/x0
      y i y_i yi :指标转化后的评价值; x i x_i xi:指标实际值; x 0 x_0 x0:该指标的阀值
             由上述公式可以看出,如果阀值确定的太大,评价值对指标变化的反应就会很迟钝,如果阀值太小,评价值又会过于灵敏地反应指标的变化。这两种情况都会使最终合成的综合评价难以准确地反映客观实际。因此,阀值的确定对综合评价是至关重要的。因此,确定阀值应注重以下几点:
      第一,根据综合评价的目的来确定,如果动态评价,阀值可以定为被评价对象的历史最好水平,也可以基期水平。如果是对计划完成情况的评价,阀值则为计划数。对于实际水平的评价,阀值可以是同类被评价对象的最好水平或平均水平。
      第二,阀值的确定应便于综合评价为原则。
    • 规范化。规格化也称为极差正规化,先找出每个指标的最大值和最小值,这两者之差称为极差,然后以每个指标实际值xi减去该指标的最小值,再除以极差,就得到正规化评价值 y i y_i yi,公式如下:
      y i = ( x i − x m i n ) / ( x m a x − x m i n ) y_i=(x_i-x_{min})/(x_{max}-x_{min}) yi=(xixmin)/(xmaxxmin)
      这种无量纲方法实际上是求各种评价指标实际值在该指标全距中所处位置的比率。而且取值范围均为:0-1
    • 中心化标准化)。中心化也称为均值化,先求出每个评价指标的样本均值,在将指标的实际值xi与该指标的均值相比较,就得到中心化后的评价值yi,公式如下:
      y i = x i / x 0 y_i=x_i/x_0 yi=xi/x0
      其中 x 0 x_0 x0为数据的平均值。
    • 标准化。标准化也称为z-score变换,求出每个指标的样本均值xi和标准差S就得到标准化评价值 y i y_i yi,公式如下
      y i = ( x i − x 0 ) / s y_i=(x_i-x_0)/s yi=(xix0)/s
      其中 x 0 x_0 x0为均值, s s s为标准差
      当被评价对象(样本)较多是,才能用该方法进行无量纲化处理,可以看出,评价值在-1—1之间。
    • 比重法。比重化主要为多目标决策分析中的一些方法所采用。公式如下:
    • 在这里插入图片描述

    (2)折线型无量纲化方法

           折线型无量纲化适用于被评价事物呈现阶段性变化,即指标值在不同阶段变化对事物总体水平影响是不一样的。
           虽然折线型无量纲化方法比直线型无量纲化方法更符合实际情况,但是要想确定指标值的转折点不是一件容易的事情,需要对数据有足够的了解和掌握。

    (3)曲线形无量纲化方法

           有些事物发展的阶段性变化并不是很明显,而前、中、后期的发展情况又各不相同,就是说指标值的变化是循序渐进的,并不是突变的,在这种情况下,曲线形无量纲化方法也更为合适。

    (4)模糊无量纲化方法

    综合评价中的评价指标可以分为正向指标(即指标值越大越好)、逆指标(即指标值越小越好)和适度指标(即指标值落在某个区间最好,大了、小了都不好),指标彼此之间“好”与“坏”并没有一个标准,在很大程度上具有一定的模糊性,这时候可以选择此方法对指标进行无量纲化处理,有兴趣自行搜索学习。

    展开全文
  • 常见的无量纲化处理方法主要有极值化、标准化、均值化和标准差化方法,而最常使用的是标准化方法。 标准化方法处理后的各指标均值都为0,标准差都为1,它只反映了各指标之间的相互影响,在无量纲化的同时也抹杀了各指标...

    常见的无量纲化处理方法主要有极值化、标准化、均值化和标准差化方法,而最常使用的是标准化方法。

    标准化方法处理后的各指标均值都为0,标准差都为1,它只反映了各指标之间的相互影响,在无量纲化的同时也抹杀了各指标之间变异程度上的差异,因此,标准化方法并不适用于多指标的综合 评价中。

    均值化方法处理的各指标数据构成的协方差矩阵既可以反映原始数据中各指标变异程度上的差异,也包含各指标相互影响程度差异的信息。

    8187a4f811010f64f3f899dc5152c304.png

    参考文章:

    标准化和归一化的区别https://www.cnblogs.com/nxf-rabbit75/p/10688593.html

    归一化和标准化https://blog.csdn.net/zuochang_liu/article/details/90267283

    数据标准化/归一normalizationhttps://blog.csdn.net/pipisorry/article/details/52247379

    归一化 (Normalization)、标准化 (Standardization)和中心化/零均值化 (Zero-centered)https://www.jianshu.com/p/95a8f035c86c

    特征工程中的「归一化」有什么作用https://www.zhihu.com/question/20455227?sort=created

    展开全文
  • 数据预处理之数据无量纲化(标准化/归一化)

    万次阅读 多人点赞 2018-04-10 14:21:37
    在进行特征选择之前,一般会先进行数据无量纲化处理,这样,表征不同属性(单位不同)的各特征之间才有可比性,如1cm 与 0.1kg 你怎么比?无量纲处理方法很多,使用不同的方法,对最终的机器学习模型会产生不同的...

       在进行特征选择之前,一般会先进行数据无量纲化处理,这样,表征不同属性(单位不同)的各特征之间才有可比性,如1cm 与 0.1kg 你怎么比?无量纲处理方法很多,使用不同的方法,对最终的机器学习模型会产生不同的影响。本文将对常用的无量纲化技术进行总结,试图指出他们的适用场景,并给出在Python中的相应调用方式。正文中每列代表一个 属性/特征,每行表示一个/条 样本。

       1. min-max归一化

       该方法是对原始数据进行线性变换,将其映射到[0,1]之间,该方法也被称为离差标准化(但是请注意,网上更多人喜欢把z-score称为标准化方法,把min-max称为归一化方法,然后在此基础上,强行给标准化(z-score)与归一化(min-max)划条界线,以显示二者之间的相异性。对!二者之间确实有很大的不同,这个我们后面会有介绍,但是这两个方法说到底还都是用来去除量纲的,都是无量纲化技术中的一员而已,所以,请不要纠结标准化与归一化这两个概念了)。

                              

       上式中,min是样本的最小值,max是样本的最大值。由于最大值与最小值可能是动态变化的,同时也非常容易受噪声(异常点、离群点)影响,因此一般适合小数据的场景。此外,该方法还有两点好处:

       1) 如果某属性/特征的方差很小,如身高:np.array([[1.70],[1.71],[1.72],[1.70],[1.73]]),实际5条数据在身高这个特征上是有差异的,但是却很微弱,这样不利于模型的学习,进行min-max归一化后为:array([[ 0. ], [ 0.33333333], [ 0.66666667], [ 0. ], [ 1. ]]),相当于放大了差异;

       2) 维持稀疏矩阵中为0的条目。

       使用方法如下:

    from sklearn.preprocessing import MinMaxScaler
    x = np.array([[1,-1,2],[2,0,0],[0,1,-1]])
    x1 = MinMaxScaler().fit_transform(x)

       不难发现,x1每列的值都在[0,1]之间,也就是说,该模块是按列计算的。并且MinMaxScaler在构造类对象的时候也可以直接指定最大最小值的范围:scaler = MinMaxScaler(feature_range=(min, max)).

       2. z-score标准化

       z-score标准化(zero-mena normalization0-均值标准化)方法的公式如下所示:

                                

       上式中,x是原始数据,u是样本均值,σ是样本标准差。回顾下正态分布的基本性质,xN(u,σ^2),则有

                              其中,N(0,1)表示标准正态分布

       于是,可以看出,z-score标准化方法试图将原始数据集标准化成均值为0,方差为1且接近于标准正态分布的数据集。然而,一旦原始数据的分布 不 接近于一般正态分布,则标准化的效果会不好。该方法比较适合数据量大的场景(即样本足够多,现在都流行大数据,因此可以比较放心地用)。此外,相对于min-max归一化方法,该方法不仅能够去除量纲,还能够把所有维度的变量一视同仁(因为每个维度都服从均值为0、方差1的正态分布),在最后计算距离各个维度数据发挥了相同的作用,避免了不同量纲的选取对距离计算产生的巨大影响。所以,涉及到计算点与点之间的距离,如利用距离度量来计算相似度、PCA、LDA,聚类分析等,并且数据量大(近似正态分布),可考虑该方法。相反地,如果想保留原始数据中由标准差所反映的潜在权重关系应该选择min-max归一化,基于数学角度的解释可参阅这两篇博文[1,2],链接在最下方reference内。

    from sklearn.preprocessing import StandardScaler
    x = np.array([[1,2,3],[4,5,6],[1,2,1]])
    x1 = StandardScaler().fit_transform(x)

            可以发现,x1的每一列加起来都是0,方差是1左右。注意该方法同样按列(即每个属性/特征)进行计算。并且StandardScaler类还有一个好处,就是可以直接调用其对象的.mean_.std_方法查看原始数据的均值与标准差。

    X = np.array([[ 1., -1., 2.], ... [ 2., 0., 0.], ... [ 0., 1., -1.]])
    scaler = StandardScaler().fit(X)
    scaler.mean_  
    array([ 1. ..., 0. ..., 0.33...])

              3.  Normalization

               在一些地方,有人把这种方法翻译为正则化,但是机器学习中的正则化更多是与模型相关(比如逻辑回归在损失函数后增加L2正则项),所以这种翻译我不喜欢;也有人称之为归一化,但是吧,有时这种方法并没体现“归一”特性,如处理后的数据该是负号的还是负号;直译表示标准化吧,我怕你们又把这种方法与z-score标准化联系起来,因此,就不翻译了吧。

       其实这个方法是根据范数来进行 Normalization的,何为范数?听着感觉高大上,其实非常常见。Lp-范数的计算公式如下所示:

                     

       可见,L2范数即为欧式距离,则规则为L2Normalization公式如下所示,易知,其将每行(条)数据转为相应的“单位向量”。

                                 

       Normalization的过程是将每个样本缩放到单位范数(结合单位向量进行理解,p=2时为单位向量,其他为单位范数),如果后面要使用如二次型(点积)或者其它核方法计算两个样本之间的相似性这个方法会很有用[3]

    from sklearn import preprocessing
    normalizer = preprocessing.Normalizer().fit(X)
    normalizer.transform(X)

    reference 

    [1]. 《再谈机器学习中的归一化方法(Normalization Method)

    [2].  《归一化与标准化》

    [3]. 《关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化》


    展开全文
  • Impute数据无量纲化数据归一化---MinMaxScaler示例 概述 数据挖掘的五大步骤 数据获取 数据预处理 数据预处理是从数据中检测,纠正或删除损坏,不准确或不适用于模型的记录的过程 可能面对的问题有:数据类型不同,...
  • 数据规范化处理主要包括同趋化处理和无量纲化处理两个方面。数据的同趋化处理主要解决不同性质的数据问题,对不同性质指标直接累加不能正确反应不同作用力的综合结果,须先考虑改变逆指标数据性质,
  • matlab无量纲化处理

    2021-04-18 16:13:33
    读取股市数据,对开盘价的 240 条数据,调用 smoothts 函数进 行平滑处理。代码: x=xlsread('D:\\Program Files\\MATLAB\\MyWorks\\gupiaoshuju01.xls'); % 读取......matlab解多元函数无约束优化问题 标准型为:min F...
  • 你现在拿到了许多数据,顺序是完全随机的。这已经不是单凭肉眼和逻辑推导就能分析出来的规律,只能通过机器学习来计算。那么,应该从哪一步开始?
  • 数据无量纲化

    千次阅读 2020-02-01 15:37:27
    数据无量纲化 在机器学习算法实践中,我们往往有着将不同规格的数据转换到同一规格,或不同分布的数据转换到某个特定分布的需求,这种需求统称为将数据“无量纲化”。譬如梯度和矩阵为核心的算法中,譬如逻辑回归,...
  • 数据无量纲化处理和标准化处理的区别是什么 请教:两者除了方法上有所不同外,在其他方面还有什么区别? 解答: 标准化处理方法是无量纲化处理的一种方法。除此之外,还有相对化处理方法(包括初值比处理...
  • 数据的无量纲处理方法及示例(附完整代码)(1)极值化方法(2)标准化方法(3)均值化方法示例要求建模步骤程序备注 在对实际问题建模过程中,特别是在...数据标准化处理主要包括同趋化处理和无量纲化处理两个方面...
  • 数据无量纲处理方法

    千次阅读 2021-08-27 16:13:21
    这种情况对于分析可能产生影响,因此需要对其进行处理,但是处理的前提是不能失去数字的相对意义,即之前数字越大代表GDP越高,处理后的数据也不能失去这个特性,类似这样的处理我们统称为量纲。 也或者计算距离...
  • 文章目录数据无量纲化概述数据归一化(Normalization,又称Min-Max Scaling)数据标准化(StandardScaler)怎样选择数据预处理中的其他流程 数据无量纲化 概述 数据无量纲化是机器学习中数据预处理的一个流程。 在...
  • 4.数据无量纲化:数据预处理,提升算法的准确度: a.无量纲化(nondimensionalize 或者dimensionless):是指通过一个合适的变量替代,就是通过计算,将数据转变为更适合模型计算的数值,经过实践发现无量纲化后确实...
  • 标准,将数据的分布调成标准正太分布,即均值 = 0 方差 = 1 若有的特征方差过大,会主导目标函数,使得模型无法学习其他特征 均值去中心(均值变为0);方差模块(方差变为1) x∗=x−均值标准差 x* = \frac{x...
  • 大多数的情况下,会选择...MinMaxScaler在 不涉及 距离度量、梯度、协方差计算以及数据需要被压缩到特定区间时使用广泛,比如数字图像 处理中量化像素强度时,都会使用MinMaxScaler将数据压缩于[0,1]区间之中。 ...
  • 可以处理一维数据 from sklearn.preprocessing import LabelEcoder le = LabelEncode().fit_transfrom(y) le.classes_ #属性.classes_查看标签中究竟有多少类别 特征编码 from sklearn.preprocessing import ...
  • 特征工程—数据无量纲化之归一化

    千次阅读 2021-12-11 17:34:18
    数据无量纲化:将不同量纲的数据转化到同一区间,避免某一取值的数据范围太大或太小对影响计算,加快求解速度,提高精度 无量纲化包括线性与非线性 线性无量纲化包括中心化与缩放处理 中心化:将原数据减去某一个...
  • 编写规格方法对指标无量纲之前,我们要知道指标规格的公式,已知,指标规格的公式如下: 编码程序代码如下: myfun<-function(x) { xi=x xmin=min(x) xmax=max(x) s=xmax-xmin yi=(xi-xmin)/s return(yi) ...
  • 数据挖掘的步骤  我们使用sklearn进行虚线框内的工作(sklearn也可以进行文本特征提取)。通过分析sklearn源码,我们可以看到除训练,预测和评估以外,处理其他工作的类都实现了3个方法:fit、transform和fit_...
  • 无量纲化包括中心化处理和缩放处理(scale) 中心化: 所有数据加减去某一个值,将数据平移到某个值的附近 缩放: 所有数据除去某一个值,将数据固定到某一个范围中,包括取对数
  • 数据挖掘——无量纲

    千次阅读 2019-03-25 20:13:23
    在进行特征选择之前,一般会先进行数据无量纲化处理,这样,表征不同属性(单位不同)的各特征之间才有可比性,如1cm 与 0.1kg 你怎么比?无量纲处理方法很多,使用不同的方法,对最终的机器学习模型会产生不同的...
  • 量纲、无量纲,标准、归一、正则是我百度了很多次都不进脑子的知识,所以我决定还是放在博客上面。 不过鉴于我查阅了很多资料,说是有许多的坑,所以我也不清楚我的理解和解释是否是坑,具体的就留给各位来...
  • 何为标准化: ...数据无量纲化处理主要解决数据的可比性。 几种标准化方法: 归一化Max-Min min-max标准化方法是对原始数据进行线性变换。设minA和maxA分别为属性A的最小值和最大值,将A的一个原始值
  • 本文用实例说明了多指标综合评价中,用“倒数逆变换法”进行指标正向化时会完全改变原指标的分布规律,影响综合...对三种常用无量纲化方法——极差变换法、标准化法和均值化法的选择使用问题,用实例进行了比较分析。
  • 根据阈值将数据二值(将特征值设置为0或1), 用于处理连续型变量。 大于阈值的值映射为1,而小于或等于阈 值的值映射为0。默认阈值为0时,特征中所有的正值都映射到1 二值是对文本计数数据的常见操作,可以决定仅...
  • 需要进行无量纲化处理。包括:直线型无量纲化方法,折线形无量纲化方法,曲线形无量纲化方法。无量纲化方法的选择:能用直线型不用折线形,能用简单的不用复杂的。 转载于:...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,480
精华内容 992
关键字:

数据无量纲化处理