精华内容
下载资源
问答
  • 3.4.2数据标准化(一) - Z-Score标准化

    万次阅读 多人点赞 2018-05-14 18:05:25
    在数据标准化中,常见的方法有如下三种:Z-Score 标准化最大最小标准化小数定标法本篇主要介绍第一种数据标准化的方法,Z-Score标准化。此方法在整个数据分析与挖掘体系中的位置如下图所示。Z-Score处理方法处于整个...

    简介

    Z-Score标准化是数据处理的一种常用方法。通过它能够将不同量级的数据转化为统一量度的Z-Score分值进行比较。

    一句话解释版本:

    Z-Score通过(x-μ)/σ将两组或多组数据转化为无单位的Z-Score分值,使得数据标准统一化,提高了数据可比性,削弱了数据解释性。


    数据分析与挖掘体系位置

    Z-Score标准化是数据处理的方法之一。在数据标准化中,常见的方法有如下三种:

    1. Z-Score 标准化
    2. 最大最小标准化
    3. 小数定标法

    本篇主要介绍第一种数据标准化的方法,Z-Score标准化。

    此方法在整个数据分析与挖掘体系中的位置如下图所示。



    Z-Score的定义

    Z-Score处理方法处于整个框架中的数据准备阶段。也就是说,在源数据通过网络爬虫、接口或其他方式进入数据库中后,下一步就要进行的数据预处理阶段中的重要步骤。

    数据分析与挖掘中,很多方法需要样本符合一定的标准,如果需要分析的诸多自变量不是同一个量级,就会给分析工作造成困难,甚至影响后期建模的精准度。

    举例来说,假设我们要比较A与B的考试成绩,A的考卷满分是100分(及格60分),B的考卷满分是700分(及格420分)。很显然,A考出的70分与B考出的70分代表着完全不同的意义。但是从数值来讲,A与B在数据表中都是用数字70代表各自的成绩。

    那么如何能够用一个同等的标准来比较A与B的成绩呢?Z-Score就可以解决这一问题。

    下图描述了Z-Score的定义以及各种特征。



    Z-Score的目的

    如上图所示,Z-Score的主要目的就是将不同量级的数据统一转化为同一个量级,统一用计算出的Z-Score值衡量,以保证数据之间的可比性。


    Z-Score的理解与计算

    在对数据进行Z-Score标准化之前,我们需要得到如下信息:

    1)总体数据的均值(μ)

         在上面的例子中,总体可以是整个班级的平均分,也可以是全市、全国的平均分。

    2)总体数据的标准差(σ)

         这个总体要与1)中的总体在同一个量级。

    3)个体的观测值(x)

        在上面的例子中,即A与B各自的成绩。

    通过将以上三个值代入Z-Score的公式,即:

    我们就能够将不同的数据转换到相同的量级上,实现标准化。


    重新回到前面的例子,假设:A班级的平均分是80,标准差是10,A考了90分;B班的平均分是400,标准差是100,B考了600分。

    通过上面的公式,我们可以计算得出,A的Z-Score是1((90-80)/10),B的Z-Socre是2((600-400)/100)。因此B的成绩更为优异。

    反之,若A考了60分,B考了300分,A的Z-Score是-2,B的Z-Score是-1。因此A的成绩更差。

    因此,可以看出来,通过Z-Score可以有效的把数据转换为统一的标准,但是需要注意,并进行比较。Z-Score本身没有实际意义,它的现实意义需要在比较中得以实现,这也是Z-Score的缺点之一。


    Z-Score的优缺点

    Z-Score最大的优点就是简单,容易计算,在R中,不需要加载包,仅仅凭借最简单的数学公式就能够计算出Z-Score并进行比较。此外,Z-Score能够应用于数值型的数据,并且不受数据量级的影响,因为它本身的作用就是消除量级给分析带来的不便。

    但是Z-Score应用也有风险。首先,估算Z-Score需要总体的平均值与方差,但是这一值在真实的分析与挖掘中很难得到,大多数情况下是用样本的均值与标准差替代。其次,Z-Score对于数据的分布有一定的要求,正态分布是最有利于Z-Score计算的。最后,Z-Score消除了数据具有的实际意义,A的Z-Score与B的Z-Score与他们各自的分数不再有关系,因此Z-Score的结果只能用于比较数据间的结果,数据的真实意义还需要还原原值。

    Z-Score在R中的实现

    如下例子是我用R软件写出的Z-Score计算方法。

    # define dataset
    data_A <- rnorm(100, 80, 10)     # randomly create population dataset
    data_B <- rnorm(100, 400, 100)   # randomly create population dataset
    
    hist(data_A) #histogram
    hist(data_B) #histogram
    
    #Calculate population mean and standard deviation
    A_data_std <- sd(data_A)*sqrt((length(data_A)-1)/(length(data_A)))
    A_data_mean <- mean(data_A)
    
    B_data_std <- sd(data_B)*sqrt((length(data_B)-1)/(length(data_B)))
    B_data_mean <- mean(data_B)
    
    # Provided that A got 92 and B got 610
    A_obs <- 92
    B_obs <- 610
    
    A_Z_score <-  (A_obs - A_data_mean) / A_data_std
    B_Z_score <-  (B_obs - B_data_mean) / B_data_std
    展开全文
  • Z-score标准化 这是数据处理最常用的方法 * 目标:均值0,方差1 h(x1) = (h(x1)-mean(h(X))/squareroot(sum of h(xi)*h(xi)) 标准化 (标准差置1) * 目标:标准差为1 * 需要方法: PCA * Tips: 图像不需要因为...

    Z-score标准化  这是数据处理最常用的方法
        * 目标:均值0,方差1
    h(x1) = (h(x1)-mean(h(X))/squareroot(sum of h(xi)*h(xi))

     

    标准化 (标准差置1)
        * 目标:标准差为1
        * 需要方法: PCA
        * Tips: 图像不需要因为他们都是有界像素值,只需要中心化
    h(x1) = h(x1)/squareroot(sum of h(xi)*h(xi))

     

    中心化 (0均值化)
        * 目标: 均值为0,增加基向量正交性
        * 需要方法: PCA
    h(x1) = h(x1) - mean(h(X))

     

    Min-Max标准化(归一化)
        * 目标: 把数据映射到0-1,但随着新加入的数据会导致max&min变化
    h(x1) = (h(x1)-mean(h(X)))/(max(h(X))-min(h(X)))
    h(x1) = (h(x1)-min(h(X)))/(max(h(X))-min(h(X)))

     

     

     

     

     

    在做FC或voxel-wise degree centrality (体素方法度中心性)时,两个体素之间X和Y的相关系数(peasrson相关):

    FC通常用Fisher r-z变换增加分析效率,z变换公式为:

     

    类似于二元正态数据方差为1。因为当相关系数|r|过于接近1的时候,方差会非常小。

    z-score标准化为:

    DC,fALFF用z-score。计算方法为每个数据减去均值再除以标准差,大于均值为正小于均值为负。可以衡量某个体素值在分布中相对位置。

     

    度:通过计算每个体素互相的pearson相关加权和。通过一定阈值,二值计算方法计算的是与该体素相关大于阈值的体素个数,权重计算方法计算所有体素与该体素的连接强度之和。通常用z-score来标准化。阈值通常设为0.2,严格可以考虑0.25.

     

    根据研究目的选择positive,absolute或negative。

    度中心度,为其他所有体素与该体素的平均连接强度:

     

    展开全文
  • z-score标准化方法

    2021-02-21 23:00:16
    z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。新数据=(原数据-均值)/标准差

    z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。新数据=(原数据-均值)/标准差

    展开全文
  • 最大最小标准化与Z-score标准化

    万次阅读 2018-01-30 15:01:54
    最大最小标准化: X* = (x-x.min)/(x.max-x.min) Z-score标准化 X* = (x- μ)/δ x = (a-a.mean())/a.std()
    最大最小标准化:

    X* = (x-x.min)/(x.max-x.min)

    Z-score标准化

    X* = (x- μ)/δ
    x = (a-a.mean())/a.std()

    展开全文
  • python一行搞定Z-score标准化

    千次阅读 2020-05-16 16:18:53
    使用sklearn的scaler方法进行z-score标准化处理只需要一行: from sklearn import preprocessing data = preprocessing.scale(values) #注意,这里的values是array 对pandas dataframe进行最大最小值标准化处理再...
  • 数据的标准化: 将数据按比例缩放,使之落入一个小的特定区间,一般目的在于:去除数据的单位限制,转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。数据的归一化便是一个典型的案例。 数据的...
  • 数据标准化的方法有很多种,常用的有最小-最大标准化和z-score标准化。 请用户对本题中的变量(不包括变量ID)进行z-score标准化,标准化公式如下: Xi′=Xi−μδ 其中: μ=∑Ni=1XiN δ=∑Ni=1(Xi−μ)2N−1−...
  • z-score 标准化(zero-mean normalization):将数据按期属性(按列进行)减去其均值,并除以其标准差。得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1,其公式 ![]...
  • Z-score标准化[转载]

    2018-11-27 20:50:00
    Z-Score通过(x-μ)/σ将两组或多组数据转化为无单位的Z-Score分值,使得数据标准统一,提高了数据可比性,削弱了数据解释性。 就是减去均值,比上标准差。 2.在DM中的位置 数据分析与挖掘中,很多方法需要...
  • 数据规范化(归一化)、及Z-score标准化

    万次阅读 多人点赞 2018-05-15 22:11:58
    为了消除指标之间的量纲和取值范围差异的影响,需要进行标准化处理,将数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析。如将工资收入属性值映射到[-1, 1]或者[0, 1]内。数据规范化对于基于距离的...
  • 数据预处理 - 归一化与Z-Score标准化

    千次阅读 2019-04-16 17:14:50
    归一化 归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为标量,在多种计算中都经常用到这种方法。归一化方法有两种形式,一种是把...最大最小标准化 x*=(x-min)/(max−min) ...
  • 数据预处理-归一化与z-score标准化

    千次阅读 2017-12-28 15:03:15
    归一: 归一是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为标量。 在多种计算中都经常用到这种方法。 线性函数转换: y=(x-MinValue)/(MaxValue-MinValue) 说明:x...
  • 数据归一化与z-score标准化

    万次阅读 2016-07-06 16:07:19
    现实应用中,归一化和标准化都快被叫烂了,很多时候我们都认为二者有相同的意思。粗略上是可以这样认为的,功能是一样的,目的都是消除量纲的影响,以解决指标之间的可比性问题。细细品味,背后还是有些意思的。从几...
  • 对于列全为0的数据,maxmin标准化和列归一化结果会NAN->该矩阵所有数+0.0000000001,再进行处理 列归一代码↓ eps=0.0000000001; U=U+eps*ones(M,M); %ones[m,n] 生成m行n列的全1矩阵 vd=sum(U); t2=diag(vd); .....
  • 简介Z-Score标准化是数据处理的一种常用方法。通过它能够将不同量级的数据转化为统一量度的Z-Score分值进行比较。 一句话解释版本: Z-Score通过(x-μ)/σ将两组或多组数据转化为无单位的Z-Score分值,使得数据...
  • 这篇总结了哪些东西: 1. 数据变换 ...标准化(Z-score标准化) 小数定标规范化 4. 规范化的作用 3. 数据挖掘算法中是否都需要进行规范化呢? 4. 标准化有什么注意事项? 具体写在了我的笔记里: ...
  • 数据标准化方法z-score讲解(matlab)

    万次阅读 多人点赞 2016-11-10 17:19:17
    在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的...将A的原始值x使用z-score标准化到x’。在matlab中,我们可以直接利用zscore(x)这个函数来将数据标准化。 其核心思想是: z=(x-mean
  • 本文只介绍min-max标准化、Z-score标准化方法。 1. Min-max 规范化 定义: Min-max 也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间。 用公式表示就是: 1、其中max为样本数据的最大值,min为样本...
  • Z-Score归一方法

    千次阅读 2020-02-25 23:46:34
    Z-Score方法基于原始数据的均值(mean)和标准差(standard deviation)来进行数据的标准化,处理后的数据均值为0,方差为1,符合标准正态分布,且无量纲。其主要目的是将不同量级的数据统一化为同一个量级,统一用...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 16,288
精华内容 6,515
关键字:

z-score标准化