精华内容
下载资源
问答
  • spss实现中心化处理、标准化处理和归一化处理

    万次阅读 多人点赞 2019-03-19 22:11:33
    文章目录一、中心化、标准化、归一化简单描述二、中心化处理三、标准化处理四、归一化处理五、参考资料 一、中心化、标准化、归一化简单描述 意义:数据中心化和标准化在回归分析中是取消由于量纲不同、自身...

    一、中心化、标准化、归一化简单描述

    1. 意义:数据中心化和标准化在回归分析中是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。
    2. 原理
      数据标准化:是指数值减去均值,再除以标准差;
      数据中心化:是指变量减去它的均值。
      归一化:把数变为(0,1)之间的小数

    二、中心化处理

            数据的中心化是指原数据减去该组数据的平均值,经过中心化处理后,原数据的坐标平移至中心点(0,0),该组数据的均值变为0,以此也被称为零均值化。

            简单举例:譬如某小公司老板员工共5人,5人的工资,分别为12000、5000、8000、3000、4000元,这5个数据作为一个独立的数据集,平均值为6400元,每个人的工资依次减去平均水平6400,得到5600、-1400、1600、-3400、-2400,新的5个数据其平均值等于0,这个过程就是数据的中心化。

            下面详细讲解在SPSS中的操作步骤。

            第一步:在分析选择描述统计,接着选择描述

            第二步:选择所要分析的变量,在选项中勾选平均值即可。

            输出得到每个变量的平均值如下

    描述统计
    个案数
    平均值
    学术氛围
    191
    15.9843
    学习收获
    191
    16.3351
    自主学习
    191
    13.4241
    授课水平
    191
    23.5864
    对自己大学教育质量评价
    191
    66.69
    有效个案数
    191

            第三步:在工具栏区,在转换中选择计算变量

            这里,我们第一个计算的是 授课水平这个变量,一开始先给中心化后的变量命名,接着选择变量,然后在输出的结果复制这个变量的平均值(建议直接复制过去),粘贴到数学表达式里面

            我们第二个计算的是对自己大学教育质量评价这个变量,步骤同第一个变量。

            最后,我们得到得到两个新的中心化处理的变量。

            我们把这两个变量和新变量的描述性统计数据输出,查看它们的变化结果。

            我们可以发现,它们的最大值和最小值都发生了改变,并且新变量的均值均为0,这是因为新的两个变量都用变量中的每个值减去均值,所以均值为0,而且我们可以发现它们的标准差和方差都没有发生变化,说明这个数据的形态和分布情况是没有发生改变的,只是平均值进行了移动。

    三、标准化处理

            大型数据分析项目中,数据来源不同,量纲及量纲单位不同,为了让它们具备可比性,需要采用标准化方法消除由此带来的偏差。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。这就是数据标准化。

            基本原理:数值减去平均值,再除以其标准差,得到均值为0,标准差为1的服从标准正态分布的数据。

            在SPSS中,使用最多的就是Z-score标准化(0-1标准化)方法,这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1。

            在SPSS的处理步骤如下:

            第一步:在分析中选择描述统计,接着选择描述

            第二步:选择所要标准化的变量。在下面勾选将标准化值另存为变量(Z),点击确定。

            我们可以在变量视图发现这个时候新增加了标准化后的三个变量。

    四、归一化处理

    归一化方法

    1. 把数变为(0,1)之间的小数
      主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速
    2. 把有量纲表达式变为无量纲表达式
      归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。

            归一化,也算是数据标准化方法之一。常见的计算公式如下,得到新数据范围在[0,1]之间,归一化由此得名。
    x ∗ = x − m i n m a x − m i n x^*=\frac{x-min}{max-min} x=maxminxmin

            在SPSS的操作步骤如下:

            第一步:在分析选择描述统计,接着选择描述

    第二步:选择变量和指定输出最大值和最小值。
            第三步:在**转换**中选择**计算变量**。

            接着在表达式中输入相应的计算公式

            可直接在输出窗口复制最大值和最小值。

            我们可以在描述统计里面查看授课水平和归一化处理后变量的统计结果的区别。

            我们可以看到,归一化后,新数据范围在[0,1]之间。

    五、参考资料

    展开全文
  • 1、在回归问题和一些机器学习算法中,以及训练神经网络的过程中,通常需要对原始数据进行中心化(Zero-centered或者Mean-subtraction(subtraction表示减去))处理标准化(Standardization或Normalization)处理 ...

    一、中心化(又叫零均值化)和标准化(又叫归一化)概念及目的?

    1、在回归问题和一些机器学习算法中,以及训练神经网络的过程中,通常需要对原始数据进行中心化(Zero-centered或者Mean-subtraction(subtraction表示减去))处理和标准化(Standardization或Normalization)处理

    数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲(量纲简单理解:国际单位制中的基本单位就是基本量纲,合成量纲为基本量纲的幂积运算)和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。

    意义:数据中心化和标准化在回归分析中是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。
    原理:
    数据标准化:是指数值减去均值,再除以标准差;
    数据中心化:是指变量减去它的均值。
    目的:通过中心化和标准化处理,得到均值为0,标准差为1的服从标准正态分布的数据。

    2、(1)中心化(零均值化)后的数据均值为零

    (2)z-score 标准化后的数据均值为0,标准差为1(方差也为1)

    三、下面解释一下为什么需要使用这些数据预处理步骤。

    在一些实际问题中,我们得到的样本数据都是多个维度的,即一个样本是用多个特征来表征的。比如在预测房价的问题中,影响房价的因素有房子面积、卧室数量等,我们得到的样本数据就是这样一些样本点,这里的、又被称为特征。很显然,这些特征的量纲和数值得量级都是不一样的,在预测房价时,如果直接使用原始的数据值,那么他们对房价的影响程度将是不一样的,而通过标准化处理,可以使得不同的特征具有相同的尺度(Scale)。简言之,当原始数据不同维度上的特征的尺度(单位)不一致时,需要标准化步骤对数据进行预处理。

    下图中以二维数据为例:左图表示的是原始数据;中间的是中心化后的数据,数据被移动大原点周围;右图将中心化后的数据除以标准差,得到为标准化的数据,可以看出每个维度上的尺度是一致的(红色线段的长度表示尺度)。
    其实,在不同的问题中,中心化和标准化有着不同的意义,
    这里写图片描述

    比如在训练神经网络的过程中,通过将数据标准化,能够加速权重参数的收敛。
    对于神经网络(主要是全连接网络+SGD)的学习训练,标准化有什么好处(加速收敛),以及为什么有这样的好处。另需说明的是:神经网络模型多变复杂,这里多是对于一般情况的启发性讨论,实际使用中需要具体情况具体分析(例如图像领域大多仅减均值,不除方差)。
    神经网络为什么需要标准化:
    简要地说,为了保证网络可以良好的收敛,在不清楚各个维度的相对重要程度之前,标准化使得输入的各个维度分布相近,从而允许我们在网络训练过程中,对各个维度“一视同仁”(即设置相同的学习率、正则项系数、权重初始化、以及激活函数)。反过来,当我们使用全局相同的学习率、权重初始化、以及激活函数等网络设置时,方差更大的维度将获得更多的重视。
    网络设置, BP(逆向传播算法), SGD(梯度下降算法)简介:
    这里写图片描述

    · 对数据进行中心化预处理,这样做的目的是要增加基向量的正交性。

    四、归一化

    两个优点:

    1)归一化后加快了梯度下降求最优解的速度;

    2)归一化有可能提高精度。

    1、 归一化为什么能提高梯度下降法求解最优解的速度?

    如下图所示,蓝色的圈圈图代表的是两个特征的等高线。其中左图两个特征X1和X2的区间相差非常大,X1区间是[0,2000],X2区间是 [1,5],其所形成的等高线非常尖。当使用梯度下降法寻求最优解时,很有可能走“之字型”路线(垂直等高线走),从而导致需要迭代很多次才能收敛;而右图对两个原始特征进行了归一化,其对应的等高线显得很圆,在梯度下降进行求解时能较快的收敛。因此如果机器学习模型使用梯度下降法求最优解时,归一化往往非常有必要,否则很难收敛甚至不能收敛。
    这里写图片描述
    注:等高线是相同目标函数值的线,即用一个平行于自变量平面的面去截取曲面得到交线,此交线即为等高线。
    2、归一化有可能提高精度

    一些分类器需要计算样本之间的距离(如欧氏距离),例如KNN。如果一个特征值域范围非常大,那么距离计算就主要取决于这个特征,从而与实际情况相悖(比如这时实际情况是值域范围小的特征更重要)。

    3、以下是两种常用的归一化方法:

    1)min-max标准化(Min-MaxNormalization)
    也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0 - 1]之间。转换函数如下:

    这里写图片描述

    其中max为样本数据的最大值,min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。

    2)Z-score标准化(0-1标准化)方法
    这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1。

    转化函数为:

    这里写图片描述

    其中μ为所有样本数据的均值,σ为所有样本数据的标准差。

    五、中心化(以PCA为例)
    下面两幅图是数据做中心化(centering)前后的对比,可以看到其实就是一个平移的过程,平移后所有数据的中心是(0,0).
    这里写图片描述
    在做PCA的时候,我们需要找出矩阵的特征向量,也就是主成分(PC)。比如说找到的第一个特征向量是a = [1, 2],a在坐标平面上就是从原点出发到点 (1,2)的一个向量。

    如果没有对数据做中心化,那算出来的第一主成分的方向可能就不是一个可以“描述”(或者说“概括”)数据的方向了。还是看图比较清楚。

    黑色线就是第一主成分的方向。只有中心化数据之后,计算得到的方向才2能比较好的“概括”原来的数据。
    这里写图片描述
    v1表示未中心化,v1_centered中心化后。
    参考自
    https://blog.csdn.net/silent56_th/article/details/80987837
    https://blog.csdn.net/GoodShot/article/details/80373372

    展开全文
  • 数据标准化处理

    千次阅读 2019-03-28 21:11:36
    数据标准化是一个常用的数据预处理操作,目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模、特征、分布差异等对模型的影响。除了用作模型计算,标准化后的数据还具有了直接计算并生成...

    python数据分析与数据化运营      宋天龙  著

            数据标准化是一个常用的数据预处理操作,目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模、特征、分布差异等对模型的影响。除了用作模型计算,标准化后的数据还具有了直接计算并生成复合指标的意义,是加权指标的必要步骤。

            Z-Score标准化是基于原始数据的均值和标准差进行的标准化,假设原转换的数据为x,新数据为x',那么x'=(x-mean)/std,其中mean和std为x所在列的均值和标准差。这种方法适合大多数类型的数据,也是很多工具的默认标准化方法。标准化之后的数据是以0为均值,方差为1的正态分布。但是ZScore方法是一种中心化方法,会改变原有数据的分布结构,不适合用于对稀疏数据做处理。某些情况下,假如数据集中有离群点,我们可以使用Z-Score进行标准化,但是标准化后的数据并不理想,因为异常点的特征往往在标准化之后便容易失去离群特征。此时,可以使用RobustScaler针对离群点做标准化处理,该方法对数据中心化和数据的缩放健壮性有更强的参数控制能力。

            Max-Min标准化方法是对原始数据进行线性变换,假设原转换的数据为x,新数据为x',那么x'=(x-min)/(max-min),其中min和max为x所在列的最小值和最大值这种标准化方法的应用非常广泛,得到的数据会完全落入[0,1]区间内(Z-Score则没有类似区间),这种方法能使数据归一化而落到一定的区间内,同时还能较好地保持原有数据结构 。

           最大值绝对值标准化(MaxAbs)即根据最大值的绝对值进行标准化,假设原转换的数据为x,新数据为x',那么x'=x/|max|,其中max为x所在列的最大值。MaxAbs方法跟Max-Min用法类似,也是将数据落入一定区间,但该方法的数据区间为[-1,1]。MaxAbs也具有不破坏原有数据分布结构的特点,因此也可以用于稀疏数据、稀疏的CSR或CSC矩阵。

    import numpy as np
    from sklearn import preprocessing
    import matplotlib.pyplot as plt
    data = np.loadtxt('data6.txt', delimiter='\t') # 读取数据
    # Z-Score标准化
    zscore_scaler = preprocessing.StandardScaler() # 建立StandardScaler对象
    data_scale_1 = zscore_scaler.fit_transform(data) # StandardScaler标准化处理
    # Max-Min标准化
    minmax_scaler = preprocessing.MinMaxScaler() # 建立MinMaxScaler模型对象
    data_scale_2 = minmax_scaler.fit_transform(data) # MinMaxScaler标准化处理
    # MaxAbsScaler标准化
    maxabsscaler_scaler = preprocessing.MaxAbsScaler() # 建立MaxAbsScaler对象
    data_scale_3 = maxabsscaler_scaler.fit_transform(data) # MaxAbsScaler标准化处理
    # RobustScaler标准化
    robustscalerr_scaler = preprocessing.RobustScaler() # 建立RobustScaler标准化对象
    data_scale_4 = robustscalerr_scaler.fit_transform(data) # RobustScaler标准化标准化处理
    # 展示多网格结果
    data_list = [data, data_scale_1, data_scale_2, data_scale_3, data_scale_4] # 创建数据集列表
    scalar_list = [15, 10, 15, 10, 15, 10] # 创建点尺寸列表
    color_list = ['black', 'green', 'blue', 'yellow', 'red'] # 创建颜色列表
    merker_list = ['o', ',', '+', 's', 'p'] # 创建样式列表
    title_list = ['source data', 'zscore_scaler', 'minmax_scaler', 'maxabsscaler_scaler', 'robustscalerr_scaler'] # 创建标题列表
    for i, data_single in enumerate(data_list): # 循环得到索引和每个数值
     plt.subplot(2, 3, i + 1) # 确定子网格
     plt.scatter(data_single[:, :-1], data_single[:, -1], s=scalar_list[i], marker=merker_list[i], c=color_list[i]) # 自网格展示散点图
    plt.title(title_list[i]) # 设置自网格标题
    plt.suptitle("raw data and standardized data") # 设置总标题
    plt.show() # 展示图形

     

     

    展开全文
  • python-opencv图像标准化处理

    千次阅读 2019-08-17 16:13:42
    python-opencv图像标准化处理 来不及解释了,直接上代码吧 import cv2 import numpy as np #读取图像 image = cv2.imread('myid.jpg') #对图像进行灰度化处理 gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) cv2...

    python-opencv图像标准化处理


    来不及解释了,直接上代码吧

    
    import cv2
    import numpy as np
    
    #读取图像
    image = cv2.imread('myid.jpg')
    #对图像进行灰度化处理
    gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
    cv2.imshow("img0",gray)
    #对灰度化图像进行标准化,该函数的参数依次是:输入数组,输出数组,最小值,最大值,标准化模式。
    cv2.normalize(gray, gray, 0, 255, cv2.NORM_MINMAX)
    cv2.imshow("img1",gray)
    cv2.waitKey(0)
    cv2.destroyAllWindows()
    
    
    
    展开全文
  • 在主成分分析法中,一般来说,我们进行的第一步应该是对所有样本数据进行中心化,甚至是标准化处理。那么我们为什么要对样本数据进行中心化和标准化处理呢? 在一般的实际问题当中,我们要分析的数据一般是多个维度...
  • 数据标准化处理方法

    千次阅读 2017-10-31 11:56:53
    数据标准化处理方法 在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个...
  • 一:图像标准化处理

    千次阅读 2019-11-08 22:21:39
    使用深度学习在进行图像分类或者对象检测时候,首先需要对图像做数据预处理,最常见的对图像预处理方法有两种,正常白化处理又叫图像标准化处理,另外一种方法叫做归一化处理,下面就详细的说一下这两种处理方法。...
  • 利用Excel对数据进行标准化处理

    千次阅读 2020-07-10 11:14:21
    采用的公式为x=(x-min)/(Max-min),这样标准化后的数据最大值为1,最小值为0。
  • 【R语言】数据标准化处理

    千次阅读 2020-06-10 11:29:20
    1、标准化——数据处理 preProcess(x, method = c("center", "scale"), thresh = 0.95, pcaComp = NULL, na.remove = TRUE, k = 5, knnSummary = mean, outcome = NULL, fudge = 0.2, numUnique = 3, ...
  • R语言对数据进行标准化处理

    万次阅读 2019-10-20 10:01:42
    有时候,在分析数据时,需要对数据进行直线转换,也就是将数据做标准化处理标准化处理的结果称为标准分数,标准化处理的转换公式如下: 举例说明: 首先,导入数据 其次,转换成标准分数,并以向量形式输出 最后...
  • (2)——对数据进行标准化处理(一)前 言(二)程序设计(三)总 结 (一)前 言 对数据进行标准化处理的Z-Score方法的公式如下: (二)程序设计 以下代码设计为读取一个CSV文件,对其中的数据进行标准化处理,...
  • 无量纲化标准化处理

    千次阅读 2019-05-26 09:49:32
    总体要>200
  • 数据的中心化和标准化处理

    万次阅读 2018-09-16 19:08:37
    1.意义:数据中心化和标准化在回归分析中是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。 注解: 单位具有实际的物理意义,而量纲则不一定。比如说焦耳,表示能量,具有实际物理意义就是单位(同时也...
  • 进过标准化处理:std deviation = [ 1. 1. 1. 1.] 范围缩放 数据中的数值变化范围可能会很大,将范围缩放到合适的大小是非常重要的。 data_scaler=preprocessing.MinMaxScaler(feature_range=( 0 , 1 ...
  • 在回归问题和一些机器学习算法中,以及训练神经网络的过程中,通常需要对原始数据进行中心化(Zero-centered 或者 Mean-subtraction)处理标准化(Standardization 或者 Normalization)处理。 1.矩阵中心化 矩阵...
  • 中心化和标准化处理

    千次阅读 2017-06-28 09:11:42
    目的:通过中心化和标准化处理,得到均值为0,标准差为1的服从标准正态分布的数据。计算过程由下式表示:下面解释一下为什么需要使用这些数据预处理步骤。 在一些实际问题中,我们得到的样本数据都是多个维度的,即...
  • 数据的无量纲化处理和标准化处理的区别是什么 请教:两者除了方法上有所不同外,在其他方面还有什么区别? 解答: 标准化处理方法是无量纲化处理的一种方法。除此之外,还有相对化处理方法(包括初值比处理...
  • 如何用SPSS对数据进行标准化处理

    万次阅读 2017-04-14 09:50:42
    如何用SPSS对数据进行标准化处理?    SPSS统计分析软件是我最早接触的数据分析工具,我的博客将陆续介绍SPSS统计分析软件的相关内容,这类文章将统一按照在标题或者正文第一段出现 SPSS案例分析 + 编号 ...
  • 主成分分析对随机变量标准化处理

    千次阅读 2017-09-26 21:20:04
    1、用矩阵A表示一个二维...遇到的问题:原始数据有空格或者有错误的符号,所以先要对原始数据做一个数据处理,在记事本里将数字之间的空格全部替换,将逗号全部替换为点,再将处理好的数据复制粘贴到Matlab构建矩阵A。...
  • Matlab中数据的标准化处理

    万次阅读 2015-08-22 10:28:54
    %function std_attrValues= vecStd(attrValues) ...%warndlg('输入数据必需为列向量,数据标准化处理失败,返回空值!','失败!'); %std_attrValues=[]; % 调用错误时返回空值 %else m=length(attrValues); %
  • matlab zscore函数 数据的标准化处理

    万次阅读 2017-02-16 14:51:01
      在数据分析之前,我们通常需要先将数据标准化(normalization)...数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同
  • 数据的标准化处理

    万次阅读 2012-08-07 09:38:39
    在数据分析过程中,我们经常需要对数据进行标准化(normalization),数据标准化主要功能就是消除变量间的量纲关系,从而使数据具有可比性。可以举个简单的例子,一个百分制的变量与一个5分值的变量在一起怎么比较?...
  • Z-Score数据标准化处理(python代码)

    千次阅读 2015-09-01 17:16:00
    #/usr/bin/python def Z_Score(data): lenth = len(data) total = sum(data) ave = float(total)/lenth ... tempsum = sum([pow(data[i] - ave,2) for i in range(lenth)]) ... tempsum = pow...
  • 为了不使得样本间的距离过大,需要对数据进行标准化处理。而通常scikit-learn中自带的标准化包是StandardScaler,其是针对每个特征的标准化处理,将每维特征数据转化为均指为0,标准差为sigma的数据。但是即使是对...
  • 上一节我们利用SPSS中的数据标准化方法及主成分分析法,得出了“解释的总方差”和“成分矩阵”(如下图) 接下来我们将利用主成分分析得出的数据计算指标权重 2、权重计算 (1)输入数据 将主成分分析中得出的“成分...
  • 数据标准化处理 问题: 量纲不一:就是单位、特征的单位不一致,不能放在一起比较 处理方法: 0-1标准化、Z标准化、normalizer归一化 案例: # -*- coding: utf-8 -*- import pandas import numpy data=...
  • 两个常用的数据标准化方法及Matlab和Python实现

    万次阅读 多人点赞 2017-12-12 19:13:12
    参考:数据归一化和两...为了消除指标(特征)之间的量纲影响,数据集需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是两...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,277,239
精华内容 510,895
关键字:

标准化处理