精华内容
下载资源
问答
  • 我们用SPSS做多元线性回归时,有多个自变量X,它们单位不同,大小有异,所以就会有人问在回归前是否要对原始数据进行标准化处理?答案是:不需要我们简单看一个例子。比如下方这个多元线性回归方程式,其他条件不变...

    41af76af090342dbd68e4348ce1fefed.gif

    我们用SPSS做多元线性回归时,有多个自变量X,它们单位不同,大小有异,所以就会有人问在回归前是否要对原始数据进行标准化处理?

    答案是:不需要

    我们简单看一个例子。比如下方这个多元线性回归方程式,

    042dac82bcbeef7d559d0ccb10c6230b.png

    其他条件不变时,自变量X3每增加一个单位,Y的预测值随之增加10.3个单位,这是对回归系数的解释。要注意的是,这个线性回归是在原始变量基础上进行拟合所得的结果,这个式子是含带物理单位的,自变量X和因变量Y在变化中都是携带实际意义的。

    在这种情况下,我们很轻松的带入自变量X的具体取值,即可得到相应的Y值,预测效果直截了当,这是采取原始数据进行线性拟合的好处。

    如果我们对原始数据采取了标准化处理,情况就不同了。

    标准化处理后自变量、因变量的物理单位没有了,我们拿此时的线性回归方程做预测时就会十分麻烦,要对新的自变量取值进行标准化,得到的Y还是一个标准化后的数据,一眼看不到它的实际大小和物理意义。

    除了要解决预测的问题,线性回归还要输出自变量X的重要性排序,现在有三个对Y有显著影响的自变量X,那么我们想知道X1、X2和X3谁更重要。

    此时我们需要对比标准化后的回归系数,如何得到呢?对原始数据进行标准化处理并进行线性拟合,用SPSS做线性回归时,这一步也是没有必要的。

    因为SPSS线性回归输出的结果中,已经自动帮我们进行相应的计算,大家看SPSS线性回归的结果,(实际上其他统计软件也是同样的道理,也会相应的给出标准化回归系数,便于比较自变量X的重要性。)

    a08a7fe03d54b293e82ed5ac9f864d95.png

    看到【标准化系数】一栏的结果了吗,我们读取【未标准化系数】写出线性回归方程式,而读取【标准化系数】比较自变量的重要性。

    统计软件已经做出了精密的考虑和相应的结果,我们自然也就没必要自己再去做一个标准化处理。

    (全文完)


    71b8111d310d833fd64f9de1ef59d449.png

    SPSS统计训练营」微信号推出的《SPSS统计分析:从入门到案例实践》在线视频课程,目前已经有300+读者加入学习了,2019年课程将会在内在品质上下功夫打磨,更多案例,更多讨论,正在学习和使用SPSS的读者朋友,欢迎加入。

    课程地址:网易云课堂

    https://study.163.com/course/introduction/1003945001.htm

    fcaa7c4baa14179b7838abc067edcbcf.gif戳四字了解课程
    展开全文
  • 在机器学习回归问题,以及训练神经网络过程中,通常需要对原始数据进行中心化(零均值化)与标准化(归一化)处理。 背景 在数据挖掘数据处理过程中,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到...

    在机器学习回归问题,以及训练神经网络过程中,通常需要对原始数据进行中心化(零均值化)与标准化(归一化)处理。

    背景

    在数据挖掘数据处理过程中,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。

    目的

    通过中心化和标准化处理,最终得到均值为0,标准差为1的服从标准正态分布的数据。可以取消由于量纲不同、自身变异或者数值相差较大所引起的误差。

    原理

    中心化(又叫零均值化):是指变量减去它的均值。其实就是一个平移的过程,平移后所有数据的中心是(0,0)。

    标准化(又叫归一化): 是指数值减去均值,再除以标准差。

    意义 - 为何需要这些预处理

    在一些实际问题中,我们得到的样本数据都是多个维度的,即一个样本是用多个特征来表征的。比如在预测房价的问题中,影响房价的因素(特征)有房子面积、卧室数量等,很显然,这些特征的量纲和数值得量级都是不一样的,在预测房价时,如果直接使用原始的数据值,那么他们对房价的影响程度将是不一样的,而通过标准化处理,可以使得不同的特征具有相同的尺度(Scale)。简言之,当原始数据不同维度上的特征的尺度(单位)不一致时,需要标准化步骤对数据进行预处理。

    下图中以二维数据为例:左图表示的是原始数据;中间的是中心化后的数据,数据被移动大原点周围;右图将中心化后的数据除以标准差,得到为标准化的数据,可以看出每个维度上的尺度是一致的(红色线段的长度表示尺度)。

    其实,在不同的问题中,中心化和标准化有着不同的意义,比如在训练神经网络的过程中,通过将数据标准化,能够加速权重参数的收敛。对数据进行中心化预处理,这样做的目的是要增加基向量的正交性。

    标准化(归一化)优点及其方法

    标准化(归一化)两个优点:

    1)归一化后加快了梯度下降求最优解的速度;

    2)归一化有可能提高精度。

    标准化(归一化)两种方法:

    1)min-max标准化(Min-MaxNormalization)

    也称为离差标准化,是对原始数据的线性变换,使结果值映射到 [0 - 1] 之间。转换函数如下:

    其中max为样本数据的最大值,min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。

    2)Z-score标准化(0-1标准化)方法

    这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1。

    转化函数为:

    其中μ为所有样本数据的均值,σ为所有样本数据的标准差。

    中心化 -PCA示例

    在做PCA的时候,我们需要找出矩阵的特征向量,也就是主成分(PC)。比如说找到的第一个特征向量是a = [1, 2],a在坐标平面上就是从原点出发到点 (1,2)的一个向量。

    如果没有对数据做中心化,那算出来的第一主成分的方向可能就不是一个可以“描述”(或者说“概括”)数据的方向(看图)。

    黑色线就是第一主成分的方向。只有中心化数据之后,计算得到的方向才能比较好的“概括”原来的数据(图2)。

    参考:

    https://blog.csdn.net/GoodShot/article/details/80373372

    展开全文
  • 原标题:SPSS统计分析案例:数据标准化数据标准化处理是 数据挖掘 的一项基础工作,不同评价指标往往具有不同的量纲和...极差法极差法是对原始数据的线性变换,首先计算指标值得最小值、最大值,计算极差,通过极...

    原标题:SPSS统计分析案例:数据标准化

    数据标准化处理是 数据挖掘 的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标即处于同一数量级,适合进行综合对比评价。

    极差法

    极差法是对原始数据的线性变换,首先计算指标值得最小值、最大值,计算极差,通过极差法将指标值映射到[0-1]之间。公式为:

    新数据=(原数据-极小值)/(极大值-极小值)

    Z-score标准化法

    SPSS默认的数据标准化方法即是Z得分法,这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1。公式为:

    其中μ为所有样本数据的均值,σ为所有样本数据的标准差。

    数据标准化的另外一个实用之处

    在实际应用中,数据标准化不只是用于指标的可比性处理,还有一些非常实用的用处,利用标准化方法将指标归到最适于我们观测的范围,更加直观。且看案例:

    有一组数据,是学生参加某次社会公益活动的数据,其中有一指标为:在校综合评价指数,反映学生在校综合表现水平。

    可以看出这个指标的范围为[0-140],但这个范围不太符合我们在学校里的习惯,在学校里经常用[0-100]的百分制,60分以上基本认可为及格,现在这个范围不能直观的反映学生在校表现水平。此时,极差法是一个非常好的选择,我们可以将[0-140]数值,映射到[0-100],便于直观对比学生的表现。

    公式为:(原数据-极小值)/(极大值-极小值)*100

    我们再来看看结果:

    此时,[0-100]的范围非常符合我们日常的比较标准,能直观的反映学生的在校综合表现,已经达到目的。

    ——————

    SPSS统计训练营(微信号spsser)是一个自学平台,以详实统计案例教程为基础,配套练习使用的原始数据,方便读者自己实践,致力于让数据科学学习简单有趣高效。发起人数据小兵,资深数据分析师,SPSS套件爱好者,愿与科研工作者、行业数据分析者学习交流,欢迎订阅。返回搜狐,查看更多

    责任编辑:

    展开全文
  • 数据标准化处理

    千次阅读 2019-03-28 21:11:36
    python数据分析与数据化运营 宋天龙 著 数据标准化是一个常用的数据预处理操作,目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和... Z-Score标准化是基于原始数据的均值和标准差进行标准化,假...

    python数据分析与数据化运营      宋天龙  著

            数据标准化是一个常用的数据预处理操作,目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模、特征、分布差异等对模型的影响。除了用作模型计算,标准化后的数据还具有了直接计算并生成复合指标的意义,是加权指标的必要步骤。

            Z-Score标准化是基于原始数据的均值和标准差进行的标准化,假设原转换的数据为x,新数据为x',那么x'=(x-mean)/std,其中mean和std为x所在列的均值和标准差。这种方法适合大多数类型的数据,也是很多工具的默认标准化方法。标准化之后的数据是以0为均值,方差为1的正态分布。但是ZScore方法是一种中心化方法,会改变原有数据的分布结构,不适合用于对稀疏数据做处理。某些情况下,假如数据集中有离群点,我们可以使用Z-Score进行标准化,但是标准化后的数据并不理想,因为异常点的特征往往在标准化之后便容易失去离群特征。此时,可以使用RobustScaler针对离群点做标准化处理,该方法对数据中心化和数据的缩放健壮性有更强的参数控制能力。

            Max-Min标准化方法是对原始数据进行线性变换,假设原转换的数据为x,新数据为x',那么x'=(x-min)/(max-min),其中min和max为x所在列的最小值和最大值这种标准化方法的应用非常广泛,得到的数据会完全落入[0,1]区间内(Z-Score则没有类似区间),这种方法能使数据归一化而落到一定的区间内,同时还能较好地保持原有数据结构 。

           最大值绝对值标准化(MaxAbs)即根据最大值的绝对值进行标准化,假设原转换的数据为x,新数据为x',那么x'=x/|max|,其中max为x所在列的最大值。MaxAbs方法跟Max-Min用法类似,也是将数据落入一定区间,但该方法的数据区间为[-1,1]。MaxAbs也具有不破坏原有数据分布结构的特点,因此也可以用于稀疏数据、稀疏的CSR或CSC矩阵。

    import numpy as np
    from sklearn import preprocessing
    import matplotlib.pyplot as plt
    data = np.loadtxt('data6.txt', delimiter='\t') # 读取数据
    # Z-Score标准化
    zscore_scaler = preprocessing.StandardScaler() # 建立StandardScaler对象
    data_scale_1 = zscore_scaler.fit_transform(data) # StandardScaler标准化处理
    # Max-Min标准化
    minmax_scaler = preprocessing.MinMaxScaler() # 建立MinMaxScaler模型对象
    data_scale_2 = minmax_scaler.fit_transform(data) # MinMaxScaler标准化处理
    # MaxAbsScaler标准化
    maxabsscaler_scaler = preprocessing.MaxAbsScaler() # 建立MaxAbsScaler对象
    data_scale_3 = maxabsscaler_scaler.fit_transform(data) # MaxAbsScaler标准化处理
    # RobustScaler标准化
    robustscalerr_scaler = preprocessing.RobustScaler() # 建立RobustScaler标准化对象
    data_scale_4 = robustscalerr_scaler.fit_transform(data) # RobustScaler标准化标准化处理
    # 展示多网格结果
    data_list = [data, data_scale_1, data_scale_2, data_scale_3, data_scale_4] # 创建数据集列表
    scalar_list = [15, 10, 15, 10, 15, 10] # 创建点尺寸列表
    color_list = ['black', 'green', 'blue', 'yellow', 'red'] # 创建颜色列表
    merker_list = ['o', ',', '+', 's', 'p'] # 创建样式列表
    title_list = ['source data', 'zscore_scaler', 'minmax_scaler', 'maxabsscaler_scaler', 'robustscalerr_scaler'] # 创建标题列表
    for i, data_single in enumerate(data_list): # 循环得到索引和每个数值
     plt.subplot(2, 3, i + 1) # 确定子网格
     plt.scatter(data_single[:, :-1], data_single[:, -1], s=scalar_list[i], marker=merker_list[i], c=color_list[i]) # 自网格展示散点图
    plt.title(title_list[i]) # 设置自网格标题
    plt.suptitle("raw data and standardized data") # 设置总标题
    plt.show() # 展示图形

     

     

    展开全文
  • 在回归问题和一些机器学习算法中,以及训练神经网络的过程中,通常需要对原始数据进行中心化(Zero-centered 或者 Mean-subtraction)处理标准化(Standardization 或者 Normalization)处理。 1.矩阵中心化 矩阵...
  • 由于多指标的度量不一致,其数据间的差值也会过大,如果直接用原始数据进行研究分析,则会导致结果呈现偏向(偏高或偏低作用),因此为了保证结果呈现真实的规律,需要多指标进行数据标准化处理。常用的数据标准化...
  • 二、使用sklearn进行标准化和标准化还原 原理: 即先求出全部数据的均值和方差,再进行计算。 最后的结果均值为0,方差是1,从公式就可以看出。 但是当原始数据并不符合高斯分布的话,标准化后的数据效果并不好。 ...
  • 何为标准化: 在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据...min-max标准化方法是对原始数据进行线性变换。设minA和maxA分别为属性A的最小值和最大值,将A的一个原始值
  • 什么是数据标准化(Normalization)将数据按比例缩放,使之落入一个小的特定区间。...方法一:规范化方法也叫离差标准化,是对原始数据的线性变换,使结果映射到[0,1]区间。方法二:正规化方法这种方法基于原始数据...
  • 1、神经网络中,将原始数据进行去中心、归一化这样的标准化处理,(归一化)使得不同的特征具有相同的尺度(量纲),即消除特征之间的差异性,在使用梯度下降法学习参数的时候,不同特征参数的影响程度就一样了,...
  • 在回归问题和一些机器学习算法中,以及训练神经网络的过程中,通常需要对原始数据进行中心化(Zero-centered或者Mean-subtraction)处理和标准化(Standardization或Normalization)处理。目的:通过中心化和标准化...
  • 1.数据的特征处理 1.1.特征处理是什么 通过特定的统计方法(数学方法)将数据转换成算法要求的数据 1.1.1.特征处理的方法 1.1.1.1特征处理方法 ...特点: 通过对原始数据进行变换把数据映射到某个区间之间(默...
  • 归一化标准化处理

    2021-04-08 16:40:03
    归一指通过对原始数据进行变换把数据映射到[0,1]之间。 但在特定场景下最大值最小值是变化的,另外,最大值与最小值非常容易受异常点影响,所以这种方法鲁棒性较差,只适合传统精确小数据场景。 import numpy as...
  • 原标题:Python数据预处理:彻底理解标准化和归一化数据...常用的方法有两种:最大 - 最小规范化:对原始数据进行线性变换,将数据映射到[0,1]区间 Z-Score标准化:将原始数据映射到均值为0、标准差为1的分布上 为什...
  • 数据标准化

    2017-04-14 09:04:03
    数据标准化(归一化)处理是数据...原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是两种常用的归一化方法:一、min-max标准化(Min-Max Normalization)也称为离差标准化,是
  • 常用的方法是通过对原始数据进行线性变换把数据映射到[0,1]之间,变换函数为:  x∗=x−xminxmax−xminx∗=x−xminxmax−xmin 不同变量往往量纲不同,归一可以消除量纲对最终结果的影响,使不同变量具有可比性...
  • 在家没事梳理下数据标准化的东西 在这里插入代码片 ```# 数据标准化(Normalization)是指:将数据按照一定的...# Min-Max 标准化是指对原始数据进行线性变换,将值映射到【0,1】之间。 # 公式为: X' = (X-X...
  • 简介: 意义:数据中心化和标准化在回归分析中是取消由于量纲不同、自身变异或者数值相差较大所引起的...在回归问题和一些机器学习算法中,以及训练神经网络的过程中,还有PCA等通常需要对原始数据进行中心化(Zero
  • 归一化与标准化处理

    千次阅读 2015-10-29 10:56:24
    一般采用最大-最小规范化对原始数据进行线性变换公式:X=(X−Xmin)/(Xmax−Xmin)X =(X-Xmin)/(Xmax-Xmin) matlab归一函数: [y,ps] = mapminmax(x,ymin,ymax) x输入矩阵,ymin,ymax归一
  • 因此,为了保证结果的可靠性,需要对原始指标数据进行标准化处理。 1.Min_Max标准化 min-max标准化方法是对原始数据进行线性变换。设minA和maxA分别为属性A的最小值和最大值,将A的一个原始值x通过min-m
  • 数据的中心化和标准化

    万次阅读 多人点赞 2017-11-17 15:06:09
    简介: 意义:数据中心化和标准化在回归分析中是取消由于量纲不同、自身变异或者数值相差较大所...在回归问题和一些机器学习算法中,以及训练神经网络的过程中,还有PCA等通常需要对原始数据进行中心化(Zero-center
  • 1、在回归问题和一些机器学习算法中,以及训练神经网络的过程中,通常需要对原始数据进行中心化(Zero-centered或者Mean-subtraction(subtraction表示减去))处理标准化(Standardization或Normalization)处理 ...
  • 数据标准化【0~1标准化和Z标准化

    千次阅读 2020-05-29 15:37:58
    1.0~1标准化:也称离差标准化,它是对原始数据进行线性变换, 使结果落到 [0,1] 区间. X=(x - min)/(max - min) """ #0~1标准化 def min_max(df,cl,new_cl): df[new_cl] = (df[cl]-df[cl].min())/(df[cl].max()-df...
  • 常用的归一化方法有两种:最大 - 最小规范化:对原始数据进行线性变换,将数据映射到[0,1]区间Z-Score标准化:将原始数据映射到均值为0、标准差为1的分布上为什么要归一化?提升模型精度:归一化后,不同维...
  • 转载一篇写得很棒的机器学习中对数据进行处理的方法 ...一:数据归一化 数据归一化(标准化)处理是数据挖掘的一项基础工作,不同评价指标往往具有...原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行...
  • 为了消除特征之间的量纲和取值范围差异可能会造成的影响,需对数据进行标准化处理,也可以称为规范化处理。 目录: 一、离差标准化数据 二、标准差标准化数据 三、小数定标标准化数据 一、离差标准化数据 离差...
  • 在机器学习中,数据归一化是非常重要,它可能会导致模型坏掉或者训练出一个很奇怪的模型,为了让机器学习的模型更加适合实际情况,需要对数据进行归一化处理。 1.机器学习中常用的归一化方法: 2. 不同归一化方法...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 533
精华内容 213
关键字:

对原始数据进行标准化处理