-
2022-05-01 17:43:43
部分代码如下
import numpy as np import pandas as pd import xlrd import xlwt from numpy import ravel from xlutils.copy import copy def Z_Score(data): lenth = len(data) total = sum(data) ave = float(total) / lenth tempsum = sum([pow(data[i] - ave, 2) for i in range(lenth)]) tempsum = pow(float(tempsum) / lenth, 0.5) ...... def excel_one_line_to_list(): df = pd.read_excel("XXX.xls", usecols=[0],names=None) # 读取项目名称和行业领域两列,并不要列名 df1 = np.array(df) df2 = ravel(df1) df3 = df2.tolist() list = Z_Score(df3) excel1 = '表格1.xls' # 表名 # 想写入哪个表格后面就跟哪个表格 excel_name = 'excel/' + excel1 # 记得新建一个文件夹“excel”(在项目下面) # sheet名称 sheet_name = '测试数据' # 表头 title = ['Sequence'] ......
完整代码链接:Z-score标准化的python代码
更多相关内容 -
Z-score 标准化(standardization)
2022-05-05 16:55:55Z-score 标准化(standardization) 1. 标准化和正则化 严格来说z-score是标准化的操作,有的地方写的归一化(normalization),是错误的说法。1)标准化是通过变换使得数据符合均值为0,方差为1的分布。2)归一化湿通过...Z-score 标准化(standardization)
1. 标准化和正则化
严格来说z-score是标准化的操作,有的地方写的归一化(normalization),是错误的说法。1)标准化是通过变换使得数据符合均值为0,方差为1的分布。2)归一化湿通过变换使得数据值变到[0, 1] 这个区间中。两者有本质的区别。
2. 计算方法
1)标准差计算公式:
σ = 1 N ∑ i = 1 N ( x i − μ ) 2 \sigma=\sqrt{\frac{1}{N}\sum_{i=1}^N(x_i-\mu)^2} σ=N1i=1∑N(xi−μ)22)Z-score 标准化计算公式:
z i = x i − μ σ z_i=\frac{x_i-\mu}{\sigma} zi=σxi−μ注:Z-score 标准化只能使得数据变换为均值为0,方差为1,不会改变原数据的分布,原数据是正态分布就是正态分布,原数据不是就不是,所以那些说这个操作使得数据0-1正态化分布的说法是错误的。下图是变换的图解,红线就是变化后的分布,理论上来说应该还是属于偏态数据。
-
归一化z-score标准化
2021-02-05 02:28:55z-score标准化z-score标准化是将数据按比例缩放,使之落入一个特定区间。 要求:均值 μ = 0 ,σ = 1标准差公式:imagez-score标准化转换公式:image归一化归一化:把数变为(0,1)之间的小数归一化公式:image这里...z-score标准化
z-score标准化是将数据按比例缩放,使之落入一个特定区间。 要求:均值 μ = 0 ,σ = 1
标准差公式:
image
z-score标准化转换公式:
image
归一化
归一化:把数变为(0,1)之间的小数
归一化公式:
image
这里利用sklearn的MinMaxScaler和StandardScaler两个类,对所有数据进行归一化处理
import pandas as pd
from sklearn import preprocessing
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
# 读取数据
features = ['accommodates','bedrooms','bathrooms','beds','price','minimum_nights','maximum_nights','number_of_reviews']
dc_listings = pd.read_csv(r'D:\codes_jupyter\数据分析_learning\课件\05_K近邻\listings.csv', engine='python')
dc_listings = dc_listings[features]
# 对price列进行一定的处理,使其变成float型
dc_listings['price'] = dc_listings.price.str.replace(r'\$|,', '').astype(float)
# 对缺失值进行处理,删除有缺失值的数据
dc_listings = dc_listings.dropna()
# 归一化
dc_listings[features] = MinMaxScaler().fit_transform(dc_listings)
# 标准化
# dc_listings[features] = StandardScaler().fit_transform(dc_listings)
print(dc_listings.shape)
dc_listings.head()
输出结果如下:
image
得到标准化的数据后,就可以利用多个指标对房租价格进行预测了。
-
Z-Score标准化
2021-09-02 09:15:52Z-Score标准化是数据处理的一种常用方法。通过它能够将不同量级的数据转化为统一量度的Z-Score分值进行比较。提高了数据可比性,削弱了数据解释性。 二、公式: 1、总体数据的均值(μ) 2、总体数据的标准差(σ)...一、说明:
Z-Score标准化是数据处理的一种常用方法。通过它能够将不同量级的数据转化为统一量度的Z-Score分值进行比较。提高了数据可比性,削弱了数据解释性。
二、公式:
1、总体数据的均值(μ)
2、总体数据的标准差(σ)
3、个体的观测值(x)
三、Z-Score的优缺点
优点:
1、简单,容易计算,凭借最简单的数学公式就能够计算出Z-Score并进行比较。2、Z-Score能够应用于数值型的数据,并且不受数据量级的影响,因为它本身的作用就是消除量级给分析带来的不便。
缺点:
1、首先,估算Z-Score需要总体的平均值与方差,这一值在真实的分析与挖掘中很难得到,大多数情况下是用样本的均值与标准差替代。2、其次,Z-Score对于数据的分布有一定的要求,正态分布是最有利于Z-Score计算的。
3、最后,Z-Score消除了数据具有的实际意义,A的Z-Score与B的Z-Score与他们各自的分数不再有关系,因此Z-Score的结果只能用于比较数据间的结果,数据的真实意义还需要还原原值。
四、Z-Score标准化python代码实现
import math def get_average(data): #求数组平均数 return sum(data) / len(data) def get_variance(data):#求数组方差 average = get_average(data) return sum([(x - average) ** 2 for x in data]) / len(data) def get_standard_deviation(data): #求数组标准差 variance = get_variance(data) return math.sqrt(variance) def get_z_score(data): #求数组的z-score归一化最后的结果 avg = get_average(data) stan = get_standard_deviation(data) scores = [(i-avg)/stan for i in data] return scores
五、实际应用Python实现
def get_z_score(df): return (df['Duration'] - df['Duration'].mean())/df['Duration'].std()
-
z-score标准化方法
2021-02-21 23:00:16z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。新数据=(原数据-均值)/标准差 -
数据预处理 - 归一化与Z-Score标准化
2019-04-16 17:14:50归一化 归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为标量,在多种计算中都经常用到这种方法。归一化方法有两种形式,一种是把...最大最小标准化 x*=(x-min)/(max−min) ... -
数据标准化的常见方法(Min-Max标准化、Z-Score标准化等)
2020-11-26 10:33:18数据的标准化: 将数据按比例缩放,使之落入一个小的特定区间,一般目的在于:去除数据的单位限制,转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。数据的归一化便是一个典型的案例。 数据的... -
3.4.2数据标准化(一) - Z-Score标准化
2018-05-14 18:05:25在数据标准化中,常见的方法有如下三种:Z-Score 标准化最大最小标准化小数定标法本篇主要介绍第一种数据标准化的方法,Z-Score标准化。此方法在整个数据分析与挖掘体系中的位置如下图所示。Z-Score处理方法处于整个... -
【Deep Learning】数据预处理(z-score标准化)
2019-12-15 09:00:37z-score 标准化(zero-mean normalization):将数据按期属性(按列进行)减去其均值,并除以其标准差。得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1,其公式 ![]... -
python一行搞定Z-score标准化
2020-05-16 16:18:53使用sklearn的scaler方法进行z-score标准化处理只需要一行: from sklearn import preprocessing data = preprocessing.scale(values) #注意,这里的values是array 对pandas dataframe进行最大最小值标准化处理再... -
列归一化 最大最小标准化 z-score标准化 matlab代码实现
2019-10-11 13:26:25对于列全为0的数据,maxmin标准化和列归一化结果会NAN->该矩阵所有数+0.0000000001,再进行处理 列归一代码↓ eps=0.0000000001; U=U+eps*ones(M,M); %ones[m,n] 生成m行n列的全1矩阵 vd=sum(U); t2=diag(vd); ..... -
数据规范化(归一化)、及Z-score标准化
2019-09-24 11:08:00(2)零-均值规范化(z-score标准化) 零-均值规范化也称标准差标准化,经过处理的数据的均值为0,标准差为1。转化公式为: 其中 为原始数据的均值, 为原始数据的标准差,是当前用得最多的数据标准化方式。标准差... -
PCL 点云Z-Score 标准化
2021-09-30 07:20:38[1]许永超,宋建国,李哲,张纪伟,于明凯. 基于PCL的三维断点数据聚类方法[A]. 中国地球物理学会油气地球物理专业委员会.第四届油气地球物理学术年会论文集[C].中国地球物理学会油气地球物理专业委员会:中国地球物理... -
数据预处理-归一化与z-score标准化
2017-12-28 15:03:15归一化: 归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为标量。 在多种计算中都经常用到这种方法。 线性函数转换: y=(x-MinValue)/(MaxValue-MinValue) 说明:x... -
最大最小标准化与Z-score标准化
2018-01-30 15:01:54最大最小标准化: X* = (x-x.min)/(x.max-x.min) Z-score标准化 X* = (x- μ)/δ x = (a-a.mean())/a.std() -
如何看待 z-score 和 修正z-score(中位数标准化)
2021-12-15 16:30:01但是,z-score标准化有其自身的限制,这些限制来自于: 异常值的存在 正太分布(方差齐性)的假说 当我们在处理各种组学数据时,常常由于观察值不多导致数据在进行正态性检验的时候,发现并不服从正太假说;有时候... -
python 数据标准化常用方法,z-score\min-max标准化
2020-12-09 03:08:21数据标准化在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据... -
数据归一化与z-score标准化
2016-07-06 16:07:19现实应用中,归一化和标准化都快被叫烂了,很多时候我们都认为二者有相同的意思。粗略上是可以这样认为的,功能是一样的,目的都是消除量纲的影响,以解决指标之间的可比性问题。细细品味,背后还是有些意思的。从几... -
z-score的标准化究竟怎么弄?
2021-01-14 14:49:04统计学的变量标准化指的就是对原来的数据基于均值和标准差计算z-score(公式如下), 不过考虑到均值和标准差受到离群点波动很大,可以用中位数替代均值,用绝对标准差替代标准差。 R语言中做标准化常用到一个函数scale... -
Z-Score:定义,公式 和 数据标准化
2020-12-08 17:07:20z-score主要的应用是测量原始数据与数据总体均值相差多少个标准差。 z-score是比较测试结果与正常结果的一种方法。测试与调查的结果往往有不同的单位和意义,简单地从结果本身来看可能毫无意义。当我们知道小明数学... -
Fisher r-z变换,z-score标准化与常用标准化
2017-06-20 11:22:21Z-score标准化 这是数据处理最常用的方法 * 目标:均值0,方差1 h(x1) = (h(x1)-mean(h(X))/squareroot(sum of h(xi)*h(xi)) 标准化 (标准差置1) * 目标:标准差为1 * 需要方法: PCA * Tips: 图像不需要因为... -
Z-Score归一化方法
2020-02-25 23:46:34Z-Score方法基于原始数据的均值(mean)和标准差(standard deviation)来进行数据的标准化,处理后的数据均值为0,方差为1,符合标准正态分布,且无量纲。其主要目的是将不同量级的数据统一化为同一个量级,统一用...