极差归一化

极差归一化
极差归一化  目的：①消除计量单位差异，将评价指标的绝对值，转化为相对值。  ②评价指标分为：正指标、逆指标和适度性指标。正指标是指标值越离，评价对象越优；逆指标是指标值越低，评价对象越差；而适度性指标是指标数越接近某一值，评价对象越优。  对于正指标，计算公式如下：    对于逆指标，计算公式如下：    对于适度指标，计算公式如下（其中Xi*为该指标最优值）：    matlab实现：
function [ X_out ] = rscore( X_in,N,x )
%RSCORE 此函数用来实现极差归一化
%函数实现按列归一化
%X_out:归一化后的矩阵
%X_in:矩阵，需要归一化的矩阵
%N: 正整数，N=1,正指标归一化，N = 2，逆指标归一化，N = 3，适度指标归一化
%x：行向量，N = 3时需要给出x，x为每一列数据的最优指标
n0 = size(X_in);
m = zeros(n0(1),1);
maxx = max(X_in);
minn = min(X_in);
m = maxx-minn;
X_out = zeros(n0);
if N == 1
for j = 1:n0(2)
for i = 1:n0(1)
X_out(i,j) = (X_in(i,j) - minn(j))/m(j);
end
end
elseif N == 2
for j = 1:n0(2)
for i = 1:n0(1)
X_out(i,j) = (maxx(j)-X_in(i,j))/m(j);
end
end
elseif N == 3
for k = 1:n0(2)
m(k) = max(abs(X_in(:,k)-x(k)));
end
for j = 1:n0(2)
for i = 1:n0(1)
X_out(i,j) = 1-abs(X_in(i,j)-x(j))/m(j);
end
end
end
end

这是怎么回事
这是怎么回事
2..不输入rscore函数的源代码，直接使用，会出现
[R,xmin,xrang]=rscore(x)
错误使用 rscore
Not enough input arguments.
3.MATLAB 文件帮助: rscore，是这样写的。
The core function in Reed-Solomon decode.
MSG = rscore(CODE, K, TP, M, POW_M, T2) decodes a single codeword
vector CODE using the Reed-Solomon decoding technique. The message length
is K. The complete (and correct) list of all members in GF(2^M) is
in TP. The code word length is provided in POW_M, which equals
2^M - 1. The decoding result is provided in the output variable MSG.
[MSG, ERR] = rscore(CODE, K, TP, M, POW_M, T2) outputs the error
detected in the decoding.
[MSG, ERR, CCODE] = rscore(CODE, K, TP, M, POW_M, T2) outputs the
corrected codeword in CCODE.
NOTE: Unlike all of the other encoding/decoding functions,
this function takes exponential input instead of regular input for
processing. For example [-Inf, 0, 1, 2, ...] represents
[0 1 alpha, alpha^2, ...] in GF(2^m). There are 2^M elements in
GF(2^M). Hence, the input CODE represents 2^M * (2^M - 1) bits of
information. The decoded MSG represents 2^M * K bits of information.
To speed computation, no error-checking is placed in this function,
all input variables must be present.
没有看明白。

• 解答：当数据(x)按照最小值中心化后，再按极差(最大值-最小值)缩放，数据移动了最小值个单位，并且会被收敛到[0，1]之间，而这个过程，就称作数据归一化(Normalization，又称Min-Max Scaling)。在sklearn当中，我们...

问题一：什么是归一化？
解答：
当数据(x)按照最小值中心化后，再按极差(最大值-最小值)缩放，数据移动了最小值个单位，并且会被收敛到[0，1]之间，而这个过程，就称作数据归一化(Normalization，又称Min-Max Scaling)。

在sklearn当中，我们使用preprocessing.MinMaxScaler来实现这个功能。
MinMaxScaler有一个重要参数，feature_range，控制我们希望把数据压缩到的范围，默认是[0，1]。
问题二：怎样实现归一化？
代码：
# 先切分整体的数据集， 利用mms，学习训练集的信息， 用他们来转换训练集，转换测试集
# 可以避免之前所描述的信息的泄露
X_train, X_test, y_train, y_test = train_test_split(X, # array或者是DF
y, # 标签
test_size=0.3, # 切分出来的测试集的占比
random_state=210# 随机数种子
)
# 实现归一化
from sklearn.preprocessing import MinMaxScaler, StandardScaler
# 实例化
mms = MinMaxScaler()
mms = mms.fit(X_train)
X_train_ = mms.transform(X_train)
X_test_ = mms.transform(X_test)
# 训练和导出结果一步达成
clf = KNeighborsClassifier(n_neighbors = 4)
clf.fit(X_train_, y_train)
clf.score(X_train_, y_train), clf.score(X_test_, y_test)

• 继续之前的数据和工作，进行数据的标准处理，具体数据可从下方博客链接获取 剔除异常值 ...这里采用极差变换： 放代码： import numpy as np import pandas as pd path = "E:/Mo...
继续之前的数据和工作，进行数据的标准化处理，具体数据可从下方博客链接获取
剔除异常值

放下表一和表二Excel的截图

大体思路：
实际问题中，不同数据可能有不同的性质和量纲，为进行模糊聚类，需进行标准化处理。这里采用极差变换：
$x' = \frac{x-min(x)}{max(x)-min(x)}$

放代码：
import numpy as np
import pandas as pd
path = "E:/Model_building/A/"
s2 = pd.read_excel(path+"sheet2.xlsx")
s1 = pd.read_excel(path+"sheet1.xlsx")    # 导入1、2表
s1 = pd.DataFrame(s1.values)             # dataframe
s2 = pd.DataFrame(s2.values)
s1 = s1.drop([s1.columns[0]], axis=1)    # 去掉0列
s2 = s2.drop([s2.columns[0]], axis=1)

s1.columns = ['a', 'b', 'c', 'd', 'e']         # 之前作死删掉了列名，感觉还是用列名更方便
s2.columns = ['1', '2', '3', '4', '5', '6', '7', '8', '9']

s2['1'] = s2['1'].astype('int64')    # 输出发现表2的序号列为float，更改为int

看一下s1和s2的头部输出，其中a，1都为采样点的序号，b,c为xy坐标，d为海拔，e为地区类型，2到9为八种元素在每个采样点的浓度

s12 = pd.merge(s1, s2, how='inner', left_on='a', right_on='1')   # 将表1、2按照索引，合并为s12
del s12['1']
s12.head()
看一下s12的头部输出 ，这样就明了了

path = "E:/Model_building/A/"
ma = s12.groupby(s12['e']).max().iloc[:, 4:12]
mi = s12.groupby(s12['e']).min().iloc[:, 4:12]     # 按照地区列分组，得出每种元素最大最小值
s122 = s12.set_index(['a','e'])    # 双重索引
print(mi,'\n')
print(s122.head())
s122.iloc[:, 3:12] = ( s122.iloc[:, 3:12] - mi )/(ma-mi)   # 极差变换
s122.to_excel(path+"sheet_standardized.xlsx")
在进行极差变换时，由于s122和mi相减时，由于s122每种e有多个，所以一直报错 ，如下：

不能有重复索引，所以设置一个双重索引（即地区和序号），这样在相减时，自动匹配对应的行（e）和列（元素）
pathx = "E:/Model_building/A/cumcm2011A附件_数据.xls"
p = s12.iloc[:,5:].groupby(s12['e']).mean()  # 每个地区每种元素的均值
print(p)
s122 = s122.reset_index()   # 取消索引，以便下一步引用‘e’
p1 = s122.groupby(s122['e']).mean().iloc[:, 5:]   # 每个地区每种元素，经过极差变换后的均值
print(p1)
p1.to_excel(path+"sheet1-6.xlsx")   # 保存
p.to_excel(path+"sheet1-7.xlsx")
放一下两个表的结果


