• 2021-04-03 22:53:05

## Python实现k均值聚类算法_K-Means聚类算法

若想快速了解k均值聚类算法_K-Means聚类算法，可参考这位大佬的文章，通俗易懂：k均值聚类算法考试例题_K-Means聚类算法，作者：weixin_39789792
感谢这位博主。

本篇博客仅作为自用笔记，如有侵权联系删除。

## 代码详细

注意：
质心k的坐标取值不能取的太离谱，比如三个质心中有一个质心的坐标离样本数据中所有坐标都很远，就会导致列表sse_k1(或k2、k3)中无数据，便使len(sse_kx(x为1、2、3))=0,报错：ZeroDivisionError: division by zero

import pylab as pl

def square_Euclid(x, y):
"""
计算欧几里得距离：
若是两个平面上的点，即（x1，y1），和（x2，y2），那这俩点距离即√( (x1-x2)^2+(y1-y2)^2）；
如果是三维空间中的点，则为√( (x1-x2)^2+(y1-y2)^2+(z1-z2)^2 。
"""
return (x[0] - y[0]) ** 2 + (x[1] - y[1]) ** 2

# 初始化各个点
num_x = []
num_y = []
fl = open('data01.txt')  # 点数据存放在data01.txt中
curLine = line.strip().split()

num_x.append(float(curLine[0]))
num_y.append(float(curLine[1]))

# 初始化三个质心，经过聚类得到三个分组
k1 = [-1.7, 1]
k2 = [-0.5, 0.5]
k3 = [1, 2]

# 定义三个簇
sse_k1 = []
sse_k2 = []
sse_k3 = []

n = len(num_x)
while True:
sse_k1 = []
sse_k2 = []
sse_k3 = []
for i in range(n):
square_E1 = square_Euclid(k1, [num_x[i], num_y[i]])
square_E2 = square_Euclid(k2, [num_x[i], num_y[i]])
square_E3 = square_Euclid(k3, [num_x[i], num_y[i]])

num_min = min(square_E1, square_E2, square_E3)

# 聚类
if num_min == square_E1:
sse_k1.append(i)
elif num_min == square_E2:
sse_k2.append(i)
elif num_min == square_E3:
sse_k3.append(i)

# 求坐标平均值，以确定新的质心(更新质心坐标)
k1_x = sum([num_x[i] for i in sse_k1]) / len(sse_k1)
k1_y = sum([num_y[i] for i in sse_k1]) / len(sse_k1)

k2_x = sum([num_x[i] for i in sse_k2]) / len(sse_k2)
k2_y = sum([num_y[i] for i in sse_k2]) / len(sse_k2)

k3_x = sum([num_x[i] for i in sse_k3]) / len(sse_k3)
k3_y = sum([num_y[i] for i in sse_k3]) / len(sse_k3)

# 只要有质心的坐标发生改变，则更新质心坐标；若三个质心均无变化，则判定以收敛，聚类结束，退出循环
if k1 != [k1_x, k1_y] or k2 != [k2_x, k2_y] or k3 != [k3_x, k3_y]:
k1 = [k1_x, k1_y]
k2 = [k2_x, k2_y]
k3 = [k3_x, k3_y]
else:
break

# 取聚类后的点坐标
kv1_x = [num_x[i] for i in sse_k1]
kv1_y = [num_y[i] for i in sse_k1]

kv2_x = [num_x[i] for i in sse_k2]
kv2_y = [num_y[i] for i in sse_k2]

kv3_x = [num_x[i] for i in sse_k3]
kv3_y = [num_y[i] for i in sse_k3]

pl.plot(kv1_x, kv1_y, '+')
pl.plot(kv2_x, kv2_y, '.')
pl.plot(kv3_x, kv3_y, '^')

# 坐标系大小依样本数据值范围而定
pl.xlim(-2, 2.5)
pl.ylim(-1, 2.5)
pl.show()



## 所用样本数据

在.py文件所在文件下创建data01.txt文本文档,并将以下数据存入

-0.113523119722435 0.305566317246824
-0.0363280337139859 0.110677855003451
0.113494507689856 0.285179031884109
-0.00383816850385252 0.670778674827114
-0.180363593046200 0.394837771823933
0.295367728543231 -0.355182535548782
-0.0296566442720039 0.228722511660635
-0.0930361342677474 0.154377592930645
-0.159633545380951 1.03286272700827
-0.609370592744484 0.0100246598182464
0.164875043625935 0.107920610145671
-0.649661855983650 -0.0264148180075531
-0.0853301136043781 0.194929464533097
-0.0869727732803104 -0.166019322253363
0.267258237150858 0.318664851557507
-0.876324515282669 0.578412914115882
0.290320777421500 0.0269704554131184
-0.164202641138215 -0.0216061750617156
-0.408886348765266 -0.178183406834480
-0.00275690297052195 -0.149757266490323
-0.230897603220972 0.202729565016547
-0.289768125501838 0.299373894453753
0.565273947293806 -0.112025265465832
-0.259434375270518 -0.183038062076565
-0.0622055869197436 0.0178584309105331
-0.281488166956539 -0.282493439656289
0.288003999490542 0.354832178282382
-0.00387861254715821 0.245338598261617
0.0230259610960932 0.304367839506965
0.297069520513791 0.398694925851779
0.213528795047459 -0.0341268311839215
0.248545070529365 -0.182513241920946
-0.674431824833610 0.166219624024427
0.0695478578554150 0.364281641067673
1.52144323033782 1.56356334395462
1.54901744911605 1.44082824131763
1.72628026225810 0.999267392962595
1.34339405843162 1.54435051334828
1.63076888391605 0.822969713727122
1.24625402720513 1.50291563943267
1.49966193305128 1.43962200220279
0.806148334745612 1.59798616598320
1.73765675194197 0.801038214866100
0.688725193167526 1.18560461303177
1.31503430771996 1.25566460922217
1.14051881393761 1.28173391148891
0.883497444350820 1.52712829138676
1.35619761199096 1.47157896393621
-1.41400896645106 1.03490557492282
-1.46921827418174 0.691733912712829
-1.06733046906236 0.945293131396786
-0.789899047908273 1.04583303354796
-0.922550939191143 1.39310184834662
-0.918965347657051 1.44432139992464
-1.03616345036068 1.00166612828372
-1.07715160762591 1.51189230738663
-1.01283275702248 1.46105578965393
-1.48079534886488 1.21031313607727
-0.986518252032434 0.949195019118798
-1.62901492888985 1.53208781532487
-1.05432664597088 1.20897843449092
-1.51323198856773 0.929507861004623
-1.55689740607725 1.32978015955565
-1.39341270591838 1.41557221811715
-1.66195228414799 0.787792125905413
-1.24494832523794 1.84020927229746
-0.898778729417616 0.570410077321060
-1.32885894876685 0.732892764435160
-1.09324537986321 1.63706883409855
-1.19875924554585 1.35282905121539
-0.866788557380931 1.11436578620945
-1.30006378262166 1.25366700524127
-1.15735442373393 1.48126320709162
-0.469640188642725 0.975507100878317
-0.887529056287694 1.54350983044641
-1.54530712190787 1.47051092229069
-0.895890659992745 1.23572220775434
-1.54226615688700 1.31046627190501
-1.24686714416393 1.05116769432966
-1.18900045601094 1.35740905869805
-1.65786095402519 1.03723338930851
-1.37644334323617 1.08018136201292
-1.00479602718570 0.921073237322932
-0.958390570797860 1.56536899409517
-0.761574879786032 1.24176101803965
-1.56925161923031 1.04223861195863
-0.979085655811513 1.46432198217887
-1.14713536403328 1.08846006315455
-0.853944089636229 1.39103904734476

• 2.编写k-均值聚类算法程序，对人工生成数据集AriGen 与 Iris数据集进行聚类﹐并计算DB指数。 一、数据集（150) 具体数据如下（如果不能运行，尝试在末尾加回车） 5.1 3.5 1.4 0.2 1 4.9 3 1.4 0.2 1 4.7 3...

# 一、数据集（150)

具体数据如下（如果不能运行，尝试在末尾加回车）

5.1	3.5	1.4	0.2	1
4.9	3	1.4	0.2	1
4.7	3.2	1.3	0.2	1
4.6	3.1	1.5	0.2	1
5	3.6	1.4	0.2	1
5.4	3.9	1.7	0.4	1
4.6	3.4	1.4	0.3	1
5	3.4	1.5	0.2	1
4.4	2.9	1.4	0.2	1
4.9	3.1	1.5	0.1	1
5.4	3.7	1.5	0.2	1
4.8	3.4	1.6	0.2	1
4.8	3	1.4	0.1	1
4.3	3	1.1	0.1	1
5.8	4	1.2	0.2	1
5.7	4.4	1.5	0.4	1
5.4	3.9	1.3	0.4	1
5.1	3.5	1.4	0.3	1
5.7	3.8	1.7	0.3	1
5.1	3.8	1.5	0.3	1
5.4	3.4	1.7	0.2	1
5.1	3.7	1.5	0.4	1
4.6	3.6	1	0.2	1
5.1	3.3	1.7	0.5	1
4.8	3.4	1.9	0.2	1
5	3	1.6	0.2	1
5	3.4	1.6	0.4	1
5.2	3.5	1.5	0.2	1
5.2	3.4	1.4	0.2	1
4.7	3.2	1.6	0.2	1
4.8	3.1	1.6	0.2	1
5.4	3.4	1.5	0.4	1
5.2	4.1	1.5	0.1	1
5.5	4.2	1.4	0.2	1
4.9	3.1	1.5	0.1	1
5	3.2	1.2	0.2	1
5.5	3.5	1.3	0.2	1
4.9	3.1	1.5	0.1	1
4.4	3	1.3	0.2	1
5.1	3.4	1.5	0.2	1
5	3.5	1.3	0.3	1
4.5	2.3	1.3	0.3	1
4.4	3.2	1.3	0.2	1
5	3.5	1.6	0.6	1
5.1	3.8	1.9	0.4	1
4.8	3	1.4	0.3	1
5.1	3.8	1.6	0.2	1
4.6	3.2	1.4	0.2	1
5.3	3.7	1.5	0.2	1
5	3.3	1.4	0.2	1
7	3.2	4.7	1.4	2
6.4	3.2	4.5	1.5	2
6.9	3.1	4.9	1.5	2
5.5	2.3	4	1.3	2
6.5	2.8	4.6	1.5	2
5.7	2.8	4.5	1.3	2
6.3	3.3	4.7	1.6	2
4.9	2.4	3.3	1	2
6.6	2.9	4.6	1.3	2
5.2	2.7	3.9	1.4	2
5	2	3.5	1	2
5.9	3	4.2	1.5	2
6	2.2	4	1	2
6.1	2.9	4.7	1.4	2
5.6	2.9	3.6	1.3	2
6.7	3.1	4.4	1.4	2
5.6	3	4.5	1.5	2
5.8	2.7	4.1	1	2
6.2	2.2	4.5	1.5	2
5.6	2.5	3.9	1.1	2
5.9	3.2	4.8	1.8	2
6.1	2.8	4	1.3	2
6.3	2.5	4.9	1.5	2
6.1	2.8	4.7	1.2	2
6.4	2.9	4.3	1.3	2
6.6	3	4.4	1.4	2
6.8	2.8	4.8	1.4	2
6.7	3	5	1.7	2
6	2.9	4.5	1.5	2
5.7	2.6	3.5	1	2
5.5	2.4	3.8	1.1	2
5.5	2.4	3.7	1	2
5.8	2.7	3.9	1.2	2
6	2.7	5.1	1.6	2
5.4	3	4.5	1.5	2
6	3.4	4.5	1.6	2
6.7	3.1	4.7	1.5	2
6.3	2.3	4.4	1.3	2
5.6	3	4.1	1.3	2
5.5	2.5	4	1.3	2
5.5	2.6	4.4	1.2	2
6.1	3	4.6	1.4	2
5.8	2.6	4	1.2	2
5	2.3	3.3	1	2
5.6	2.7	4.2	1.3	2
5.7	3	4.2	1.2	2
5.7	2.9	4.2	1.3	2
6.2	2.9	4.3	1.3	2
5.1	2.5	3	1.1	2
5.7	2.8	4.1	1.3	2
6.3	3.3	6	2.5	3
5.8	2.7	5.1	1.9	3
7.1	3	5.9	2.1	3
6.3	2.9	5.6	1.8	3
6.5	3	5.8	2.2	3
7.6	3	6.6	2.1	3
4.9	2.5	4.5	1.7	3
7.3	2.9	6.3	1.8	3
6.7	2.5	5.8	1.8	3
7.2	3.6	6.1	2.5	3
6.5	3.2	5.1	2	3
6.4	2.7	5.3	1.9	3
6.8	3	5.5	2.1	3
5.7	2.5	5	2	3
5.8	2.8	5.1	2.4	3
6.4	3.2	5.3	2.3	3
6.5	3	5.5	1.8	3
7.7	3.8	6.7	2.2	3
7.7	2.6	6.9	2.3	3
6	2.2	5	1.5	3
6.9	3.2	5.7	2.3	3
5.6	2.8	4.9	2	3
7.7	2.8	6.7	2	3
6.3	2.7	4.9	1.8	3
6.7	3.3	5.7	2.1	3
7.2	3.2	6	1.8	3
6.2	2.8	4.8	1.8	3
6.1	3	4.9	1.8	3
6.4	2.8	5.6	2.1	3
7.2	3	5.8	1.6	3
7.4	2.8	6.1	1.9	3
7.9	3.8	6.4	2	3
6.4	2.8	5.6	2.2	3
6.3	2.8	5.1	1.5	3
6.1	2.6	5.6	1.4	3
7.7	3	6.1	2.3	3
6.3	3.4	5.6	2.4	3
6.4	3.1	5.5	1.8	3
6	3	4.8	1.8	3
6.9	3.1	5.4	2.1	3
6.7	3.1	5.6	2.4	3
6.9	3.1	5.1	2.3	3
5.8	2.7	5.1	1.9	3
6.8	3.2	5.9	2.3	3
6.7	3.3	5.7	2.5	3
6.7	3	5.2	2.3	3
6.3	2.5	5	1.9	3
6.5	3	5.2	2	3
6.2	3.4	5.4	2.3	3
5.9	3	5.1	1.8	3

# (1）人工生成数据集AriGen:

import math  # 数学
import random  # 随机
import numpy as np
import matplotlib.pyplot as plt

# 计算两个样本距离
def dist(xy, a, b):
d_l = 0  # 储存当前距离值
for i in range(len(xy) - 1):  # 对每个属性
d_l += (xy[i][a] - xy[i][b]) ** 2  # 计算平方和
d_l = d_l ** 0.5  # 开根号
return d_l

# 计算avg（C）
def avg(xy, Ci):
sum = 0
for i in Ci:
for j in Ci:
sum += dist(xy, i, j)
return sum * 2 / (len(Ci) * (len(Ci) - 1))

# 计算DB指数
def DB(xy, C, u):
sum = 0
for i in range(len(C)):  # 每一簇
max_C = -float('inf')
for j in range(len(C)):
if i == j:
continue
dcen = 0
for k in range(len(xy) - 1):  # 对每个属性
dcen += (u[i][k] - u[j][k]) ** 2  # 计算平方和
dcen = dcen ** 0.5  # 开根号
max_ = (avg(xy, C[i]) + avg(xy, C[j])) / dcen
if max_ > max_C:
max_C = max_
sum += max_C
return sum / len(C)

# k均值聚类算法，分k簇。
def jvlei_k(xy, k):
n = len(xy[0])  # 储存数据数。
u = []  # 储存簇的均值向量
C = []  # 储存簇划分
# 挑选k个不重复的样本。
i = 0
j = 0
u = random.sample(range(n), k)  # (如果数据随机，这一步其实可以直接选前k个)
for i in range(k):  # 对每个初始点。
l = u[i]  # 暂存
u[i] = []
print('初始点', i, end='\t: ')
for j in range(len(xy) - 1):  # 对每个属性
u[i].append(xy[j][l])
print(u[i], xy[j + 1][l])
while 1:
C = []  # 储存簇划分
for i in range(k):  # k 簇
C.append([])  # 初始化C。
for i in range(n):  # 所有的数据
d = float('inf')  # 初始无穷大
l = 0  # 属于哪个簇
for j in range(k):  # 看和每个簇的距离，找最小。
d_ = 0  # 储存当前距离值
for ii in range(len(xy) - 1):  # 对每个属性
d_ += (xy[ii][i] - u[j][ii]) ** 2  # 计算平方和
d_ = d_ ** 0.5  # 开根号
if d_ < d:  # 距离更近
d = d_  # 最近值更改
l = j  # 属于第j簇
C[l].append(i)  # 并入第l簇
u_ = []  # 新的均值向量
for i in range(k):  # 重新计算每个簇的均值
u_.append([0] * (len(xy) - 1))
for j in C[i]:  # 对簇中每个样本
for ii in range(len(xy) - 1):  # 对每个属性
u_[i][ii] += xy[ii][j]  # 求和
for ii in range(len(xy) - 1):  # 对每个属性
u_[i][ii] /= len(C[i])  # 均值
l = 0  # 标记
for i in range(k):  # 每个均值向量
for j in range(len(u[0])):  # 每个属性
l += (u[i][j] - u_[i][j]) ** 2  # 求误差
if l < 0.01:
print('DB=', DB(xy, C, u))
return C
else:
u = u_[:]

# 簇分类和标签对比，返回【最多标签，最多标签所占比例】
def panduan(yi, Ci):
biaoqian = {}  # 标签，出现次数
for i in Ci:
if yi[i] in biaoqian:  # 存在
biaoqian[yi[i]] += 1  # 加一
else:
biaoqian[yi[i]] = 1  # 创建
max_ = -1  # 标签
max_t = -1  # 标签数
for i in biaoqian:  # 所有标签
if biaoqian[i] > max_t:  # 找最多的
max_ = i
max_t = biaoqian[i]
return [max_, (max_t * 100 / len(Ci))]

# 生成数据集=============================================
x = []  # 数据集x属性
y = []  # 数据集y属性
x.extend(np.random.normal(loc=040.0, scale=10, size=100))  # 向x中放100个均值为40，方差为10，正态分布的随机数
x.extend(np.random.normal(loc=060.0, scale=10, size=200))  # 向x中放200个均值为60，方差为10，正态分布的随机数
x.extend(np.random.normal(loc=100.0, scale=10, size=300))  # 向x中放300个均值为100，方差为10，正态分布的随机数
y.extend(np.random.normal(loc=050.0, scale=10, size=100))  # 向y中放100个均值为50，方差为10，正态分布的随机数
y.extend(np.random.normal(loc=100.0, scale=10, size=200))  # 向y中放200个均值为100，方差为10，正态分布的随机数
y.extend(np.random.normal(loc=040.0, scale=10, size=300))  # 向y中放300个均值为40，方差为10，正态分布的随机数
c = [1] * 100  # c标签第一类为 1  x均值:40 y均值:50
c.extend([2] * 200)  # # c标签第二类为 2  x均值:60 y均值:100
c.extend([3] * 300)  # # c标签第三类为 3  x均值:100 y均值:40
# 生成训练集与测试集=======================================
lt = list(range(600))  # 得到一个顺序序列
random.shuffle(lt)  # 打乱序列
x1 = [[], [], []]  # 初始化x1
for i in lt:  # 做训练集
x1[0].append(x[i])  # 加上数据集x属性
x1[1].append(y[i])  # 加上数据集y属性
x1[2].append(c[i])  # 加上数据集c标签
# 生成簇划分 ==========================================
k = 3  # 分成三簇
C = jvlei_k(x1, k)
# 计算正确率===========================================
for i in range(k):
c = panduan(x1[2], C[i])
print('第', i, '簇，标签最多的类为', c[0], '占比', c[1], '%')
# 绘图 ===============================================

plt.figure(1)  # 第一张画布
for i in range(len(x1[2])):  # 对数据集‘上色’
if x1[2][i] == 1:
x1[2][i] = 'r'  # 数据集  1 红色
else:
if x1[2][i] == 2:
x1[2][i] = 'y'  # 数据集 2 黄色
else:
x1[2][i] = 'b'  # 数据集 3 蓝色
plt.scatter(x1[0], x1[1], c=x1[2], alpha=0.5)  # 绘点数据集
plt.xlabel('x')  # x轴标签
plt.ylabel('y')  # y轴标签
plt.title('Initial')  # 标题
#  簇划分：==========================================
plt.figure(2)  # 第二张画布
for i in range(k):  # 对数据集‘上色’
for j in C[i]:
if i == 1:
x1[2][j] = 'r'  # 簇  1 红色
else:
if i == 2:
x1[2][j] = 'y'  # 簇 2 黄色
else:
x1[2][j] = 'b'  # 簇 3 蓝色
plt.scatter(x1[0], x1[1], c=x1[2], alpha=0.5)  # 绘点数据集
plt.xlabel('x')  # x轴标签
plt.ylabel('y')  # y轴标签
plt.title('End')  # 标题
plt.show()  # 显示


结果示例：

# (2) Iris 数据集：

import math  # 数学
import random  # 随机
import numpy as np
import matplotlib.pyplot as plt

# 计算两个样本距离
def dist(xy, a, b):
d_l = 0  # 储存当前距离值
for i in range(len(xy) - 1):  # 对每个属性
d_l += (xy[i][a] - xy[i][b]) ** 2  # 计算平方和
d_l = d_l ** 0.5  # 开根号
return d_l

# 计算avg（C）
def avg(xy, Ci):
sum = 0
for i in Ci:
for j in Ci:
sum += dist(xy, i, j)
return sum * 2 / (len(Ci) * (len(Ci) - 1))

# 计算DB指数
def DB(xy, C, u):
sum = 0
for i in range(len(C)):  # 每一簇
max_C = -float('inf')
for j in range(len(C)):
if i == j:
continue
dcen = 0
for k in range(len(xy) - 1):  # 对每个属性
dcen += (u[i][k] - u[j][k]) ** 2  # 计算平方和
dcen = dcen ** 0.5  # 开根号
max_ = (avg(xy, C[i]) + avg(xy, C[j])) / dcen
if max_ > max_C:
max_C = max_
sum += max_C
return sum / len(C)

# k均值聚类算法，分k簇。
def jvlei_k(xy, k):
n = len(xy[0])  # 储存数据数。
u = []  # 储存簇的均值向量
C = []  # 储存簇划分
# 挑选k个不重复的样本。
i = 0
j = 0
u = random.sample(range(n), k)  # (如果数据随机，这一步其实可以直接选前k个)
for i in range(k):  # 对每个初始点。
l = u[i]  # 暂存
u[i] = []
print('初始点', i, end='\t: ')
for j in range(len(xy) - 1):  # 对每个属性
u[i].append(xy[j][l])
print(u[i], xy[j + 1][l])
while 1:
C = []  # 储存簇划分
for i in range(k):  # k 簇
C.append([])  # 初始化C。
for i in range(n):  # 所有的数据
d = float('inf')  # 初始无穷大
l = 0  # 属于哪个簇
for j in range(k):  # 看和每个簇的距离，找最小。
d_ = 0  # 储存当前距离值
for ii in range(len(xy) - 1):  # 对每个属性
d_ += (xy[ii][i] - u[j][ii]) ** 2  # 计算平方和
d_ = d_ ** 0.5  # 开根号
if d_ < d:  # 距离更近
d = d_  # 最近值更改
l = j  # 属于第j簇
C[l].append(i)  # 并入第l簇
u_ = []  # 新的均值向量
for i in range(k):  # 重新计算每个簇的均值
u_.append([0] * (len(xy) - 1))
for j in C[i]:  # 对簇中每个样本
for ii in range(len(xy) - 1):  # 对每个属性
u_[i][ii] += xy[ii][j]  # 求和
for ii in range(len(xy) - 1):  # 对每个属性
u_[i][ii] /= len(C[i])  # 均值
l = 0  # 标记
for i in range(k):  # 每个均值向量
for j in range(len(u[0])):  # 每个属性
l += (u[i][j] - u_[i][j]) ** 2  # 求误差
if l < 0.01:
print('DB=', DB(xy, C, u))
return C
else:
u = u_[:]

# 簇分类和标签对比，返回【最多标签，最多标签所占比例】
def panduan(yi, Ci):
biaoqian = {}  # 标签，出现次数
for i in Ci:
if yi[i] in biaoqian:  # 存在
biaoqian[yi[i]] += 1  # 加一
else:
biaoqian[yi[i]] = 1  # 创建
max_ = -1  # 标签
max_t = -1  # 标签数
for i in biaoqian:  # 所有标签
if biaoqian[i] > max_t:  # 找最多的
max_ = i
max_t = biaoqian[i]
return [max_, (max_t * 100 / len(Ci))]

f = open('Iris.txt', 'r')  # 读文件
x = [[], [], [], [], []]  # 花朵属性，(0,1,2,3),花朵种类
x1 = [[], [], [], [], []]
x2 = [[], [], [], [], []]
y = []  # 分支节点[分支类，[分支节点1],[分支节点2]···]  递归决策树
y1 = []
while 1:
if len(yihang) <= 1:  # 读到末尾结束
break
fenkai = yihang.split('\t')  # 按\t分开
for i in range(5):  # 分开的五个值
x[i].append(eval(fenkai[i]))  # 化为数字加到x中
print('数据集===============================================')
print(len(x[0]))
for i in range(len(x)):
print(x[i])
x1 = x[:]
# 生成簇划分 ==========================================
k = 3  # 分成三簇
C = jvlei_k(x1, k)
# 计算正确率===========================================
for i in range(k):
c = panduan(x1[4], C[i])
print('第', i, '簇，标签最多的类为', c[0], '占比', c[1], '%')
# 绘图 ===============================================
# 这里改输出那三维，（有四维，选三维）
a = 0
b = 2
c = 3
for i in range(len(x1[4])):  # 对数据集‘上色’
if x1[4][i] == 1:
x1[4][i] = 'r'  # 数据集  1 红色
else:
if x1[4][i] == 2:
x1[4][i] = 'y'  # 数据集 2 黄色
else:
x1[4][i] = 'b'  # 数据集 3 蓝色
fig = plt.figure()
m = plt.axes(projection='3d')
m.scatter3D(x1[a], x1[b], x1[c], c=x1[4], alpha=0.8)  # 绘制散点图
plt.xlabel(a)  # x轴标签
plt.ylabel(b)  # y轴标签
plt.title('Initial')  # 标题
#  簇划分：==========================================
for i in range(k):  # 对数据集‘上色’
for j in C[i]:
if i == 1:
x1[4][j] = 'r'  # 簇  1 红色
else:
if i == 2:
x1[4][j] = 'y'  # 簇 2 黄色
else:
x1[4][j] = 'b'  # 簇 3 蓝色
fig = plt.figure()
m = plt.axes(projection='3d')
m.scatter3D(x1[a], x1[b], x1[c], c=x1[4], alpha=0.8)  # 绘制散点图
plt.xlabel(a)  # x轴标签
plt.ylabel(b)  # y轴标签
plt.title('End')  # 标题
plt.show()  # 显示


结果示例：

...