-
2021-09-24 14:53:34
机器学习常见数据集下载(免费)
机器学习用到数据集都在UCI上面,做个笔记方便找。
UCI官网(老版本):https://archive.ics.uci.edu/ml/index.php
UCI官网(新版本):https://archive-beta.ics.uci.edu/
UCI找不到的也有别的地方
Kaggle比赛:https://www.kaggle.com/datasets (这个登录有点麻烦)天池大数据众智平台-阿里云天池:https://tianchi.aliyun.com (英文不好的可以试试这个)
飞浆数据集:https://aistudio.baidu.com/aistudio/datasetoverview(百度的AI开放平台,选择【开发平台】,第二列的【数据集】就是)
数据集下载
下面这些数据的下载地址都是老官网。
鸢尾花数据集:https://archive.ics.uci.edu/ml/datasets/Iris
红酒数据集:https://archive.ics.uci.edu/ml/datasets/Wine
波士顿房价数据集:https://archive.ics.uci.edu/ml/machine-learning-databases/housing/
隐形眼镜数据集:https://archive.ics.uci.edu/ml/datasets/lenses
患疝气病马的数据集:http://archive.ics.uci.edu/ml/datasets/Horse+Colic
葡萄牙银行机构营销案例数据集:http://archive.ics.uci.edu/ml/datasets/Bank+Marketing
1984年美国国会投票的数据集:http://archive.ics.uci.edu/ml/datasets/Congressional+Voting+Records
发现毒蘑菇相似特征的数据集:https://archive.ics.uci.edu/ml/datasets/mushroom
另外几个是kaggle上的数据集(如果不登录还没法下,而且登录还麻烦):
旧金山犯罪案例:https://www.kaggle.com/c/sf-crime
泰坦尼克幸存者预测:https://www.kaggle.com/c/titanic/data
手写数字识别:https://www.kaggle.com/c/digit-recognizer/data从sklearn库中获取数据集
学到后期发现的,原来有些数据在sklearn中有,调函数就能获取,省事多了。但好像个数不多。获取到的数据是JSON形式的,代码演示的是红酒数据集。
- wine:一个JSON形式的数据
- wine.data:数据
- wine.feature_names:每一列特征的名称
- wine.target:所属类型
- wine.target_names:类型的名称
如果将wine.data与wine.target拼接成DataFrame,
那么它会是 [178 rows x 14 columns] 0~13都是特征 14列是标签 wine.feature_names+‘种类’ 可以做它的列名from sklearn.datasets import load_boston,load_wine,load_iris,load_breast_cancer import pprint boston = load_boston() wine = load_wine() iris = load_iris() BreastCancer = load_breast_cancer() pprint.pprint(wine) ''' 打印结果; "D:\Programming Software\Python3.9.1\python.exe" "D:/Program Space/Python/sklearn_machinelearning/src/Test/main.py" {'DESCR': '.. _wine_dataset:\n' '\n' 'Wine recognition dataset\n' '------------------------\n' '\n' '**Data Set Characteristics:**\n' '\n' ' :Number of Instances: 178 (50 in each of three classes)\n' ' :Number of Attributes: 13 numeric, predictive attributes and ' 'the class\n' ' :Attribute Information:\n' ' \t\t- Alcohol\n' ' \t\t- Malic acid\n' ' \t\t- Ash\n' '\t\t- Alcalinity of ash \n' ' \t\t- Magnesium\n' '\t\t- Total phenols\n' ' \t\t- Flavanoids\n' ' \t\t- Nonflavanoid phenols\n' ' \t\t- Proanthocyanins\n' '\t\t- Color intensity\n' ' \t\t- Hue\n' ' \t\t- OD280/OD315 of diluted wines\n' ' \t\t- Proline\n' '\n' ' - class:\n' ' - class_0\n' ' - class_1\n' ' - class_2\n' '\t\t\n' ' :Summary Statistics:\n' ' \n' ' ============================= ==== ===== ======= =====\n' ' Min Max Mean SD\n' ' ============================= ==== ===== ======= =====\n' ' Alcohol: 11.0 14.8 13.0 0.8\n' ' Malic Acid: 0.74 5.80 2.34 1.12\n' ' Ash: 1.36 3.23 2.36 0.27\n' ' Alcalinity of Ash: 10.6 30.0 19.5 3.3\n' ' Magnesium: 70.0 162.0 99.7 14.3\n' ' Total Phenols: 0.98 3.88 2.29 0.63\n' ' Flavanoids: 0.34 5.08 2.03 1.00\n' ' Nonflavanoid Phenols: 0.13 0.66 0.36 0.12\n' ' Proanthocyanins: 0.41 3.58 1.59 0.57\n' ' Colour Intensity: 1.3 13.0 5.1 2.3\n' ' Hue: 0.48 1.71 0.96 0.23\n' ' OD280/OD315 of diluted wines: 1.27 4.00 2.61 0.71\n' ' Proline: 278 1680 746 315\n' ' ============================= ==== ===== ======= =====\n' '\n' ' :Missing Attribute Values: None\n' ' :Class Distribution: class_0 (59), class_1 (71), class_2 (48)\n' ' :Creator: R.A. Fisher\n' ' :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)\n' ' :Date: July, 1988\n' '\n' 'This is a copy of UCI ML Wine recognition datasets.\n' 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data\n' '\n' 'The data is the results of a chemical analysis of wines grown in ' 'the same\n' 'region in Italy by three different cultivators. There are thirteen ' 'different\n' 'measurements taken for different constituents found in the three ' 'types of\n' 'wine.\n' '\n' 'Original Owners: \n' '\n' 'Forina, M. et al, PARVUS - \n' 'An Extendible Package for Data Exploration, Classification and ' 'Correlation. \n' 'Institute of Pharmaceutical and Food Analysis and Technologies,\n' 'Via Brigata Salerno, 16147 Genoa, Italy.\n' '\n' 'Citation:\n' '\n' 'Lichman, M. (2013). UCI Machine Learning Repository\n' '[https://archive.ics.uci.edu/ml]. Irvine, CA: University of ' 'California,\n' 'School of Information and Computer Science. \n' '\n' '.. topic:: References\n' '\n' ' (1) S. Aeberhard, D. Coomans and O. de Vel, \n' ' Comparison of Classifiers in High Dimensional Settings, \n' ' Tech. Rep. no. 92-02, (1992), Dept. of Computer Science and Dept. ' 'of \n' ' Mathematics and Statistics, James Cook University of North ' 'Queensland. \n' ' (Also submitted to Technometrics). \n' '\n' ' The data was used with many others for comparing various \n' ' classifiers. The classes are separable, though only RDA \n' ' has achieved 100% correct classification. \n' ' (RDA : 100%, QDA 99.4%, LDA 98.9%, 1NN 96.1% (z-transformed ' 'data)) \n' ' (All results using the leave-one-out technique) \n' '\n' ' (2) S. Aeberhard, D. Coomans and O. de Vel, \n' ' "THE CLASSIFICATION PERFORMANCE OF RDA" \n' ' Tech. Rep. no. 92-01, (1992), Dept. of Computer Science and Dept. ' 'of \n' ' Mathematics and Statistics, James Cook University of North ' 'Queensland. \n' ' (Also submitted to Journal of Chemometrics).\n', 'data': array([[1.423e+01, 1.710e+00, 2.430e+00, ..., 1.040e+00, 3.920e+00, 1.065e+03], [1.320e+01, 1.780e+00, 2.140e+00, ..., 1.050e+00, 3.400e+00, 1.050e+03], [1.316e+01, 2.360e+00, 2.670e+00, ..., 1.030e+00, 3.170e+00, 1.185e+03], ..., [1.327e+01, 4.280e+00, 2.260e+00, ..., 5.900e-01, 1.560e+00, 8.350e+02], [1.317e+01, 2.590e+00, 2.370e+00, ..., 6.000e-01, 1.620e+00, 8.400e+02], [1.413e+01, 4.100e+00, 2.740e+00, ..., 6.100e-01, 1.600e+00, 5.600e+02]]), 'feature_names': ['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline'], 'frame': None, 'target': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2]), 'target_names': array(['class_0', 'class_1', 'class_2'], dtype='<U7')} Process finished with exit code 0 '''
示例(加州住房数据集)
from sklearn.datasets import fetch_california_housing as fch # 加利福尼亚房价数据集 import pandas as pd pd.set_option('display.max_columns', 500) pd.set_option('display.width', 1000) housevalue = fch() # 放入DataFrame中便于查看 X = pd.DataFrame(housevalue.data,columns=housevalue.feature_names) y = pd.DataFrame(housevalue.target,columns=housevalue.target_names) df = pd.concat([X,y],axis=1) print(df)
更多相关内容 -
深度学习 机器学习 数据集资源汇总
2022-04-25 20:48:111.AI Studio数据集: 开放数据集-百度AI Studio - 人工智能学习与实训社区 2.天池数据集:数据集-阿里系唯一对外开放数据分享平台 3.Papers With Code数据集:Machine Learning Datasets | Papers With Code 4....寻找一个好用的数据集需要注意一下几点:
数据集不混乱,否则要花费大量时间来清理数据。
数据集不应包含太多行或列,否则会难以使用。
数据越干净越好,清理大型数据集可能非常耗时。
应该预设一个有趣的问题,而这个问题又可以用数据来回答。
目前个人认为较好的数据集网站主要有:
数据集网站
1.AI Studio数据集: 开放数据集-百度AI Studio - 人工智能学习与实训社区
2.天池数据集:数据集-阿里系唯一对外开放数据分享平台
3.Papers With Code数据集:Machine Learning Datasets | Papers With Code
4.Kaggle 数据集:Find Open Datasets and Machine Learning Projects | Kaggle爱竞赛的盆友们应该很熟悉了,Kaggle上有各种有趣的数据集,拉面评级、篮球数据、甚至西雅图的宠物许可证。
5.Graviti Open Datasets:公开数据集下载,优质机器学习数据集,图像识别、NLP免费获取 | 格物钛,非结构化数据平台
6.Huggingface数据集:Hugging Face – The AI community building the future.
7.CLUE 数据集:https://www.cluebenchmarks.com/dataSet_search.html
9.UCI机器学习库:最古老的数据集源之一,是寻找有趣数据集的第一站。虽然数据集是用户贡献的,因此具有不同的清洁度,但绝大多数都是干净的,可以直接从UCI机器学习库下载,无需注册。
10.VisualData:分好类的计算机视觉数据集,可以搜索~
具体数据集:
KITTI数据集:The KITTI Vision Benchmark Suite (cvlibs.net)
Cityscapes:Cityscapes Dataset – Semantic Understanding of Urban Street Scenes (cityscapes-dataset.com)
牛津数据集:[Datasets (ox.ac.uk)](https://robotcar-dataset.robots.ox.ac.uk/datasets/)
ApolloScape:[Apollo Scape](http://apolloscape.auto/)
BDD100K:Berkeley DeepDrive
Waymo Open Dataset:GitHub - waymo-research/waymo-open-dataset: Waymo Open Dataset
nuScenes数据集:https://www.nuscenes.org/download
3D Photography Dataset:(uiuc.edu)
Matterport 3D重建数据集:[Capture, share, and collaborate the built world in immersive 3D (matterport.com)](https://matterport.com/)
NoW Dataset:(mpg.de)
Pix3D:[Pix3D (mit.edu)](http://pix3d.csail.mit.edu/)
Replica Dataset:GitHub - facebookresearch/Replica-Dataset: The Replica Dataset v1 as published in https://arxiv.org/abs/1906.05797 .
Scan2CAD:[GitHub - skanti/Scan2CAD: CVPR'19] Dataset and code used in the research project Scan2CAD: Learning CAD Model Alignment in RGB-D Scans
NYC3Dcars:[NYC3DCars (cornell.edu)](http://nyc3d.cs.cornell.edu/)
Expressive Hands and Faces:[Computer Vision Group - Home (tum.de)](https://vision.in.tum.de/)
TUM数据集:[SMPL-X (mpg.de)](https://smpl-x.is.tue.mpg.de/)
补充医疗图像:
肺结节数据库LIDC-IDRI:LIDC-IDRI - The Cancer Imaging Archive (TCIA) Public Access - Cancer Imaging Archive Wiki
乳腺图像数据库DDSM MIAS:http://deckard.mc.duke.edu/ddsm_sql/book1.html
医学图像问答:Medical Image Format FAQ
ISBI:Challenges - Grand Challenge
补充:多模态数据集汇总链接:
多模态分析数据集(Multimodal Dataset)整理 - 知乎
补充我记录的一些链接:
-
工业数据集汇总:开源工业缺陷数据集汇总,持续更新中(已更新28个) - 知乎
-
1、Kaggle竞赛数据集 2、自然语言处理 3、图像数据 4、推荐系统 5、金融 6、交通 7、商业 8、医疗健康 9、视频数据 10、音频数据 11、文本、评价、回答数据集合 12、科研 13、其他数据集综合 汇总:各领域近千条数据集公开,你要的这里都有 - 知乎
-
激光雷达数据集汇总:汇总|基于激光雷达的3D目标检测开源项目&数据集 - 知乎
-
知乎相关数据集汇总:整理了一下关于知乎的公开数据集(欢迎评论补充) - 知乎
-
图论相关数据集汇总:图数据集分享 - 知乎
-
各领域公开数据集汇总(金融,医疗,nlp,图像等等):各领域公开数据集下载 - 知乎
-
各类数据集汇总:GitHub - awesomedata/awesome-public-datasets: A topic-centric list of HQ open datasets.
机器学习具体方向领域数据集
图片
Labelme:带注释的大型图像数据集。
ImageNet:大家熟悉的ImageNet,女神李飞飞参与创建,同名比赛影响整个计算机视觉界。
LSUN:场景理解与许多辅助任务(房间布局估计,显着性预测等)
MS COCO:同样也是知名计算机视觉数据集,同名比赛每年都被中国人屠榜。
COIL 100:100个不同的物体在360度旋转的每个角度成像。
视觉基因组:非常详细的视觉知识库。
谷歌开放图像:在知识共享下的900万个图像网址集合“已经注释了超过6000个类别的标签”。
野外标记面:13000张人脸标记图像,可以用于开发涉及面部识别的应用程序。
斯坦福狗子数据集:20580张狗子的图片,包括120个不同品种。
室内场景识别:包含67个室内类别,15620个图像。
情绪分析
多域情绪分析数据集:一个稍老一点的数据集,用到了来自亚马逊的产品评论。
IMDB评论:用于二元情绪分类的数据集,不过也有点老、有点小,有大约25000个电影评论。
斯坦福情绪树库:带有情感注释的标准情绪数据集。
Sentiment140:一个流行的数据集,它使用160,000条预先删除表情符号的推文。
Twitter美国航空公司情绪:2015年2月美国航空公司的Twitter数据,分类为正面,负面和中性推文。
自然语言处理
HotspotQA数据集:具有自然、多跳问题的问答数据集,具有支持事实的强大监督,以实现更易于解释的问答系统。
安然数据集:来自安然高级管理层的电子邮件数据。
亚马逊评论:包含18年来亚马逊上的大约3500万条评论,数据包括产品和用户信息,评级和文本审核。
Google Books Ngrams:Google Books中的一系列文字。
Blogger Corpus:收集了来自blogger.com的681,288篇博文,每篇博文至少包含200个常用英语单词。
维基百科链接数据:维基百科的全文,包含来自400多万篇文章的近19亿个单词,可以按段落、短语或段落本身的一部分进行搜索。
Gutenberg电子书列表:Gutenberg项目中带注释的电子书书单。
Hansards加拿大议会文本:来自第36届加拿大议会记录的130万组文本。
Jeopardy:来自问答节目Jeopardy的超过200,000个问题的归档。
英文垃圾短信收集:由5574条英文垃圾短信组成的数据集。
Yelp评论:Yelp,就是美国的“大众点评”,这是他们发布的一个开放数据集,包含超过500万条评论。
UCI的Spambase:一个大型垃圾邮件数据集,对垃圾邮件过滤非常有用。
自动驾驶
Berkeley DeepDrive BDD100k:目前最大的自动驾驶数据集,包含超过100,000个视频,其中包括一天中不同时段和天气条件下超过1,100小时的驾驶体验。其中带注释的图像来自纽约和旧金山地区。
百度Apolloscapes:度娘的大型数据集,定义了26种不同物体,如汽车、自行车、行人、建筑物、路灯等。
Comma.ai:超过7小时的高速公路驾驶,细节包括汽车的速度、加速度、转向角和GPS坐标。
牛津的机器人汽车:这个数据集来自牛津的机器人汽车,它于一年时间内在英国牛津的同一条路上,反反复复跑了超过100次,捕捉了天气、交通和行人的不同组合,以及建筑和道路工程等长期变化。
城市景观数据集:一个大型数据集,记录50个不同城市的城市街景。
CSSAD数据集:此数据集对于自动驾驶车辆的感知和导航非常有用。不过,数据集严重偏向发达国家的道路。
KUL比利时交通标志数据集:来自比利时法兰德斯地区数以千计的实体交通标志的超过10000条注释。
MIT AGE Lab:在AgeLab收集的1,000多小时多传感器驾驶数据集的样本。
LISA:UC圣迭戈智能和安全汽车实验室的数据集,包括交通标志、车辆检测、交通信号灯和轨迹模式。
博世小交通灯数据集:用于深度学习的小型交通灯的数据集。
LaRa交通灯识别:巴黎的交通信号灯数据集。
WPI数据集:交通灯、行人和车道检测的数据集。
临床
MIMIC-III:MIT计算生理学实验室的公开数据集,标记了约40000名重症监护患者的健康数据,包括人口统计学、生命体征、实验室测试、药物等维度。
一般数据集
除了机器学习专用的数据集,还有一些其他的一般数据集,可能很有趣~
公共政府数据集
Data.gov:该网站可以从多个美国政府机构下载数据,包括各种奇怪的数据,从政府预算到考试分数都有。不过,其中大部分数据需要进一步研究。
食物环境地图集:本地食材如何影响美国饮食的数据。
学校财务系统:美国学校财务系统的调查。
慢性病数据:美国各地区慢性病指标数据。
美国国家教育统计中心:教育机构和教育人口统计数据,不仅有美国的数据,也有一些世界上其他地方的数据。
英国数据服务:英国最大的社会、经济和人口数据集。
数据美国:全面可视化的美国公共数据。
补充一句,我国国家统计局其实也不错:国家统计局。
金融与经济
Quandl:经济和金融数据的良好来源,有助于建立预测经济指标或股票价格的模型。
世界银行开放数据:全球人口统计数据,还有大量经济和发展指标的数据集。
国际货币基金组织数据:国际货币基金组织公布的有关国际金融,债务利率,外汇储备,商品价格和投资的数据。
金融时报市场数据:来自世界各地的金融市场的最新信息,包括股票价格指数,商品和外汇。
Google Trends:世界各地的互联网搜索行为和热门新闻报道的数据。
美国经济协会:美国宏观经济数据。
........待补充,会继续更新奥!
这些数据集应该能满足大部分人的需求。
我倡议大家不要无脑搬运数据集,最好是搬一个数据集配套一个项目,优化社区生态,我们共同努力!ヾ(≧∇≦*)ゝ
-
-
机器学习——数据集预处理(数据查看和空值处理)
2022-03-31 15:16:45目的:本数据集是为了分析炉丝功率和炉膛温度以及样品盒内部温度之间的关系,分析温场的分布等。 来源:本数据集的来源是实验获得的数据。 特点:特征维度高,数据量大。 数据集查看 1.查看数据集的基本信息...目录
前言
目的:本数据集是为了分析炉丝功率和炉膛温度以及样品盒内部温度之间的关系,分析温场的分布等。
来源:本数据集的来源是实验获得的数据。
特点:特征维度高,数据量大。
数据集查看
1.查看数据集的基本信息(列名、行数、数据类型等)
import pandas as pd data = pd.read_csv('数据集.csv') #替换自己文件实际位置 info = data.info() print(info)
注:python中默认info显示100列的数据信息,若数据列超过100列,就会出现折叠显示的情况。
此时若需要查看某一列的空值数和类型数,可以通过以下语句将info默认显示的数据列值改大一些。
pd.options.display.max_info_columns = 350 # 设置info中信息显示数量为350
改完之后再运行info函数,可以展开显示更多的数据列了。
2.显示前5行数据
head = data.head() print(head)
3.查看数据集的统计信息
des = data.describe() print(des)
4.检测某一列空值的数目
df.isnull().sum()
5.直接原地删除有空值的行
df.dropna(inplace=True)
-
机器学习——鸢尾花数据集
2022-03-03 18:15:46机器学习——鸢尾花数据集数据集简介导入数据集 原始代码文件: https://pan.baidu.com/s/1saL_4Q9PbFJluU4htAgFdQ .提取码:1234 数据集简介 数据集包含150个样本(数据集的行) 数据集包含4个属性(数据集的列)...鸢尾花数据集即iris
iris数据集文件: https://pan.baidu.com/s/1saL_4Q9PbFJluU4htAgFdQ .提取码:1234数据集简介
- 数据集包含150个样本(数据集的行)
- 数据集包含4个属性(数据集的列):Sepal Length,Sepal Width,Petal Length,Petal Width:‘feature_names’
- 利用numpy.ndarray存储这150x4的数据:‘data’
- 分类标签取自array[‘Setosa’,‘Versicolour’,‘Virginica’]:‘target_names’
Setosa,Versicolour,Virginica是数据集所包含的3中品种的鸢尾花
这3个分类标签(即150x1数据)用np.ndarray存储:‘target’
总之,这个数据存储了150x4的特征数据和150x1的分类标签,其中特征数据又放在‘data’里,分类标签放在‘target’里
导入数据集
import matplotlib.pyplot as plt #绘图 from mpl_toolkits.mplot3d import Axes3D #可视化 from sklearn import datasets #sklearn中包含很多数据集,其中就有鸢尾花数据集 from sklearn.decomposition import PCA #主成分分析 import numpy as np #机器学习中通常将数据以数组的形式存储,特别是这里包含了特征数据和分类数据 iris = datasets.load_iris() #利用load函数装载数据集 print('鸢尾花数据集的数据类型是:',type(iris)) print('鸢尾花数据集的数据有:',dir(iris)) for i in dir(iris): eval('print(i,"/t",type(iris.'+i+'))') #遍历数据集中的数据,查看每个数据的数据类型 print() print('鸢尾花数据集中feature_names取值:',iris.feature_names) print('鸢尾花数据集中数据的行列数:',iris.data.shape) print('鸢尾花数据集中target取值:',np.unique(iris.target)) print('鸢尾花数据集中target_names的取值:',iris.target_names)
结果:
可视化
figure(num=None, figsize=None, dpi=None, facecolor=None, edgecolor=None, frameon=True)
- num:图像编号或名称,数字为编号 ,字符串为名称
- figsize:指定figure的宽和高,单位为英寸;
- dpi参数指定绘图对象的分辨率,即每英寸多少个像素,缺省值为80 1英寸等于2.5cm,A4纸是 21*30cm的纸张
- facecolor:背景颜色
- edgecolor:边框颜色
- frameon:是否显示边框
matplotlib中cla/clf/close用法及相关清除效果
- 在使用matplotlib画图时,画完图之后需要进行一定的清理工作,否则后续画图的结果中可能混入前一幅图的数据,或者造成频繁创建绘图对象。下面解释一下matplotlib中的相关清理操作和效果。主要包括以下方法:
- gca获取当前的axes,cla清理当前的axes
- gcf获取当前的figure,clf清理当前的figure
- close,关闭figure
a,b=0,1 X = iris.data[:,[a,b]] #二维可视化,即只取两个属性,这里取的是全部行和前两列(sepal length和sepal width) y = iris.target #由上述程序结果可知取值为0,1,2,代表3种品种的鸢尾花 x_min,x_max = X[:,0].min()-.5, X[:,0].max()+.5 #x值的最小值和最大值分别是第一列最小值和最大值-5和+5 y_min,y_max = X[:,1].min()-.5, X[:,1].max()+.5 #y值的最小值和最大值分别是第二列最小值和最大值-5和+5 plt.figure(2,figsize=(8,6)) plt.clf plt.scatter(X[:,0],X[:,1],c=y,cmap=plt.cm.Set1,edgecolor='w') #绘制散点图,c即color,cmap是将y不同的值画出不同颜色,edgecolor为白色 plt.xlabel(iris.feature_names[a]) #x轴名称 plt.ylabel(iris.feature_names[b]) #y轴名称 plt.xlim(x_min,x_max) #x轴的作图范围 plt.ylim(y_min,y_max) #y轴的作图范围 plt.xticks(()) #x轴的刻度内容的范围 plt.yticks(()) #y轴的刻度内容的范围
结果:
经过以上尝试,无论a,b取何值(即无论选择哪两列)进行二维绘图,都无法很好的区分红、橙、灰三色点(分布有重叠),所以尝试三维绘图
fig = plt.figure(1,figsize=(8,6)) ax = Axes3D(fig,elev=-150,azim=110) #??????????????? X_reduced = iris.data[:,:3] #可以改变列看图形分布X_reduced = iris.data[:,[0,2,3]] ax.scatter(X_reduced[:, 0],X_reduced[:, 1],X_reduced[:, 2],c=y,cmap=plt.cm.Set1,edgecolor='w',s=40) ax.set_title('Iris 3D') ax.set_xlabel(iris.feature_names[0]) ax.w_xaxis.set_ticklabels([]) ax.set_ylabel(iris.feature_names[1]) ax.w_yaxis.set_ticklabels([]) ax.set_zlabel(iris.feature_names[2]) ax.w_zaxis.set_ticklabels([]) plt.show()
结果:
进行三维作图也没有很好的区分三种点,所以鸢尾花数据集还要进行四维作图才能区分三种数据,但是四维很难可视化,因此采用主成分分析主成分分析
- 主成分分析(PCA)是降维方法,利用正交变换将以线性相关变量表示的观测数据转化为少数几个以线性无关变量表示的数据,这些线性无关的量称为主成分
- 这里就是将四维数据降为三维
fig = plt.figure(1,figsize=(8,6)) ax = Axes3D(fig,elev=-150,azim=110) X_reduced = PCA(n_components=3).fit_transform(iris.data) #n_components是PCA算法中所要保留的主成分个数n,也即保留下来的特征个数n,这里四维降三维n_components=3 #fit_transform 对数据先拟合 fit,找到数据的整体指标,如均值、方差、最大值最小值等,然后对数据集进行转换transform,从而实现数据的标准化、归一化操作 ax.scatter(X_reduced[:,0],X_reduced[:,1],X_reduced[:,2],c=y,cmap=plt.cm.Set1,edgecolor='w',s=40) ax.set_title('First three PCA directions') ax.set_xlabel('1st eigen vector') ax.w_xaxis.set_ticklabels([]) ax.set_ylabel('2nd eigen vector') ax.w_yaxis.set_ticklabels([]) ax.set_zlabel('3rd eigen vector') ax.w_zaxis.set_ticklabels([]) plt.show()
结果:
这时候,三种颜色的区分比较明显,还可以试试降为二维a,b=0,1 X_reduced = PCA(n_components=2).fit_transform(iris.data) X = X_reduced[:,[a,b]] #二维可视化,即只取两个属性,这里取的是全部行和前两列(sepal length和sepal width) y = iris.target #由上述程序结果可知取值为0,1,2,代表3种品种的鸢尾花 x_min,x_max = X[:,0].min()-.5, X[:,0].max()+.5 #x值的最小值和最大值分别是第一列最小值和最大值-5和+5 y_min,y_max = X[:,1].min()-.5, X[:,1].max()+.5 #y值的最小值和最大值分别是第二列最小值和最大值-5和+5 plt.figure(2,figsize=(8,6)) plt.clf plt.scatter(X[:,0],X[:,1],c=y,cmap=plt.cm.Set1,edgecolor='w') #绘制散点图,c即color,cmap是将y不同的值画出不同颜色,edgecolor为白色 plt.xlabel(iris.feature_names[a]) #x轴名称 plt.ylabel(iris.feature_names[b]) #y轴名称 plt.xlim(x_min,x_max) #x轴的作图范围 plt.ylim(y_min,y_max) #y轴的作图范围 plt.xticks(()) #x轴的刻度内容的范围 plt.yticks(()) #y轴的刻度内容的范围
结果:
-
2019年用于机器学习的50个最佳公共数据集
2019-01-30 08:08:48在网上搜罗了几个小时,为高质量和多样化的机器学习数据集创建了一个很好的备忘单。 首先,在搜索数据集时要记住几点。根据卡内基梅隆大学的说法。 数据集不应该是混乱的,因为您不希望花费大量时间来清理... -
机器学习和数据科学中常用的公开数据集(含计算机视觉最全数据集汇总)
2020-08-27 22:23:31数据集查找器Google Dataset Search:与Google Scholar的工作方式类似,Dataset Search 可以让你在任何托管的地方找到数据集,无论是出版商的网站... -
精心挑选的100多种机器学习数据集
2021-03-07 16:42:13老实说,您周围有很多现实世界的机器学习数据集,即使您不必完成全面的数据科学或机器学习课程,也可以选择练习基础数据科学和机器学习技能。但是是的,数据科学和机器学习项目绝对没有其他选择。大多数数据科学和... -
一个真实数据集的完整机器学习解决方案(上)
2020-12-15 20:06:59数量技术宅团队在CSDN学院推出了量化投资系列课程 ...技术宅做过小小的调研,许多同学会选择一本机器学习的书籍,或是一门机器学习的课程来系统性地学习。而在学完书本、课程后,并不清楚如何将这些理论.. -
机器学习安然数据集分析报告
2017-10-29 20:53:55项目背景安然曾是 2000 年美国最大的公司之一。辉煌时期,市值高达700亿美元。2002 年,由于其存在大量的企业欺诈行为,这个昔日的大集团以极快的速度土崩瓦解。 在随后联邦进行的调查...利用机器学习算法进行数据分 -
机器学习中常见的六种分类算法(附Python源码+数据集)
2021-12-10 02:30:41今天和大家学习一下机器学习中常见的六种分类算法,如K近邻、决策树、朴素贝叶斯、逻辑回归、支持向量机、随机森林除了介绍这六种不同分类算法外,还附上对应的Python代码案例,并分析各自的优缺... -
最强数据集集合:50个最佳机器学习公共数据集
2018-11-08 09:13:57最强数据集集合:50个最佳机器学习公共数据集 https://mp.weixin.qq.com/s/_A71fTgwSyaW5XTAySIGOA 原作 mlmemoirs 郭一璞 编译 量子位 报道 | 公众号 QbitAI 外国自媒体mlmemoirs根据github、福布斯、... -
机器学习 - 数据集(.csv文件或.excel文件)的基本处理
2020-06-25 15:11:51Python - 对数据集(csv文件)的基本处理操作载入数据集数据集抽样数据集统计修改数据集1修改数据集2持更 操作 载入数据集 import pandas as pd data = pd.read_csv('数据集的文件路径或者URL',header) # header为... -
机器学习数据集哪里找:最佳数据集来源盘点
2019-01-25 10:55:14很难找到一个特定的数据集来解决对应的机器学习问题,这是非常痛苦的。下面的网址列表不仅包含用于实验的大型数据集,还包含描述、使用示例等,在某些情况下还包含用于解决与该数据集相关的机器学习问题的算法代码。... -
机器学习中的数据预处理方法与步骤
2022-06-02 00:02:27机器学习预处理详细方法 -
如何使用机器学习在一个非常小的数据集上做出预测
2021-07-11 08:34:44朴素贝叶斯是一系列简单的概率分类器,它基于应用贝叶斯定理,在特征之间具有强或朴素的独立假设。它们是最简单的贝叶斯模型之一,但通过核密度估计,它们可以达到更高的精度...贝叶斯定理在 Udacity 的机器学习入门课 -
机器学习和数据挖掘
2020-10-27 21:08:00数据挖掘,使用到了多种技术,包括统计学,模式识别,可视化,机器学习等等。今天我们来探究一下在数据挖掘领域,有哪些算法可以使用。 女士品茶和数据分析 女式品茶是数据分析领域非常有名且有趣的一个故事。一位... -
机器学习/深度学习中常见数据集加载(读取)方法
2021-12-25 14:10:16数据集有不同的类型,例如图像、文本、二进制、文件夹等等格式,用何种方法去加载这些数据,以及加载数据后的数据类型是什么(tensor、array、dataframe等等)?这里总结一下常见种类的数据集读取函数。 文本文件:... -
机器学习中的数据集划分
2019-01-28 09:02:07我们把学习器在训练集上的误差称为“训练误差”,在新样本上的误差称为“泛化误差”。 当学习器把训练样本学得太好了的时候,很可能已经把训练样本自身的一些特点当做了所有潜在样本都具有的一般性质,导致学习器的... -
Python 机器学习大作业 用knn算法对adult数据集进行50w年薪收入预测
2020-07-09 08:12:16本次期末项目基于“人口普查”数据集,对居民收入是否超过50K进行了预测,用的是K临近算法,中间涉及数据填充、删除,K值的选取,‘找邻居’等步骤。完成这个项目后,对K临近算法有了更深刻的理解,也对机器学习更有... -
「机器学习」到底需要多少数据?
2018-09-16 10:01:41机器学习中最值得问的一个问题是,到底需要多少数据才可以得到一个较好的模型?从理论角度,有Probably approximately correct (PAC) learning theory来描述在何种情况下,可以得到一个近似正确的模型。但从实用角度... -
机器学习_鸢尾花数据集_python
2019-11-28 15:01:22数据集 iris.data里面储存的鸢尾花特征和类别 数据每一列的含义如下图所示 SVM #!/usr/bin/python # -*- coding:utf-8 -*- import numpy as np import pandas as pd import matplotlib as mpl import... -
机器学习-决策树之分类树python实战(以红酒数据集为例)(二)
2020-12-01 13:42:51大家有没有听说过“三行代码行天下”这句话 真的有这么强吗? 没错,你没有听错 python在数据处理建模这方面确实段位很高 ...2 DecisionTreeClassififier与红酒数据集 2.1 重要参数 2.1.1 criterion ... -
机器学习——共享单车数据集预测
2019-07-17 22:13:00共享单车的数据集,可以根据这个数据集预测共享单车的使用量,以及决策如何投放分布。这里看到每小时租金。这些数据很复杂!周末的骑行人数少些,工作日上下班期间是骑行高峰期。我们还可以从上方的数据中看到温度、... -
机器学习实例(五)泰坦尼克号数据集
2020-02-09 19:15:35python机器学习泰坦尼克号数据集预测实例代码 -
机器学习实践 -- breast cancer数据集
2019-10-28 10:37:42获取sklearn数据集中已经包含该数据,可以直接获取。cancers = datasets.load_breast_cancer()清理数据一共有569组30维。其中两个分类分别为 类型 个数 良性 benign 357 恶性 malignant 212... -
机器学习案例——鸢尾花数据集分析
2018-05-23 21:22:15拿了这个小例子作为练手项目,这个案例也有师兄的帮助,记录完,发现代码贴的很多,文章有点长,为了节省篇幅,有一些说明就去掉了,毕竟鸢尾花数据集比较经典,网上能找到很多和我差不多的案例。还有就是发现一个新... -
《机器学习》分析鸢尾花数据集
2018-06-04 15:41:48分析鸢尾花数据集 下面将结合Scikit-learn官网的逻辑回归模型分析鸢尾花示例,给大家进行详细讲解及拓展。由于该数据集分类标签划分为3类(0类、1类...在Sklearn机器学习包中,集成了各种各样的数据集,包括前面... -
【机器学习】数据增强(Data Augmentation)
2021-10-27 16:02:35多样本数据增强(1) SMOTE(2) SamplePairing(3) mixup五、无监督的数据增强1. GAN2.Conditional GANs3. Autoaugmentation六、数据增强过程中需要注意的问题七、总结参考链接 一、引言 - 背景 很多实际的项目,我们... -
机器学习导论(二):数据集、分类、三要素
2020-03-19 11:32:08机器学习导论(二)机器学习机器学习概念分类三要素模型选择正则化 机器学习 机器学习概念 以数据集为例 分类 三要素 模型选择 正则化 -
机器学习(数据集的组成、特征工程、特征抽取、特征预处理、数据降维)
2019-10-30 20:09:40数据集的构成 1.历史数据的格式 机器学习的数据:文件csv。 不存在Mysql:因为存在性能瓶颈(数据大的时候,读取速度受限),格式不太符合机器学习要求的数据格式。 Pandas(读取工具):处理计算速度非常快,nump.....