精华内容
下载资源
问答
  • PyTorch创建自己的图像分类数据集

    千次阅读 多人点赞 2019-09-05 09:19:32
    制作个人图像分类数据集过程中,查阅资料发现几个问题,在解决的过程中总结! 个人认为这是很通俗易懂详细的过程了 制作个人分类用数据集具体步骤如下: 1、将个人收集的图片归到一个文件夹内如下图: 我个人做实验...

    制作个人图像分类数据集过程中,查阅资料发现几个问题,在解决的过程中总结!
    个人认为这是很通俗易懂详细的过程了
    制作个人分类用数据集具体步骤如下:
    1、将个人收集的图片归到一个文件夹内如下图:
    在这里插入图片描述
    我个人做实验收集的文件夹data内图如下图
    在这里插入图片描述
    2、建立与图片对应的label文件(标签文件),我label中数据如下:
    在这里插入图片描述
    3、在文件夹内建立py代码文件,本实验代码如下:

    import dataset
    import numpy as np
    import torch
    import torch.nn as nn
    import torch.optim as optim
    from torch.autograd import Variable
    from torch.utils.data.dataset import Dataset
    import torch.utils.data.dataloader as DataLoader
    import torchvision.transforms as transforms
    class CustomDataset(Dataset):
        def __init__(self, label_file_path):
            with open(label_file_path, 'r') as f:
                # (image_path(str), image_label(str))
                self.imgs = list(map(lambda line: line.strip().split(' '), f))
                
        def __getitem__(self, index):
            path, label = self.imgs[index]
            img = transforms.Compose([transforms.ToTensor()])
            label = int(label)
            return img, label
        def __len__(self): #这个函数也必须要写,它返回的是数据集的长度,也就是多少张图片,要和loader的长度作区分
            return len(self.imgs)
    train_data=CustomDataset('labels.txt')
    for i, item in enumerate(train_data):
            data, label = item
            print('data:', data)
            print('label:', label)
    

    具体代码根据自己情况可以调整,初步思路如上,有啥问题批评指正,本人V,778420551,多交流谢谢。
    对了在这发现一个问题即DataLoader函数无法使用,许多博客中的代码加入DataLoader,后for i, item in enumerate(train_data):报错,后取消发现不影响结果,还希望大佬告知具体原因。

    展开全文
  • 机器学习的十大图像分类数据集

    千次阅读 2019-12-19 16:55:01
    机器学习的十大图像分类数据集 为了帮助构建对象识别模型,场景识别模型等,编制了最佳图像分类数据集的列表。这些数据集的范围和大小各不相同,可以适应各种用例。此外数据集已分为以下几类:医学成像,农业和...

    机器学习的十大图像分类数据集

     

    为了帮助构建对象识别模型,场景识别模型等,编制了最佳图像分类数据集的列表。这些数据集的范围和大小各不相同,可以适应各种用例。此外数据集已分为以下几类:医学成像,农业和场景识别等。

     

     

    医学图像分类数据集

     

    1. 递归蜂窝图像分类 –此数据来自递归2019挑战。竞赛的目标是利用生物显微镜数据开发可识别复制品的模型。关于比赛的全部信息可以在这里找到。

    https://www.kaggle.com/c/recursion-cellular-image-classification

     

    2. TensorFlow patch_camelyon医学图像 –该医学图像分类数据集来自TensorFlow网站。它包含超过327,000个彩色图像,每个96 x 96像素。图像是包含转移组织的组织病理学淋巴结扫描。

    https://www.tensorflow.org/datasets/catalog/patch_camelyon

     

    农业和场景数据集

     

    3. CoastSat图像分类数据集 –用于开放源代码海岸线测绘工具,该数据集包含从卫星获取的航空图像。数据集还包括与标签有关的元数据。

    https://figshare.com/articles/CoastSat_image_classification_training_data/8868665/1

     

    4. 用于天气识别的图像 –用于多类天气识别,此数据集是1125张图像的集合,分为四个类别。图像类别为日出,晴天,雨天和多云。

    https://data.mendeley.com/datasets/4drtyfjtfy/1

     

    5. 室内场景图像 –来自麻省理工学院的该数据集包含15,000多个室内位置图像。该数据集最初是为解决室内场景识别问题而构建的。所有图像均为JPEG格式,已分为67类。每个类别的图像数量有所不同。但是每个类别至少有100张图像。

    https://www.kaggle.com/itsahmad/indoor-scenes-cvpr-2019

     

    6. Intel图像分类 –由Intel为图像分类竞赛而创建,此扩展图像数据集包含约25,000张图像。此外图像分为以下几类:建筑物,森林,冰川,山脉,海洋和街道。数据集已分为用于训练,测试和预测的文件夹。训练文件夹包含大约14,000张图像,而测试文件夹包含大约3,000张图像。最后预测文件夹包含大约7,000张图像。

    https://www.kaggle.com/puneet6060/intel-image-classification/version/2

     

    7. TensorFlow Sun397图像分类数据集 –来自Tensorflow的另一个数据集,该数据集包含场景理解(SUN)基准中使用的108,000多幅图像。此外图像已分为397类。每个类别中的确切图像数量各不相同。但是,每个场景和对象类别中至少有100张图像。

    https://www.tensorflow.org/datasets/catalog/sun397s

     

    其他图像分类数据集

    8. 建筑遗产元素 –创建此数据集是为了训练可基于文化遗产对建筑图像进行分类的模型。它包含超过10,000个图像,分为10类。类别为:坛,后殿,钟楼,圆柱,圆顶(内部),圆顶(外部),飞檐,石像鬼,彩色玻璃和穹顶。

    https://datahub.io/dataset/architectural-heritage-elements-image-dataset

     

    9. 图像分类:人和食物 –该数据集采用CSV格式,由吃食物的人的图像组成。人类注释者按性别和年龄对图像进行分类。CSV文件包含587行数据,URL链接到每个图像。  

    https://data.world/crowdflower/image-classification-people-an

     

    10. 用于分类的混凝土裂缝图像 –来自Mendeley的该数据集包含40,000个混凝土图像。每个图像均为227 x 227像素,其中一半图像包含有裂缝的混凝土,另一半图像没有裂缝。

    https://data.mendeley.com/datasets/5y9wdsg2zt/2

     

    展开全文
  • 图像分类数据集下载地址

    千次阅读 2019-04-25 17:23:24
    https://blog.csdn.net/yangdashi888/article/details/70503874 https://blog.csdn.net/fendouaini/article/details/79871922
    展开全文
  • 十分类图像数据集

    2018-11-19 15:56:01
    十种分类图像数据集,处理后可用作CNN卷积神经网络训练。
  • 图像分类数据集 (FASHION-MNIST)

    千次阅读 2020-03-05 17:11:19
      图像分类数据集最常用的是手写数字识别数据集MNIST (1),但是大部分模型在其上的分类精度都超过了95%。为了更直观地观察算法之间的差异,将使用一个图像内容更加复杂的数据集[Fashion-MNIST (2)]。   接下来的...

    引入

      图像分类数据集最常用的是手写数字识别数据集MNIST (1),但是大部分模型在其上的分类精度都超过了95%。为了更直观地观察算法之间的差异,将使用一个图像内容更加复杂的数据集[Fashion-MNIST (2)]。
      接下来的部分将使用torchvision包,主要用于构建计算机视觉模型,主要由以下4部分组成:

    组成功能
    torchvision.datasets加载数据的函数及常用的数据集接口
    torchvision.models包含常用的模型结构 (含预训练模型)
    torchvision.transforms常用的图片变化,例如裁剪、旋转
    torchvision…utils其他方法

      代码已上传至github:
      https://github.com/InkiInki/Python/blob/master/Python1/deepLearning/ImageMnist.py

    1 获取数据集

      需要导入的包如下:

    import torch
    import torchvision
    import torchvision.transforms as transforms
    import matplotlib.pyplot as plt
    import time
    import sys
    from IPython import display
    

      下面,将通过torchvision.datasets下载数据集,第一次调用时会自动从网上获取数据 (若出现速度较慢,请向后查看注意);通过参数train来指定获取训练集或者测试集;通过transform = transforms.Tensor()将数据转化为Tensor,如果不转换,则返回PIL图片。
      transforms.Tensor()将尺寸为 ( H × W × C H×W×C H×W×C)且数据位于 (0, 255)的PIL图片或数据类型为np.uint8的Numpy转换为尺寸为 ( C × H × W C×H×W C×H×W)且数据类型为torch.float32且位于 (0.0, 1.0)的Tensor。

      使用代码如下:

    class ImageMnist():
        
        def __init__(self):
            self.mnist_train = torchvision.datasets.FashionMNIST(root='~/DataSets/FashionMNIST',
                train=True, download=True, transform=transforms.ToTensor())
            self.mnist_test = torchvision.datasets.FashionMNIST(root='~/DataSets/FashionMNIST',
                train=False, download=True, transform=transforms.ToTensor())
    
    if __name__ == "__main__":
        test = ImageDataSet()
        test.__init__()
        print(test.mnist_train)
        print(len(test.mnist_train), len(test.mnist_test))
    

      运行结果:

    Dataset FashionMNIST
        Number of datapoints: 60000
        Root location: C:\Users\Administrator/DataSets/FashionMNIST
        Split: Train
        StandardTransform
    Transform: ToTensor()
    60000 10000
    

      注意:
      1)如果用像素值表示图片数据,那么一律将其类型设置成unit8,以避免不必要的bug;
      2)第一次下载时速度也许很慢,推荐在cmd中输入以下代码,并复制出现的http链接下载:

    import torchvision
    import torchvision.transforms as transforms
    torchvision.datasets.FashionMNIST(root='~/DataSets/FashionMNIST', train=True, download=True, transform=transforms.ToTensor())
    torchvision.datasets.FashionMNIST(root='~/DataSets/FashionMNIST', train=False, download=True, transform=transforms.ToTensor())
    

    2 简单操作

      可以通过下标来访问任意一个样本:

    if __name__ == "__main__":
        test = ImageMnist()
        test.__init__()
        data, label = test.mnist_train[0]
        print(data.shape)
        print(label)
    

      运行结果:

    torch.Size([1, 28, 28])    # 分别对应通道数、图像高、图像宽
    9
    

      Fashion-MNIST共10个类别,分别为t-shirt、trouser、pullover、dress、coat、sandal、shirt、sneaker、bag和ankle boot,以下函数可以将数值标签转换成相应的文本标签:

    	...
        def get_text_labels(self, labels):
            text_labels = ['t-shirt', 'trouser', 'pullover', 'dress', 'coat', 'sandal', 'shirt', 'sneaker', 'bag', 'ankle boot']
            return [text_labels[int(i)] for i in labels]
            
    if __name__ == "__main__":
        test = ImageMnist()
        test.__init__()
        data, label = test.mnist_train[0]
        print(test.get_text_labels([label]))
    

      运行结果:

    ['ankle boot']
    

      现在定义一个可以在一行里画出多张图像和对应标签的函数:

    	...
        def show_mnist(self, images, labels):
            display.set_matplotlib_formats('svg')
            _, figs = plt.subplots(1, len(images), figsize=(12, 12))
            # zip()接受一系列可迭代对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表
            for f, img, lbl in zip(figs, images, labels):
                f.imshow(img.view((28, 28)).numpy())
                f.set_title(lbl)
                f.axis('off')
            plt.show()
            
    if __name__ == "__main__":
        test = ImageMnist()
        test.__init__()
        x, y = [], []
        for i in range(10):
            x.append(test.mnist_train[i][0])
            y.append(test.mnist_train[i][1])
        test.show_mnist(x, test.get_text_labels(y))
    

      运行结果:
    在这里插入图片描述

    3 读取小批量

      torch的DataLoader中一个很方便的功能是运行使用多进程来加速读取数据,这里通过参数num_workers来设置4个进程读取数据。

    	...
        def data_iter(self, batch_size=256):
            if sys.platform.startswith('win'):
                num_workers = 0    # 0表示不需要额外的进程来加速读取数据
            else:
                num_workers = 4
            train_iter = torch.utils.data.DataLoader(self.mnist_train, 
                batch_size=batch_size, shuffle=True, num_workers=num_workers)
            test_iter = torch.utils.data.DataLoader(self.mnist_test, 
                batch_size=batch_size, shuffle=False, num_workers=num_workers)
            return train_iter, test_iter
            
    if __name__ == "__main__":
        start = time.time()
        test = ImageMnist()
        test.__init__()
        train_iter, test_iter = test.data_iter()
        for x, y in train_iter:
            continue
        print("%.2f sec" % (time.time() - start))
    

      运行结果:

    6.65 sec
    

    4 完整代码

    '''
    @(#)test.py
    The class of test.
    Author: Yu-Xuan Zhang
    Email: inki.yinji@qq.com
    Created on May 05, 2020
    Last Modified on May 05, 2020
    
    @author: inki
    '''
    import torch
    import torchvision
    import torchvision.transforms as transforms
    import matplotlib.pyplot as plt
    import time
    import sys
    from IPython import display
    
    class ImageMnist():
        
        def __init__(self):
            self.mnist_train = torchvision.datasets.FashionMNIST(root='~/DataSets/FashionMNIST',
                train=True, download=True, transform=transforms.ToTensor())
            self.mnist_test = torchvision.datasets.FashionMNIST(root='~/DataSets/FashionMNIST',
                train=False, download=True, transform=transforms.ToTensor())
            
        def get_text_labels(self, labels):
            text_labels = ['t-shirt', 'trouser', 'pullover', 'dress', 'coat', 'sandal', 'shirt', 'sneaker', 'bag', 'ankle boot']
            return [text_labels[int(i)] for i in labels]
        
        def show_mnist(self, images, labels):
            display.set_matplotlib_formats('svg')
            _, figs = plt.subplots(1, len(images), figsize=(12, 12))
            for f, img, lbl in zip(figs, images, labels):
                f.imshow(img.view((28, 28)).numpy())
                f.set_title(lbl)
                f.axis('off')
            plt.show()
            
        def data_iter(self, batch_size=256):
            if sys.platform.startswith('win'):
                num_workers = 0
            else:
                num_workers = 4
            train_iter = torch.utils.data.DataLoader(self.mnist_train, 
                batch_size=batch_size, shuffle=True, num_workers=num_workers)
            test_iter = torch.utils.data.DataLoader(self.mnist_test, 
                batch_size=batch_size, shuffle=False, num_workers=num_workers)
            return train_iter, test_iter
            
    if __name__ == "__main__":
        start = time.time()
        test = ImageMnist()
        test.__init__()
        train_iter, test_iter = test.data_iter()
        for x, y in train_iter:
            continue
        print("%.2f sec" % (time.time() - start))
    

    致谢

      特别感谢李沐、Aston Zhang等老师的这本《动手学深度学习》一书~

    展开全文
  • CIFAR彩色图像分类数据集

    千次阅读 2018-08-17 19:09:40
    数据集图像个数:60000张彩色图像;其中Train sets:50000;Test sets:10000,(测试批的数据里,取自10类中的每一类,每一类随机取1000张,抽剩下的就随机排列组成了训练批) Class: 共10类,分别是: 飞机...
  • 不知道图像分类一开始所需要的数据集是怎么收集的? 比如我想要机器学习出某张图上的狗的品种是哈士奇, 那么我自己定义的数据集可以自己去网上找各个品种的狗狗的图片,然后根据品种把这些图片依次放在所对应的...
  • 图像分类数据集:17个类别的花朵数据集,训练集800张,验证集和测试集260张
  • 基于神经网络的生活垃圾分类图像数据集,总共包含了可回收物、有害垃圾、厨余垃圾、其他垃圾四大类40个小类。其中其他垃圾6种、厨余垃圾8种、有害垃圾3种、可回收物23种。每种包含大约400张图片,共1.7万余张图像。...
  • 图像场景识别是15类开源数据集,基于该数据集进行场景图像分类和识别, 图像场景识别是15类开源数据集,基于该数据集进行场景图像分类和识别 图像场景识别是15类开源数据集,基于该数据集进行场景图像分类和...
  • 图像分类数据集

    千次阅读 2019-10-19 12:04:24
    第5章图像分类数据集 不是简单罗列所有的数据集,而是详细讲解了每个数据集的特点,应用场景,发展历史。
  • Mnist手写数字数据库图像数据集

    热门讨论 2016-05-24 17:30:42
    研究深度学习和卷积神经网络的同学都知道Mnist这个数据库,它是一个手写数字的图像数据集,可以用来作为网络训练的基准测试数据库。原版数据集是以特定格式存储的四个文件,包括乱序排列的60000个训练样本与10000个...
  • 利用tensorflow制作自己的图像数据集并训练。现有代码,含详细的注释。能直接使用。并包含了4中原始图像:车,狗,脸,花,
  • 遥感图像场景分类数据集

    千次阅读 2019-06-26 21:04:03
    遥感图像场景分类数据集 1. 简介 数据集包含 45 个典型场景类别,训练集包含 177409 张图像,验证集包含 19712 张图像,初赛测试集包含 89233 张图像,详细的类别名称和对应的类别 id 见 ClsName2id.txt。 2. 数据集...
  • 高光谱/遥感图像常用数据集

    热门讨论 2017-04-20 19:37:37
    内有常用的高光谱图像(HSI)数据集,有常用的Indian,Pavia。每类数据集里包含图像原始信息,以及相对应的地面真实数据的类别标签。因文件大小限制,只能传这两个数据集,还有Salinas等数据集,大家需要的话可留言。
  • 图像分类数据集(Fashion-MNIST)

    千次阅读 2019-06-12 20:39:13
    3.5. 图像分类数据集(Fashion-MNIST) 多类图像分类数据集 Fashion-MNIST 3.5.1. 获取数据集 """ import d2lzh as d2l from mxnet.gluon import data as gdata import sys import time mnist_train = gdata.vision...
  • 07(PaddlePaddle图像分类)图像分类概述概述什么是图像分类图像分类粒度图像分类发展历程图像分类问题的挑战常用数据集介绍MNIST数据集CIFAR10数据集ImageNet数据集FDDB人脸数据集WIDER Face数据集图像分类的应用利用...
  • 医学图像数据集 读博之后一直在做医学图像处理,收集了不少数据集(包括下载地址),整理了相关信息后再此分享出来,希望能帮助到新入门的同学。 如觉得对你有帮助,欢迎在论文中引用,仅供非商业用途使用。 包括...
  • 图像分类数据集的介绍

    千次阅读 2018-09-18 17:59:59
    第5章图像分类数据集 在我们实际进入到代码编写阶段来构建分类器之前,我们首先回顾下在本书中用到的数据集。一些数据集可理想的获得大于95%的准确率,另一些则还在开放研究阶段,还有一些是图像分类竞赛的部分...
  • 基于神经网络的生活垃圾分类图像数据集,总共包含了可回收物、有害垃圾、厨余垃圾、其他垃圾四大类40个小类。其中其他垃圾6种、厨余垃圾8种、有害垃圾3种、可回收物23种。每种包含大约400张图片,共1.7万余张图像。...
  • 在AI与深度学习逐渐发展成熟的趋势下,人工智能和大数据等技术开始进入了医疗领域,它们把现有的一些传统流程进行优化,大幅度提高各种流程的效率、精度、用户体验,同时也缓解了...01 医学数据集 智能医疗...
  • 图像像素大小为256*256,总包含21类场景图像,每一类有100张,共2100张。 下载地址:http://weegee.vision.ucmerced.edu/datasets/landuse.html WHU-RS19 Data Set 图像像素大小为600*600,总包含19类场景图像,每...
  • 遥感图像场景分类常用数据集

    千次阅读 2018-01-20 22:00:50
    1. UC Merced Land-Use Data Set contains 21 scene classes and 100 samples ...图像像素大小为256*256,总包含21类场景图像,每一类有100张,共2100张。 下载地址:http://weegee.vision.ucmerced.edu/datasets/l
  • 初学图像分类任务时往往会用MNIST或者CIFAR-10作为实验练手项目,但这两个数据集是各大框架内部已经集成的,导入的时候只需要直接调用即可。 当使用自己的数据集时要先做一些处理。 这次的图像分类任务数据集形式...
  • 垃圾分类数据集(垃圾图片数据集)

    万次阅读 多人点赞 2019-08-31 10:36:51
    数据说明 该数据集是图片数据,分为训练集85%(Train)和测试集15%(Test)。其中O代表Organic(有机垃圾),R代表Recycle(可回收) 数据来源 数据来源:百度云分享 ...
  • 水下图像数据集

    千次阅读 2020-12-29 18:07:25
    1、Real-world Underwater Image Enhancement(RUIE)数据集 数据集介绍(参考https://mp.weixin.qq.com/s/FptXpmzLOZ36Xti5YiqoCw) 数据集下载:...
  • 分类数据集制备过程

    千次阅读 2018-07-22 20:17:01
    分类数据集制备过程 step1:通过仿真或从检测图像中截取获取数据 从检测数据中获取数据的方法如下:由检测边框标签 xml文件 中得到目标边框坐标,之后将边框向外扩充N个像素点,得到图像patch作为分类图像。 ...
  • 常用图像数据集大全(分类,跟踪,分割,检测等) 1.搜狗实验室数据集: http://www.sogou.com/labs/dl/p.html 互联网图片库来自sogou图片搜索所索引的部分数据。其中收集了包括人物、动物、建筑、机械、风景、...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 143,430
精华内容 57,372
关键字:

图像分类数据集