精华内容
下载资源
问答
  • 制作 tusimple 数据集格式的数据

    千次阅读 2021-02-22 16:12:58
    1、tusimple 数据集介绍 标注json文件中每一行包括三个字段 : raw_file :每一个数据段的第20帧图像的的path 路径 lanes和h_samples是数据具体的标注内容,为了压缩,h_sample是纵坐标(等分确定),lanes是每个...

    1、tusimple 数据集介绍

    标注json 文件中每一行包括三个字段 :

    raw_file : 每一个数据段的第20帧图像的的 path 路径

    lanes 和 h_samples 是数据具体的标注内容,为了压缩,h_sample 是纵坐标(等分确定),lanes 是每个车道的横坐标,是个二维数组。-2 表示这个点是无效的点。

    标注的过程应该是,将图片的下半部分如70%*height 等分成N份。然后取车道线(如论虚实)与该标注线交叉的点

    上面的数据就有 4 条车道线,第一条车道线的第一个点的坐标是(632,280)。 

     

    2、下载数据集

    LaneNet车道线检测使用的是Tusimple数据集,下载它

    https://github.com/TuSimple/tusimple-benchmark/issues/3

    3、样本处理

    利用以下脚本可以处理得到标注的数据,这个脚本稍微改动下也可以作为深度学习输入的图像。

    # -*- coding: utf-8 -*-
    import cv2
    import json
    import numpy as np
    import os
     
    base_path = r"C:\Users\Downloads"
     
    file = open(base_path + '\label_data_0601.json', 'r')
    image_num = 0
     
    for line in file.readlines():
        data = json.loads(line)
        # print data['raw_file']
        # 取第 29 帧 看一下处理的效果
        if image_num == 2:
            image = cv2.imread(os.path.join(base_path, data['raw_file']))
            # 二进制图像数组初始化
            binaryimage = np.zeros((image.shape[0], image.shape[1], 1), np.uint8)
            # 实例图像数组初始化
            instanceimage = binaryimage.copy()
            arr_width = data['lanes']
            arr_height = data['h_samples']
            width_num = len(arr_width)  # 标注的道路条数
            height_num = len(arr_height)
            # print width_num
            # print height_num
            # 遍历纵坐标
            for i in range(height_num):
                lane_hist = 40
                # 遍历各个车道的横坐标
                for j in range(width_num):
                    # 端点坐标赋值
                    if arr_width[j][i - 1] > 0 and arr_width[j][i] > 0:
                        binaryimage[int(arr_height[i]), int(arr_width[j][i])] = 255  # 255白色,0是黑色
                        instanceimage[int(arr_height[i]), int(arr_width[j][i])] = lane_hist
                        if i > 0:
                            # 画线,线宽10像素
                            cv2.line(binaryimage, (int(arr_width[j][i - 1]), int(arr_height[i - 1])),
                                     (int(arr_width[j][i]), int(arr_height[i])), 255, 10)
                            cv2.line(instanceimage, (int(arr_width[j][i - 1]), int(arr_height[i - 1])),
                                     (int(arr_width[j][i]), int(arr_height[i])), lane_hist, 10)
                    lane_hist += 50
            # cv2.imshow('image.jpg', image)
            # cv2.waitKey()
            # cv2.imshow('binaryimage.jpg', binaryimage)
            # cv2.waitKey()
            # cv2.imshow('instanceimage.jpg', instanceimage)
            # cv2.waitKey()
            string1 = base_path + "\\" + str(image_num+10) + ".png"
            string2 = base_path + "\\" + str(image_num+11) + ".png"
            string3 = base_path + "\\" + str(image_num+12) + ".png"
            cv2.imwrite(string1, binaryimage)
            cv2.imwrite(string2, instanceimage)
            cv2.imwrite(string3, image)
            break
     
        image_num = image_num + 1
     
    file.close()
    print("total image_num:" + str(image_num))

    处理完之后图片输出如下所示:

     

     

     

     

     

     

    Tusimple 数据的标注特点:

    1、车道线实际上不只是道路上的标线,虚线被当作了一种实线做处理的。这里面双实线、白线、黄线这类信息也是没有被标注的。

    2、每条线实际上是点序列的坐标集合,而不是区域集合

    4、创建自己的tusimple数据集格式

    第一步:原始数据集标注

    1、使用labelme进行数据标注:

    在conda里使用指令进行安装labelme

     pip install labelme

    2、在环境下使用指令进行启动labelme

    labelme

    3、进入界面后选择图片,进行线段标记

    在顶部edit菜单栏中选择不同的标记方案,依次为:多边形(默认),矩形,圆、直线,点。点击 Create Point,回到图片,左键点击会生成一个点,标记完成后,会形成一个标注区域,同时弹出labelme的框,输入标注名,点击ok,标注完成

    注意:要标注的车道线,一般会有多条,需要不同的命名加以区分,lane1,lane2等

    标注完成后,会生成一个json文件。

    4、将json转换为dataset

    labelme_json_to_dataset xxx.json

    生成一个文件夹,里面包含五个文件(只能转换一个json)

    批量转换json:

    在labelme的安装目录下可以看到json_to_dataset文件,默认只提供单个文件转换,我们只需要修改此代码,修改为批量转换

    import argparse
     
    import json
     
    import os
     
    import os.path as osp
     
    import warnings
     
    import PIL.Image
     
    import yaml
     
    from labelme import utils
     
    import base64
     
    #批量转换代码
     
    def main():
     
        warnings.warn("This script is aimed to demonstrate how to convert the\n"
     
                      "JSON file to a single image dataset, and not to handle\n"
     
                      "multiple JSON files to generate a real-use dataset.")
     
        parser = argparse.ArgumentParser()
     
        parser.add_argument('json_file')
     
        parser.add_argument('-o', '--out', default=None)
     
        args = parser.parse_args()
     
        json_file = args.json_file
     
        if args.out is None:
     
            out_dir = osp.basename(json_file).replace('.', '_')
     
            out_dir = osp.join(osp.dirname(json_file), out_dir)
     
        else:
     
            out_dir = args.out
     
        if not osp.exists(out_dir):
     
            os.mkdir(out_dir)
     
        count = os.listdir(json_file)
     
        for i in range(0, len(count)):
     
            path = os.path.join(json_file, count[i])
     
            if os.path.isfile(path):
     
                data = json.load(open(path))
     
                if data['imageData']:
     
                    imageData = data['imageData']
     
                else:
     
                    imagePath = os.path.join(os.path.dirname(path), data['imagePath'])
     
                    with open(imagePath, 'rb') as f:
     
                        imageData = f.read()
     
                        imageData = base64.b64encode(imageData).decode('utf-8')
     
                img = utils.img_b64_to_arr(imageData)
     
                label_name_to_value = {'_background_': 0}
     
                for shape in data['shapes']:
     
                    label_name = shape['label']
     
                    if label_name in label_name_to_value:
     
                        label_value = label_name_to_value[label_name]
     
                    else:
     
                        label_value = len(label_name_to_value)
     
                        label_name_to_value[label_name] = label_value
     
                # label_values must be dense
     
                label_values, label_names = [], []
     
                for ln, lv in sorted(label_name_to_value.items(), key=lambda x: x[1]):
     
                    label_values.append(lv)
     
                    label_names.append(ln)
     
                assert label_values == list(range(len(label_values)))
     
                lbl = utils.shapes_to_label(img.shape, data['shapes'], label_name_to_value)
     
                captions = ['{}: {}'.format(lv, ln)
     
                    for ln, lv in label_name_to_value.items()]
     
                lbl_viz = utils.draw_label(lbl, img, captions)
     
                out_dir = osp.basename(count[i]).replace('.', '_')
     
                out_dir = osp.join(osp.dirname(count[i]), out_dir)
     
                if not osp.exists(out_dir):
     
                    os.mkdir(out_dir)
     
                PIL.Image.fromarray(img).save(osp.join(out_dir, 'img.png'))
     
                #PIL.Image.fromarray(lbl).save(osp.join(out_dir, 'label.png'))
     
                utils.lblsave(osp.join(out_dir, 'label.png'), lbl)
     
                PIL.Image.fromarray(lbl_viz).save(osp.join(out_dir, 'label_viz.png'))
     
                with open(osp.join(out_dir, 'label_names.txt'), 'w') as f:
     
                    for lbl_name in label_names:
     
                        f.write(lbl_name + '\n')
     
                warnings.warn('info.yaml is being replaced by label_names.txt')
     
                info = dict(label_names=label_names)
     
                with open(osp.join(out_dir, 'info.yaml'), 'w') as f:
     
                    yaml.safe_dump(info, f, default_flow_style=False)
     
                print('Saved to: %s' % out_dir)
     
    if __name__ == '__main__':
     
        main()

    进入到保存json文件的目录,执行labelme_json_to_dataset  path

    将标注之后的数据批量处理之后,生成文件夹形式如下图所示

    打开文件夹里面有五个文件,分别是

    5、数据格式转换

    根据tuSimple数据集形式,需要得到二值化和实例化后的图像数据,也就是gt_binary_image和gt_instance_image文件中的显示结果。需要将标注之后的数据进行转换

    import cv2
    from skimage import measure, color
    from skimage.measure import regionprops
    import numpy as np
    import os
    import copy
     
    def skimageFilter(gray):
     
        binary_warped = copy.copy(gray)
        binary_warped[binary_warped > 0.1] = 255
     
        gray = (np.dstack((gray, gray, gray))*255).astype('uint8')
        labels = measure.label(gray[:, :, 0], connectivity=1)
        dst = color.label2rgb(labels,bg_label=0, bg_color=(0,0,0))
        gray = cv2.cvtColor(np.uint8(dst*255), cv2.COLOR_RGB2GRAY)
        return binary_warped, gray
     
     
    def moveImageTodir(path,targetPath,name):
        if os.path.isdir(path):
            image_name = "gt_image/"+str(name)+".png"
            binary_name = "gt_binary_image/"+str(name)+".png"
            instance_name = "gt_instance_image/"+str(name)+".png"
     
            train_rows = image_name + " " + binary_name + " " + instance_name + "\n"
     
            origin_img = cv2.imread(path+"/img.png")
            origin_img = cv2.resize(origin_img, (1280,720))
            cv2.imwrite(targetPath+"/"+image_name, origin_img)
     
            img = cv2.imread(path+'/label.png')
            img = cv2.resize(img, (1280,720))
            gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
            binary_warped, instance = skimageFilter(gray)
            cv2.imwrite(targetPath+"/"+binary_name, binary_warped)
            cv2.imwrite(targetPath+"/"+instance_name, instance)
            print("success create data name is : ", train_rows)
            return train_rows
        return None
     
     
     
    if __name__ == "__main__":
        
        count = 1
        with open("./train.txt", 'w+') as file:
     
            for images_dir in os.listdir("./images"):
                dir_name = os.path.join("./images", images_dir + "/annotations")
                for annotations_dir in os.listdir(dir_name):
                    json_dir = os.path.join(dir_name, annotations_dir)
                    if os.path.isdir(json_dir):
                        train_rows = moveImageTodir(json_dir, "./", str(count).zfill(4))
                        file.write(train_rows)
                        count += 1

    转换之后的显示结果:

    由于lanenet模型处理需要按照tusimple数据进行,首先需要将上一步处理的数据生成tfrecords格式,调用laneNet中lanenet_data_feed_pipline.py文件。

    python data_provider/lanenet_data_feed_pipline.py 
    --dataset_dir ../dataset/lane_detection_dataset/ 
    --tfrecords_dir ../dataset/lane_detection_dataset/tfrecords

     

     
    展开全文
  • 本文来源“AI有道”公众号,侵权删。 ... ... Iris 数据集的那些示例你是不是已经用腻了呢?不要误会我的意思,Iris 数据集作为入门用途...在这篇文章中,我会分享 23 个优秀的公共数据集,除了介绍数据集和数据示例外,我

    本文来源“AI有道”公众号,侵权删。

    原文链接:https://mp.weixin.qq.com/s/rZtUBmY_HJSKsa4qaDB41Q

    本文最初发布于 rubikscode.com 网站,经原作者授权由 InfoQ 中文站翻译并分享。

    Iris 数据集的那些示例你是不是已经用腻了呢?不要误会我的意思,Iris 数据集作为入门用途来说是很不错的,但其实网络上还有很多有趣的公共数据集可以用来练习机器学习和深度学习。在这篇文章中,我会分享 23 个优秀的公共数据集,除了介绍数据集和数据示例外,我还会介绍这些数据集各自可以解决哪些问题。以下是这 23 个公共数据集

    1. 帕尔默企鹅数据集
    2. 共享单车需求数据集
    3. 葡萄酒分类数据集
    4. 波士顿住房数据集
    5. 电离层数据集
    6. Fashion MNIST 数据集
    7. 猫与狗数据集
    8. 威斯康星州乳腺癌(诊断)数据集
    9. Twitter 情绪分析和 Sentiment140 数据集
    10. BBC 新闻数据集
    11. 垃圾短信分类器数据集
    12. CelebA 数据集
    13. YouTube-8M 数据集
    14. 亚马逊评论数据集
    15. 纸币验证数据集
    16. LabelMe 数据集
    17. 声纳数据集
    18. 皮马印第安人糖尿病数据集
    19. 小麦种子数据集
    20. Jeopardy! 数据集
    21. 鲍鱼数据集
    22. 假新闻检测数据集
    23. ImageNet 数据集

    1. 帕尔默企鹅数据集

    这是迄今为止我最喜欢的数据集。我在最近写的书里的大多数示例都来自于它。简单来说,如果你在 Iris 数据集上做实验做腻了就可以尝试一下这一个。它由 Kristen Gorman 博士和南极洲 LTER 的帕尔默科考站共同创建。该数据集本质上是由两个数据集组成的,每个数据集包含 344 只企鹅的数据。就像 Iris 一样,这个数据集里有来自帕尔默群岛 3 个岛屿的 3 种不同种类的企鹅,分别是 Adelie、Chinstrap 和 Gentoo。或许“Gentoo”听起来很耳熟,那是因为 Gentoo Linux 就是以它命名的!此外,这些数据集包含每个物种的 culmen 维度。这里 culmen 是鸟喙的上脊。在简化的企鹅数据中,culmen 长度和深度被重命名为变量 culmen_length_mm 和 culmen_depth_mm。

     1.1 数据集样本

    我们加载数据,看看它是什么样的:

    data = pd.read_csv(f".\\Datasets\\penguins_size.csv")
    
    data.head()

    我们使用 Pandas 库来做数据可视化,并且加载的是一个更简单的数据集。

    1.2 这个公共数据集适合解决什么问题?

    它是练习解决分类和聚类问题的好帮手。在这里,你可以尝试各种分类算法,如决策树、随机森林、SVM,或把它用于聚类问题并练习使用无监督学习。

    1.3 有用的链接

    在以下链接中可以获得有关 PalmerPenguins 数据集的更多信息:

    • 介绍 (https://allisonhorst.github.io/palmerpenguins/articles/intro.html)
    • GitHub(https://github.com/allisonhorst/palmerpenguins)
    • Kaggle(https://www.kaggle.com/parulpandey/palmer-archipelago-antarctica-penguin-data)

    2. 共享单车需求数据集

    这个数据集非常有趣。它对于初学者来说有点复杂,但也正因如此,它很适合拿来做练习。它包含了华盛顿特区“首都自行车共享计划”中自行车租赁需求的数据,自行车共享和租赁系统通常是很好的信息来源。这个数据集包含了有关骑行持续时间、出发地点、到达地点和经过时间的信息,还包含了每一天每小时的天气信息。

     2.1 数据集样本

    我们加载数据,看看它是什么样的。首先,我们使用数据集的每小时数据来执行操作:

    data = pd.read_csv(f".\\Datasets\\hour.csv")

    data.head()

    每日数据是下面的样子:

    data = pd.read_csv(f".\\Datasets\\day.csv")

    data.head()

    2.2 这个公共数据集适合解决什么问题?

    由于该数据集包含的信息种类繁多,因此非常适合练习解决回归问题。你可以尝试对其使用多元线性回归,或使用神经网络。

    2.3 有用的链接

    在以下链接中可以获得关于该数据集的更多信息:

    • UCI(https://archive.ics.uci.edu/ml/datasets/bike+sharing+dataset)
    • Kaggle(https://www.kaggle.com/c/bike-sharing-demand)

    3. 葡萄酒分类数据集

    这是一个经典之作。如果你喜欢葡萄树或计划成为索马里人,肯定会更中意它的。该数据集由两个数据集组成。两者都包含来自葡萄牙 Vinho Verde 地区的葡萄酒的化学指标,一种用于红葡萄酒,另一种用于白葡萄酒。由于隐私限制,数据集里没有关于葡萄种类、葡萄酒品牌、葡萄酒售价的数据,但有关于葡萄酒质量的信息。

    3.1 数据集样本

    我们加载数据,看看它是什么样的:

    data = pd.read_csv(f".\\Datasets\\winequality-white.csv")

    data.head()

    3.2 这个公共数据集适合解决什么问题?

    这是一个多类分类问题,但也可以被定义为回归问题。它的分类数据是不均衡的(例如,正常葡萄酒的数量比优质或差的葡萄酒多得多),很适合针对不均衡数据集的分类练习。除此之外,数据集中所有特征并不都是相关的,因此也可以拿来练习特征工程和特征选择。

    3.3 有用的链接

    以下链接中可以找到关于这个数据集的更多信息:

    • 介绍 (https://www.vinhoverde.pt/en/about-vinho-verde)
    • UCI(https://archive.ics.uci.edu/ml/datasets/Wine+Quality)

    4. 波士顿住房数据集

    虽然我说过会尽量不推荐其他人都推荐的那种数据集,但这个数据集实在太经典了。许多教程、示例和书籍都使用过它。这个数据集由 14 个特征组成,包含美国人口普查局收集的关于马萨诸塞州波士顿地区住房的信息。这是一个只有 506 个样本的小数据集。

    4.1 数据集样本

    我们加载数据,看看它是什么样的:

    data = pd.read_csv(f".\\Datasets\\boston_housing.csv")

    data.head()

    4.2 这个公共数据集适合解决什么问题?

    该数据集非常适合练习回归任务。请注意,因为这是一个小数据集,你可能会得到乐观的结果。

    4.3 有用的链接

    从以下链接中可以找到关于这个数据集的更多信息:

    • 介绍 (https://www.cs.toronto.edu/\~delve/data/boston/bostonDetail.html)
    • Kaggle(https://www.kaggle.com/c/boston-housing)

    5. 电离层数据集

    这也是一个经典数据集。它实际上起源于 1989 年,但它确实很有趣。该数据集包含由拉布拉多鹅湾的雷达系统收集的数据。该系统由 16 个高频天线的相控阵列组成,旨在检测电离层中的自由电子。一般来说,电离层有两种类型的结构:“好”和“坏”。这些雷达会检测这些结构并传递信号。数据集中有 34 个自变量和 1 个因变量,总共有 351 个观测值。

    5.1 数据集样本

    我们加载数据,看看它是什么样的:

    data = pd.read_csv(f".\\Datasets\\ionsphere.csv")

    data.head()

    5.2 这个公共数据集适合解决什么问题?

    这显然是一个二元(2 类)分类问题。有趣的是,这是一个不均衡的数据集,所以你也可以用它做这种练习。在这个数据集上实现高精度也非易事,基线性能在 64% 左右,而最高精度在 94% 左右。

    5.3 有用的链接

    从以下链接中可以找到关于这个数据集的更多信息:

    • UCI(https://archive.ics.uci.edu/ml/datasets/Ionosphere)

    6.Fashion MNIST 数据集

    MNIST 数据集是用于练习图像分类和图像识别的著名数据集,然而它有点被滥用了。如果你想要一个简单的数据集来练习图像分类,你可以试试 Fashion MNIST。它曾被《机器学习终极指南》拿来做图像分类示例。本质上,这个数据集是 MNIST 数据集的变体,它与 MNIST 数据集具有相同的结构,也就是说它有一个 60,000 个样本的训练集和一个 10,000 个服装图像的测试集。所有图像都经过尺寸归一化和居中。图像的大小也固定为 28×28,这样预处理的图像数据被减到了最小水平。它也可作为某些框架(如 TensorFlow 或 PyTorch)的一部分使用。

    6.1 数据集样本

    我们加载数据,看看它是什么样的:

    6.2 这个公共数据集适合解决什么问题?

    它最适合图像分类和图像生成任务。你可以使用简单的卷积神经网络(CNN)来做尝试,或者使用生成对抗网络(GAN)使用它来生成图像。

    6.3 有用的链接

    从以下链接中可以找到关于这个数据集的更多信息:

    • GitHub(https://github.com/zalandoresearch/fashion-mnist)
    • Kaggle(https://www.kaggle.com/zalando-research/fashionmnist)

    7. 猫与狗数据集

    这是一个包含猫狗图像的数据集。这个数据集包含 23,262 张猫和狗的图像,用于二值图像分类。在主文件夹中,你会找到两个文件夹 train1 和 test。train1 文件夹包含训练图像,而 test 文件夹包含测试图像。请注意,图像名称以 cat 或 dog 开头。这些名称本质上是我们的标签,这意味着我们将使用这些名称定义目标。

    7.1 数据集样本

    我们加载数据,看看它是什么样的:

    7.2 这个公共数据集适合解决什么问题?

    这个数据集有两重目标。首先,它可用于练习图像分类以及对象检测。其次,你可以在这里面找到无穷无尽的可爱图片。

    7.3 有用的链接

    以下链接中可以找到关于这个数据集的更多信息:

    • 介绍 (https://www.microsoft.com/en-us/download/details.aspx?id=54765)
    • Kaggle(https://www.kaggle.com/c/dogs-vs-cats)

    8. 威斯康星州乳腺癌(诊断)数据集

    机器学习和深度学习技术在医疗保健领域中的应用正在稳步增长。如果你想练习并了解使用此类数据的效果,这个数据集是一个不错的选择。在该数据集中,数据是通过处理乳房肿块的细针穿刺(FNA)的数字化图像提取出来的。该数据集中的每个特征都描述了上述数字化图像中发现的细胞核的特征。该数据集由 569 个样本组成,其中包括 357 个良性样本和 212 个恶性样本。这个数据集中有三类特征,其中实值特征最有趣。它们是从数字化图像中计算出来的,包含有关区域、细胞半径、纹理等信息。

    8.1 数据集样本

    我们加载数据,看看它是什么样的:

    data = pd.read_csv(f".\\Datasets\\breast-cancer-wisconsin.csv")

    data.head()

    8.2 这个公共数据集适合解决什么问题?

    这个医疗保健数据集适合练习分类和随机森林、SVM 等算法。

    8.3 有用的链接

    从以下链接中可以找到关于这个数据集的更多信息:

    • Kaggle(https://www.kaggle.com/uciml/breast-cancer-wisconsin-data)
    • UCI(https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic)

    9.Twitter 情绪分析和Sentiment140 数据集

    在过去几年中,情绪分析成为了一种监控和了解客户反馈的重要工具。这种对消息和响应所携带的潜在情绪基调的检测过程是完全自动化的,这意味着企业可以更好更快地了解客户的需求并提供更好的产品和服务。这一过程是通过应用各种 NLP(自然语言处理)技术来完成的。这些数据集可以帮助你练习此类技术,实际上非常适合该领域的初学者。Sentiment140 包含了使用 Twitter API 提取的 1,600,000 条推文。它们的结构略有不同。

    9.1 数据集样本

    我们加载数据,看看它是什么样的:

    data = pd.read_csv(f".\\Datasets\\training.1600000.processed.noemoticon.csv")

    data.head()

    9.2 这个公共数据集适合解决什么问题?

    如前所述,这是一个用于情绪分析的数据集。情绪分析是最常见的文本分类工具。该过程会分析文本片段以确定其中包含的情绪是积极的、消极的还是中性的。了解品牌和产品引发的社会情绪是现代企业必不可少的工具之一。

    9.3 有用的链接

    从以下链接中可以找到关于这个数据集的更多信息:

    • Kaggle(https://www.kaggle.com/c/twitter-sentiment-analysis2)
    • Kaggle(https://www.kaggle.com/kazanova/sentiment140)

    10.BBC 新闻数据集

    我们再来看这个类别中另一个有趣的文本数据集。该数据集来自 BBC 新闻。它由 2225 篇文章组成,每篇文章都有标签。所有文章分成 5 个类别:科技、商业、政治、娱乐和体育。这个数据集没有失衡,每个类别中的文章数量都是差不多的。

    10.1 数据集样本

    我们加载数据,看看它是什么样的:

    data = pd.read_csv(f".\\Datasets\\BBC News Train.csv")

    data.head()

    10.2 这个公共数据集适合解决什么问题?

    自然,这个数据集最适合用于文本分类练习。你也可以更进一步,练习分析每篇文章的情绪。总的来说,它适用于各种 NLP 任务和实践。

    10.3 有用的链接

    从以下链接中可以找到关于这个数据集的更多信息:

    • Kaggle(https://www.kaggle.com/c/learn-ai-bbc)

    11. 垃圾短信分类器数据集

    垃圾消息检测是互联网中最早投入实践的机器学习任务之一。这种任务也属于 NLP 和文本分类工作。所以,如果你想练习解决这类问题,Spam SMS 数据集是一个不错的选择。它在实践中用得非常多,非常适合初学者。这个数据集最棒的一点是,它是从互联网的多个来源构建的。例如,它从 Grumbletext 网站上提取了 425 条垃圾短信,从新加坡国立大学的 NUS SMS Corpus(NSC)随机选择了 3,375 条短信,还有 450 条短信来自 Caroline Tag 的博士论文等。数据集本身由两列组成:标签(ham 或 spam)和原始文本。

    11.1 数据集样本

    我们加载数据,看看它是什么样的:

    ham What you doing?how are you? ham Ok lar... Joking wif u oni... ham dun say so early hor... U c already then say... ham MY NO. IN LUTON 0125698789 RING ME IF UR AROUND! H* ham Siva is in hostel aha:-. ham Cos i was out shopping wif darren jus now n i called him 2 ask wat present he wan lor. Then he started guessing who i was wif n he finally guessed darren lor. spam FreeMsg: Txt: CALL to No: 86888 & claim your reward of 3 hours talk time to use from your phone now! ubscribe6GBP/ mnth inc 3hrs 16 stop?txtStop spam Sunshine Quiz! Win a super Sony DVD recorder if you canname the capital of Australia? Text MQUIZ to 82277. B spam URGENT! Your Mobile No 07808726822 was awarded a L2,000 Bonus Caller Prize on 02/09/03! This is our 2nd attempt to contact YOU! Call 0871-872-9758 BOX95QU

    11.2 这个公共数据集适合解决什么问题?

    顾名思义,该数据集最适合用于垃圾邮件检测和文本分类。它也经常用在工作面试中,所以大家最好练习一下。

    11.3 有用的链接

    从以下链接中可以找到关于这个数据集的更多信息:

    • UCI(https://archive.ics.uci.edu/ml/datasets/sms+spam+collection)
    • Kaggle(https://www.kaggle.com/uciml/sms-spam-collection-dataset)

    12.CelebA 数据集

    如果你想研究人脸检测解决方案、构建自己的人脸生成器或创建深度人脸伪造模型,那么这个数据集就是你的最佳选择。该数据集拥有超过 20 万张名人图像,每张图像有 40 个属性注释,为你的研究项目提供了一个很好的起点。此外,它还涵盖了主要的姿势和背景类别。

    12.1 数据集样本

    我们加载数据,看看它是什么样的:

    12.2 这个公共数据集适合解决什么问题?

    我们可以用这个数据集解决多种问题。比如,我们可以解决各种人脸识别和计算机视觉问题,它可用来使用不同的生成算法生成图像。此外,你可以使用它来开发新颖的深度人脸伪造模型或深度伪造检测模型。

    12.3 有用的链接

    从以下链接中可以找到关于这个数据集的更多信息:

    • 介绍 (http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html)

    13.YouTube-8M 数据集

    这是最大的多标签视频分类数据集。它来自谷歌,拥有 800 万个带有注释和 ID 的 YouTube 分类视频。这些视频的注释由 YouTube 视频注释系统使用 48000 个视觉实体的词汇表创建。该词汇表也可供下载。请注意,此数据集可用作 TensorFlow 记录文件。除此之外,你还可以使用这个数据集的扩展——YouTube-8M Segments 数据集。它包含了人工验证的分段注释。

    13.1 数据集样本

    你可以使用以下命令下载它们:

    mkdir -p ~/yt8m/2/frame/traincd ~/yt8m/2/frame/traincurl data.yt8m.org/download.py | partition=2/frame/train mirror=us python

    13.2 这个公共数据集适合解决什么问题?

    你可以使用这个数据集执行多种操作。比如可以使用它跟进谷歌的竞赛,并开发准确分配视频级标签的分类算法。你还可以用它来创建视频分类模型,也可以用它练习所谓的时间概念定位,也就是找到并分享特定的视频瞬间。

    13.3 有用的链接

    从以下链接中可以找到关于这个数据集的更多信息:

    • 介绍 (https://arxiv.org/abs/1609.08675)
    • 下载 (http://research.google.com/youtube8m/)

    14. 亚马逊评论数据集

    情绪分析是最常见的文本分类工具。这个过程会分析文本片段以确定情绪倾向是积极的、消极的还是中性的。在监控在线会话时了解你的品牌、产品或服务引发的社会情绪是现代商业活动的基本工具之一,而情绪分析是实现这一目标的第一步。该数据集包含了来自亚马逊的产品评论和元数据,包括 1996 年 5 月至 2018 年 10 月的 2.331 亿条评论。

    14.1 这个公共数据集适合解决什么问题?

    这个数据集可以为任何产品创建情绪分析的入门模型,你可以使用它来快速创建可用于生产的模型。

    14.2 有用的链接

    从以下链接中可以找到关于这个数据集的更多信息:

    • 介绍和下载 (https://jmcauley.ucsd.edu/data/amazon/)

    15. 纸币验证数据集

    这是一个有趣的数据集。你可以使用它来创建可以检测真钞和伪造钞票的解决方案。该数据集包含了从数字化图像中提取的许多指标。数据集的图像是使用通常用于印刷检查的工业相机创建的,图像尺寸为 400x400 像素。这是一个干净的数据集,包含 1372 个示例且没有缺失值。

    15.1 数据集样本

    我们加载数据,看看它是什么样的:

    data = pd.read_csv(f".\\Datasets\\data_banknote_authentication.csv")

    data.head()

    15.2 这个公共数据集适合解决什么问题?

    它是练习二元分类和应用各种算法的绝佳数据集。此外,你可以修改它并将其用于聚类,并提出将通过无监督学习对这些数据进行聚类的算法。

    15.3 有用的链接

    从以下链接中可以找到关于这个数据集的更多信息:

    • UCI(https://archive.ics.uci.edu/ml/datasets/banknote+authentication#)
    • Kaggle(https://www.kaggle.com/ritesaluja/bank-note-authentication-uci-data)

    16.LabelMe 数据集

    LabelMe 是另一个计算机视觉数据集。LabelMe 是一个带有真实标签的大型图像数据库,用于物体检测和识别。它的注释来自两个不同的来源,其中就有 LabelMe 在线注释工具。简而言之,有两种方法可以利用这个数据集。你可以通过 LabelMe Matlab 工具箱下载所有图像,也可以通过 LabelMe Matlab 工具箱在线使用图像。

    16.1 数据集样本

    标记好的数据如下所示:

     16.2 这个公共数据集适合解决什么问题?

    它是用于对象检测和对象识别解决方案的绝佳数据集。

    16.3 有用的链接

    从以下链接中可以找到关于这个数据集的更多信息:

    • 介绍和下载 (http://labelme.csail.mit.edu/Release3.0/index.php)

    17. 声纳数据集

    如果你对地质学感兴趣,会发现这个数据集非常有趣。它是利用声纳信号制成的,由两部分组成。第一部分名为“sonar.mines”,包含 111 个模式,这些模式是使用在不同角度和不同条件下从金属圆柱体反射的声纳信号制成的。第二部分名为“sonar.rocks”,由 97 个模式组成,同样是通过反射声纳信号制成,但这次反射的是岩石上的信号。它是一个不均衡数据集,包含 208 个示例、60 个输入特征和一个输出特征。

    17.1 数据集样本

    我们加载数据,看看它是什么样的:

    data = pd.read_csv(f".\\Datasets\\sonar.csv")

    data.head()

    17.2 这个公共数据集适合解决什么问题?

    该数据集非常适合练习二元分类。它的制作目标是检测输入是地雷还是岩石,这是一个有趣的问题,因为最高的输出结果达到了 88% 的准确率。

    17.3 有用的链接

    从以下链接中可以找到关于这个数据集的更多信息:

    • 介绍 (https://www.is.umk.pl/projects/datasets.html#Sonar)
    • UCI(https://archive.ics.uci.edu/ml/datasets/Connectionist+Bench+(Sonar,+Mines+vs.+Rocks))

    18. 皮马印第安人糖尿病数据集

    这是另一个用于分类练习的医疗保健数据集。它来自美国国家糖尿病、消化和肾脏疾病研究所,其目的是根据某些诊断指标来预测患者是否患有糖尿病。该数据集包含 768 个观测值,具有 8 个输入特征和 1 个输出特征。它不是一个均衡的数据集,并且假设缺失值被替换为 0。

    18.1 数据集样本

    我们加载数据,看看它是什么样的:

    data = pd.read_csv(f".\\Datasets\\pima-indians-dataset.csv")

    data.head()

    18.2 这个公共数据集适合解决什么问题?

    它是另一个适合练习二元分类的数据集。

    18.3 有用的链接

    从以下链接中可以找到关于这个数据集的更多信息:

    • 介绍 (https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.names)
    • Kaggle(https://www.kaggle.com/uciml/pima-indians-diabetes-database)

    19. 小麦种子数据集

    这个数据集非常有趣和简单。它特别适合初学者,可以代替 Iris 数据集。该数据集包含属于三种不同小麦品种的种子信息:Kama、Rosa 和 Canadian。它是一个均衡的数据集,每个类别有 70 个实例。种子内部内核结构的测量值是使用软 X 射线技术检测的。

    19.1 数据集样本

    我们加载数据,看看它是什么样的:

    data = pd.read_csv(f".\\Datasets\\seeds_dataset.csv")

    data.head()

    19.2 这个公共数据集适合解决什么问题?

    这个数据集有利于提升分类技能。

    19.3 有用的链接

    从以下链接中可以找到关于这个数据集的更多信息:

    • UCI(https://archive.ics.uci.edu/ml/datasets/seeds)
    • Kaggle(https://www.kaggle.com/jmcaro/wheat-seedsuci)

    20.Jeopardy! 问题数据集

    这个数据集很不错,包含 216,930 个 Jeopardy 问题、答案和其他数据。它是可用于你 NLP 项目的绝佳数据集。除了问题和答案,该数据集还包含有关问题类别和价值的信息。

    20.1 数据集样本

    我们加载数据,看看它是什么样的:

    data = pd.read_csv(f".\\Datasets\\joepardy.csv")

    data.head()

    20.2 这个公共数据集适合解决什么问题?

    这是一个丰富的数据集,可用于多种用途。你可以运行分类算法并预测问题的类别或问题的价值。不过你可以用它做的最酷的事情可能是用它来训练 BERT 模型。

    20.3 有用的链接

    从以下链接中可以找到关于这个数据集的更多信息:

    • Kaggle(https://www.kaggle.com/tunguz/200000-jeopardy-questions)

    21. 鲍鱼数据集

    从本质上讲这是一个多分类问题,然而,这个数据集也可以被视为一个回归问题。它的目标是使用提供的指标来预测鲍鱼的年龄。这个数据集不均衡,4,177 个实例有 8 个输入变量和 1 个输出变量。

    21.1 数据集样本

    我们加载数据,看看它是什么样的:

    data = pd.read_csv(f".\\Datasets\\abalone.csv")

    data.head()

    21.2 这个公共数据集适合解决什么问题?

    该数据集可以同时构建为回归和分类任务。这是一个很好的机会,可以使用多元线性回归、SVM、随机森林等算法,或者构建一个可以解决这个问题的神经网络。

    21.3 有用的链接

    从以下链接中可以找到关于这个数据集的更多信息:

    • UCI(https://archive.ics.uci.edu/ml/datasets/abalone)
    • Kaggle(https://www.kaggle.com/rodolfomendes/abalone-dataset)

    22. 假新闻数据集

    我们生活在一个狂野的时代。假新闻、深度造假和其他类型的欺骗技术都成了我们日常生活的一部分,无论我们喜欢与否。这个数据集提供了另一个非常适合练习的 NLP 任务。它包含标记过的真实和虚假新闻,以及它们的文本和作者。

    22.1 数据集样本

    我们加载数据,看看它是什么样的:

    data = pd.read_csv(f".\\Datasets\\fake_news\\train.csv")

    data.head()

    22.2 这个公共数据集适合解决什么问题?

    这是另一个 NLP 文本分类任务。

    22.3 有用的链接

    从以下链接中可以找到关于这个数据集的更多信息:

    • Kaggle(https://www.kaggle.com/c/fake-news/overview)

    23.ImageNet 数据集

    最后这个数据集是计算机视觉数据集中的王者——ImageNet。该数据集是用来衡量所有新的深度学习和计算机视觉技术创新的基准。没有它,深度学习的世界就不会变成今天这样的状态。ImageNet 是一个按照 WordNet 层次结构组织的大型图像数据库。这意味着每个实体都用一组称为 -synset 的词和短语来描述。每个同义词集分配了大约 1000 个图像。基本上,层次结构的每个节点都由成百上千的图像描述。

    23.1 这个公共数据集适合解决什么问题?

    它是学术和研究界的标准数据集。它的主要任务是图像分类,但你也可以将其用于各种任务。

    23.2 有用的链接

    从以下链接中可以找到关于这个数据集的更多信息:

    • 官方网站 (https://image-net.org/)

    在本文中,我们探索了 23 个非常适合机器学习应用实践的数据集。感谢你的阅读!

    作者介绍

    Nikola M. Zivkovic 是下列书籍的作者:《机器学习终极指南》和《面向程序员的深度学习》。他喜欢分享知识,还是一位经验丰富的演讲者。他曾在许多聚会、会议上发表演讲,并在诺维萨德大学担任客座讲师。

    原文链接: https://rubikscode.net/2021/07/19/top-23-best-public-datasets-for-practicing-machine-learning

    展开全文
  • 向AI转型的程序员都关注了这个号????????????机器学习AI算法工程 公众号:datayx共享单车数据集,包括骑行时间、会员骑行时间、会员类型、骑行路线类别、开始时间、结束时间...


    向AI转型的程序员都关注了这个号????????????

    机器学习AI算法工程   公众号:datayx

    共享单车数据集,包括骑行时间、会员骑行时间、会员类型、骑行路线类别、开始时间、结束时间、开始站点、结束站点、经度纬度等等。

    共享单车数据集超10万条 获取方式:

    转发本文至朋友圈,截图发给本微信公众号 datayx  即可。

    23个优秀的机器学习训练公共数据集

    1. 帕尔默企鹅数据集

    2. 共享单车需求数据集

    3. 葡萄酒分类数据集

    4. 波士顿住房数据集

    5. 电离层数据集

    6. Fashion MNIST 数据集

    7. 猫与狗数据集

    8. 威斯康星州乳腺癌(诊断)数据集

    9. Twitter 情绪分析和 Sentiment140 数据集

    10. BBC 新闻数据集

    11. 垃圾短信分类器数据集

    12. CelebA 数据集

    13. YouTube-8M 数据集

    14. 亚马逊评论数据集

    15. 纸币验证数据集

    16. LabelMe 数据集

    17. 声纳数据集

    18. 皮马印第安人糖尿病数据集

    19. 小麦种子数据集

    20. Jeopardy! 数据集

    21. 鲍鱼数据集

    22. 假新闻检测数据集

    23. ImageNet 数据集

    1. 帕尔默企鹅数据集

    这是迄今为止我最喜欢的数据集。我在最近写的书里的大多数示例都来自于它。简单来说,如果你在 Iris 数据集上做实验做腻了就可以尝试一下这一个。它由 Kristen Gorman 博士和南极洲 LTER 的帕尔默科考站共同创建。该数据集本质上是由两个数据集组成的,每个数据集包含 344 只企鹅的数据。

    就像 Iris 一样,这个数据集里有来自帕尔默群岛 3 个岛屿的 3 种不同种类的企鹅,分别是 Adelie、Chinstrap 和 Gentoo。或许“Gentoo”听起来很耳熟,那是因为 Gentoo Linux 就是以它命名的!此外,这些数据集包含每个物种的 culmen 维度。这里 culmen 是鸟喙的上脊。在简化的企鹅数据中,culmen 长度和深度被重命名为变量 culmen_length_mm 和 culmen_depth_mm。

    1.1 数据集样本

    我们加载数据,看看它是什么样的:

    data = pd.read_csv(f".\\Datasets\\penguins_size.csv")
    data.head()
    

    我们使用 Pandas 库来做数据可视化,并且加载的是一个更简单的数据集。

    它是练习解决分类和聚类问题的好帮手。在这里,你可以尝试各种分类算法,如决策树、随机森林、SVM,或把它用于聚类问题并练习使用无监督学习。

    在以下链接中可以获得有关 PalmerPenguins 数据集的更多信息:

    • 介绍 (https://allisonhorst.github.io/palmerpenguins/articles/intro.html)

    • GitHub(https://github.com/allisonhorst/palmerpenguins)

    • Kaggle(https://www.kaggle.com/parulpandey/palmer-archipelago-antarctica-penguin-data)

    2. 共享单车需求数据集

    这个数据集非常有趣。它对于初学者来说有点复杂,但也正因如此,它很适合拿来做练习。它包含了华盛顿特区“首都自行车共享计划”中自行车租赁需求的数据,自行车共享和租赁系统通常是很好的信息来源。这个数据集包含了有关骑行持续时间、出发地点、到达地点和经过时间的信息,还包含了每一天每小时的天气信息。

    我们加载数据,看看它是什么样的。首先,我们使用数据集的每小时数据来执行操作:

    data = pd.read_csv(f".\\Datasets\\hour.csv")
    data.head()
    

    每日数据是下面的样子:

    data = pd.read_csv(f".\\Datasets\\day.csv")
    data.head()
    

    由于该数据集包含的信息种类繁多,因此非常适合练习解决回归问题。你可以尝试对其使用多元线性回归,或使用神经网络。

    在以下链接中可以获得关于该数据集的更多信息:

    • UCI(https://archive.ics.uci.edu/ml/datasets/bike+sharing+dataset)

    • Kaggle(https://www.kaggle.com/c/bike-sharing-demand)

    3. 葡萄酒分类数据集

    这是一个经典之作。如果你喜欢葡萄树或计划成为索马里人,肯定会更中意它的。该数据集由两个数据集组成。两者都包含来自葡萄牙 Vinho Verde 地区的葡萄酒的化学指标,一种用于红葡萄酒,另一种用于白葡萄酒。由于隐私限制,数据集里没有关于葡萄种类、葡萄酒品牌、葡萄酒售价的数据,但有关于葡萄酒质量的信息。

    我们加载数据,看看它是什么样的:

    data = pd.read_csv(f".\\Datasets\\winequality-white.csv")
    data.head()
    

    这是一个多类分类问题,但也可以被定义为回归问题。它的分类数据是不均衡的(例如,正常葡萄酒的数量比优质或差的葡萄酒多得多),很适合针对不均衡数据集的分类练习。除此之外,数据集中所有特征并不都是相关的,因此也可以拿来练习特征工程和特征选择。

    以下链接中可以找到关于这个数据集的更多信息:

    • 介绍 (https://www.vinhoverde.pt/en/about-vinho-verde)

    • UCI(https://archive.ics.uci.edu/ml/datasets/Wine+Quality)

    4. 波士顿住房数据集

    虽然我说过会尽量不推荐其他人都推荐的那种数据集,但这个数据集实在太经典了。许多教程、示例和书籍都使用过它。这个数据集由 14 个特征组成,包含美国人口普查局收集的关于马萨诸塞州波士顿地区住房的信息。这是一个只有 506 个样本的小数据集。

    我们加载数据,看看它是什么样的:

    data = pd.read_csv(f".\\Datasets\\boston_housing.csv")
    data.head()
    

    该数据集非常适合练习回归任务。请注意,因为这是一个小数据集,你可能会得到乐观的结果。

    从以下链接中可以找到关于这个数据集的更多信息:

    • 介绍 (https://www.cs.toronto.edu/\~delve/data/boston/bostonDetail.html)

    • Kaggle(https://www.kaggle.com/c/boston-housing)

    5. 电离层数据集

    这也是一个经典数据集。它实际上起源于 1989 年,但它确实很有趣。该数据集包含由拉布拉多鹅湾的雷达系统收集的数据。该系统由 16 个高频天线的相控阵列组成,旨在检测电离层中的自由电子。一般来说,电离层有两种类型的结构:“好”和“坏”。这些雷达会检测这些结构并传递信号。数据集中有 34 个自变量和 1 个因变量,总共有 351 个观测值。

    我们加载数据,看看它是什么样的:

    data = pd.read_csv(f".\\Datasets\\ionsphere.csv")
    data.head()
    

    这显然是一个二元(2 类)分类问题。有趣的是,这是一个不均衡的数据集,所以你也可以用它做这种练习。在这个数据集上实现高精度也非易事,基线性能在 64% 左右,而最高精度在 94% 左右。

    从以下链接中可以找到关于这个数据集的更多信息:

    • UCI(https://archive.ics.uci.edu/ml/datasets/Ionosphere)

    6.Fashion MNIST 数据集

    MNIST 数据集是用于练习图像分类和图像识别的著名数据集,然而它有点被滥用了。如果你想要一个简单的数据集来练习图像分类,你可以试试 Fashion MNIST。它曾被《机器学习终极指南》拿来做图像分类示例。

    本质上,这个数据集是 MNIST 数据集的变体,它与 MNIST 数据集具有相同的结构,也就是说它有一个 60,000 个样本的训练集和一个 10,000 个服装图像的测试集。所有图像都经过尺寸归一化和居中。图像的大小也固定为 28×28,这样预处理的图像数据被减到了最小水平。它也可作为某些框架(如 TensorFlow 或 PyTorch)的一部分使用。

    我们加载数据,看看它是什么样的:

    它最适合图像分类和图像生成任务。你可以使用简单的卷积神经网络(CNN)来做尝试,或者使用生成对抗网络(GAN)使用它来生成图像。

    从以下链接中可以找到关于这个数据集的更多信息:

    • GitHub(https://github.com/zalandoresearch/fashion-mnist)

    • Kaggle(https://www.kaggle.com/zalando-research/fashionmnist)

    7. 猫与狗数据集

    这是一个包含猫狗图像的数据集。这个数据集包含 23,262 张猫和狗的图像,用于二值图像分类。在主文件夹中,你会找到两个文件夹 train1 和 test。

    train1 文件夹包含训练图像,而 test 文件夹包含测试图像。请注意,图像名称以 cat 或 dog 开头。这些名称本质上是我们的标签,这意味着我们将使用这些名称定义目标。

    我们加载数据,看看它是什么样的:

    这个数据集有两重目标。首先,它可用于练习图像分类以及对象检测。其次,你可以在这里面找到无穷无尽的可爱图片。

    以下链接中可以找到关于这个数据集的更多信息:

    • 介绍 (https://www.microsoft.com/en-us/download/details.aspx?id=54765)

    • Kaggle(https://www.kaggle.com/c/dogs-vs-cats)

    8. 威斯康星州乳腺癌(诊断)数据集

    机器学习和深度学习技术在医疗保健领域中的应用正在稳步增长。如果你想练习并了解使用此类数据的效果,这个数据集是一个不错的选择。在该数据集中,数据是通过处理乳房肿块的细针穿刺(FNA)的数字化图像提取出来的。该数据集中的每个特征都描述了上述数字化图像中发现的细胞核的特征。

    该数据集由 569 个样本组成,其中包括 357 个良性样本和 212 个恶性样本。这个数据集中有三类特征,其中实值特征最有趣。它们是从数字化图像中计算出来的,包含有关区域、细胞半径、纹理等信息。

    我们加载数据,看看它是什么样的:

    data = pd.read_csv(f".\\Datasets\\breast-cancer-wisconsin.csv")
    data.head()
    

    这个医疗保健数据集适合练习分类和随机森林、SVM 等算法。

    从以下链接中可以找到关于这个数据集的更多信息:

    • Kaggle(https://www.kaggle.com/uciml/breast-cancer-wisconsin-data)

    • UCI(https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic)

    9.Twitter 情绪分析和

    Sentiment140 数据集

    在过去几年中,情绪分析成为了一种监控和了解客户反馈的重要工具。这种对消息和响应所携带的潜在情绪基调的检测过程是完全自动化的,这意味着企业可以更好更快地了解客户的需求并提供更好的产品和服务。

    这一过程是通过应用各种 NLP(自然语言处理)技术来完成的。这些数据集可以帮助你练习此类技术,实际上非常适合该领域的初学者。Sentiment140 包含了使用 Twitter API 提取的 1,600,000 条推文。它们的结构略有不同。

    我们加载数据,看看它是什么样的:

    data = pd.read_csv(f".\\Datasets\\training.1600000.processed.noemoticon.csv")
    data.head()
    

    如前所述,这是一个用于情绪分析的数据集。情绪分析是最常见的文本分类工具。该过程会分析文本片段以确定其中包含的情绪是积极的、消极的还是中性的。了解品牌和产品引发的社会情绪是现代企业必不可少的工具之一。

    从以下链接中可以找到关于这个数据集的更多信息:

    • Kaggle(https://www.kaggle.com/c/twitter-sentiment-analysis2)

    • Kaggle(https://www.kaggle.com/kazanova/sentiment140)

    10.BBC 新闻数据集

    我们再来看这个类别中另一个有趣的文本数据集。该数据集来自 BBC 新闻。它由 2225 篇文章组成,每篇文章都有标签。所有文章分成 5 个类别:科技、商业、政治、娱乐和体育。这个数据集没有失衡,每个类别中的文章数量都是差不多的。

    我们加载数据,看看它是什么样的:

    data = pd.read_csv(f".\\Datasets\\BBC News Train.csv")
    data.head()
    

    自然,这个数据集最适合用于文本分类练习。你也可以更进一步,练习分析每篇文章的情绪。总的来说,它适用于各种 NLP 任务和实践。

    从以下链接中可以找到关于这个数据集的更多信息:

    • Kaggle(https://www.kaggle.com/c/learn-ai-bbc)

    11. 垃圾短信分类器数据集

    垃圾消息检测是互联网中最早投入实践的机器学习任务之一。这种任务也属于 NLP 和文本分类工作。所以,如果你想练习解决这类问题,Spam SMS 数据集是一个不错的选择。它在实践中用得非常多,非常适合初学者。

    这个数据集最棒的一点是,它是从互联网的多个来源构建的。例如,它从 Grumbletext 网站上提取了 425 条垃圾短信,从新加坡国立大学的 NUS SMS Corpus(NSC)随机选择了 3,375 条短信,还有 450 条短信来自 Caroline Tag 的博士论文等。数据集本身由两列组成:标签(ham 或 spam)和原始文本。

    我们加载数据,看看它是什么样的:

    ham What you doing?how are you?
    ham Ok lar... Joking wif u oni...
    ham dun say so early hor... U c already then say...
    ham MY NO. IN LUTON 0125698789 RING ME IF UR AROUND! H*
    ham Siva is in hostel aha:-.
    ham Cos i was out shopping wif darren jus now n i called him 2 ask wat present he wan lor. Then he started guessing who i was wif n he finally guessed darren lor.
    spam FreeMsg: Txt: CALL to No: 86888 & claim your reward of 3 hours talk time to use from your phone now! ubscribe6GBP/ mnth inc 3hrs 16 stop?txtStop
    spam Sunshine Quiz! Win a super Sony DVD recorder if you canname the capital of Australia? Text MQUIZ to 82277. B
    spam URGENT! Your Mobile No 07808726822 was awarded a L2,000 Bonus Caller Prize on 02/09/03! This is our 2nd attempt to contact YOU! Call 0871-872-9758 BOX95QU

    顾名思义,该数据集最适合用于垃圾邮件检测和文本分类。它也经常用在工作面试中,所以大家最好练习一下。

    从以下链接中可以找到关于这个数据集的更多信息:

    • UCI(https://archive.ics.uci.edu/ml/datasets/sms+spam+collection)

    • Kaggle(https://www.kaggle.com/uciml/sms-spam-collection-dataset)

    12.CelebA 数据集

    如果你想研究人脸检测解决方案、构建自己的人脸生成器或创建深度人脸伪造模型,那么这个数据集就是你的最佳选择。该数据集拥有超过 20 万张名人图像,每张图像有 40 个属性注释,为你的研究项目提供了一个很好的起点。此外,它还涵盖了主要的姿势和背景类别。

    我们加载数据,看看它是什么样的:

    我们可以用这个数据集解决多种问题。比如,我们可以解决各种人脸识别和计算机视觉问题,它可用来使用不同的生成算法生成图像。此外,你可以使用它来开发新颖的深度人脸伪造模型或深度伪造检测模型。

    从以下链接中可以找到关于这个数据集的更多信息:

    • 介绍 (http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html)

    13.YouTube-8M 数据集

    这是最大的多标签视频分类数据集。它来自谷歌,拥有 800 万个带有注释和 ID 的 YouTube 分类视频。这些视频的注释由 YouTube 视频注释系统使用 48000 个视觉实体的词汇表创建。该词汇表也可供下载。

    请注意,此数据集可用作 TensorFlow 记录文件。除此之外,你还可以使用这个数据集的扩展——YouTube-8M Segments 数据集。它包含了人工验证的分段注释。

    你可以使用以下命令下载它们:

    mkdir -p ~/yt8m/2/frame/train
    cd ~/yt8m/2/frame/train
    curl data.yt8m.org/download.py | partition=2/frame/train mirror=us python

    你可以使用这个数据集执行多种操作。比如可以使用它跟进谷歌的竞赛,并开发准确分配视频级标签的分类算法。你还可以用它来创建视频分类模型,也可以用它练习所谓的时间概念定位,也就是找到并分享特定的视频瞬间。

    从以下链接中可以找到关于这个数据集的更多信息:

    • 介绍 (https://arxiv.org/abs/1609.08675)

    • 下载 (http://research.google.com/youtube8m/)

    14. 亚马逊评论数据集

    情绪分析是最常见的文本分类工具。这个过程会分析文本片段以确定情绪倾向是积极的、消极的还是中性的。在监控在线会话时了解你的品牌、产品或服务引发的社会情绪是现代商业活动的基本工具之一,而情绪分析是实现这一目标的第一步。该数据集包含了来自亚马逊的产品评论和元数据,包括 1996 年 5 月至 2018 年 10 月的 2.331 亿条评论。

    这个数据集可以为任何产品创建情绪分析的入门模型,你可以使用它来快速创建可用于生产的模型。

    从以下链接中可以找到关于这个数据集的更多信息:

    • 介绍和下载 (https://jmcauley.ucsd.edu/data/amazon/)

    15. 纸币验证数据集

    这是一个有趣的数据集。你可以使用它来创建可以检测真钞和伪造钞票的解决方案。该数据集包含了从数字化图像中提取的许多指标。数据集的图像是使用通常用于印刷检查的工业相机创建的,图像尺寸为 400x400 像素。这是一个干净的数据集,包含 1372 个示例且没有缺失值。

    我们加载数据,看看它是什么样的:

    data = pd.read_csv(f".\\Datasets\\data_banknote_authentication.csv")
    data.head()
    

    它是练习二元分类和应用各种算法的绝佳数据集。此外,你可以修改它并将其用于聚类,并提出将通过无监督学习对这些数据进行聚类的算法。

    从以下链接中可以找到关于这个数据集的更多信息:

    • UCI(https://archive.ics.uci.edu/ml/datasets/banknote+authentication#)

    • Kaggle(https://www.kaggle.com/ritesaluja/bank-note-authentication-uci-data)

    16.LabelMe 数据集

    LabelMe 是另一个计算机视觉数据集。LabelMe 是一个带有真实标签的大型图像数据库,用于物体检测和识别。它的注释来自两个不同的来源,其中就有 LabelMe 在线注释工具。

    简而言之,有两种方法可以利用这个数据集。你可以通过 LabelMe Matlab 工具箱下载所有图像,也可以通过 LabelMe Matlab 工具箱在线使用图像。

    标记好的数据如下所示:

    它是用于对象检测和对象识别解决方案的绝佳数据集。

    从以下链接中可以找到关于这个数据集的更多信息:

    • 介绍和下载 (http://labelme.csail.mit.edu/Release3.0/index.php)

    17. 声纳数据集

    如果你对地质学感兴趣,会发现这个数据集非常有趣。它是利用声纳信号制成的,由两部分组成。第一部分名为“sonar.mines”,包含 111 个模式,这些模式是使用在不同角度和不同条件下从金属圆柱体反射的声纳信号制成的。

    第二部分名为“sonar.rocks”,由 97 个模式组成,同样是通过反射声纳信号制成,但这次反射的是岩石上的信号。它是一个不均衡数据集,包含 208 个示例、60 个输入特征和一个输出特征。

    我们加载数据,看看它是什么样的:

    data = pd.read_csv(f".\\Datasets\\sonar.csv")
    data.head()
    

    该数据集非常适合练习二元分类。它的制作目标是检测输入是地雷还是岩石,这是一个有趣的问题,因为最高的输出结果达到了 88% 的准确率。

    从以下链接中可以找到关于这个数据集的更多信息:

    • 介绍 (https://www.is.umk.pl/projects/datasets.html#Sonar)

    • UCI(https://archive.ics.uci.edu/ml/datasets/Connectionist+Bench+(Sonar,+Mines+vs.+Rocks))

    18. 皮马印第安人糖尿病数据集

    这是另一个用于分类练习的医疗保健数据集。它来自美国国家糖尿病、消化和肾脏疾病研究所,其目的是根据某些诊断指标来预测患者是否患有糖尿病。

    该数据集包含 768 个观测值,具有 8 个输入特征和 1 个输出特征。它不是一个均衡的数据集,并且假设缺失值被替换为 0。

    我们加载数据,看看它是什么样的:

    data = pd.read_csv(f".\\Datasets\\pima-indians-dataset.csv")
    data.head()
    

    它是另一个适合练习二元分类的数据集。

    从以下链接中可以找到关于这个数据集的更多信息:

    • 介绍 (https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.names)

    • Kaggle(https://www.kaggle.com/uciml/pima-indians-diabetes-database)

    19. 小麦种子数据集

    这个数据集非常有趣和简单。它特别适合初学者,可以代替 Iris 数据集。该数据集包含属于三种不同小麦品种的种子信息:Kama、Rosa 和 Canadian。它是一个均衡的数据集,每个类别有 70 个实例。种子内部内核结构的测量值是使用软 X 射线技术检测的。

    我们加载数据,看看它是什么样的:

    data = pd.read_csv(f".\\Datasets\\seeds_dataset.csv")
    data.head()
    

    这个数据集有利于提升分类技能。

    从以下链接中可以找到关于这个数据集的更多信息:

    • UCI(https://archive.ics.uci.edu/ml/datasets/seeds)

    • Kaggle(https://www.kaggle.com/jmcaro/wheat-seedsuci)

    20.Jeopardy! 问题数据集

    这个数据集很不错,包含 216,930 个 Jeopardy 问题、答案和其他数据。它是可用于你 NLP 项目的绝佳数据集。除了问题和答案,该数据集还包含有关问题类别和价值的信息。

    我们加载数据,看看它是什么样的:

    data = pd.read_csv(f".\\Datasets\\joepardy.csv")
    data.head()
    

    这是一个丰富的数据集,可用于多种用途。你可以运行分类算法并预测问题的类别或问题的价值。不过你可以用它做的最酷的事情可能是用它来训练 BERT 模型。

    从以下链接中可以找到关于这个数据集的更多信息:

    • Kaggle(https://www.kaggle.com/tunguz/200000-jeopardy-questions)

    21. 鲍鱼数据集

    从本质上讲这是一个多分类问题,然而,这个数据集也可以被视为一个回归问题。它的目标是使用提供的指标来预测鲍鱼的年龄。这个数据集不均衡,4,177 个实例有 8 个输入变量和 1 个输出变量。

    我们加载数据,看看它是什么样的:

    data = pd.read_csv(f".\\Datasets\\abalone.csv")
    data.head()
    

    该数据集可以同时构建为回归和分类任务。这是一个很好的机会,可以使用多元线性回归、SVM、随机森林等算法,或者构建一个可以解决这个问题的神经网络。

    从以下链接中可以找到关于这个数据集的更多信息:

    • UCI(https://archive.ics.uci.edu/ml/datasets/abalone)

    • Kaggle(https://www.kaggle.com/rodolfomendes/abalone-dataset)

    22. 假新闻数据集

    我们生活在一个狂野的时代。假新闻、深度造假和其他类型的欺骗技术都成了我们日常生活的一部分,无论我们喜欢与否。这个数据集提供了另一个非常适合练习的 NLP 任务。它包含标记过的真实和虚假新闻,以及它们的文本和作者。

    我们加载数据,看看它是什么样的:

    data = pd.read_csv(f".\\Datasets\\fake_news\\train.csv")
    data.head()
    

    这是另一个 NLP 文本分类任务。

    从以下链接中可以找到关于这个数据集的更多信息:

    • Kaggle(https://www.kaggle.com/c/fake-news/overview)

    23.ImageNet 数据集

    最后这个数据集是计算机视觉数据集中的王者——ImageNet。该数据集是用来衡量所有新的深度学习和计算机视觉技术创新的基准。没有它,深度学习的世界就不会变成今天这样的状态。ImageNet 是一个按照 WordNet 层次结构组织的大型图像数据库。这意味着每个实体都用一组称为 -synset 的词和短语来描述。每个同义词集分配了大约 1000 个图像。基本上,层次结构的每个节点都由成百上千的图像描述。

    它是学术和研究界的标准数据集。它的主要任务是图像分类,但你也可以将其用于各种任务。

    官方网站 (https://image-net.org/)

    机器学习算法AI大数据技术

     搜索公众号添加: datanlp

    长按图片,识别二维码


    阅读过本文的人还看了以下文章:

    TensorFlow 2.0深度学习案例实战

    基于40万表格数据集TableBank,用MaskRCNN做表格检测

    《基于深度学习的自然语言处理》中/英PDF

    Deep Learning 中文版初版-周志华团队

    【全套视频课】最全的目标检测算法系列讲解,通俗易懂!

    《美团机器学习实践》_美团算法团队.pdf

    《深度学习入门:基于Python的理论与实现》高清中文PDF+源码

    特征提取与图像处理(第二版).pdf

    python就业班学习视频,从入门到实战项目

    2019最新《PyTorch自然语言处理》英、中文版PDF+源码

    《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码

    《深度学习之pytorch》pdf+附书源码

    PyTorch深度学习快速实战入门《pytorch-handbook》

    【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》

    《Python数据分析与挖掘实战》PDF+完整源码

    汽车行业完整知识图谱项目实战视频(全23课)

    李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材

    笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!

    《神经网络与深度学习》最新2018版中英PDF+源码

    将机器学习模型部署为REST API

    FashionAI服装属性标签图像识别Top1-5方案分享

    重要开源!CNN-RNN-CTC 实现手写汉字识别

    yolo3 检测出图像中的不规则汉字

    同样是机器学习算法工程师,你的面试为什么过不了?

    前海征信大数据算法:风险概率预测

    【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类

    VGG16迁移学习,实现医学图像识别分类工程项目

    特征工程(一)

    特征工程(二) :文本数据的展开、过滤和分块

    特征工程(三):特征缩放,从词袋到 TF-IDF

    特征工程(四): 类别特征

    特征工程(五): PCA 降维

    特征工程(六): 非线性特征提取和模型堆叠

    特征工程(七):图像特征提取和深度学习

    如何利用全新的决策树集成级联结构gcForest做特征工程并打分?

    Machine Learning Yearning 中文翻译稿

    蚂蚁金服2018秋招-算法工程师(共四面)通过

    全球AI挑战-场景分类的比赛源码(多模型融合)

    斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)

    python+flask搭建CNN在线识别手写中文网站

    中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程

    不断更新资源

    深度学习、机器学习、数据分析、python

     搜索公众号添加: datayx  

    展开全文
  • 记录一下OCR常用的数据集

    千次阅读 2021-11-23 10:35:26
    OCR常用的数据集 在这个代码仓库里,提供了常用的OCR检测和识别中的通用公开数据集的下载链接。并且提供了json标签转成.txt标签的代码和转换好的.txt标签。 数据集介绍 数据集 数据介绍 标注格式 下载地址 ...

    github地址:https://github.com/zcswdt/OCR_ICDAR_label_revise

    OCR常用的数据集

    在这个代码仓库里,提供了常用的OCR检测和识别中的通用公开数据集的下载链接。并且提供了json标签转成.txt标签的代码和转换好的.txt标签。

    数据集介绍

    数据集数据介绍标注格式下载地址
    ICDAR_2013语言: 英文 train:229 test:233x1 y1 x2 y2 text下载链接.
    ICDAR_2015语言: 英文 train:1000 test:500x1,y1,x2,y2,x3,y3,x4,y4,text下载链接.
    ICDAR2017-MLT语言: 混合 train:7200 test:1800x1,y1,x2,y2,x3,y3,x4,y4,text下载链接. 提取码: z9ey
    ICDAR2017-RCTW语言: 混合 train:8034 test:4229x1,y1,x2,y2,x3,y3,x4,y4,<识别难易程度>,text下载链接
    天池比赛2018语言: 混合 train:10000 test:10000x1,y1,x2,y2,x3,y3,x4,y4,text检测识别
    ICDAR2019-MLT语言: 混合 train:10000 test:10000x1,y1,x2,y2,x3,y3,x4,y4,语言类别,text下载链接. 提取码: xofo
    ICDAR2019-LSVT语言: 混合 train:30000 test:20000json格式标签下载链接
    ICDAR2019-ReCTS语言: 混合 train:20000 test:5000json格式标签下载链接
    ICDAR2019-ArT语言: 混合 train:5603 test:4563json格式标签下载链接
    Synth800k语言: 英文 80k基于字符标注下载链接
    360万中文数据集语言: 中文 360k每张图片由10个字符构成下载链接. 提取码:lu7m
    中文街景数据集CTW基于字符标注的中文街景图片下载链接
    百度中文场景文字识别语言: 混合 32,285下载链接
    MSRA-TD500语言: 中英文 Training:300 Test:200.gt格式标签下载链接
    Total-Text语言: 英文 Training:1255 Test:300下载链接

    数据集标签的修正与更改

    1.ICDAR2019-MLT

    由于在ICDAR2019-MLT数据中存在着人为坐标点标错,这在训练文字检测模型计算文字区域会存在报错,所以本仓库对该数据集进行清洗并且最后到新的数据集。ICDAR2019-MLT新. 提取码:3y8q

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Oy8UK77p-1637634953224)(./ICDAR2019-MLT/ic19_dou_error.png)]。

    温馨提示:一、该数据集还存在着gif格式的图片,如tr_img_01674.gif,所以使用该数据集的时候需要注意读图代码的鲁棒性。
    二、该数据集中还存在一些标签不规范,有的标注最后一个字符会含有’,’,有的没有,这会导致我们在使用split()函数对标签进行提取坐标信息和文本信息时会出现一定的错误,一定要注意。

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-at7Liplq-1637634953227)(./ICDAR2019-MLT/ic19_error.png)]

    2.ICDAR2019-LSVT

    ICDAR2019-LSVT所有图片的标签存放在一个train_full_labels.json格式文件里,在该代码仓库中运行python3 ic19lsvt_convert_txt.py来产生每张图片的txt格式的标签。

    3.ICDAR2019-ReCTS

    ICDAR2019-LSVT所有图片的标签都对应一个json格式文件里,如果需要txt格式的标签,可以在该代码仓库中运行python3 ic19lsvt_convert_txt.py。当然如果你可以修改代码第48中的--chars--lines来得到字符级标注和基于单词级标注的txt标签。

    4.天池比赛2018

    ICDAR2019-LSVT数据标注中的坐标格式是逆时针排列,这和icdar的顺时针标注略有不同,所以如果要统一成icdar格式标注,可以在仓库中运行python3 modify_coordinates.py来产生。
    温馨提示:由于天池数据中的图片命名后缀会有.jpg.jpg格式的情况(T1.WBXtXdXXXXXXXX!!0-item_pic.jpg.jpg),导致可能在对图片路径或者是切分路径操作过程中会产生bug,所以建议先给该数据集修改名字,之后在进行使用。
    修改名字的代码可以运行python3 revise_name.py
    以下链接是我对天池数据做了清洗修改后的链接,可以直接下载使用。下载链接. 提取码:fere

    数据集介绍

    1.ICDAR-2013

    • 数据简介:该数据集由462(训练229,测试233)张英文标注的自然场景图片构成,标注形式为两点水平标注,坐标格式为左上角,和右下角:
      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4XMaKgft-1637634953229)(./images/ic13.png)]

    2.ICDAR-2015

    • 数据简介:该数据集由1500张(训练1000,测试500)英文标注的自然场景图片构成,标注形式为四点标注,坐标格式依次为为左上角,右上角,右下角和左下角,如下图所示:
      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-03Pbllp1-1637634953230)(./images/ic_15.png)]

    3.ICDAR2017-MLT

    • 数据简介:该数据集由9000张(训练7200,测试1800)多种混合语言标注的自然场景图片构成,标注形式为四点标注,坐标格式依次为为左上角,右上角,右下角和左下角,如下图所示:
      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UvjeNATi-1637634953231)(./images/ic17_mlt.png)]

    4.ICDAR2017-RCTW

    • 数据简介:ICDAR 2017-RCTW(Reading Chinest Text in the Wild),由Baoguang Shi等学者提出。RCTW主要是中文,共12263张图像,其中8034作为训练集,4229作为测试集,标注形式为四点标注,
      数据集绝大多数是相机拍的自然场景,一些是屏幕截图;包含了大多数场景,如室外街道、室内场景、手机截图等等。

    5.天池比赛2018

    • 数据简介:该数据集全部来源于网络图像,主要由合成图像,产品描述,网络广告构成。每一张图像或者包含复杂排版,或者包含密集的小文本或多语言文本,或者包含水印,典型的图片如图1所示:
      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fDIcFhiH-1637634953231)(./images/tianchi18.png)]

    6.ICDAR2019-MLT

    • 数据简介:该数据集由20000张(训练10000,测试10000)多种混合语言标注的自然场景图片构成,标注形式为四点标注,坐标格式依次为为左上角,右上角,右下角和左下角
      10,000个图像在训练集中排序,使得:每个连续的1000个图像包含一种主要语言的文本(当然它可以包含来自1种或2种其他语言的附加文本,全部来自10种语言的集合)
      00001 - 01000 :Arabic
      01001 - 02000:English
      02001 - 03000:French
      03001 - 04000:Chinese
      04001 - 05000:German
      05001 - 06000:Korean
      06001 - 07000:Japanese
      07001 - 08000:Italian
      08001 - 09000:Bangla
      09001 - 10000:Hindi
      如下图所示:
      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eJIlcVXS-1637634953232)(./images/ic19_mlt.png)]

    7.ICDAR2019-LSVT

    • 数据简介:该数据集由45w中文街景图像,包含5w(2w测试+3w训练)全标注数据(文本坐标+文本内容)构成,40w弱标注数据(仅文本内容),标注形式为四点标注,如下图所示:
      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nHfPlrnT-1637634953233)(./images/ic19_lvst.png)]

    • 说明:其中,test数据集的label目前没有开源,如要评估结果,可以去官网提交:https://rrc.cvc.uab.es/?ch=16

    8.ICDAR2019-ReCTS

    • 数据简介:ReCTS数据集包括25,000张带标签的图像,训练集包含20,000张图像,测试集包含5,000张图像。这些图像是在不受控制的条件下通过电话摄像机野外采集的。它主要侧重于餐厅招牌上的中文文本。
      数据集中的每个图像都用文本行位置,字符位置以及文本行和字符的成绩单进行注释。用具有四个顶点的多边形来标注位置,这些顶点从左上顶点开始按顺时针顺序排列。如下图所示:
      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8HDggnSp-1637634953233)(./images/ic19_rects.png)]

    9.ICDAR2019-ArT

    • 数据简介:该数据集共含10,166张图像,训练集5603图,测试集4563图。由Total-Text、SCUT-CTW1500、Baidu Curved Scene Text (ICDAR2019-LSVT部分弯曲数据) 三部分组成,包含水平、多方向和弯曲等多种形状的文本。
      如下图所示:
      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qcqocQYk-1637634953234)(./images/ic19_art.png)]

    10.Synth800k

    • 数据简介:SynthText 数据集由牛津大学工程科学系视觉几何组于2016年在IEEE计算机视觉和模式识别会议(CVPR)上发布。
      数据集由包含单词的自然场景图像组成,其主要运用于自然场景中的文本检测,该数据集由 80 万个图像组成,大约有 800 万个合成单词实例。
      每个文本实例均使用文本字符串、字级和字符级边界框进行注释。
      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-i0nV3QsI-1637634953234)(./images/synth.png)]

    11.360万中文数据集

    • 数据简介:该数据集利用中文语料库(新闻 + 文言文),通过字体、大小、灰度、模糊、透视、拉伸等变化随机生成共约364万张图片,按照99:1划分成训练集和验证集。
      包含汉字、英文字母、数字和标点共5990个字符(字符集合:https://github.com/YCG09/chinese_ocr/blob/master/train/char_std_5990.txt )
      每个样本固定10个字符,字符随机截取自语料库中的句子,图片分辨率统一为280x32。如下图所示:
      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HbJCMwt3-1637634953235)(./images/360.png)]

    12.中文街景数据集CTW

    • 数据简介:该数据集包含32285张图像,1018402个中文字符(来自于腾讯街景), 包含平面文本,凸起文本,城市文本,农村文本,低亮度文本,远处文本,部分遮挡文本。
      图像大小2048x2048,数据集大小为31GB。以(8:1:1)的比例将数据集分为训练集(25887张图像,812872个汉字),测试集(3269张图像,103519个汉字),验证集(3129张图像,103519个汉字)。
      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yHyHTPVH-1637634953236)(./images/ctw.png)]

    13.百度中文场景文字识别

    • 数据简介:ICDAR2019-LSVT行识别任务,共包括29万张图片,其中21万张图片作为训练集(带标注),8万张作为测试集(无标注)。
      数据集采自中国街景,并由街景图片中的文字行区域(例如店铺标牌、地标等等)截取出来而形成。所有图像都经过一些预处理,将文字区域利用仿射变化,等比映射为一张高为48像素的图片,如图所示:
      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oblG06r5-1637634953236)(./images/baidu.png)]

    14.MSRA-TD500

    • 数据简介:总共500张自然场景图片(Training:300 + Test:200)。
      数据集特点:多方向文本检测、大部分文本都在引导牌上、分辨率在1296x864到1920x1280之间、包含中英文、标注以行为单位,而不是单词、每张图片都完全标注,难以识别的有difficult标注。
      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rjrCRPEM-1637634953237)(./images/md500.png)]

    15.total-text

    • 数据简介:总共500张自然场景图片(Training:1255 + Test:300)。
      数据集特点:Total-Text是最大弯曲文本数据集之一-ArT(任意形状文本数据集)训练集中的一部分。用于关于任意形状文本识别阅读任务的创新想法研究。
      该代码仓库中运行python3 total-text_icdar.py可以将total_text标注的转换成icdar数据标注格式的txt标签
    展开全文
  • 作者 | Nikola M. Zivkovic 转自AI前线译者 | 王强策划 | 凌敏对于学习机器学习的朋友,一般都会用到那些常用的机器学习数据集,这里一篇文章一网打尽,大家可以一次...
  • 面向智能驾驶(辅助驾驶、自动驾驶)场景下的语义分割任务,由于非结构化场景的复杂性,是一个非常具有挑战性的任务,所以有许多研究者和研究机构公开了很多相关的数据集推动语义分割领域的发展。本文主要介绍...
  • 信用卡客户数据集

    2021-01-15 20:27:49
    现在,这个数据集由10000个客户组成,包括他们的年龄、薪水、婚姻状况、信用卡限额、信用卡类别等,共有近18个特征。 我们只有16.07%的客户流失。因此,训练我们的模型来预测客户流失有点困难。 大家可以到官网地址...
  • COCO数据集介绍

    千次阅读 2021-11-13 19:24:28
    COCO数据集全称为Microsoft Common Objects in Context(MS COCO),它是一个大规模(large-scale...此数据集由32.8万张图像组成,官网为:https://cocodataset.org/#home ,论文《Microsoft COCO: Common Objects in C...
  • 3D目标检测之数据集

    千次阅读 2021-11-21 12:08:47
    先来列几个介绍数据集的论文和一些方便下载数据集的社区或者网站。 论文: Deep Learning based Monocular Depth Prediction: Datasets, Methods and Applications(这篇论文里有讲单目深度估计领域常用的数据集,...
  • 16个车辆信息检测数据集收集汇总(简介及链接) 转载自:https://blog.csdn.net/u014546828/article/details/109089621?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_baidulandingword-1&spm=1001...
  • SynthText数据集简介

    千次阅读 2021-04-03 21:10:05
    SynthText数据集 SynthText in the Wild Dataset Ankush Gupta, Andrea Vedaldi, and Andrew Zisserman Visual Geometry Group, University of Oxford, 2016 Data format: SynthText.zip (size = 42074172 bytes (41...
  • 数据简介 ...数据集由多个医学预测变量和一个目标变量组成Outcome。预测变量包括患者的怀孕次数、BMI、胰岛素水平、年龄等。(查看文末了解获取方式) 数据详情 数据格式 csv 字段 怀孕次数
  • 前言数据是驱动科技发展的源泉,平时我们科研中也经常需要在各种开源数据上验证自己模型的效果。那时间序列目前可以使用的开源数据集有哪些呢?本期为大家做一次较为全面的整理汇总。UCR Time ...
  • 汇总|缺陷检测数据集

    千次阅读 2021-06-23 18:48:51
    点击上方“计算机视觉工坊”,选择“星标”干货第一时间送达一、弱监督学习下的工业光学检测(DAGM 2007)数据下载链接:https://hci.iwr.uni-heidelberg.de...
  • 前言 年份 数据集简称 语言 模态 单轮/多轮 对话(Dialog)个数 句子(Utterance)数 角色(Speaker)数
  • 详解KITTI数据集

    千次阅读 2021-04-19 18:08:33
    详解KITTI数据集 一、KITTI数据集发布方 2011年,Andreas Geiger(KIT)、Philip Lenz(KIT)、Raquel Urtasun(TTIC)三位年轻人发现,阻碍视觉感知系统在自动驾驶领域应用的主要原因之一,是缺乏合适的benchmark。...
  • 人脸处理常用数据集

    千次阅读 2021-04-10 11:01:54
    1.Caltech 10000 Web Faces数据集 地址:Caltech 10000 Web Faces数据集 是一个灰度人脸数据集,包含7092张图像,10 524张⼈脸图像,平均分辨率在304×312。 2.AFW数据集 官网链接已失效 是人脸关键点检测非常早期...
  • 一、豆瓣多轮对话数据集 1、简介: 测试数据包含 1000 个对话上下文,对于每个上下文,创建 10 个响应作为候选。正确的响应意味着响应可以自然地回复给定上下文的消息。每对收到三个标签,大多数标签被视为最终...
  • 文章目录引入1 Holidays数据集:图像搜索2 Copydays数据集:副本检测使用须知 引入 ...1 Holidays数据集:图像搜索   该数据集主要包含一些个人假期...  该数据集由Holidays数据集中的照片组成,每个图像都受到了人
  • 常见数据集(VOC和COCO数据集制作)

    千次阅读 2021-11-14 16:10:04
    COCO数据集简介 MS COCO的全称是Microsoft Common Objects in Context,起源于微软于2014年出资标注的Microsoft COCO数据集。COCO数据集是一个大型的、丰富的物体检测,分割和字幕数据集。这个数据集以scene ...
  • 火焰数据集 烟雾数据集 整理 下载 传百度网盘1、数据集的介绍和下载链接GitHub_Fire-Detection-Image-DatasetkaggleFire Detection DatasetFIRESENSEForest FireFIRE Datasetcvpr.kmu.ac.krultimatechase_...
  • IMDB 数据集

    千次阅读 2021-03-11 14:49:32
    文章目录IMDB 数据集介绍Keras中使用IMDB数据集加载相应的包加载 IMDB 数据集查看数据样式准备数据创建验证集构建模型编译模型训练模型绘制训练损失和验证损失绘制训练精度和验证精度评估模型模型预测 IMDB 数据集...
  • 我们可能很难拿到成千上万小时的语音数据集,但是这里有一些免费开源的语音数据集,大家一定不要错过。文末附数据集下载地址。我们也非常感谢相关单位和团体为国内的开源界做出的贡献。 普通语音识别数据集 ...
  • 一 cora数据集- 内容介绍 cora数据集- 下载地址 https://linqs-data.soe.ucsc.edu/public/lbc/cora.tgz 样本特征,标签,邻接矩阵 该数据集共2708个样本点,每个样本点都是一篇科学论文,所有样本点被分为8个...
  • nuScenes 数据集

    千次阅读 多人点赞 2021-03-16 17:09:27
    nuScenes数据集1. nuScenes 简要介绍1.1 A look at the dataset1.1.1 scene1.1.2 sample1.1.3 sample_data1.1.4 sample_annotation1.1.5 instance1.1.6 category1.1.7 attribute1.1.8 visibility1.1.9 sensor1.1.10 ...
  • 【NLP公开数据集】 CoNLL-2003数据集

    千次阅读 2021-06-18 15:51:11
    CoNLL-2003命名的实体数据由八个文件组成,涵盖两种语言:英语和德语。 每种语言都包含:训练、开发、测试、无标签数据;其中wu'biao
  • 血压预测常用数据集整理

    千次阅读 2021-02-20 13:46:57
    因工作原因,笔者需要搜集**血压相关数据**做研究,刚开始的时候对这个领域比较陌生,费了很大功夫才找到可用的数据集,经过一年半的工作,也积累了一些数据集,就用这篇博客来来总结一下,以便有需要时用到,同时也...
  • 精心挑选的100多种机器学习数据集

    千次阅读 2021-03-07 16:42:13
    老实说,您周围有很多现实世界的机器学习数据集,即使您不必完成全面的数据科学或机器学习课程,也可以选择练习基础数据科学和机器学习技能。但是是的,数据科学和机器学习项目绝对没有其他选择。大多数数据科学和...
  • 数据结构向量:向量是用于存储数值型、字符型或逻辑型数据的一维数组。可通过函数c()可用来创建向量实例操作:矩阵:矩阵是一个二位数组,只是每个元素都拥有相同的模式(数值型、字符型或逻辑型)可通过函数matrix()...
  • 导读:学习机器学习是一个不断探索和实验的过程,因此,本文将主要介绍常见的开源数据集,便于读者学习和实验各种机器学习算法。作者:张春强 张和平 唐振来源:大数据DT(ID:hzdashuj...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 511,366
精华内容 204,546
关键字:

数据集的组成