精华内容
下载资源
问答
  • 图像分类算法
    2021-09-14 17:45:17

     

    更多相关内容
  • 基于深度学习的肺炎医学CT图像分类算法研究 基于深度学习的肺炎医学CT图像分类算法研究 基于深度学习的肺炎医学CT图像分类算法研究 基于深度学习的肺炎医学CT图像分类算法研究 基于深度学习的肺炎医学CT图像分类...
  • 图像分类算法和应用研究.ppt
  • 单标签二分类这种问题是我们最常见的算法问题,主要是指label标签的取值只有两种,并且算法中只有一个需要预测的...分类算法其实是在构建一个分类线将数据划分为两个类别。常见的算法:Logistic、SVM、KNN、决策树等。
  • 基于深度学习的肺炎医学CT图像分类算法研究_吴云峰.caj
  • 基于传统机器学习与深度学习的图像分类算法对比分析.pdf
  • 同时结合基于CUDA架构的cuDNN并行运算策略来提高训练速度和加快分类速度,并且针对深度卷积神经网络易受参数扰动等缺点,引入批量正则化(Batch Normalization)以提高算法的鲁棒性。实验结果表明,该方法不仅大幅...
  • 遥感图像分类算法集成学习
  • 点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达垃圾分类作为资源回收利用的重要环节之一,可以有效地提高资源回收利用效率,进一步减轻环境污染带 来的危害.随着现代...

    点击上方“小白学视觉”,选择加"星标"或“置顶

    重磅干货,第一时间送达

    垃圾分类作为资源回收利用的重要环节之一, 可以有效地提高资源回收利用效率, 进一步减轻环境污染带 来的危害. 随着现代工业逐步智能化, 传统的图像分类算法已经不能满足垃圾分拣设备的要求. 本文提出一种基于 卷积神经网络的垃圾图像分类模型 (Garbage Classification Network, GCNet). 通过构建注意力机制, 模型完成局部 和全局的特征提取, 能够获取到更加完善、有效的特征信息; 同时, 通过特征融合机制, 将不同层级、尺寸的特征进 行融合, 更加有效地利用特征, 避免梯度消失现象. 实验结果证明, GCNet 在相关垃圾分类数据集上取得了优异的 结果, 能够有效地提高垃圾识别精度.

    629be2531ee3a7251ec35d8f9b8d81e1.png

    1 引言

    垃圾回收利用作为发展循环经济的必经之路, 是 根治污染、提高环境治理效果的关键所在. 随着我国 生产力水平的发展, 生活垃圾、工业垃圾数量不断增 加, 困扰着很多城市. 据统计, 仅 2018 年, 中国垃圾的 清运量已经达到了 2.28 亿吨[1] . 在人们将垃圾投放进垃圾箱之后, 垃圾被运送到垃圾处理厂统一处理. 当前 国内的垃圾处理厂, 更多依靠人工在流水线上作业去 分拣垃圾, 对作业者健康不利且分拣效率较低, 已不能 满足大量垃圾处理需求. 此外, 人工分拣的垃圾种类极 为有限, 大部分垃圾无法重新回收利用, 造成很大浪费. 随着深度学习技术的发展, 卷积神经网络使图像分类 算法在精度和速度上得到了巨大的提升, 让我们看到 了借助视觉技术自动分拣垃圾的可能性. 通过摄像头 拍摄垃圾图片, 利用卷积神经网络检测出垃圾的类别, 之后就可以借助机械手或推板自动完成分拣任务, 可 以降低人工成本, 提高分拣效率. 因此, 开展垃圾图像 分类算法的研究, 具有重要的应用价值.

    2 相关工作

    早期, 学者们只能借助经典的图像分类算法[2–5] 完 成垃圾图像分类任务, 这要通过手动提取的图像特征 并结合相应的分类器完成. 吴健等[6] 利用颜色和纹理 特征, 初步完成了废物垃圾识别. 由于不同数据集的图 像背景、尺寸、质量不尽相同, 传统算法需要根据相 应数据人工提取不同的特征, 算法的鲁棒性较差, 并且 处理方式复杂, 所需时间较长, 无法达到实时的效果. 随着卷积神经网络 (Convolution Neural Network, CNN) 的飞速发展, 深度学习广泛应用于图像识别领 域. 作为数据驱动的算法, CNN 具有强大的特征拟合 能力, 可以有效、自动地提取图像特征, 并具有较快的 运行速度. 2012 年, AlexNet[7] 取得了 ImageNet 图像分 类竞赛的冠军, 标志着深度学习的崛起. 随后几年, GoogleNet[8]、VGGNet[9]、ResNet[10] 等算法提升了图 像分类的精度, 并成功应用于人脸识别、车辆检测等 多个领域. 垃圾图像分类, 在深度学习算法的帮助下同 样取得了较大的突破. 斯坦福大学的 Yang 等建立了 TrashNet Dataset 公开数据集, 包含 6 个类别, 共计 2527 张图片. Ozkaya 等[11] 通过对比不同 CNN 网络的 分类能力, 搭建神经网络 (本文称之为 TrashNet) 并进 行参数微调, 在数据集 TrashNet Dataset 上取得了 97.86% 的准确率, 是目前这一数据集上最佳分类网络. 在非公 开数据集方面, Mittal 等[12] 自制了 2561 张的垃圾图片 数据集 GINI, 使用 GarbNet 模型, 得到了 87.69% 的准 确率. 国内方面, 郑海龙等[13] 用 SVM 方法进行了建筑 垃圾分类方面的研究. 向伟等[14] 使用分类网络 CaffeNet, 调整卷积核尺寸和网络深度, 使其适用于水面垃圾分 类, 在其自制的 1500 张图片数据集上取得了 95.75% 的识别率. 2019 年, 华为举办垃圾图像分类竞赛, 构建 了样本容量为一万余张的数据集, 进一步促进了该领 域的发展. 我国各地区生活垃圾分类标准有所不同, 大致可 分为可回收垃圾、有害垃圾、厨余垃圾和其他垃圾这 4 大类, 且每个类别下又包含若干子类别, 种类繁多且 十分复杂. 按照这样的分类标准做的垃圾图像识别研 究, 国内目前还处于起步阶段. 现有的图形分类算法在 垃圾处理领域的应用较少, 且存在准确率不足、泛化 性能差、处理效率低的缺点. 针对现有方法的不足, 本 文提出一种基于卷积神经网络的垃圾图像分类算法 (Garbage Classification Net, GCNet), 在网络结构中融合 了注意力机制模块与特征融合模块, 提高了模型在垃 圾分类任务上的准确性与鲁棒性.

    3 算法设计

    3.1 模型结构

    本文构建的 GCNet 模型包括特征提取器、分类 器两部分, 整体结构如图 1 所示. 图中特征提取器由 Resnet101 作为主干部分, 共包括 5 个 bottleneck, 并在 不同的 bottleneck 后加入注意力机制模块, 同时对不同 模块提取到的特征进行特征融合 (如图 1 中虚线所示) 以从输入 中提取图像的特征信息 :

    5a368e0f302d19b29833bac42e8cf460.png

    其中, Me表示特征提取器. F1 yi 分类器由两层全连接层和一个 Softmax 分类器组 成, 对提取到的特征信息 进行分类, 以得到图像在每 个类别下的最终得分 :

    8e76cf6bc41943f45921bf31cb986d9b.png

    其中, Mc表示分类器. 

    3.2 注意力机制 

    注意力机制源于对人类视觉的研究, 人类会根据 实际需要选择视网膜内特定区域进行集中关注, 可以 将有限的处理资源分配至重要的部分. 由于相同类别 垃圾的特征表征差异性可能较大, 不利于图片的正确 分类, 这就要求准确地关注图像中的显著区域. 受这一 思想的启发, 通过构建注意力机制模块, 使网络模型重 点关注有利于分类的特征区域, 以实现更好的特征提 取功能, 其具体结构如图 2 所示.

    3ec477158a179e2d21947f28a6d9864b.png

    27558d28a4159a23f189c3f91ae51c2b.png

    e224c6edf172db19d553922bfc8bed18.png

    4a83543bbf56c9a33a783c0bd224475d.png

    ce62d72c7a7cb41d81cc7f416be904c6.png

    392126cd85d36a041dd68acdda2dd800.png

    5 结论

    本文针对垃圾图像分类问题, 构建了一种基于卷 积神经网络的算法 GCNet, 该网络通过构建注意力机 制和特征融合机制, 能够有效地提取图像特征、降低 类别差异性带来的影响, 并在相关数据集上取得了 96.73% 的平均准确率, 相较于现有的分类算法提升了 约 4% 的准确率, 满足了实际的应用需求, 具有良好的 应用前景.

    1d60e208893838967c7b5a6f8f79152b.gif End 1b730232160fdf36d6638d9a36d444cc.gif

    下载1:OpenCV-Contrib扩展模块中文版教程

    在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

    下载2:Python视觉实战项目52讲

    在「小白学视觉」公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

    下载3:OpenCV实战项目20讲

    在「小白学视觉」公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

    交流群

    欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

    eed3126c2eed537d8b5669fb4598bca4.png

    c2dce641e84b9024e67c1d636d161ace.png

    展开全文
  • 基于残差结构和幻象模块的垃圾图片分类算法.pdf
  • 卷积神经网络(CNN)的结构与参数决定了其在图像分类中的性能,针对深度网络结构复杂、参数量较大的问题,提出了一种基于稠密连接网络进化的CNN(D-ECNN)图像分类算法。该算法可对网络结构空间进行有效搜索,并基于有限的...
  • 结论 这两种技术的结合使得目前最好的图像分类算法远远领先于 EfficientNet Noisy Student,它在效率和准确性方面都是当前领先的算法。由于其前五名的准确度为 98.7%,因此仍有改进的可能,但它已经相当准确了。...

    FixEfficientNet 是一种结合了两种现有技术的技术:来自 Facebook AI 团队的 FixRes [2] 以及由 Google AI 研究团队首先提出的EfficientNet [3]。FixRes 是 Fix Resolution 的缩写形式,它尝试为用于训练时间的 RoC(分类区域)或用于测试时间的裁剪保持固定大小。EfficientNet 是 CNN 尺度的复合缩放,可提高准确性和效率。本文旨在解释这两种技术及其最新技术。

    首先,Facebook AI 研究团队于 2020 年 4 月 20 日将 FixEfficientNet 与相应的论文一起展示 [1],并连续成为计算机视觉领域的一项任务。它是目前最先进的,在 ImageNet 数据集上有最好的结果,参数为 480M,top-1 准确率为 88.5%,top-5 准确率为 98.7%。

    让我们更深入地研究一下,以更好地了解组合技术。


    了解 FixRes

    训练时间

    在 Facebook AI 研究团队提出 FixRes 技术之前,最先进的技术是从图像中提取一个随机的像素方块。这被用作训练时间的 RoC 。(请注意,使用此技术会人为地增加数据量)。然后调整图像大小以获得固定大小(=裁剪)的图像。然后将其输入卷积神经网络 [2]。

    RoC = 输入图像中的矩形/正方形


    crop = 通过双线性插值重新缩放到特定分辨率的 RoC 像素

    训练时间规模扩大

    为了更好地了解 FixRes 的具体功能,让我们看一下数学。更改输入图像中 RoC 的大小会影响给定 CNN 的对象大小的分布。该对象在输入图像中的大小为 rxr 。如果 RoC 现在被缩放,它会改变 s 并且对象的大小现在将连续变为 rs x rs 。

    对于增强,使用了 PyTorch 的 RandomResizedCrop。输入图像的大小为H x W,从中随机选择一个 RoC,然后将此 RoC 调整为裁剪大小。

    ff91d42c0b40b90da28491864344f727.png

    输入图像 ( H x W ) 对输出裁剪的缩放比例可以由以下因素表示:

    b9b4b95b090bd456f9c12a69d9514350.png

    测试时间

    在测试时,RoC 通常位于图像的中心,这会导致所谓的中心裁剪。两种裁剪(一种来自训练时间,另一种来自测试时间)具有相同的大小,但它们来自图像的不同部分,这通常会导致 CNN 的分布存在偏差 [2] 。

    测试时间规模增加。

    如前所述,测试增强与训练时间增强不同。这样,裁剪就有了大小。

    254d5d36b2cca595ea52d17a66d67492.png

    关于输入图像是正方形 ( H=W ) 的假设,测试增强的比例因子可以表示为:

    5cdeb34c16120a4cb01c06ae8f58517e.png

    有什么发现?
    在开发 FixRes 之前,测试和训练时间的预处理是彼此分开的,从而导致偏差。Facebook AI 团队不断尝试找到一种解决方案,该解决方案同时执行预处理并以某种方式同步,那就是 FixRes 

    f2c2a9b95cb05a870c11133f3de5f18d.png

    如上所述的标准预处理通常会在训练时扩大 RoC,并在测试时减小 RoC 的大小。

    FixRes 技术采用非此即彼的方法。它要么降低训练时间分辨率并保持测试裁剪的大小,要么增加测试时间分辨率并保持训练裁剪的大小。目的是检索相同大小的对象(此处是乌鸦),以减少 CNN 中的尺度不变性 [2] 。如下所示:

    126e568bacef52c6d62485daee5a30de.png

    这会对数据输入 CNN 的方式产生两种影响:

    1. 图像中对象(此处是乌鸦)的大小通过 FixRes Scaling 进行更改。

    2. 使用不同的裁剪大小会影响神经元的激活方式和时间。


    激活统计数据变化问题

    Touvron 等人发现,更大的测试裁剪以及最重要的是对象尺寸的调整可以带来更好的准确性。然而,这需要在调整对象大小和更改激活统计数据之间进行权衡。

    测试表明,激活图随着图像分辨率的变化而变化。K_test = 224 表示映射为 7x7,K_test = 64 表示映射为 2x2,而 K_test = 448 表示映射为 14x14。这表明激活分布在测试时会发生变化,并且这些值超出了分类器范围 [1]。

    为了解决激活统计数据变化的问题,提出了两种解决方案:

    1. 参数适应:参数 Fréchet 分布用于拟合平均池化层。然后通过标量变换将新分布映射到旧分布,并作为激活函数应用。

    2. 微调:进行校正的另一种方法是对模型进行微调,微调仅应用于 CNN 的最后一层。

    在微调阶段,使用标签平滑[1]。


    EfficientNet 架构 [3]

    作者预先训练了几个模型,其中 EfficientNet-L2 显示了最佳结果。但什么是 EfficientNet ?

    与图像分类中的大多数算法一样,高效网络基于 CNN。CNN 具有三个维度:宽度、深度和分辨率。深度是层数,宽度是通道数(例如,传统的 RGB 将有 3 个通道),分辨率是图像的像素。

    EfficientNets 引入了复合缩放,它利用了所有三个维度:

    宽度缩放——宽度可以通过具有更多通道的图像来增加,但是准确度增益很快就会下降。

    深度缩放——是传统且最典型的缩放方式。通过增加深度,可以增加神经网络的层数。但是添加更多层并不总是能提高网络的性能。大多数情况下它需要更多的时间,但由于梯度消失,性能可能会随着层数的增加而停滞甚至下降。

    分辨率缩放——这意味着增加分辨率,从而增加像素数,例如从 200x200 到 600x600。这种缩放的问题在于精度增益随着分辨率的提高而消失。在一定程度上,精度可能会增加,但精度增量会减少。

    所有三个维度的放大都会导致精度增量减小,并且为了获得最佳精度结果,必须对所有这三个维度进行平衡缩放。因此提出了复合缩放:

    a61da6de7e284096442cd2726f7cbaef.png

    ɸ 指定可用资源,而 alpha、beta 和 gamma 负责分配这些资源。

    Touvron 等人[1] , “ 使用神经架构搜索来开发新的基准网络,并对其放大以获得称为 EfficientNets 的一系列模型。” 神经架构搜索 (NAS) 优化了触发器和准确性。


    结论

    这两种技术的结合使得目前最好的图像分类算法远远领先于 EfficientNet Noisy Student,它在效率和准确性方面都是当前领先的算法。由于其前五名的准确度为 98.7%,因此仍有改进的可能,但它已经相当准确了。因此,要等到这项技术被一种新技术所取代,还需要等待。

    由于本文不包含任何实现,小伙伴们可以使用作者的官方 Github 自行尝试。

    作者 [1] 的预训练网络如下所示:

    a7648dcf02a2fe839a2864b034d42d63.png

    github 存储库的屏幕截图。

    参考资料

    [1] Touvron, H.、Vedaldi, A.、Douze, M. 和 Jégou, H. (2020b)。修复训练测试分辨率差异:FixEfficientNet。ArXiv:2003.08237 [Cs]。http://arxiv.org/abs/2003.08237

    [2] Touvron, H.、Vedaldi, A.、Douze, M. 和 Jégou, H.(2020a)。修复训练测试分辨率差异。ArXiv:1906.06423 [Cs]。http://arxiv.org/abs/1906.06423

    [3] Tan, M., & Le, QV (2020)。EfficientNet:对卷积神经网络的模型放缩重新思考。ArXiv:1905.11946 [Cs,Stat]。http://arxiv.org/abs/1905.11946

    Github代码连接:

    http : //github.com/facebookresearch/FixRes。

    
     
    
     
    
     
    
     
    
     
    往期精彩回顾
    
    
    
    
    适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
    AI基础下载黄海广老师《机器学习课程》视频课黄海广老师《机器学习课程》711页完整版课件

    本站qq群955171419,加入微信群请扫码:

    acafc2d1ca48be04785a404262050dbb.png

    展开全文
  • 基于深度无监督学习的图像分类算法.pdf
  • 为了增强高光谱遥感图像的分类效果, 提出基于谱聚类和稀疏表示的两级分类算法。利用谱聚类将待分类的像元及其邻域内所有的像元分成两类, 利用联合稀疏表示模型确定按规则选取的其中一类的具体类别, 并以该类别作为像...
  • 结论 这两种技术的结合使得目前最好的图像分类算法远远领先于 EfficientNet Noisy Student,它在效率和准确性方面都是当前领先的算法。由于其前五名的准确度为 98.7%,因此仍有改进的可能,但它已经相当准确了。...

    点击上方“小白学视觉”,选择加"星标"或“置顶

    重磅干货,第一时间送达

    FixEfficientNet 是一种结合了两种现有技术的技术:来自 Facebook AI 团队的 FixRes [2] 以及由 Google AI 研究团队首先提出的EfficientNet [3]。FixRes 是 Fix Resolution 的缩写形式,它尝试为用于训练时间的 RoC(分类区域)或用于测试时间的裁剪保持固定大小。EfficientNet 是 CNN 尺度的复合缩放,可提高准确性和效率。本文旨在解释这两种技术及其最新技术。

    首先,Facebook AI 研究团队于 2020 年 4 月 20 日将 FixEfficientNet 与相应的论文一起展示 [1],并连续成为计算机视觉领域的一项任务。它是目前最先进的,在 ImageNet 数据集上有最好的结果,参数为 480M,top-1 准确率为 88.5%,top-5 准确率为 98.7%。

    让我们更深入地研究一下,以更好地了解组合技术。


    了解 FixRes

    训练时间

    在 Facebook AI 研究团队提出 FixRes 技术之前,最先进的技术是从图像中提取一个随机的像素方块。这被用作训练时间的 RoC 。(请注意,使用此技术会人为地增加数据量)。然后调整图像大小以获得固定大小(=裁剪)的图像。然后将其输入卷积神经网络 [2]。

    RoC = 输入图像中的矩形/正方形


    crop = 通过双线性插值重新缩放到特定分辨率的 RoC 像素

    训练时间规模扩大

    为了更好地了解 FixRes 的具体功能,让我们看一下数学。更改输入图像中 RoC 的大小会影响给定 CNN 的对象大小的分布。该对象在输入图像中的大小为 rxr 。如果 RoC 现在被缩放,它会改变 s 并且对象的大小现在将连续变为 rs x rs 。

    对于增强,使用了 PyTorch 的 RandomResizedCrop。输入图像的大小为H x W,从中随机选择一个 RoC,然后将此 RoC 调整为裁剪大小。

    a911be71a35a6849c8526875ee813238.png

    输入图像 ( H x W ) 对输出裁剪的缩放比例可以由以下因素表示:

    ec8b288f50c2981125a4cc2e9a5512d1.png

    测试时间

    在测试时,RoC 通常位于图像的中心,这会导致所谓的中心裁剪。两种裁剪(一种来自训练时间,另一种来自测试时间)具有相同的大小,但它们来自图像的不同部分,这通常会导致 CNN 的分布存在偏差 [2] 。

    测试时间规模增加。

    如前所述,测试增强与训练时间增强不同。这样,裁剪就有了大小。

    aef175a0d8fed35c44f5f428baf7ae11.png

    关于输入图像是正方形 ( H=W ) 的假设,测试增强的比例因子可以表示为:

    6f1102196e0fc5559b2f3e2791c7e48d.png

    有什么发现?
    在开发 FixRes 之前,测试和训练时间的预处理是彼此分开的,从而导致偏差。Facebook AI 团队不断尝试找到一种解决方案,该解决方案同时执行预处理并以某种方式同步,那就是 FixRes 

    1618199b749944b46ead94d98905bac6.png

    如上所述的标准预处理通常会在训练时扩大 RoC,并在测试时减小 RoC 的大小。

    FixRes 技术采用非此即彼的方法。它要么降低训练时间分辨率并保持测试裁剪的大小,要么增加测试时间分辨率并保持训练裁剪的大小。目的是检索相同大小的对象(此处是乌鸦),以减少 CNN 中的尺度不变性 [2] 。如下所示:

    0b0a085233043d2413592d5553a101c4.png

    这会对数据输入 CNN 的方式产生两种影响:

    1. 图像中对象(此处是乌鸦)的大小通过 FixRes Scaling 进行更改。

    2. 使用不同的裁剪大小会影响神经元的激活方式和时间。


    激活统计数据变化问题

    Touvron 等人发现,更大的测试裁剪以及最重要的是对象尺寸的调整可以带来更好的准确性。然而,这需要在调整对象大小和更改激活统计数据之间进行权衡。

    测试表明,激活图随着图像分辨率的变化而变化。K_test = 224 表示映射为 7x7,K_test = 64 表示映射为 2x2,而 K_test = 448 表示映射为 14x14。这表明激活分布在测试时会发生变化,并且这些值超出了分类器范围 [1]。

    为了解决激活统计数据变化的问题,提出了两种解决方案:

    1. 参数适应:参数 Fréchet 分布用于拟合平均池化层。然后通过标量变换将新分布映射到旧分布,并作为激活函数应用。

    2. 微调:进行校正的另一种方法是对模型进行微调,微调仅应用于 CNN 的最后一层。

    在微调阶段,使用标签平滑[1]。


    EfficientNet 架构 [3]

    作者预先训练了几个模型,其中 EfficientNet-L2 显示了最佳结果。但什么是 EfficientNet ?

    与图像分类中的大多数算法一样,高效网络基于 CNN。CNN 具有三个维度:宽度、深度和分辨率。深度是层数,宽度是通道数(例如,传统的 RGB 将有 3 个通道),分辨率是图像的像素。

    EfficientNets 引入了复合缩放,它利用了所有三个维度:

    宽度缩放——宽度可以通过具有更多通道的图像来增加,但是准确度增益很快就会下降。

    深度缩放——是传统且最典型的缩放方式。通过增加深度,可以增加神经网络的层数。但是添加更多层并不总是能提高网络的性能。大多数情况下它需要更多的时间,但由于梯度消失,性能可能会随着层数的增加而停滞甚至下降。

    分辨率缩放——这意味着增加分辨率,从而增加像素数,例如从 200x200 到 600x600。这种缩放的问题在于精度增益随着分辨率的提高而消失。在一定程度上,精度可能会增加,但精度增量会减少。

    所有三个维度的放大都会导致精度增量减小,并且为了获得最佳精度结果,必须对所有这三个维度进行平衡缩放。因此提出了复合缩放:

    26b41629dcf772ce9298d8d31948ee9c.png

    ɸ 指定可用资源,而 alpha、beta 和 gamma 负责分配这些资源。

    Touvron 等人[1] , “ 使用神经架构搜索来开发新的基准网络,并对其放大以获得称为 EfficientNets 的一系列模型。” 神经架构搜索 (NAS) 优化了触发器和准确性。


    结论

    这两种技术的结合使得目前最好的图像分类算法远远领先于 EfficientNet Noisy Student,它在效率和准确性方面都是当前领先的算法。由于其前五名的准确度为 98.7%,因此仍有改进的可能,但它已经相当准确了。因此,要等到这项技术被一种新技术所取代,还需要等待。

    由于本文不包含任何实现,小伙伴们可以使用作者的官方 Github 自行尝试。

    作者 [1] 的预训练网络如下所示:

    becf8737e50637e705aeaba6d3cb794d.png

    github 存储库的屏幕截图。

    参考资料

    [1] Touvron, H.、Vedaldi, A.、Douze, M. 和 Jégou, H. (2020b)。修复训练测试分辨率差异:FixEfficientNet。ArXiv:2003.08237 [Cs]。http://arxiv.org/abs/2003.08237

    [2] Touvron, H.、Vedaldi, A.、Douze, M. 和 Jégou, H.(2020a)。修复训练测试分辨率差异。ArXiv:1906.06423 [Cs]。http://arxiv.org/abs/1906.06423

    [3] Tan, M., & Le, QV (2020)。EfficientNet:对卷积神经网络的模型放缩重新思考。ArXiv:1905.11946 [Cs,Stat]。http://arxiv.org/abs/1905.11946

    Github代码连接:

    http : //github.com/facebookresearch/FixRes。

    下载1:OpenCV-Contrib扩展模块中文版教程

    在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

    下载2:Python+OpenCV视觉实战项目52讲

    在「小白学视觉」公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

    下载3:Pytorch常用函数手册

    在「小白学视觉」公众号后台回复:pytorch常用函数手册即可下载含有200余个Pytorch常用函数的使用方式,帮助快速入门深度学习。

    交流群

    欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

    40fbe88dff6b85c7919fd338c5995e36.png

    e59b13fdac6b26ce63da971476da2206.png

    展开全文
  • 基于协同半监督的深度学习图像分类算法.pdf
  • 基于深度学习的高光谱图像分类算法.pdf
  • 图像分类算法—KNN、SVM、BP、CNN

    千次阅读 多人点赞 2021-07-29 19:41:16
  • 针对深度学习在图像识别任务中过分依赖标注数据的问题,提岀一种基于特征交换的卷积神经网络(CNN)图像分类算法。结合CNN的特征提取方式与全卷积神经网络的像素位置预测功能,将CNN卷积层提取出的特征图与同类标签...
  • FC-CNN:基于卷积神经网络的水果图像分类算法.pdf
  • 针对医学图像具有较大的相似性和交叉性,易造成归属类别混乱的问题,提出了一种基于粒子群算法的医学图像分类方法。该方法使用形态学滤波和阈值法进行预处理;使用SIFT特征描述子来提取图像的局部特征,并使用聚类的...
  • 传统图像分类与深度学习分类算法比较研究.pdf
  • 该程序通过遗传算法图像进行聚类分析,并实现了图像分类功能,分类效果明显较其他算法
  • 这是分类树的C4.5算法分类算法比较简单,但是运行高效,可以对图像进行分类
  • PCA/SVM算法实现图像分类分类准确率可到达90%
  • 传统图像分类算法总结

    千次阅读 2021-04-11 13:34:06
    这里写自定义目录标题传统图像分类算法的原理(1) 数据集的处理(2)图像特征提取(3)训练分类器(4)图像分类 图像分类,顾名思义,就是输入一张图像,输出对该图像内容分类的描述的问题。它是计算机视觉的核心...
  • 为了进一步拓宽度量学习在图像分类中的适用范围,同时提高分类的性能,本文提出一种基于椭圆-双曲线马氏度量的图像分类算法。该算法首先将颜色特征和局部二值模式(Local Binary Patterns,LBPs)描述的纹理特征相结合...
  • 基于深度卷积神经网络的图像分类算法
  • 图像分类算法和应.ppt

    2020-09-16 03:45:21
    图像分类算法与应用 研究 目录 研究背景 相关研究工作 已有工作基础 论文主要研究内容 图像分类的语义层次 James Wang 1.语义类别(例如照片或者剪贴画,室外) 2物体的罗列(人,篮球架,楼. 3.抽象的语义(运动,打篮球) 4...
  • 针对深层卷积神经网络模型的训练复杂、调参技巧和经验要求高、理论分析难等问题, 提出一种训练效率高、可解释性强以及理论分析简单的图像分类算法。基于主成分分析网络(Principal Component Analysis Network, ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 246,419
精华内容 98,567
关键字:

图像分类算法

友情链接: chazhinihe.zip