精华内容
下载资源
问答
  • 最新神经网络LICENSE

    2019-05-02 17:15:40
    最新神经网络LICENSE,刚更新的,实用进一步提高HALCON学习的人.
  • Python-HTML基于PyTorch和AllenNLP的几种NLP任务的最新神经网络模型
  • resnets-img-分类 实施ResNets的基本构建块并将这些构建块放在一起,以实施和训练用于图像分类的最新神经网络
  • 因此,深度神经网络设计的最新趋势是探索用于移动设备(例如智能手机和自动驾驶汽车)的可移植的,高效的,具有可接受性能的网络体系结构。 图1.可视化由ResNet-50中的第一个残差组生成的某些特征图,其中三个相似的...

    论文下载:点击此处
    论文年份:2019

    相关代码:
    MXNET:https://github.com/osmr/imgclsmob
    Tensorflow:https://github.com/huawei-noah/ghostnet
    Tensorflow:https://github.com/YeongHyeon/GhostNet
    Pytorch:https://github.com/iamhankai/ghostnet.pytorch

    本文是华为诺亚方舟实验室提出的新型端侧神经网络架构GhostNet的介绍。论文已经被CVPR 2020收录,模型与代码也已经在GitHub上开源。

    GhostNet的核心是Ghost模块,与普通卷积神经网络相比,在不更改输出特征图大小的情况下,其所需的参数总数和计算复杂度均已降低,而且即插即用。超过了相似任务中的网络MobileNetV3。

    1.在ImageNet分类任务上的性能:

    在这里插入图片描述
    由于GhostNet是为移动应用程序设计的,因此我们使用TFLite工具[1]进一步测量了GhostNet在基于ARM的手机上的实际推理速度。 按照[17,44]中的通用设置,我们使用批处理大小为1的单线程模式。从图7的结果中可以看出,在相同的延迟下,GhostNet的top-1精度比MobileNetV2高出约0.5%, 和GhostNet需要更少的运行时来达到类似的性能。 例如,精度为75.0%的GhostNet仅具有40毫秒的延迟,而精度类似的MobileNetV3大约需要45毫秒来处理一张图像。 总体而言,我们的模型通常优于著名的最新模型,即MobileNet系列[17,44,16],ProxylessNAS [2],FBNet [51]和MnasNet [47]。

    2.目标检测任务上的性能

    在这里插入图片描述
    为了进一步评估GhostNet的泛化能力,我们在MS COCO数据集上进行了对象检测实验。 我们使用trainval35k 拆分作为训练数据,并按照[29,30]以最小拆分的平均平均精度(mAP)报告结果。 具有功能金字塔网络(FPN)的两阶段Faster R-CNN [42,29]和一阶段的RetinaNet [30]都被用作我们的框架,而GhostNet替代了原始的骨干特征提取器。 我们使用SGD从ImageNet预训练权重中使用SGD训练了12个epoch,并使用[29,30]中建议的超参数。 将输入图像的大小调整为800的短边和不超过1333的长边。表8显示了检测结果,其中FLOP是使用224×224图像计算得出的。通过显着降低的计算成本,GhostNet可以在一阶段的RetinaNet和两阶段的Faster R-CNN框架上通过MobileNetV2和MobileNetV3实现类似的mAP。

    3.GhostNet在ImageNet分类任务上的排名:

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    4.论文评估:

    在这里插入图片描述

    GhostNet: More Features from Cheap Operations

    Abstract

    Deploying convolutional neural networks (CNNs) on embedded devices is difficult due to the limited memory and computation resources. The redundancy in feature maps is an important characteristic of those successful CNNs, but has rarely been investigated in neural architecture design.This paper proposes a novel Ghost module to generate more feature maps from cheap operations. Based on a set of intrinsic feature maps, we apply a series of linear transformations with cheap cost to generate many ghost feature maps that could fully reveal information underlying intrinsic features. The proposed Ghost module can be taken as a plug-and-play component to upgrade existing convolutional neural networks. Ghost bottlenecks are designed to stack Ghost modules, and then the lightweight GhostNet can be easily established. Experiments conducted on benchmarks demonstrate that the proposed Ghost module is an impressive alternative of convolution layers in baseline models, and our GhostNet can achieve higher recognition performance (e.g. 75:7% top-1 accuracy) than MobileNetV3 with similar computational cost on the ImageNet ILSVRC-2012 classification dataset. Code is available at https://github.com/iamhankai/ghostnet.

    由于有限的内存和计算资源,在嵌入式设备上部署卷积神经网络(CNN)十分困难。 特征图中的冗余是那些成功的CNN的重要特征,但很少在神经体系结构设计中进行研究本文提出了一种新颖的Ghost模块,可以通过廉价的操作生成更多的特征图(feature maps)。 基于一组固有特征图,我们以更低的计算成本应用了一系列线性变换来生成许多可以完全揭示固有特征信息的幻影特征图(Ghost feature maps)。 所提出的Ghost模块可以作为即插即用组件来升级现有的卷积神经网络。 Ghost瓶颈旨在堆叠Ghost模块,然后可以轻松建立轻量级的GhostNet。 在基准上进行的实验表明,建议的Ghost模块是基准模型中卷积层的令人印象深刻的替代方案,并且我们的GhostNet可以实现比MobileNetV3更高的识别性能(例如75:7%的top-1精度),而ImageNet ILSVRC上的计算成本却相似 -2012分类数据集。 可以从https://github.com/iamhankai/ghostnet获得代码。

    1. Introduction

    深度卷积神经网络在各种计算机视觉任务(例如图像识别[27、12],对象检测[42、30]和语义分割[36、3])上均表现出出色的性能。 传统的CNN通常需要大量的参数和浮点运算(FLOP)才能获得令人满意的精度,例如 ResNet-50 [12]具有约25:6M的参数,并需要4:1B的FLOP来处理尺寸为224 × 224的图像。因此,深度神经网络设计的最新趋势是探索用于移动设备(例如智能手机和自动驾驶汽车)的可移植的,高效的,具有可接受性能的网络体系结构
    在这里插入图片描述
    图1.可视化由ResNet-50中的第一个残差组生成的某些特征图,其中三个相似的特征图对示例用相同颜色的框注释。 该对中的一个特征图可以通过廉价操作(由扳手表示)将另一个变换而得到。

    多年来,已经提出了一系列方法来研究紧凑的深度神经网络,例如网络修剪[10,37],低位量化[40,22],知识蒸馏[15]等。Han等。 [10]提出修剪神经网络中不重要的权重。 [28]利用“ 1范数正则化”来修剪有效CNN的过滤器。 [40]量化权重和激活到1位数据,以实现大的压缩和加速比。 [15]介绍了知识提炼,用于将知识从较大的模型转移到较小的模型。 但是,这些方法的性能通常受到作为其基线的预训练深度神经网络的限制。

    除此之外,有效的神经体系结构设计在建立具有较少参数和计算量的高效深度网络方面具有很高的潜力,并且最近取得了相当大的成功。 这种方法还可以为自动搜索方法提供新的搜索单元[58,41]。 例如,MobileNet [17,44,16]利用深度卷积和点卷积来构造一个单元,用较大的滤波器近似原始卷积层,并获得可比的性能。 ShuffleNet [57,38]进一步探索了通道随机播放操作,以增强轻量级模型的性能。

    训练有素的深度神经网络的特征图中的大量信息,甚至是冗余信息,通常可以保证对输入数据的全面了解。 例如,图1展示了ResNet-50生成的输入图像的一些特征图,并且存在许多相似的特征图对,例如彼此重影。 特征图中的冗余可能是成功的深度神经网络的重要特征。 除了避免使用多余的特征图之外,我们倾向于以经济高效的方式去设计使用它。

    在本文中,我们介绍了一种新颖的Ghost模块,可通过使用较少的参数来生成更多功能。 具体来说,深度神经网络中的普通卷积层将分为两部分。 第一部分涉及普通卷积,但是将严格控制它们的总数。给定第一部分的固有特征图,然后将一系列简单的线性运算应用于生成更多特征图。 与普通卷积神经网络相比,在不更改输出特征图大小的情况下,该Ghost模块中所需的参数总数和计算复杂度均已降低。 基于Ghost模块,我们建立了一种有效的神经体系结构,即GhostNet。 我们首先在基准神经体系结构中替换原始的卷积层,以证明Ghost模块的有效性,然后在多个基准视觉数据集上验证GhostNets的优越性。 实验结果表明,提出的Ghost模块能够在保持相似识别性能的同时降低通用卷积层的计算成本,并且GhostNets可以在各种任务上超越MobileNetV3 [16]等先进的高效深度模型。 在移动设备上快速推断。

    本文的其余部分安排如下:第2部分简要总结了该领域的相关工作,然后在第3部分中提出了Ghost模块和GhostNet,在第4部分中进行了实验和分析,最后在第5部分中给出了结论。

    2. Related Work

    在这里,我们从两个部分重新审视减轻神经网络的现有方法:模型压缩紧凑模型设计

    2.1. Model Compression

    对于给定的神经网络,模型压缩旨在减少计算量,能源消耗和存储成本修剪连接[11、10、49]切断了神经元之间不重要的连接。 通道修剪[50、14、28、37、55、19、32]的目标还在于删除无用的通道,以便在实践中更轻松地进行加速。 模型量化[40、20、22]表示神经网络中的权重或激活,具有用于压缩和计算加速的离散值。具体来说,只有1位值的二值化方法(binarization methods)[20、40、35]可以通过有效的二进制运算极大地加速模型。 张量分解(Tensor decomposition)[23,25,7]通过利用权重的冗余和低秩属性来减少参数或计算量。 知识蒸馏[15,43]利用较大的模型来教授较小的模型,从而提高了较小模型的性能。这些方法的性能通常取决于给定的预训练模型。 基本操作和体系结构的改进将使它们性能得到提高。

    2.2. Compact Model Design

    随着在嵌入式设备上部署神经网络的需求,近年来提出了一系列紧凑模型[9、5、17、44、16、57、38、52、53、46]。SqueezeNet [9]使用瓶颈方法以少50个参数来达到AlexNet级别的准确性。 Xception [5]利用深度卷积运算来更有效地使用模型参数。 MobileNets [17]是一系列基于深度可分离卷积的轻型深度神经网络。 MobileNetV2 [44]提出了反向残差块,而MobileNetV3 [16]进一步利用AutoML技术以更少的FLOP实现了更好的性能。 ShuffleNet [57]引入了信道混洗操作,以改善信道组之间的信息流交换。 ShuffleNetV2 [38]进一步考虑了目标硬件在紧凑模型设计中的实际速度。尽管这些模型仅用很少的FLOP即可获得出色的性能,但从未充分利用特征图之间的相关性和冗余性。

    3. Approach

    在本节中,我们将首先介绍Ghost模块,以利用一些小型过滤器从原始卷积层生成更多特征图,然后开发具有高效架构和高性能的新GhostNet。

    3.1. Ghost Module for More Features

    深度卷积神经网络[27、45、12]通常由大量卷积组成,从而导致大量的计算成本。 尽管最近的工作,例如MobileNet [17,44]和ShuffleNet [38]已经引入了深度卷积或混洗操作,以使用较小的卷积滤波器(浮点数运算)来构建有效的CNN,但其余的1 × 1卷积层仍会占用大量内存 和FLOPs

    考虑到如图1所示,主流CNN计算出的中间特征图中存在广泛的冗余,我们建议减少所需资源,即 用于生成它们的卷积滤波器。 实际上,给定输入数据 X ∈ Rc×h×w,其中c是输入通道数h和w分别是输入数据的高度和宽度,用于生成n个特征图的任意卷积层的操作 可以用(1)式描述:
    在这里插入图片描述
    在这里插入图片描述
    根据等式(1),很明显可知要优化的参数数量(以f和b表示)由输入和输出特征图的尺寸确定。 如图1所示,卷积层的输出特征图通常包含很多冗余,其中一些可能彼此相似我们指出,没有必要使用大量的FLOP和参数一一生成这些冗余特征图。 假设输出要素图是少数具有一些廉价转换的内部特征图的“ghosts”。 这些固有特征图通常具有较小的大小,并由普通的卷积滤波器生成。 具体来说,使用一次卷积生成m个固有特征图Y’ ∈ Rh’×w’×m’
    在这里插入图片描述
    诸如滤波器大小,步幅,填充之类的超参数与普通卷积(等式1)中的相同,以保持空间大小(即h'w')的输出要素映射一致。 为了进一步获得所需的n个特征图,我们建议根据以下函数对 Y' 中的每个固有特征应用一系列廉价的线性运算,以生成sghost特征
    在这里插入图片描述
    与现有方法的差异。 提出的Ghost模块与现有的有效卷积方案有很大的不同。 i)与[17,9,57]中的单元广泛使用1×1点向卷积相比,Ghost模块中的初级卷积可以具有自定义的内核大小。 ii)现有方法[17、44、57、38]采用点积卷积来处理跨通道的特征,然后采用深度卷积来处理空间信息。相比之下,Ghost模块采用普通卷积来首先生成一些内部特征图,然后利用廉价的线性运算来增强特征并增加通道。 iii)在以前的有效架构中,处理每个特征图的操作仅限于深度卷积或移位操作[17、57、52、24],而Ghost模块中的线性操作可能具有很大的多样性。 iv)此外,身份映射(the identity mapping)与Ghost模块中的线性变换并行进行,以保留固有特征图。

    复杂性分析。 因为我们可以在等式中利用建议的Ghost模块。 (3)式生成与普通卷积层相同数量的特征图,我们可以轻松地将Ghost模块集成到现有设计良好的神经体系结构中,以降低计算成本。在这里,我们通过使用Ghost模块来进一步分析内存使用和理论上的加速方面的收益。 例如,存在1个身份映射和m·(s-1)= n/s·(s-1)个线性运算,每个线性运算的平均内核大小等于d×d。 理想情况下,n·(s-1)个线性运算可以具有不同的形状和参数,但是特别是考虑到CPU或GPU卡的实用性,在线推理会受到阻碍。 因此,我们建议在一个Ghost模块中采用大小相同(例如3×35×5)的线性运算,以实现高效实现。 使用Ghost模块升级普通卷积的理论加速比为:
    在这里插入图片描述
    通过使用建议的Ghost模块,它等于加速比。
    在这里插入图片描述

    3.2. Building Efficient CNNs

    Ghost Bottlenecks。 利用Ghost模块的优势,我们介绍了专门为小型CNN设计的Ghost bottleneck(G-bneck)。 如图3所示,Ghost bottleneck似乎类似于ResNet [12]中的基本残差块,其中集成了多个卷积层和shortcuts设想的ghost bottleneck主要由两个堆叠的Ghost模块组成。 第一个Ghost模块用作扩展层,增加了通道数。我们将输出通道数与输入通道数之比称为扩展比(expansion ratio)。 第二个Ghost模块减少了与shortcut path匹配的通道数。 然后,将快捷方式连接到这两个Ghost模块的输入和输出之间。 批处理归一化(BN)[21]和ReLU非线性在每层之后应用,除了ReLU在第二个Ghost模块之后不使用(如MobileNetV2 [44]所建议的)外。上述Ghost bottleneck适用于stride = 1。 对于stride = 2的情况,shortcut path由下采样层实现,并且在两个Ghost模块之间插入了stride = 2的深度卷积。 实际上,出于效率考虑,Ghost模块中的主要卷积是逐点卷积。

    GhostNet。 我们在幽灵瓶颈(ghost bottleneck)的基础上,提出了GhostNet,如表7所示。由于其优越性,我们遵循MobileNetV3的基本体系结构[16],并用我们的Ghost bottleneck替代了MobileNetV3中的bottleneck。GhostNet主要由一堆Ghost bottleneck组成,其中以Ghost模块为构建基块。 第一层是具有16个过滤器的标准卷积层,然后是一系列Ghost瓶颈,通道逐渐增加。 这些Ghost瓶颈根据其输入要素图的大小分为不同的阶段。 所有Ghost bottleneck都以stride = 1进行应用,除了每个阶段的最后一个是stride = 2。 最后,利用全局平均池和卷积层将特征图转换为1280维特征向量以进行最终分类。 如表7所示,挤压和激发(SE–squeeze and excite)模块[18]也适用于某些ghost bottleneck中的残留层。与MobileNetV3相比,由于延迟长,我们不使用硬摆非线性函数(hard-swish nonlinearity function)。 尽管进一步的超参数调整或基于自动架构搜索的虚影模块将进一步提高性能,但所提供的架构提供了参考的基本设计。
    在这里插入图片描述
    Width Multiplier。 尽管表7中给定的体系结构已经可以提供低延迟和保证的准确性,但是在某些情况下,我们可能需要在特定任务上使用更小更快的模型或更高的准确性。 为了根据需要定制网络,我们可以简单地在每一层均匀地将信道数乘以因子α该因数 α 被称为宽度倍增器因为它可以改变整个网络的宽度宽度乘数可以通过大约 α2 地控制模型大小和计算成本通常,较小的 α有较低的延迟和较低的性能,反之亦然。

    4. Experiments

    在本节中,我们首先用建议的Ghost模块替换原始的卷积层,以验证其有效性。然后,将在图像分类和对象检测基准上进一步测试使用新模块构建的GhostNet架构。

    Datasets and Settings。 为了验证所提出的Ghost模块和GhostNet架构的有效性,我们在几个基准视觉数据集上进行了实验,包括CIFAR-10 [26],ImageNet ILSVRC 2012数据集[6]和MS COCO对象检测基准[8]。

    利用CIFAR-10数据集分析该方法的属性,该方法由10类60,000张32×32彩色图像,50,000张训练图像和10,000张测试图像组成。 采用包括随机裁剪和镜像的常见数据增强方案[12,14]。ImageNet是一个大型图像数据集,包含超过1000万个类别的120万个训练图像和50K验证图像。 在训练期间应用包括随机裁剪和翻转的常见数据预处理策略[12]。我们还对MS COCO数据集进行了目标检测实验[31]。 按照惯例[29,30],我们在COCO trainval35k分割(80K训练图像和来自验证集的图像的随机35K子集的结合)上训练模型,并在5K图像的最小分割上进行评估。

    4.1. Efficiency of Ghost Module

    4.1.1 Toy Experiments.

    我们在图1中提出了一张图,以指出存在一些相似的特征图对,可以使用一些有效的线性运算来有效地生成这些特征图对。在这里,我们首先进行一个玩具实验,以观察原始特征图和生成的重影特征图之间的重建误差。 以图1中的三对(即红色,贪婪和蓝色)为例,使用ResNet-50的第一个残差块提取特征[12]。 以左侧的要素为输入,另一要素为输出,我们利用一个小的深度卷积滤波器来学习映射关系,即它们之间的线性运算。 卷积滤波器d的大小在1到7的范围内,每对具有不同d的MSE(均方误差)值如表2所示。

    在这里插入图片描述
    在表2中可以发现,所有MSE值都非常小,这表明在深度神经网络中的特征图之间存在很强的相关性,并且这些冗余特征图可以从多个固有特征图生成。 除了上述实验中使用的卷积之外,我们还可以探索仿射变换和小波变换等其他低成本线性运算来构造Ghost模块。然而,卷积是当前硬件已经很好地支持的一种有效操作,它可以覆盖许多广泛使用的线性操作,例如平滑,模糊,运动等。此外,尽管我们还可以了解每个滤波器的大小。 如果是线性操作,则不规则模块会降低计算单元(例如CPU和GPU)的效率。 因此,我们建议让Ghost模块中的d为固定值,并利用深度卷积实现等式。 3在以下实验中构建高效的深度神经网络。
    在这里插入图片描述

    4.1.2 CIFAR-10.

    我们在CIFAR-10数据集上,基于两种流行的网络架构(即VGG-16 [45]和ResNet-56 [12])评估了建议的Ghost模块。 由于VGG-16最初是为ImageNet设计的,所以我们使用其变体[56],该变体在文献中广泛用于进行以下实验。 这两个模型中的所有卷积层都被提议的Ghost模块替换,新模型分别表示为Ghost-VGG-16和Ghost-ResNet-56。我们的训练策略紧随[12]中的设置,包括动量,学习率等。我们首先分析Ghost模块中两个超参数s和d的影响,然后将Ghost模型与状态 最先进的方法。

    Analysis on Hyper-parameters。 如等式中所述。 如图3所示,为有效的深度神经网络建议的Ghost模块具有两个超参数,即 s用于生成m = n / s固有特征图,以及线性运算的核大小d×d(即深度卷积滤波器的大小)用于计算Ghost特征图。 测试了这两个参数对VGG-16架构的影响。

    首先,我们修复s = 2并在f {1,3,5,7}中调整d,并在表3中列出CIFAR-10验证集的结果。我们可以看到,建议的d = 3的Ghost模块的性能比其他的比较小或较大的更好这是因为大小为1×1的内核无法在特征图上引入空间信息,而较大的内核(例如d = 5d = 7)会导致过度拟合和更多计算。 因此,在以下实验中我们采用d = 3来提高有效性和效率

    在研究了建议的Ghost模块中使用的内核大小之后,我们使 d = 3 并在 f {2,3,4,5} 范围内调整其他超参数 s。 实际上,s与所得网络的计算成本直接相关,即较大的 s 导致较大的压缩和加速比,如等式1中所分析。 等式(5)和等式 (4)从表4的结果可以看出,当我们增加 s 时,FLOP显着降低,并且精度逐渐降低,这是预期的尤其是当 s = 2 时,这意味着将VGG-16压缩2倍,我们的方法比原始模型的性能要好一些,这表明了所提出的Ghost模块的优越性。

    在这里插入图片描述
    Comparison with State-of-the-arts。我们将GhostNet与VGG-16和ResNet-56架构上的几个代表性的最新模型进行了比较。 比较的方法包括不同类型的模型压缩方法,11修剪[28,34],SBP [14],通道修剪(CP)[14]和AMC [13]。 对于VGG-16,我们的模型可以获得比原始模型高2倍加速度的精度,这表明VGG模型具有相当大的冗余度。 我们的Ghost-VGG-16(s = 2)以最高的性能(93.7%)优于竞争对手,但FLOP明显减少。 对于已经比VGG-16小得多的ResNet-56,我们的模型可以以2倍的加速率达到与基线相当的精度。我们还可以看到,其他具有相似或更大计算成本的最新模型所获得的准确性低于我们的模型。
    Visualization of Feature Maps 。我们还可视化了ghost模块的特征图,如图4所示。尽管生成的特征图来自主要特征图,但它们之间确实存在显着差异,这意味着生成的特征足够灵活,可以满足特定任务的需求
    在这里插入图片描述

    4.1.3 Large Models on ImageNet

    接下来,我们将Ghost模块嵌入标准ResNet50 [12]中,并在大型ImageNet数据集上进行实验。 ResNet-50具有约25.6M参数和4.1B FLOP,top-5误差为7.8%。 我们使用Ghost模块替换ResNet50中的所有卷积层以获得紧凑的模型,并将结果与​​几种最先进的方法进行比较,如表6所示。优化设置,学习率, 和批次大小与[12]中的相同参数配置比较完全相同。

    从表6的结果中可以看出,我们的GhostResNet-50(s = 2)获得了大约2倍的加速和压缩比,同时保持了与原始ResNet-50相同的精度。 与最近的最新方法(包括Thinet [37],NISP [55],多功能过滤器[48]和稀疏结构选择(SSS)[19])相比,我们的方法在2倍加速设置下可以获得明显更好的性能。 当我们进一步将s增加到4时,基于Ghost的模型的准确度下降仅为0.3%,计算加速比约为4倍。 相比之下,具有相似权重或FLOP的比较方法[52,54]的性能要比我们的低得多。
    在这里插入图片描述

    4.2. GhostNet on Visual Benchmarks

    在证明了所提出的Ghost模块可有效生成特征图的优越性之后,我们随后分别使用Ghost bottleneck分别在图像分类和对象检测任务上评估了设计良好的GhostNet体系结构,如表7所示。

    4.2.1 ImageNet Classification

    为了验证所提出的GhostNet的优越性,我们对ImageNet分类任务进行了实验。 我们遵循[57]中使用的大多数训练设置,除了在8个GPU上batch_size = 1,024,初始学习率设置为0.4。 在ImageNet验证集上报告的所有结果均具有single crop top-1的性能。 对于GhostNet,为简单起见,我们在一次卷积中将内核大小设置为k = 1,在所有Ghost模块中设置s = 2d = 3

    选择了几种现代小型网络架构作为竞争者,包括MobileNet系列[17、44、16],ShuffleNet系列[57、38],IGCV3 [46],ProxylessNAS [2],FBNet [51],MnasNet [47]等。 结果总结在表7中。这些模型分为四个级别的计算复杂性,通常用于移动应用程序,即 50、150和200-300 MFLOP。 从结果中我们可以看到,通常较大的FLOP在这些小型网络中会导致更高的准确性,这表明了它们的有效性。 我们的GhostNet在各种计算复杂度级别上始终优于其他竞争对手,因为GhostNet在利用计算资源生成特征图方面更加高效。

    在这里插入图片描述
    Actual Inference Speed由于GhostNet是为移动应用程序设计的,因此我们使用TFLite工具[1]进一步测量了GhostNet在基于ARM的手机上的实际推理速度。 按照[17,44]中的通用设置,我们使用批处理大小为1的单线程模式。从图7的结果中可以看出,在相同的延迟下,GhostNet的top-1精度比MobileNetV2高出约0.5%, 和GhostNet需要更少的运行时来达到类似的性能。 例如,精度为75.0%的GhostNet仅具有40毫秒的延迟,而精度类似的MobileNetV3大约需要45毫秒来处理一张图像。 总体而言,我们的模型通常优于著名的最新模型,即MobileNet系列[17,44,16],ProxylessNAS [2],FBNet [51]和MnasNet [47]。
    在这里插入图片描述
    在这里插入图片描述

    4.2.2 Object Detection

    为了进一步评估GhostNet的泛化能力,我们在MS COCO数据集上进行了对象检测实验。 我们使用trainval35k 拆分作为训练数据,并按照[29,30]以最小拆分的平均平均精度(mAP)报告结果。 具有功能金字塔网络(FPN)的两阶段Faster R-CNN [42,29]和一阶段的RetinaNet [30]都被用作我们的框架,而GhostNet替代了原始的骨干特征提取器。 我们使用SGD从ImageNet预训练权重中使用SGD训练了12个epoch,并使用[29,30]中建议的超参数。 将输入图像的大小调整为800的短边和不超过1333的长边。表8显示了检测结果,其中FLOP是使用224×224图像计算得出的。通过显着降低的计算成本,GhostNet可以在一阶段的RetinaNet和两阶段的Faster R-CNN框架上通过MobileNetV2和MobileNetV3实现类似的mAP。

    在这里插入图片描述

    5. Conclusion

    为了减少最新的深度神经网络的计算成本,本文提出了一种用于构建有效的神经体系结构的新型Ghost模块。 基本的Ghost模块将原始卷积层分为两部分,并使用较少的过滤器来生成多个内在特征图。然后,将进一步应用一定数量的廉价变换操作以有效地生成ghost特征图。在基准模型和数据集上进行的实验表明,该方法是一个即插即用模块,用于将原始模型转换为紧凑模型,同时保持可比的性能。 此外,在效率和准确性方面,使用建议的新模块构建的GhostNet均优于最新的便携式神经体系结构。

    References

    [1] Mart´ın Abadi, Ashish Agarwal, Paul Barham, Eugene Brevdo, Zhifeng Chen, Craig Citro, Greg S. Corrado, Andy Davis, Jeffrey Dean, Matthieu Devin, Sanjay Ghemawat, Ian Goodfellow, Andrew Harp, Geoffrey Irving, Michael Isard, Yangqing Jia, Rafal Jozefowicz, Lukasz Kaiser, Manjunath Kudlur, Josh Levenberg, Dandelion Man´e, Rajat Monga, Sherry Moore, Derek Murray, Chris Olah, Mike Schuster, Jonathon Shlens, Benoit Steiner, Ilya Sutskever, Kunal Talwar, Paul Tucker, Vincent Vanhoucke, Vijay Vasudevan, Fernanda Vi´egas, Oriol Vinyals, Pete Warden, Martin Wattenberg, Martin Wicke, Yuan Yu, and Xiaoqiang Zheng. TensorFlow: Large-scale machine learning on heterogeneous systems, 2015. Software available from tensorflow.org.
    [2] Han Cai, Ligeng Zhu, and Song Han. Proxylessnas: Direct neural architecture search on target task and hardware. In ICLR, 2019.
    [3] Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, and Alan L Yuille. Semantic image segmentation with deep convolutional nets and fully connected crfs. In ICLR, 2016.
    [4] Weijie Chen, Di Xie, Yuan Zhang, and Shiliang Pu. All you need is a few shifts: Designing efficient convolutional neural networks for image classification. In CVPR, 2019.
    [5] Franc¸ois Chollet. Xception: Deep learning with depthwise separable convolutions. In CVPR, pages 1251–1258, 2017.
    [6] Jia Deng,Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. Imagenet: A large-scale hierarchical image database.
    In CVPR, pages 248–255. Ieee, 2009.
    [7] Emily L Denton, Wojciech Zaremba, Joan Bruna, Yann LeCun, and Rob Fergus. Exploiting linear structure within convolutional networks for efficient evaluation. In NeurIPS, pages 1269–1277, 2014.
    [8] Mark Everingham, Luc Van Gool, Christopher KI Williams, John Winn, and Andrew Zisserman. The pascal visual object classes (voc) challenge. IJCV, 88(2):303–338, 2010.
    [9] N Iandola Forrest, Han Song,WMatthew, Ashraf Khalid, and J William Dally. Squeezenet: Alexnet-level accuracy with 50x fewer parameters and¡ 0.5 mb model size. In ICLR, 2017.
    [10] Song Han, Huizi Mao, and William J Dally. Deep compression: Compressing deep neural networks with pruning, trained quantization and huffman coding. In ICLR, 2016.
    [11] Song Han, Jeff Pool, John Tran, and William Dally. Learning both weights and connections for efficient neural network. In NeurIPS, pages 1135–1143, 2015.
    [12] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.
    Deep residual learning for image recognition. In CVPR, pages 770–778, 2016.
    [13] Yihui He, Ji Lin, Zhijian Liu, Hanrui Wang, Li-Jia Li, and Song Han. Amc: Automl for model compression and acceleration on mobile devices. In ECCV, 2018.
    [14] Yihui He, Xiangyu Zhang, and Jian Sun. Channel pruning for accelerating very deep neural networks. In ICCV, 2017.
    [15] Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531, 2015.
    [16] Andrew Howard, Mark Sandler, Grace Chu, Liang-Chieh Chen, Bo Chen, Mingxing Tan, Weijun Wang, Yukun Zhu, Ruoming Pang, Vijay Vasudevan, et al. Searching for mobilenetv3.
    In ICCV, 2019.
    [17] Andrew G Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, and Hartwig Adam. Mobilenets: Efficient convolutional neural networks for mobile vision applications. arXiv preprint arXiv:1704.04861, 2017.
    [18] Jie Hu, Li Shen, and Gang Sun. Squeeze-and-excitation networks. In CVPR, 2018.
    [19] Zehao Huang and Naiyan Wang. Data-driven sparse structure selection for deep neural networks. In ECCV, pages 304–320, 2018.
    [20] Itay Hubara, Matthieu Courbariaux, Daniel Soudry, Ran ElYaniv, and Yoshua Bengio. Binarized neural networks. In NeurIPS, pages 4107–4115, 2016.
    [21] Sergey Ioffe and Christian Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In ICML, 2015.
    [22] Benoit Jacob, Skirmantas Kligys, Bo Chen, Menglong Zhu, Matthew Tang, Andrew Howard, Hartwig Adam, and Dmitry Kalenichenko. Quantization and training of neural networks for efficient integer-arithmetic-only inference. In CVPR, pages 2704–2713, 2018.
    [23] Max Jaderberg, Andrea Vedaldi, and Andrew Zisserman.
    Speeding up convolutional neural networks with low rank expansions. In BMVC, 2014.
    [24] Yunho Jeon and Junmo Kim. Constructing fast network through deconstruction of convolution. In NeurIPS, 2018.
    [25] Jonghoon Jin, Aysegul Dundar, and Eugenio Culurciello. Flattened convolutional neural networks for feedforward acceleration.
    In ICLR, 2015.
    [26] Alex Krizhevsky and Geoffrey Hinton. Learning multiple layers of features from tiny images. Technical report, Citeseer, 2009.
    [27] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Imagenet classification with deep convolutional neural networks.
    In NeurIPS, pages 1097–1105, 2012.
    [28] Hao Li, Asim Kadav, Igor Durdanovic, Hanan Samet, and Hans Peter Graf. Pruning filters for efficient convnets. In ICLR, 2017.
    [29] Tsung-Yi Lin, Piotr Doll´ar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. In CVPR, 2017.
    [30] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Doll´ar. Focal loss for dense object detection. In ICCV, 2017.
    [31] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll´ar, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In ECCV. Springer, 2014.
    [32] Chuanjian Liu, Yunhe Wang, Kai Han, Chunjing Xu, and Chang Xu. Learning instance-wise sparsity for accelerating deep models.
    [33] Zechun Liu, Haoyuan Mu, Xiangyu Zhang, Zichao Guo, Xin Yang, Tim Kwang-Ting Cheng, and Jian Sun. Metapruning:Meta learning for automatic neural network channel pruning.
    In ICCV, 2019.
    [34] Zhuang Liu, Mingjie Sun, Tinghui Zhou, Gao Huang, and Trevor Darrell. Rethinking the value of network pruning. In ICLR, 2019.
    [35] Zechun Liu, Baoyuan Wu, Wenhan Luo, Xin Yang, Wei Liu, and Kwang-Ting Cheng. Bi-real net: Enhancing the performance of 1-bit cnns with improved representational capability and advanced training algorithm. In ECCV, 2018.
    [36] Jonathan Long, Evan Shelhamer, and Trevor Darrell. Fully convolutional networks for semantic segmentation. In CVPR, pages 3431–3440, 2015.
    [37] Jian-Hao Luo, Jianxin Wu, and Weiyao Lin. Thinet: A filter level pruning method for deep neural network compression.
    In ICCV, pages 5058–5066, 2017.
    [38] Ningning Ma, Xiangyu Zhang, Hai-Tao Zheng, and Jian Sun.
    Shufflenet v2: Practical guidelines for efficient cnn architecture design. In ECCV, 2018.
    [39] Pavlo Molchanov, Arun Mallya, Stephen Tyree, Iuri Frosio, and Jan Kautz. Importance estimation for neural network pruning. In CVPR, 2019.
    [40] Mohammad Rastegari, Vicente Ordonez, Joseph Redmon, and Ali Farhadi. Xnor-net: Imagenet classification using binary convolutional neural networks. In ECCV, pages 525–542.
    Springer, 2016.
    [41] Esteban Real, Alok Aggarwal, Yanping Huang, and Quoc V Le. Aging evolution for image classifier architecture search.
    In AAAI, 2019.
    [42] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun.
    Faster R-CNN: Towards real-time object detection with region proposal networks. In NeurIPS, 2015.
    [43] Adriana Romero, Nicolas Ballas, Samira Ebrahimi Kahou, Antoine Chassang, Carlo Gatta, and Yoshua Bengio. Fitnets: Hints for thin deep nets. In ICLR, 2015.
    [44] Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zhmoginov, and Liang-Chieh Chen. Mobilenetv2: Inverted residuals and linear bottlenecks. In CVPR, pages 4510–4520, 2018.
    [45] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR, 2015.
    [46] Ke Sun, Mingjie Li, Dong Liu, and Jingdong Wang. Igcv3: Interleaved low-rank group convolutions for efficient deep neural networks. In BMVC, 2018.
    [47] Mingxing Tan, Bo Chen, Ruoming Pang, Vijay Vasudevan, Mark Sandler, Andrew Howard, and Quoc V Le. Mnasnet: Platform-aware neural architecture search for mobile. In CVPR, pages 2820–2828, 2019.
    [48] Yunhe Wang, Chang Xu, Chunjing XU, Chao Xu, and Dacheng Tao. Learning versatile filters for efficient convolutional neural networks. In NeurIPS, 2018.
    [49] Yunhe Wang, Chang Xu, Shan You, Dacheng Tao, and Chao Xu. Cnnpack: packing convolutional neural networks in the frequency domain. In NeurIPS, pages 253–261, 2016.
    [50] Wei Wen, Chunpeng Wu, Yandan Wang, Yiran Chen, and Hai Li. Learning structured sparsity in deep neural networks. In NeurIPS, pages 2074–2082, 2016.
    [51] Bichen Wu, Xiaoliang Dai, Peizhao Zhang, Yanghan Wang, Fei Sun, Yiming Wu, Yuandong Tian, Peter Vajda, Yangqing Jia, and Kurt Keutzer. Fbnet: Hardware-aware efficient convnet design via differentiable neural architecture search. In CVPR, pages 10734–10742, 2019.
    [52] Bichen Wu, Alvin Wan, Xiangyu Yue, Peter Jin, Sicheng Zhao, Noah Golmant, Amir Gholaminejad, Joseph Gonzalez, and Kurt Keutzer. Shift: A zero flop, zero parameter alternative to spatial convolutions. In CVPR, 2018.
    [53] Zhaohui Yang, Yunhe Wang, Chuanjian Liu, Hanting Chen, Chunjing Xu, Boxin Shi, Chao Xu, and Chang Xu. Legonet: Efficient convolutional neural networks with lego filters. In ICML, 2019.
    [54] Jiahui Yu, Linjie Yang, Ning Xu, Jianchao Yang, and Thomas Huang. Slimmable neural networks. In ICLR, 2019.
    [55] Ruichi Yu, Ang Li, Chun-Fu Chen, Jui-Hsin Lai, Vlad I Morariu, Xintong Han, Mingfei Gao, Ching-Yung Lin, and Larry S Davis. Nisp: Pruning networks using neuron importance score propagation. In CVPR, 2018.
    [56] Sergey Zagoruyko. 92.45 on cifar-10 in torch, 2015. URL http://torch.ch/blog/2015/07/30/cifar. html.
    [57] Xiangyu Zhang, Xinyu Zhou, Mengxiao Lin, and Jian Sun.
    Shufflenet: An extremely efficient convolutional neural network for mobile devices. CVPR, 2018.
    [58] Barret Zoph, Vijay Vasudevan, Jonathon Shlens, and Quoc V Le. Learning transferable architectures for scalable image recognition. In CVPR, pages 8697–8710, 2018.

    展开全文
  • 确保您拥有最新的Python版本(> = 3.7)并 。 请注意,如果要在GPU上提取功能, 需要CUDA 10.2或更高版本。 但是,代码已经在强大的CPU(Intel i7或i9)上运行得非常快。 在终端中运行以下pip命令。 $ pip install ...
  • HMTL(分层多任务学习模型)***** 2018年11月20日新上线:可用在线网络演示*****我们发布了一个在线演示(以及预先训练的体重),以便您可以自己玩耍该模型。 代码HMTL(分层多任务学习模型)***** 2018年11月20日...
  • 6.2 前馈型人工神经网络 如前所述前馈型人工神经网络是多层排列的信号由输入层到输出层单向传输的网络模型与神经网络研究初期提出的感知器模型原理上是完全一样的由于八十年代提出的Back Propagation 网络学习算法使...
  • 最新的人工神经网络大全,最新的人工神经网络大全
  • 贝叶斯神经网络最新综述 https://zhuanlan.zhihu.com/p/237613269

    贝叶斯神经网络最新综述
    https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/108439329

    展开全文
  • 最新整理深度学神经网络算法全套 神经网络算法作为近年来热点,这个我就不用废话都说了吧
  • 精品文档 精品文档 精品文档 精品文档 BP神经网络算法 三层BP神经网络如图: 目标输出向量 传递函数gf tk 输出层输出向量 Zk 值为w 传递函数 传递函数f 隐含层隐含 层输出向量 权值为Wii 输入层输入 向量 Xi X2 X3 Xn...
  • 神经网络深度前馈神经网络;卷积神经网络;循环神经网络;网络优化与正则化;记忆与注意力机制;无监督学习;概率图模型;玻尔兹曼机;深度信念网络;深度生成模型;深度强化学习;学习-2020最新资料
  • 卷积神经网络综述类论文,建议对卷积神经网络有一定的了解再看。 此资源是该论文在国内的首个中文翻译版。 原论文详细介绍了卷积神经网络领域所用到的技术和以后的发展趋势。 英文原文地址:...
  • 卷积神经网络讲解,非常实用,快速入门,最新研究方向
  • 在多方因素的成功推动下,研究人员借鉴了卷积网络、循环网络和深度自动编码器的思想,定义和设计了用于处理图数据的神经网络结构,由此一个新的研究热点——“图神经网络(Graph Neural Networks,GNN)”应运而生,...

    图片

    本资料介绍

        近年来,人们对深度学习方法在图上的扩展越来越感兴趣。在多方因素的成功推动下,研究人员借鉴了卷积网络、循环网络和深度自动编码器的思想,定义和设计了用于处理图数据的神经网络结构,由此一个新的研究热点——“图神经网络(Graph Neural Networks,GNN)”应运而生,本篇文章主要对图神经网络的研究现状进行简单的概述。

        需要注意的是,图神经网络的研究与图嵌入(对图嵌入不了解的读者可以参考我的这篇文章《图嵌入综述》)或网络嵌入密切相关,图嵌入或网络嵌入是数据挖掘和机器学习界日益关注的另一个课题。图嵌入旨在通过保留图的网络拓扑结构和节点内容信息,将图中顶点表示为低维向量,以便使用简单的机器学习算法(例如,支持向量机分类)进行处理。许多图嵌入算法通常是无监督的算法,它们可以大致可以划分为三个类别,即矩阵分解、随机游走和深度学习方法。同时图嵌入的深度学习方法也属于图神经网络,包括基于图自动编码器的算法(如DNGR和SDNE)和无监督训练的图卷积神经网络(如GraphSage)。

     

        本zuixin获qudizhi:https://mp.weixin.qq.com/s?__biz=MzIxNDgzNDg3NQ==&mid=2247491303&idx=1&sn=e8766851e784e6587967d62cdefc44be&chksm=97a0d533a0d75c259fad271216644c64fa367ce1301ffac43581487a9ba34d62aa6d7799dd51&token=1021584805&lang=zh_CN#rd

     

        本ppt首先讲解了图神经网络一些基础知识,涉及图神经网络模型聚合有效性的原理。然后分享了深度图神经网络模型最近的一些技术,包括图模型的表示学习能力和通用近似能力,入模型的先验知识编码能力。最后分享了图模型在链接预测一些应用。

     

    本资料目录

    图片

     

    内容截图

    图片

    图片

    图片

    图片

    图片

    图片

    图片

    图片

    本zuixin获qudizhi:https://mp.weixin.qq.com/s?__biz=MzIxNDgzNDg3NQ==&mid=2247491303&idx=1&sn=e8766851e784e6587967d62cdefc44be&chksm=97a0d533a0d75c259fad271216644c64fa367ce1301ffac43581487a9ba34d62aa6d7799dd51&token=1021584805&lang=zh_CN#rd

     

    往期精品内容推荐

    深度学习、生成对抗、Pytorch优秀教材推荐

    动态图上的深度学习-动态时间图网络建模技术综述

    一文回顾深度学习发展史上最重要经典模型

    历史最全机器学习/深度学习/人工智能专业术语表中英对照表

    机器学习实战书籍-《Python机器学习项目实战》免费分享

    2020斯坦福新课-《新冠战疫中的数据科学与AI》视频及ppt分享

    《Torch实战教程》免费课程视频及ppt分享

    2020年免费新书-《自然语言处理中词向量表示算法概述》分享

    MIT新课-《深度学习入门 2020春》视频及ppt分享

    机器学习精髓-机器学习百页书-最新版下载

    展开全文
  • Knet:可配置神经网络最新化身
  • 动态神经网络是深度学习领域的一个新兴研究课题。与静态模型在推理阶段具有固定的计算图和参数相比,动态网络可以根据不同的输入调整其结构或参数,在精度、计算效率和适应性等方面具有显著优势。
  • 来源: 新智元本文约1700字,建议阅读5分钟根据研究人员的最新发现,神经网络对数据的要求,居然比神经符号模型还要低![ 导读 ]DeepMind最新的研究结果再一次打破了传统认知——...

    来源:  新智元

    本文约1700字,建议阅读5分钟

    根据研究人员的最新发现,神经网络对数据的要求,居然比神经符号模型还要低!


    [ 导读 ]DeepMind最新的研究结果再一次打破了传统认知——根据研究人员的最新发现,神经网络对数据的要求,居然比神经符号模型还要低!不仅如此,实验结果证实,神经网络的在关键任务上的效果还要更好。不需要预先训练,完全无监督,居然这么神奇?

    按照之前的常识,结合了算法和符号推理技术的神经符号模型(Neurosymbolic Models),会比神经网络更适合于预测和解释任务,此外,神经符号模型在反事实方面表现更好。

     

    而Neural-Symbolic,本质上其实是将现代数学中的分析学和代数学结合的产物。

     

    分析学擅长处理数值、函数、逼近等问题, 代数学擅长处理推演、抽象、结构等问题,如果能适当将两者结合,会有很可观的效果。

    然而,近日,DeepMind的研究人员声称,在正确的测试条件下,神经网络的性能会优于神经符号模型。

     

    与之前的研究结论相反,研究人员认为,对于可以衡量高级认知功能并基于视觉的任务来说,基于分布式表示的神经网络模型确实表现良好,并已经明显胜过了现有的神经符号模型。


    在论文中,作者描述了一种关于视频的时空推理的体系结构,此结构可以学习到视频中的所有成分,并且所有中间的表示都贯穿分布在整个神经网络层中。

     

    论文地址:

    https://arxiv.org/pdf/2012.08508.pdf

     

    该团队表示,该体系结构在一个流行的数据集上的所有任务的表现,都超过了神经符号模型,并在反事实问题上优势最明显。


    这一研究成果,可能会非常有助于设计和开发具有推断作用的机器。

     

    该文章提出的神经网络架构,主要利用注意力机制,来实现对集成信息的高效提取。


    有人可能要问了,什么是注意力机制呢?

     

    注意力(attention)其实是一个非常常见,但是又会被忽略的事实。比如天空一只鸟飞过去的时候,往往你的注意力会追随着鸟儿,天空在你的视觉系统中,自然成为了一个背景(background)信息。

     

    计算机视觉中的注意力机制(attention)的基本思想,就是想让系统学会注意力——能够忽略无关信息而关注重点信息。

     

    总的来说,注意力机制就是一种一次只专注于一个元素或几个元素的算法机制。

     

    对于DeepMind这一研究来说,整个训练过程都是自我监督的,这意味着该模型必须使用底层的动态机制,来推断视频中被掩盖的对象,以便提取更多信息。 

     

    而且该架构可以确保视频中的视觉元素与物理对象相对应,论文作者认为,这一步骤对于更高层次的推理至关重要。

     

    在实验部分,研究人员将他们的神经网络与视频表示和推理的CoLlision事件(也就是CLEVRER数据集)进行了基准比较。

     

    其中,CLEVRER数据集包含由机器生成的20,000多个5秒钟的物体碰撞视频(这几种物体是三种形状,拥有八种颜色的两种材料),以及300,000多个问题和答案。


    这些问答都聚焦于逻辑推理的四个要素:描述性(例如,“什么颜色” ),说明性(“造成的原因”),预测性(“接下来会发生什么”)和反事实(“如果某种情况出现,会发生什么”)。

    在这里小编附上CLEVRER资源链接:

     

    论文链接:

    https://arxiv.org/abs/1910.01442

    项目链接:

    http://clevrer.csail.mit.edu/

     

    实验结果表明,在没有预先训练,没有标记数据,且训练数据少40%的情况下,他们的神经网络和最佳神经符号模型性能相当,这无疑挑战了神经网络比神经符号模型更需要数据这一观点。


    此外,它在最困难的反事实问题上的得分为59.8%(这一得分比机会模型和所有其他模型都好)。

     

    同时,此模型还可以可以推广到其他任务,包括CATER(旨在预测目标对象在视频最后一帧中的位置的对象跟踪视频数据集)。


    研究人员在论文中写道:“我们的研究结果证明了在得益于分布式表示的灵活性和表现力的同时,深层网络可以复制人类认知和推理的许多特性。” 

     

    “神经模型在数学上也取得了一些成功,从直觉上讲,该领域需要执行严格的规则,需要操纵各种各样的复杂符号。但是,令人惊讶的是,大型神经语言模型其实并不需要需进行目标任务的明确训练,也可获得算术推理和类推的能力。

     

    这表明,在扩展到更多数据,并使用更大,更高效的体系结构时,当前的神经网络局限性得到了改善。”

     

    参考链接:

    https://blog.csdn.net/hanss2/article/details/90345517

    https://venturebeat.com/2020/12/21/deepmind-researchers-claim-neural-networks-can-outperform-neurosymbolic-models-on-visual-tasks/

    编辑:文婧

    展开全文
  • 由Xavier Bresson副教授报告的主要内容包括:传统卷积网络,频域图卷积网络和空域图卷积网络,全面详细地介绍了GCN的背景、挑战、发展历程、模型和研究方向。
  • 我的微信:Kingsplusa; --by王博Kings,985AI博士,CSDN博客专家,华为云专家 Hyperbolic Deep Neural ...本文将其称为双曲深度神经网络。这样的双曲线神经结构可能会导致模型非常紧凑,比欧几里德空间中的对...
  • 神经网络 最新文章

    2020-06-20 10:51:58
    ICCV会议时间通常在四到五天,相关领域的专家将会展示最新的研究成果。2019年ICCV将在韩国首尔举办。 ECCV ECCV的全称是European Conference on Computer Vision(欧洲计算机视觉国际会议) ,两年一次,是计算机视觉...
  • 教程名称:2016年最新神经网络到深度学习原理精讲班 12课教程目录:【】第01课 跌宕起伏70年:神经网络发展概述【】第02课 线性神经网络【】第03课 BP神经网络应用【】第04课 能联想和记忆的Hopfield神经网络【】...
  • 生物神经网络 VS 神经网络模型 讲座的后半部分比较高潮,Hinton充分展示了他在认知心理学、计算神经学、脑机制多方面的研究: 以生物神经学界向计算神经学界提出的四大否定结论发难。 这四点基本招招致命,...
  • 深度卷积神经网络最新进展综述

    千次阅读 2019-11-07 09:49:23
    深度卷积神经网络最新进展综述摘要1、引言合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一...
  • Convolutional Neural Networks 吴恩达 神经网络 WEEK3 最新版实验 2021 5月版
  • 神经网络

    2016-11-04 06:43:00
    微软残差神经网络ResNet(可以叠至1024层),最新物体检测方法R-FCN,Google的神经网络机器翻译,用神经网络组装起来的决策机器“Alphago”等 更多案例讲解: 图像识别,物体检测,neural style图像风格变换,生成文本...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,636
精华内容 1,054
关键字:

最新神经网络