2019-12-24 10:08:39 yayaayaya123 阅读数 130
  • 5天搞定深度学习框架-Caffe入门系列

    本课程是在windows环境下的caffe课程,主要使用的是python的接口。 首先带着大家完成一个MNIST手写数字识别的项目,让大家了解caffe训练模型的大致流程。然后会讲到caffe中的一些重要文件和配置,使用python绘图。后的部分会使用GoogleNet实现图像识别。

    11048 人正在学习 去看看 覃秉丰

前言
当用户基于各种原因学习并使用了一种框架的时候,常常会发现应用或者再训练的场景改变了,比如用户用 Caffe 训练好了一个图像识别的模型,但是生产环境是使用 TensorFlow 做预测。再比如某机构主要以TensorFlow作为基础的深度学习开发框架,现在有一个深度算法项目,需要将其部署在移动设备上,并希望使用速度较优的ncnn前向框架,以观测变现等等。传统地我们可能需要用tf重写Caffe,或用Caffe2重写tf,然后再训练参数,试想这将是一个多么耗时耗力的过程。

因此,深度学习模型转换技术在AI工程化中将变得越来越重要。本人花了将近半个月的时间完成现有模型转换的技术调研,并将模型转换技术涉及到知识点以及实际转换时容易遇到的问题梳理成多个章节进行粗劣地讲解。具体分为深度学习模型简介、深度学习模型转换技术和模型转换之实战这三部分内容,并在文章的最后作了简单的总结。

 

深度学习模型简介
深度学习模型是指一种包含深度神经网络结构的机器学习模型。算法工程师使用某种深度学习框架构建好模型,经调参和训练优化后,将最终生成的网络参数和模型结构一并保存,得到的文件即为可用于前向推理的模型文件。不同深度学习框架训练得到的模型文件的格式不尽相同,但完整的模型文件一般都包含了张量数据、运算单元和计算图等信息。

 

1.1 张量(Tensor)
张量(Tensor)是深度学习系统的数据容器,它可以理解为矩阵向任意维度的扩展。仅包含一个数字的张量叫作标量(Scalar,也叫标量张量、零维张量、0D张量);数字组成的数组叫作向量(Vector)或一维张量(1D张量),而向量组成的数组叫作矩阵(Matrix)或二维张量(2D张量);将多个矩阵组合成一个新的数组,可以得到一个 3D 张量,你可以将其直观地理解为数字组成的立方体;将多个3D张量组合成一个数组,可以创建一个4D张量,以此类推。深度学习处理的一般是0D到4D 的张量,但处理视频数据时可能会遇到5D张量。

1.2 运算单元(Operation/Operator)
运算单元(Operation/Operator,常见的翻译还有计算单元、操作符、算子等)表示一种符号化的运算过程,是主流深度学习框架的基本单元,即图中的节点。它的输入和输出都是张量(Tensor)。所有计算机程序最终都可以简化为二进制输入上的一些二进制运算(AND、OR、NOR等),类似地,深度神经网络学到的所有变换也都可以简化为数值数据张量上的一些张量运算(Tensor operation),如图1的tf.add函数为TensorFlow一个简单的加法运算单元。

图1 TensorFlow的add运算单元

    常见的运算单元有Add、BatchNormalization 、Conv、GRU、LRN、LSTM、MaxPool、Relu、RNN、Softmax等。

1.3 计算图(Graph)
1.3.1 基本概念
计算图(Graph,又称数据流图)被定义为有向无环图( directed acyclic graph),张量和运算单元都是图中的对象,运算单元是图的节点,张量是图的边上流动的数据。无环( acyclic)这个限定词很重要,即这些图不能有循环。张量 x 不能成为生成 x 的某一层的输入。唯一允许的处理循环(即循环连接)是循环层的内部循环。

深度学习框架使用计算图将计算表示为独立的指令之间的依赖关系,我们可以通俗地将计算图理解为表达和评估数学表达式的一种方式。例如,这里有个简单的数学公式:

g = ( x + y ) ∗ z

我们可以绘制上述方程的计算图如下:

图2 简单的计算图示例

上述示例图虽然简单,但它包含了前向推理模型所需的基本要素。所谓前向传播,可简单理解为模型将张量(x、y、z)从左侧输入向前传递(即有序接受运算单元的处理)到右侧输出,最终得到推理值(g)。

常见的深度神经网络模型(Inception、ResNet等)包含了一些较为复杂的运算单元,比如残差卷积单元、池化、非线性激活、Bottleneck等节点(PS:通常这些节点也可能归属于网络的某一层layer,一个layer可能包含1个或多个基本运算单元)。此外,涉及训练的模型需包含损失函数、梯度计算等反向传播所必须的运算单元。所谓反向传播,指的是计算神经网络参数梯度的方法。总的来说,反向传播根据微积分中的链式法则,沿着从输出层到输入层的顺序,依次计算并存储目标函数有关神经网络各层的中间变量以及参数的梯度。反向传播的数学原理较为复杂,有兴趣的同学可参考这篇博文: https://blog.csdn.net/u013527419/article/details/70184690

1.3.2 命名空间
一些深度学习框架的计算对象会定义一个命名空间(为其包含的 Operation 对象)。这里以TensorFlow为例,它会自动为您的图中的每个指令选择一个唯一名称,但您也可以指定描述性名称,使您的程序阅读和调试起来更轻松。TensorFlow API 提供两种方法来覆盖操作名称:

如果 API 函数会创建新的 tf.Operation 或返回新的 tf.Tensor,则会接受可选 name 参数。例如,tf.constant(42.0, name="answer") 会创建一个新的 tf.Operation(名为 "answer")并返回一个 tf.Tensor(名为 "answer:0")。如果默认图已包含名为 "answer" 的操作,则 TensorFlow 会在名称上附加 "_1"、"_2" 等字符,以便让名称具有唯一性。

借助 tf.name_scope 函数,您可以向在特定上下文中创建的所有操作添加名称作用域前缀。当前名称作用域前缀是一个用 "/" 分隔的名称列表,其中包含所有活跃 tf.name_scope 上下文管理器的名称。如果某个名称作用域已在当前上下文中被占用,TensorFlow 将在该作用域上附加 "_1"、"_2" 等字符。例如:

图3 使用TensorFlow框架构建运算单元示例

 

1.4 经典的深度神经网络模型
这里简单介绍一些经典的深度神经网络模型其中CV领域的模型之间的关系可参考图4。

图4 常用的计算机视觉模型

1.4.1 AlexNet模型
2012年,Alex Krizhevsky、Ilya Sutskever在多伦多大学Geoff Hinton的实验室设计出了一个深层的卷积神经网络AlexNet,夺得了2012年ImageNet LSVRC的冠军。AlexNet可以说是具有历史意义的一个网络结构,在此之前,深度学习已经沉寂了很长时间,自2012年AlexNet诞生之后,后面的ImageNet冠军都是用卷积神经网络(CNN)来做的,并且层次越来越深,使得CNN成为在图像识别分类的核心算法模型,带来了深度学习的大爆发。

1.4.2 VGG模型
VGG又分为VGG16和VGG19,分别在AlexNet的基础上将层数增加到16和19层,它除了在识别方面很优秀之外,对图像的目标检测也有很好的识别效果,是目标检测领域的较早期模型。

1.4.3 GoogLeNet模型
GoogLeNet除了层数加深到22层以外,主要的创新在于它的Inception,这是一种网中网(Network In Network) 的结构,即原来的节点也是一个网络。用了Inception之后整个网络结构的宽度和深度都可扩大,能够带来2到3倍的性能提升。

1.4.4 ResNet模型
ResNet直接将深度拉到了152层, 其主要的创新在于残差网络, 其实这个网络的提出本质上是要解决层次比较深时无法训练的问题。 这种借鉴了Highway Network思想的网络, 相当于旁边专门开个通道使得输入可以直达输出, 而优化的目标由原来的拟合输出H(x) 变成输出和输入的差H(x)-x, 其中H(x) 是某一层原始的期望映射输出, x是输入。

1.4.5 MobileNet模型
2017年,Google提出的适用于手机端的神经网络模型——MobileNet。MobileNet的精华在于卷积方式——Depthwise separable convolution;采用深度可分离卷积会涉及到两个超参数来减少参数量和计算量:

宽度乘数(width multiplier):[减少输入和输出的channels]
分辨率乘数(resolution multiplier):[减少输入和输出的feature map大小]
Mobilenet可以应用于多个领域:目标检测,分类,跟踪等诸多领域。用于移动和嵌入式视觉应用。

1.4.6 BERT模型
2018年年底,谷歌AI团队新发布的BERT模型,在NLP业内引起巨大反响,认为是NLP领域里程碑式的进步。BERT模型在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩:全部两个衡量指标上全面超越人类,并且还在11种不同NLP测试中创出最佳成绩,包括将GLUE基准推至80.4%(绝对改进7.6%),MultiNLI准确度达到86.7%(绝对改进率5.6%)等。BERT模型是以Transformer编码器来表示的NLP词向量模型。相信2019年会有越来越多的NLP模型潜入BERT技术,并刷新各子领域的state-of-the-art!

 

1.5 主流的深度学习框架
目前PC端主流的深度学习框架有TensorFlow、Keras、Pytorch、Caffe、CNTK等(如图5所示)。

图5 主流的深度学习框架

根据各框架在2018年度的热度排序(如图6所示),在这简单介绍流行度排前四的深度学习框架:

图6 各深度学习框架2018年热度比较

1.5.1 TensorFlow框架
TensorFlow 是一个开放源代码软件库,是很多主流框架的基础或者依赖。TensorFlow背后因站着Google,一经推出就获得了极大的关注,并迅速成为如今用户最多的深度学习框架。该框架几乎能满足所有机器学习开发的功能, 但是也有由于其功能代码过于底层,学习成本高,代码冗繁,编程逻辑与常规不同等缺点。

1.5.2 Keras框架
Keras是一个高层神经网络API,由纯Python编写而成并使用TensorFlow、Theano及CNTK作为后端。Keras为支持快速实验而生,能够把想法迅速转换为结果。Keras应该是深度学习框架之中最容易上手的一个,它提供了一致而简洁的API, 能够极大地减少一般应用下用户的工作量,避免用户重复造轮子。

1.5.3 Pytorch框架
2017年1月,Facebook人工智能研究院(FAIR)团队在GitHub上开源了Pytorch,并迅速占领GitHub热度榜榜首。Pytorch是由Lua Torch发展而来,但它不是简单地对封装Lua Torch提供Python接口,而是对Tensor之上的所有模块进行了重构,并新增了最先进的自动求导系统。虽然相比tf要年轻很多,但其流行度的增速十分迅猛,目前已成为当下最流行的动态图框架。它支持TensorFlow尚不支持的一些机制。

Pytorch的设计追求最少的封装,尽量避免重复造轮子。不像TensorFlow中充斥着session、graph、operation、name_scope、variable、tensor、layer等全新的概念,Pytorch的设计遵循tensor→variable(autograd)→nn.Module 三个由低到高的抽象层次,分别代表高维数组(张量)、自动求导(变量)和神经网络(层/模块),而且这三个抽象之间联系紧密,可以同时进行修改和操作。简洁的设计带来的另外一个好处就是代码易于理解。Pytorch的源码只有TensorFlow的十分之一左右,更少的抽象、更直观的设计使得Pytorch的源码十分易于阅读。

1.5.4 Caffe框架
Caffe全称为Convolutional Architecture for Fast Feature Embedding,是一个被广泛使用的开源深度学习框架。Caffe的核心概念是Layer,每一个神经网络的模块都是一个Layer。Layer接收输入数据,同时经过内部计算产生输出数据。设计网络结构时,只需要把各个Layer拼接在一起构成完整的网络(通过写protobuf配置文件定义)。Caffe最开始设计时的目标只针对于图像,没有考虑文本、语音或者时间序列的数据,因此Caffe对卷积神经网络的支持非常好,但对时间序列RNN、LSTM等支持得不是特别充分。Caffe的一大优势是拥有大量的训练好的经典模型(AlexNet、VGG、Inception)乃至其他state-of-the-art (ResNet等)的模型,收藏在它的Model Zoo(github.com/BVLC/Caffe/wiki/Model-Zoo)。

1.5.5 移动端框架
在这顺便简单介绍一下目前移动端流行的深度学习框架。目前的移动框架一般都是前向推理框架,即只含推理(inference)功能,使用的模型文件需要通过离线的方式训练得到。

Caffe2: Facebook新的开源深度学习框架。与之前的Pytorch不同,Caffe2专门用于将深度学习移植到移动应用程序。Caffe2官方教程以Python语言为主,是一个轻量化的深度学习算法框架,为移动端实时计算做了很多优化,方便机器学习算法和模型大规模部署在移动设备。

腾讯的FeatherCNN和ncnn:这两个框架都是腾讯出的,FeatherCNN来自腾讯AI平台部,ncnn来自腾讯优图。ncnn开源早点,文档、相关代码丰富一些,目前流行度很高。ncnn的官网宣称ncnn目前已支持Caffe2和Pytorch的模型转换。

小米的 MACE:它有几个特点:异构加速、汇编级优化、支持各种框架的模型转换,该框架还支持GPU运算,且不限于高通,这点很通用,很好,比如瑞芯微的RK3299就可以同时发挥出cpu和GPU的好处。

TFLite:无缝支持通过TensorFlow训练好的神经网络模型。只需要几个简单的步骤就可以完成桌面模型到移动端模型的转换。但通常情况下TFLite框架的运行效率要比上述的一些框架低。

 

2018-07-19 09:48:01 u013069552 阅读数 1324
  • 5天搞定深度学习框架-Caffe入门系列

    本课程是在windows环境下的caffe课程,主要使用的是python的接口。 首先带着大家完成一个MNIST手写数字识别的项目,让大家了解caffe训练模型的大致流程。然后会讲到caffe中的一些重要文件和配置,使用python绘图。后的部分会使用GoogleNet实现图像识别。

    11048 人正在学习 去看看 覃秉丰

深度学习入门(一天读懂深度学习-李宏毅)

1、深度学习框架图: (参考网址https://blog.csdn.net/u010164190/article/details/72633245

2、神经网络要解决的问题

2.1、基于网络功能函数的定义(网络模型的选择,激励函数的选择,优化方法的选择)-->网络模型好坏的评估(损失函数的定义)-->选出一个最优模型-->过拟合问题的解决

2.2、常见的网络结构:DNN,CNN,RNN,LSTM(这个四种神经网络的前向传递,反向参数优化推导网址http://www.cnblogs.com/pinard/p/6418668.html)

2.3、常见的激励函数:sigmod,tanh,ReLU,maxout

2.4、常见的优化方法:SGD、Adagrad、Adadelta、Adam、adamax、Nada                                                                                          (https://blog.csdn.net/yunxinan/article/details/74858070

2.5、常用的损失函数:square error,cross entropy

2.6、常用的解决过拟合的方法:early stop、正则化(权重衰减)、dropout、增加训练样本

 

2017-07-13 22:03:04 qq_31258245 阅读数 1407
  • 5天搞定深度学习框架-Caffe入门系列

    本课程是在windows环境下的caffe课程,主要使用的是python的接口。 首先带着大家完成一个MNIST手写数字识别的项目,让大家了解caffe训练模型的大致流程。然后会讲到caffe中的一些重要文件和配置,使用python绘图。后的部分会使用GoogleNet实现图像识别。

    11048 人正在学习 去看看 覃秉丰

深度学习框架Caffe图片分类教程

使用Caffe进行图片分类大致分为数据集准备,格式转换为LMDB或者LEBELDB,定义网络模型文件,定义求解器文件设置训练参数,部署预测,下边详细说下这几个步骤。PS:训练集图片共1907张,其中200张作为训练阶段测试,另外用于训练。图片分为5类,分别为bus,car,person,cat,train。该教程所说的根目录为Caffe主目录。

  • 第一步:数据集准备
    在data文件夹下新建imagenet1907文件夹,这个新文件夹主要用于存放该实验的原始数据。在新文件下新建trainval目录分别用于存放训练时训练和测试的图片。另外在imagenet1907下新建train.txt、和val.txt,这两个文本文件的作用就是存放图片路径以及标签。格式如下:

train.txt

000201.jpg 1
000202.jpg 3
000203.jpg 4
000204.jpg 4
000205.jpg 4
000206.jpg 1
...

val.txt的格式和train.txt是一样的,写好后(当然用程序生成…)保存。
开头所说的图片分为5类,这里标签用了1-5的连续数字表示,因此需要一个map文件来标识数字对应的类,还是在这个目录下写一个map.txt文件,内容如下:

map.txt

0 bus
1 car
2 person
3 cat
4 train

这个文件在后边还有用~。

  • 第二步:格式转换
    examples文件夹下边同样新建imagenet1907文件夹,caffe已经为我们提供了格式转换的工具convert_imageset,该工具的cpp文件路径为caffe/examples/cpp_classification/classification.cpp,该工具的具体使用方法可以参照caffe提供的说明文件caffe/examples/cpp_classification/readme.md,我们通过编写脚本文件create_imagenet.sh来进行格式转换以及计算均值文件

caffe/examples/imagenet1907/create_imagenet.sh

#!/usr/bin/env sh
set -e

EXAMPLE=examples/imagenet1907
DATA=data/imagenet1907
TOOLS=build/tools

TRAIN_DATA_ROOT=data/imagenet1907/train/
VAL_DATA_ROOT=data/imagenet1907/val/

# Set RESIZE=true to resize the images to 256x256. Leave as false if images have
# already been resized using another tool.
RESIZE=true
if $RESIZE; then
  RESIZE_HEIGHT=128
  RESIZE_WIDTH=128
else
  RESIZE_HEIGHT=0
  RESIZE_WIDTH=0
fi

# Set ENCODE=true to encode the images as compressed JPEGs stored in the LMDB.
# Leave as false for uncompressed (raw) images.
ENCODE=true
if $ENCODE; then
  ENCODE_FLAG='--encoded=true'
  ENCODE_TYPE_FLAG='--encode_type=jpg'
else
  ENCODE_FLAG='--encoded=false'
  ENCODE_TYPE_FLAG=''
fi

if [ ! -d "$TRAIN_DATA_ROOT" ]; then
  echo "Error: TRAIN_DATA_ROOT is not a path to a directory: $TRAIN_DATA_ROOT"
  echo "Set the TRAIN_DATA_ROOT variable in create_imagenet.sh to the path" \
       "where the ImageNet training data is stored."
  exit 1
fi

if [ ! -d "$VAL_DATA_ROOT" ]; then
  echo "Error: VAL_DATA_ROOT is not a path to a directory: $VAL_DATA_ROOT"
  echo "Set the VAL_DATA_ROOT variable in create_imagenet.sh to the path" \
       "where the ImageNet validation data is stored."
  exit 1
fi

echo "Creating train lmdb..."

rm -rf $EXAMPLE/imagenet1907_train_lmdb
rm -rf $EXAMPLE/imagenet1907_val_lmdb

GLOG_logtostderr=1 $TOOLS/convert_imageset \
    --resize_height=$RESIZE_HEIGHT \
    --resize_width=$RESIZE_WIDTH \
    $ENCODE_FLAG \
    $ENCODE_TYPE_FLAG \
    --shuffle \
    $TRAIN_DATA_ROOT \
    $DATA/train.txt \
    $EXAMPLE/imagenet1907_train_lmdb

echo "Creating val lmdb..."

GLOG_logtostderr=1 $TOOLS/convert_imageset \
    --resize_height=$RESIZE_HEIGHT \
    --resize_width=$RESIZE_WIDTH \
    $ENCODE_FLAG \
    $ENCODE_TYPE_FLAG \
    --shuffle \
    $VAL_DATA_ROOT \
    $DATA/val.txt \
    $EXAMPLE/imagenet1907_val_lmdb

echo "Compute train mean..."

$TOOLS/compute_image_mean $EXAMPLE/imagenet1907_train_lmdb \
  $DATA/train_mean.binaryproto

echo "Compute val mean..."

$TOOLS/compute_image_mean $EXAMPLE/imagenet1907_val_lmdb \
  $DATA/val_mean.binaryproto

echo "Done."

在根目录下运行该脚本文件(可能需要权限),之后生成两个lmdb文件夹,两个均值文件。

sudo ./examples/imagenet1907/create_imagenet.sh
  • 第三步:定义网络模型文件
    网上有很多关于图片识别的网络模型,我们可以拿来修改一些内容就可以用了。主要修改的内容就是输入层的mean_file和source两个路径。也就是对应上一步生成的2个文件夹,2个文件。

caffe/examples/imagenet1907/train_val.prototxt

name: "ImageNet1907"
layer {
  name: "data"
  type: "Data"
  top: "data"
  top: "label"
  include {
    phase: TRAIN
  }
  transform_param {
    mirror: true
    mean_file: "data/imagenet1907/train_mean.binaryproto"
    crop_size: 31
  }
  data_param {
    source: "examples/imagenet1907/imagenet1907_train_lmdb"
    batch_size: 100
    backend: LMDB
  }
}
layer {
  name: "data"
  type: "Data"
  top: "data"
  top: "label"
  include {
    phase: TEST
  }
  transform_param {
    mirror: false
    mean_file: "data/imagenet1907/val_mean.binaryproto"
    crop_size: 31
  }
  data_param {
    source: "examples/imagenet1907/imagenet1907_val_lmdb"
    batch_size: 50
    backend: LMDB
  }
}
layer {
  name: "conv1"
  type: "Convolution"
  bottom: "data"
  top: "conv1"
  param {
    lr_mult: 1
  }
  param {
    lr_mult: 2
  }
  convolution_param {
    num_output: 32
    pad: 2
    kernel_size: 5
    stride: 1
    weight_filler {
      type: "gaussian"
      std: 0.0001
    }
    bias_filler {
      type: "constant"
    }
  }
}
layer {
  name: "pool1"
  type: "Pooling"
  bottom: "conv1"
  top: "pool1"
  pooling_param {
    pool: MAX
    kernel_size: 3
    stride: 2
  }
}
layer {
  name: "relu1"
  type: "ReLU"
  bottom: "pool1"
  top: "pool1"
}
layer {
  name: "conv2"
  type: "Convolution"
  bottom: "pool1"
  top: "conv2"
  param {
    lr_mult: 1
  }
  param {
    lr_mult: 2
  }
  convolution_param {
    num_output: 32
    pad: 2
    kernel_size: 5
    stride: 1
    weight_filler {
      type: "gaussian"
      std: 0.01
    }
    bias_filler {
      type: "constant"
    }
  }
}
layer {
  name: "relu2"
  type: "ReLU"
  bottom: "conv2"
  top: "conv2"
}
layer {
  name: "pool2"
  type: "Pooling"
  bottom: "conv2"
  top: "pool2"
  pooling_param {
    pool: AVE
    kernel_size: 3
    stride: 2
  }
}
layer {
  name: "conv3"
  type: "Convolution"
  bottom: "pool2"
  top: "conv3"
  param {
    lr_mult: 1
  }
  param {
    lr_mult: 2
  }
  convolution_param {
    num_output: 64
    pad: 2
    kernel_size: 5
    stride: 1
    weight_filler {
      type: "gaussian"
      std: 0.01
    }
    bias_filler {
      type: "constant"
    }
  }
}
layer {
  name: "relu3"
  type: "ReLU"
  bottom: "conv3"
  top: "conv3"
}
layer {
  name: "pool3"
  type: "Pooling"
  bottom: "conv3"
  top: "pool3"
  pooling_param {
    pool: AVE
    kernel_size: 3
    stride: 2
  }
}
layer {
  name: "ip1"
  type: "InnerProduct"
  bottom: "pool3"
  top: "ip1"
  param {
    lr_mult: 1
  }
  param {
    lr_mult: 2
  }
  inner_product_param {
    num_output: 64
    weight_filler {
      type: "gaussian"
      std: 0.1
    }
    bias_filler {
      type: "constant"
    }
  }
}
layer {
  name: "ip2"
  type: "InnerProduct"
  bottom: "ip1"
  top: "ip2"
  param {
    lr_mult: 1
  }
  param {
    lr_mult: 2
  }
  inner_product_param {
    num_output: 5
    weight_filler {
      type: "gaussian"
      std: 0.1
    }
    bias_filler {
      type: "constant"
    }
  }
}
layer {
  name: "accuracy"
  type: "Accuracy"
  bottom: "ip2"
  bottom: "label"
  top: "accuracy"
  include {
    phase: TEST
  }
}
layer {
  name: "loss"
  type: "SoftmaxWithLoss"
  bottom: "ip2"
  bottom: "label"
  top: "loss"
}

最后全连接层的num_output要修改成5,因为我们最后的分类结果有5个,所有全连接最后输出应该为5。之前就是没注意到这一点,结果模型训练出来之后测试出了问题,又得重新训练…

下面就是需要一个求解器的Solver文件,用来设置多少次迭代后进行一次测试以及最大迭代此处,设置模型文件前缀等内容。

caffe/examples/imagenet1907/solver.prototxt

net: "examples/imagenet1907/train_val.prototxt"
test_iter: 100
test_interval: 500
base_lr: 0.001
momentum: 0.9
weight_decay: 0.0005
lr_policy: "fixed"
display: 100
max_iter: 5000
snapshot_after_train: true
snapshot_prefix: "examples/imagenet1907/imagenet1907_train"
solver_mode: GPU
data_distribute_mode: MANUALLY
model_average_iter_interval: 1

其中net参数就是刚才定义的train_val.prototxt路径。
test_iter表示训练时进行多少次迭代进行一次测试
test_interval表示进行多少次迭代后会输出一次准确率
max_iter表示最大迭代次数
snapshot_prefix表示训练成功后模型文件的路径。路径中imagenet1907_train为生成的模型文件的前缀。
solver_mode表示训练使用CPU还是GPU

关于Solver暂时就说这么多。

  • 第四步:训练模型
    其实上边的一、二、三步都是需要做的准备工作,下边开始训练模型才是一个比较耗时的操作,取决于计算机的性能。
    在根目录下运行命令即可开始训练,运行没出错的话,就可以sit back and enjoy!了,比较漫长。。。
./build/tools/caffe train --solver=examples/imagenet1907/solver.prototxt $@

在训练结束之后会生成caffemodel类型文件,这个模型是用来进行图片的预测的。

  • 第五步:部署预测
    要预测图片我们也需要定义一个deploy.prototxt文件,该文件和Net文件内容基本相似,可以直接将上边train_val.prototxt文件内容拷贝过来,然后将训练和测试的输入层删除,并用新的输入层替换。

caffe/examples/imagenet1907/deploy.prototxt

name: "ImageNet1907"
layer {
  name: "data"
  type: "Input"
  top: "data"
  input_param { shape: { dim: 10 dim: 3 dim: 31 dim: 31 } }
}
layer {
  name: "conv1"
  type: "Convolution"
  bottom: "data"
  top: "conv1"
  convolution_param {
    num_output: 32
    pad: 2
    kernel_size: 5
    stride: 1
  }
}
layer {
  name: "pool1"
  type: "Pooling"
  bottom: "conv1"
  top: "pool1"
  pooling_param {
    pool: MAX
    kernel_size: 3
    stride: 2
  }
}
layer {
  name: "relu1"
  type: "ReLU"
  bottom: "pool1"
  top: "pool1"
}
layer {
  name: "conv2"
  type: "Convolution"
  bottom: "pool1"
  top: "conv2"
  convolution_param {
    num_output: 32
    pad: 2
    kernel_size: 5
    stride: 1
  }
}
layer {
  name: "relu2"
  type: "ReLU"
  bottom: "conv2"
  top: "conv2"
}
layer {
  name: "pool2"
  type: "Pooling"
  bottom: "conv2"
  top: "pool2"
  pooling_param {
    pool: AVE
    kernel_size: 3
    stride: 2
  }
}
layer {
  name: "conv3"
  type: "Convolution"
  bottom: "pool2"
  top: "conv3"
  convolution_param {
    num_output: 64
    pad: 2
    kernel_size: 5
    stride: 1
  }
}
layer {
  name: "relu3"
  type: "ReLU"
  bottom: "conv3"
  top: "conv3"
}
layer {
  name: "pool3"
  type: "Pooling"
  bottom: "conv3"
  top: "pool3"
  pooling_param {
    pool: AVE
    kernel_size: 3
    stride: 2
  }
}
layer {
  name: "ip1"
  type: "InnerProduct"
  bottom: "pool3"
  top: "ip1"
  inner_product_param {
    num_output: 64
  }
}
layer {
  name: "ip2"
  type: "InnerProduct"
  bottom: "ip1"
  top: "ip2"
  inner_product_param {
    num_output: 5
  }
}
layer {
  name: "prob"
  type: "Softmax"
  bottom: "ip2"
  top: "prob"
}

完成了上面这些就可以拿来一张图片来进行预测了。
在根目录下运行命令

sudo ./build/examples/cpp_classification/classification.bin \
examples/imagenet1907/deploy.prototxt \
examples/imagenet1907/your_iter_5000.caffemodel \
data/imagenet1907/train_mean.binaryproto \
data/imagenet1907/map.txt \
examples/images/cat.jpg

classification.bin工具接受5个命令行参数
1.部署文件
2.模型文件
3.均值文件
4.map文件
5.图片文件

之后终端会输出如下内容

---------- Prediction for examples/images/cat.jpg ----------
0.6014 - "1 car"
0.1483 - "4 train"
0.0903 - "2 person"
0.0841 - "0 bus"
0.0760 - "3 cat"

作为这方面的新手,在做这个的过程中也是踩了不少坑,有问题的话,欢迎评论提问。

2019-11-21 14:28:32 u012325865 阅读数 793
  • 5天搞定深度学习框架-Caffe入门系列

    本课程是在windows环境下的caffe课程,主要使用的是python的接口。 首先带着大家完成一个MNIST手写数字识别的项目,让大家了解caffe训练模型的大致流程。然后会讲到caffe中的一些重要文件和配置,使用python绘图。后的部分会使用GoogleNet实现图像识别。

    11048 人正在学习 去看看 覃秉丰

引言

        Deep Graph Library (DGL) 是一个在图上做深度学习的框架。在0.3.1版本中,DGL支持了基于PyTorch的化学模型库。

如何生成分子图是我感兴趣的。

环境准备

  • PyTorch:深度学习框架
  • DGL:用于图上的深度学习,支持PyTorch、MXNet等多种深度学习框架
  • RDKit:用于构建分子图并从字符串表示形式绘制结构式

分子生成与Junction Tree VAE

分子生成     

        候选药用化合物的数量估计为10 ^ {23} -10 ^ {60} ,但是合成所有这些化合物是不现实的,每年都会发现新的化合物。到目前为止,仅合成了大约10 ^ 8 。


        设计新化合物,考虑其合成方法,在药物发现的过程中尝试实际合成的化合物需要大量的时间和金钱,故AI药物发现具有了原始动机。药物发现的的目标是产生对疾病有效的药物,副作用更少且易合成。
 

Junction Tree VAE

JT-VAE (junction tree variational autoencoder) 

JT-VAE同时考虑了分子的两种图表示:分子图和联合树。在分子图中,我们把原子作为节点,化学键作为边。在联合树中,我们将分子图中的一些子结构看作节点。”


基于DGL的分子图生成

导入库

import dgl
from dgl import model_zoo
from dgl.model_zoo.chem.jtnn import JTNNDataset, cuda, JTNNCollator
import rdkit
from rdkit import Chem
from rdkit.Chem import Draw, MolFromSmiles, MolToSmiles
import torch
from torch.utils.data import DataLoader, Subset
from tqdm.notebook import tqdm

数据预处理

dataset = JTNNDataset(data="test", vocab="vocab", training=False)
dataset.training = False

载入数据

dataset.data = ['CN1C=NC2=C1C(=O)N(C(=O)N2C)C', 'CCN(CC)C(=O)C1CN(C2CC3=CNC4=CC=CC(=C34)C2=C1)C']

使用Dataloader批次化处理和获取数据

def worker_init_fn(id_):
    lg= rdkit.RDLogger.logger()
    lg.setLevel(rdkit.RDLogger.CRITICAL)


worker_init_fn(None)
dataset.training = False
dataloader = DataLoader(
                Subset(dataset, [0,1]),
                batch_size=1,
                shuffle=False,
                num_workers=0,
                collate_fn=JTNNCollator(dataset.vocab, False),
                drop_last=True,
                worker_init_fn=worker_init_fn)

可视化数据集中的数据

Draw.MolsToGridImage([MolFromSmiles(s) for s in dataset.data], molsPerRow=4,subImgSize=(250,150))

加载模型

JT-VAE的训练需要很长时间。DGL提供了预先训练好的模型供用户使用。

model = model_zoo.chem.load_pretrained('JTNN_ZINC')
model = cuda(model)

分子表示的插值

首先,对应于咖啡因和麦角酸二乙酰胺的潜在变量ž小号Ť 甲ř Ť,žg ^Ø 一个大号
tree_vec[0]mol_vec[0]咖啡因,tree_vec[1]以及mol_vec[1]麦角酸二乙酰胺。

tree_vecs, mol_vecs = [], []
for batch in dataloader:
    model.move_to_cuda(batch)
    _, tree_vec, mol_vec = model.encode(batch)
    tree_vec, mol_vec, _, _ = model.sample(tree_vec, mol_vec) # reparam. trick
    tree_vecs.append(tree_vec)
    mol_vecs.append(mol_vec)

确定了起点和终点,对通过分割线获得的点进行顺序解码,解码的输出为SMILES

tree_diff = tree_vecs[1] - tree_vecs[0] 
mol_diff = mol_vecs[1] - mol_vecs[0]
smiles = []
num_mols = 100 
tree_st, mol_st = tree_vecs[0], mol_vecs[0]

for i in tqdm(range(num_mols)):
    s = model.decode(tree_st+tree_diff/(num_mols-1)*i, mol_st+mol_diff/(num_mols-1)*i)
    smiles.append(s)

按顺序显示生成的100个分子

mols = []
for s in smiles:
    if s is None:
        continue
    mol = MolFromSmiles(s)
    if mol is not None:
        mols.append(mol)
Draw.MolsToGridImage(mols, molsPerRow=4, subImgSize=(250,150))

连续输出相同的分子,插值不平滑;
终点未恢复为麦角酸二乙酰胺。


参考

DrugAI

 

2019-05-24 20:44:24 jasonaidm 阅读数 1263
  • 5天搞定深度学习框架-Caffe入门系列

    本课程是在windows环境下的caffe课程,主要使用的是python的接口。 首先带着大家完成一个MNIST手写数字识别的项目,让大家了解caffe训练模型的大致流程。然后会讲到caffe中的一些重要文件和配置,使用python绘图。后的部分会使用GoogleNet实现图像识别。

    11048 人正在学习 去看看 覃秉丰

前言

当用户基于各种原因学习并使用了一种框架的时候,常常会发现应用或者再训练的场景改变了,比如用户用 Caffe 训练好了一个图像识别的模型,但是生产环境是使用 TensorFlow 做预测。再比如某机构主要以TensorFlow作为基础的深度学习开发框架,现在有一个深度算法项目,需要将其部署在移动设备上,并希望使用速度较优的ncnn前向框架,以观测变现等等。传统地我们可能需要用tf重写Caffe,或用Caffe2重写tf,然后再训练参数,试想这将是一个多么耗时耗力的过程。

因此,深度学习模型转换技术在AI工程化中将变得越来越重要。本人花了将近半个月的时间完成现有模型转换的技术调研,并将模型转换技术涉及到知识点以及实际转换时容易遇到的问题梳理成多个章节进行粗劣地讲解。具体分为深度学习模型简介、深度学习模型转换技术和模型转换之实战这三部分内容,并在文章的最后作了简单的总结。

 

深度学习模型简介

深度学习模型是指一种包含深度神经网络结构的机器学习模型。算法工程师使用某种深度学习框架构建好模型,经调参和训练优化后,将最终生成的网络参数和模型结构一并保存,得到的文件即为可用于前向推理的模型文件。不同深度学习框架训练得到的模型文件的格式不尽相同,但完整的模型文件一般都包含了张量数据、运算单元和计算图等信息。

 

1.1 张量(Tensor)

张量(Tensor)是深度学习系统的数据容器,它可以理解为矩阵向任意维度的扩展。仅包含一个数字的张量叫作标量(Scalar,也叫标量张量、零维张量、0D张量);数字组成的数组叫作向量(Vector)或一维张量(1D张量),而向量组成的数组叫作矩阵(Matrix)或二维张量(2D张量);将多个矩阵组合成一个新的数组,可以得到一个 3D 张量,你可以将其直观地理解为数字组成的立方体;将多个3D张量组合成一个数组,可以创建一个4D张量,以此类推。深度学习处理的一般是0D到4D 的张量,但处理视频数据时可能会遇到5D张量。

1.2 运算单元(Operation/Operator)

运算单元(Operation/Operator,常见的翻译还有计算单元、操作符、算子等)表示一种符号化的运算过程,是主流深度学习框架的基本单元,即图中的节点。它的输入和输出都是张量(Tensor)。所有计算机程序最终都可以简化为二进制输入上的一些二进制运算(AND、OR、NOR等),类似地,深度神经网络学到的所有变换也都可以简化为数值数据张量上的一些张量运算(Tensor operation),如图1的tf.add函数为TensorFlow一个简单的加法运算单元。

图1 TensorFlow的add运算单元

    常见的运算单元有Add、BatchNormalization 、Conv、GRU、LRN、LSTM、MaxPool、Relu、RNN、Softmax等。

1.3 计算图(Graph)

1.3.1 基本概念

计算图(Graph,又称数据流图)被定义为有向无环图( directed acyclic graph),张量和运算单元都是图中的对象,运算单元是图的节点,张量是图的边上流动的数据。无环( acyclic)这个限定词很重要,即这些图不能有循环。张量 x 不能成为生成 x 的某一层的输入。唯一允许的处理循环(即循环连接)是循环层的内部循环。

深度学习框架使用计算图将计算表示为独立的指令之间的依赖关系,我们可以通俗地将计算图理解为表达和评估数学表达式的一种方式。例如,这里有个简单的数学公式:

g = ( x + y ) ∗ z

我们可以绘制上述方程的计算图如下:

图2 简单的计算图示例

上述示例图虽然简单,但它包含了前向推理模型所需的基本要素。所谓前向传播,可简单理解为模型将张量(x、y、z)从左侧输入向前传递(即有序接受运算单元的处理)到右侧输出,最终得到推理值(g)。

常见的深度神经网络模型(Inception、ResNet等)包含了一些较为复杂的运算单元,比如残差卷积单元、池化、非线性激活、Bottleneck等节点(PS:通常这些节点也可能归属于网络的某一层layer,一个layer可能包含1个或多个基本运算单元)。此外,涉及训练的模型需包含损失函数、梯度计算等反向传播所必须的运算单元。所谓反向传播,指的是计算神经网络参数梯度的方法。总的来说,反向传播根据微积分中的链式法则,沿着从输出层到输入层的顺序,依次计算并存储目标函数有关神经网络各层的中间变量以及参数的梯度。反向传播的数学原理较为复杂,有兴趣的同学可参考这篇博文: https://blog.csdn.net/u013527419/article/details/70184690

1.3.2 命名空间

一些深度学习框架的计算对象会定义一个命名空间(为其包含的 Operation 对象)。这里以TensorFlow为例,它会自动为您的图中的每个指令选择一个唯一名称,但您也可以指定描述性名称,使您的程序阅读和调试起来更轻松。TensorFlow API 提供两种方法来覆盖操作名称:

如果 API 函数会创建新的 tf.Operation 或返回新的 tf.Tensor,则会接受可选 name 参数。例如,tf.constant(42.0, name="answer") 会创建一个新的 tf.Operation(名为 "answer")并返回一个 tf.Tensor(名为 "answer:0")。如果默认图已包含名为 "answer" 的操作,则 TensorFlow 会在名称上附加 "_1"、"_2" 等字符,以便让名称具有唯一性。

借助 tf.name_scope 函数,您可以向在特定上下文中创建的所有操作添加名称作用域前缀。当前名称作用域前缀是一个用 "/" 分隔的名称列表,其中包含所有活跃 tf.name_scope 上下文管理器的名称。如果某个名称作用域已在当前上下文中被占用,TensorFlow 将在该作用域上附加 "_1"、"_2" 等字符。例如:

图3 使用TensorFlow框架构建运算单元示例

 

1.4 经典的深度神经网络模型

这里简单介绍一些经典的深度神经网络模型其中CV领域的模型之间的关系可参考图4。

图4 常用的计算机视觉模型

1.4.1 AlexNet模型

2012年,Alex Krizhevsky、Ilya Sutskever在多伦多大学Geoff Hinton的实验室设计出了一个深层的卷积神经网络AlexNet,夺得了2012年ImageNet LSVRC的冠军。AlexNet可以说是具有历史意义的一个网络结构,在此之前,深度学习已经沉寂了很长时间,自2012年AlexNet诞生之后,后面的ImageNet冠军都是用卷积神经网络(CNN)来做的,并且层次越来越深,使得CNN成为在图像识别分类的核心算法模型,带来了深度学习的大爆发。

1.4.2 VGG模型

VGG又分为VGG16和VGG19,分别在AlexNet的基础上将层数增加到16和19层,它除了在识别方面很优秀之外,对图像的目标检测也有很好的识别效果,是目标检测领域的较早期模型。

1.4.3 GoogLeNet模型

GoogLeNet除了层数加深到22层以外,主要的创新在于它的Inception,这是一种网中网(Network In Network) 的结构,即原来的节点也是一个网络。用了Inception之后整个网络结构的宽度和深度都可扩大,能够带来2到3倍的性能提升。

1.4.4 ResNet模型

ResNet直接将深度拉到了152层, 其主要的创新在于残差网络, 其实这个网络的提出本质上是要解决层次比较深时无法训练的问题。 这种借鉴了Highway Network思想的网络, 相当于旁边专门开个通道使得输入可以直达输出, 而优化的目标由原来的拟合输出H(x) 变成输出和输入的差H(x)-x, 其中H(x) 是某一层原始的期望映射输出, x是输入。

1.4.5 MobileNet模型

2017年,Google提出的适用于手机端的神经网络模型——MobileNet。MobileNet的精华在于卷积方式——Depthwise separable convolution;采用深度可分离卷积会涉及到两个超参数来减少参数量和计算量:

  1. 宽度乘数(width multiplier):[减少输入和输出的channels]
  2. 分辨率乘数(resolution multiplier):[减少输入和输出的feature map大小]

Mobilenet可以应用于多个领域:目标检测,分类,跟踪等诸多领域。用于移动和嵌入式视觉应用。

1.4.6 BERT模型

2018年年底,谷歌AI团队新发布的BERT模型,在NLP业内引起巨大反响,认为是NLP领域里程碑式的进步。BERT模型在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩:全部两个衡量指标上全面超越人类,并且还在11种不同NLP测试中创出最佳成绩,包括将GLUE基准推至80.4%(绝对改进7.6%),MultiNLI准确度达到86.7%(绝对改进率5.6%)等。BERT模型是以Transformer编码器来表示的NLP词向量模型。相信2019年会有越来越多的NLP模型潜入BERT技术,并刷新各子领域的state-of-the-art!

 

1.5 主流的深度学习框架

目前PC端主流的深度学习框架有TensorFlow、Keras、Pytorch、Caffe、CNTK等(如图5所示)。

图5 主流的深度学习框架

根据各框架在2018年度的热度排序(如图6所示),在这简单介绍流行度排前四的深度学习框架:

图6 各深度学习框架2018年热度比较

1.5.1 TensorFlow框架

TensorFlow 是一个开放源代码软件库,是很多主流框架的基础或者依赖。TensorFlow背后因站着Google,一经推出就获得了极大的关注,并迅速成为如今用户最多的深度学习框架。该框架几乎能满足所有机器学习开发的功能, 但是也有由于其功能代码过于底层,学习成本高,代码冗繁,编程逻辑与常规不同等缺点。

1.5.2 Keras框架

Keras是一个高层神经网络API,由纯Python编写而成并使用TensorFlow、Theano及CNTK作为后端。Keras为支持快速实验而生,能够把想法迅速转换为结果。Keras应该是深度学习框架之中最容易上手的一个,它提供了一致而简洁的API, 能够极大地减少一般应用下用户的工作量,避免用户重复造轮子。

1.5.3 Pytorch框架

2017年1月,Facebook人工智能研究院(FAIR)团队在GitHub上开源了Pytorch,并迅速占领GitHub热度榜榜首。Pytorch是由Lua Torch发展而来,但它不是简单地对封装Lua Torch提供Python接口,而是对Tensor之上的所有模块进行了重构,并新增了最先进的自动求导系统。虽然相比tf要年轻很多,但其流行度的增速十分迅猛,目前已成为当下最流行的动态图框架。它支持TensorFlow尚不支持的一些机制。

Pytorch的设计追求最少的封装,尽量避免重复造轮子。不像TensorFlow中充斥着session、graph、operation、name_scope、variable、tensor、layer等全新的概念,Pytorch的设计遵循tensor→variable(autograd)→nn.Module 三个由低到高的抽象层次,分别代表高维数组(张量)、自动求导(变量)和神经网络(层/模块),而且这三个抽象之间联系紧密,可以同时进行修改和操作。简洁的设计带来的另外一个好处就是代码易于理解。Pytorch的源码只有TensorFlow的十分之一左右,更少的抽象、更直观的设计使得Pytorch的源码十分易于阅读。

1.5.4 Caffe框架

Caffe全称为Convolutional Architecture for Fast Feature Embedding,是一个被广泛使用的开源深度学习框架。Caffe的核心概念是Layer,每一个神经网络的模块都是一个Layer。Layer接收输入数据,同时经过内部计算产生输出数据。设计网络结构时,只需要把各个Layer拼接在一起构成完整的网络(通过写protobuf配置文件定义)。Caffe最开始设计时的目标只针对于图像,没有考虑文本、语音或者时间序列的数据,因此Caffe对卷积神经网络的支持非常好,但对时间序列RNN、LSTM等支持得不是特别充分。Caffe的一大优势是拥有大量的训练好的经典模型(AlexNet、VGG、Inception)乃至其他state-of-the-art (ResNet等)的模型,收藏在它的Model Zoo(github.com/BVLC/Caffe/wiki/Model-Zoo)。

1.5.5 移动端框架

在这顺便简单介绍一下目前移动端流行的深度学习框架。目前的移动框架一般都是前向推理框架,即只含推理(inference)功能,使用的模型文件需要通过离线的方式训练得到。

Caffe2: Facebook新的开源深度学习框架。与之前的Pytorch不同,Caffe2专门用于将深度学习移植到移动应用程序。Caffe2官方教程以Python语言为主,是一个轻量化的深度学习算法框架,为移动端实时计算做了很多优化,方便机器学习算法和模型大规模部署在移动设备。

腾讯的FeatherCNN和ncnn:这两个框架都是腾讯出的,FeatherCNN来自腾讯AI平台部,ncnn来自腾讯优图。ncnn开源早点,文档、相关代码丰富一些,目前流行度很高。ncnn的官网宣称ncnn目前已支持Caffe2和Pytorch的模型转换。

小米的 MACE:它有几个特点:异构加速、汇编级优化、支持各种框架的模型转换,该框架还支持GPU运算,且不限于高通,这点很通用,很好,比如瑞芯微的RK3299就可以同时发挥出cpu和GPU的好处。

TFLite:无缝支持通过TensorFlow训练好的神经网络模型。只需要几个简单的步骤就可以完成桌面模型到移动端模型的转换。但通常情况下TFLite框架的运行效率要比上述的一些框架低。

 

深度学习模型转换技术

目前的转换技术在设计思路上主要存在两种差异,一种是直接将模型从现有框架转换为适合目标框架使用的格式,我们在这称此技术为直接转换技术;另外一种是针对深度学习设计一种开放式的文件规范,而主流深度学习框架最终都能实现对这种规范标准的支持,这种技术的代表是开放式神经网络切换框架——ONNX技术。

2.1 直接转换技术

转换器实现模型文件转换的基本原理涉及一下几步:

  1. 读取载入A框架生成的模型文件,读取并识别模型网络中的张量数据的类型/格式、运算单元的类型和参数、计算图的结构和命名规范,以及它们之间的其他关联信息。
  2. 将第一步识别得到的模型结构和模型参数信息翻译成B框架支持的代码格式,比如B框架指Pytorch时,relu激活层(运算单元)这一信息可翻译为torch.nn.ReLu()。当然,运算单元较为复杂时(特别是带较多参数的情况),可在转换器中封装一个对应的运算单元转换函数来实现B框架的运算单元骨架。
  3. 在B框架下保存模型,即可得到B框架支持的模型文件。

转换器如能将现有模型文件直接转换为生产环境支持的格式,这在操作上会给使用者带来很大的便利。但因市面上存在的深度学习框架众多(超过10种),目前还没有一种转换器能够实现所有模型文件之间的转换。我在这列出部分可实现不同框架迁移的模型转换器,如图7所示。更完整的列表请参考:https://github.com/jasonaidm/deep-learning-model-convertor

可以看出,目前既有机构,也有个人开发一些特定场景的模型转换器。其中最有名的模型转换器当属微软于2018年开源的MMdnn框架。下面我将多花点篇幅来介绍这个框架。

图7 不同模型文件的转换器

 

MMdnn实质上是一套用于转换、可视化深度神经网络模型的综合性解决方案。MMdnn中的「MM」代表模型管理,「dnn」的意思是深度神经网络,它能够通过中间表征格式让训练模型在Caffe、Keras、MXNet、TensorFlow、CNTK、Pytorch和CoreML等深度学习框架之间转换(如图8所示),帮助开发者实现模型在不同框架之间的交互。MMdnn主要有以下特征:

  1. 模型文件转换器,不同的框架间转换DNN模型
  2. 模型代码片段生成器,生成适合不同框架的代码
  3. 模型可视化,DNN网络结构和框架参数可视化
  4. 模型兼容性测试(正在进行中)

图8 MMdnn系统目前支持的深度学习框架

 

需要强调的是,强如背靠微软的MMdnn转换器,也仅支持部分模型的转换,具体原因我们在3.3节有作较为详细阐述。MMdnn在一些ImageNet模型上有做测试(如图9所示),但官方没有提及NLP项目上的测试情况。阅读一些模型转换器文档列出的运算单元支持表发现, MMdnn尚不支持一些较新的运算单元,比如PReLu、Bottleneck、BatchNormalization等,而诸如BiLSTM、Mask等自然语言常用的operators更是缺乏,可以推断,仅仅依靠MMdnn的原始骨架,只能完成小部分的模型转换。

图9 MMdnn在一些ImageNet模型上测试的结果

 

2.2 ONNX技术

2.2.1简介

ONNX是一种针对机器学习所设计的开放式的文件格式,用于存储训练好的模型。它使得不同的人工智能框架(如Pytorch, MXNet)可以采用相同格式存储模型数据并交互。 ONNX的规范及代码主要由微软,亚马逊 ,Facebook 和 IBM 等公司共同开发,形成强大的深度学习开源联盟,并将源代码托管在Github上(地址: https://github.com/ONNX),谷歌一直在围绕TensorFlow和谷歌云的深度学习开发自己的独立生态,所以暂时不太会加入到这个联盟中来。目前官方支持加载ONNX模型并进行推理的深度学习框架有: Caffe2, Pytorch, MXNet,ML.NET,TensorRT 和 Microsoft CNTK, TensorFlow 也有非官方的支持ONNX,目前处于实验阶段。

ONNX 定义了一种可扩展的计算图模型、一系列内置的运算单元(OP)和标准数据类型。每一个计算流图都定义为由节点组成的列表,并构建有向无环图。其中每一个节点都有一个或多个输入与输出,每一个节点称之为一个 OP。这相当于一种通用的计算图,不同深度学习框架构建的计算图都能转化为它。事实上,上节介绍的一些模型文件转换器其内部实现机制也借用了ONNX技术。目前ONNX支持的框架和基于ONNX的转换器如下图10所示。具体可参考此链接:http://ONNX.ai/supported-tools

图10 ONNX支持的框架和转换器

2.2.2 ONNX结构规范

(此部分内容大部分直译官方文档:https://github.com/onnx/onnx/blob/master/docs/IR.md)

模型结构的主要目的是将元数据(meta data)与图形(graph)相关联,图形包含所有可执行元素。首先,读取模型文件时需使用元数据,实现提供所需的信息,以确定它是否能够执行模型、生成日志消息、错误报告等功能。此外元数据对工具很有用,例如IDE和模型库,它需要它来告知用户给定模型的目的和特征。

每个model具有以下组件:

2.2.2.1 ONNX运算单元集

每个模型必须明确命名运算单元,命名方式依赖于运算单元的功能。运算单元集定义可用的操作符、版本和状态。所有模型都隐式导入默认的ONNX运算单元集。

运算单元集的属性:

2.2.2.2 ONNX运算单元

运算单元定义的属性:

2.2.2.3 ONNX序列化图(Graph)

序列化图由一组元数据字段(metadata),模型参数列表(a list of model parameters,)和计算节点列表组成(a list of computation nodes)。每个计算数据流图被构造为拓扑排序的节点列表,这些节点形成图形,其必须是无循环的。 每个节点代表对运算单元的调用。 每个节点具有零个或多个输入以及一个或多个输出。

图表具有以下属性:

每个图形必须定义其输入和输出的名称和类型,它们被指定为“值信息”结构,具有以下属性:

2.2.2.4 图的命名规范

所有名称必须遵守C标识符语法规则。节点,输入,输出,初始化器和属性的名称被组织到多个命名空间中。在命名空间内,每个给定图形的每个名称必须是唯一的。

2.2.2.5 标准化数据类型

数据类型存在两种官方的ONNX变体,两者在支持的数据类型和支持的运算单元中存在区别。对于支持的数据类型,ONNX定义只识别张量作为输入和输出类型。而经典的机器学习扩展——ONNX-ML,还可识别序列和maps。对于计算图graph和节点node的输入和输出、计算图的初始化,ONNX支持 原始数字、字符串和布尔类型,但必须用作张量的元素。

张量元素类型:

其他规范如Input / Output Data Types、Attribute Types等都在官网上有申明,这里就不再罗列了。

2.2.3 ONNX支持的运算单元(Operator)

ONNX拥有非常明确的、严格的神经网络框架标准,并且拥有非常详细的官方文档。此外,它还支持非常多的运算单元,而且还在高频地增加新的operators。目前官网列出的operators已达134种,具体名单请参考:https://github.com/onnx/onnx/blob/master/docs/Operators.md

2.2.4 新增operator

ONNX支持用户新增operator,以解决特殊场景特殊模型的转换,并给出新增operator的规范步骤:https://github.com/onnx/onnx/blob/master/docs/AddNewOp.md 

 

模型转换之实践

后续更新...

深度学习框架对比

阅读数 381

没有更多推荐了,返回首页