精华内容
下载资源
问答
  • 2010-boureau-cvpr-10.pdf 2012-farabet-pami-13.pdf 2013-10.1.1.224.9632.pdf 2013-1310.1531v1.pdf 2013-Ji_TPAMI2013.pdf ...图像识别深度学习经典论文r-cnn、faster rcnn、rpn、fcn、transfer learning等等
  • 基于人工智能图像识别的AGV小车的研究.pdf
  • 人工智能图像识别技术在电力系统中的应用.pdf
  • 基于人工智能图像识别技术在分拣机器人中的应用和开发.pdf
  • 人工智能眼底图像识别与人工识别的一致性分析.pdf
  • 读手语图像识别论文笔记

    千次阅读 2020-03-07 16:48:25
    手语识别背景2.国内外现状3.关键词3.1特征值3.2分类决策 1.手语识别背景 ​ 根据世卫组织最近的一项报道表明,在全球有超过10亿的残疾人,就聋哑人占残疾人口的10%。截止2013年末,据第六次全国人口普查我国总人口数...

    1.手语识别背景

    ​ 根据世卫组织最近的一项报道表明,在全球有超过10亿的残疾人,就聋哑人占残疾人口的10%。截止2013年末,据第六次全国人口普查我国总人口数,及第二次全国残疾人抽样调查我国的残疾人口达8502万人,其中听力残疾2054万人,语言残疾130万人,这些人中只有少部分只听力或语言障碍,大多数人完全失去了与健康人类正常沟通的能力,手语则是他们唯一的交流方式。手语是聋哑人和听障人群的日常交流中自然发展出来的语言,是聋哑人间的主要沟通媒介。手语是一种肢体语言,它主要以手势表达信息,通过手的手形、位置、朝向和运动轨迹即可以传递一个手语,在个别情况下,表情、眼神、唇动和身体姿态也辅助参与到手语的表达上。

    ​ 由于手语不是一门大众化的语言,在听觉正常的人中只有极少数人会使用或理解手语,即使在聋哑人群体中,标准化手语的普及率也很低,不同聋哑人群体使用的手语往往有很大区别,存在很严重的方言现象,由于环境差异,可能会有使用不同的表达方式,所以手势通常是一个不太明确的概念,有时手势表达的含义在不同情境下承载的信息是不同的。那么将手语转换成声音和图像并被人们轻易理解就变得很有实用价值,使正常人能通过机器的翻译“看懂”手语,利用相关语音识别合成技术将文字或语音合成出手语,帮助聋哑人“听出”声音。

    2.国内外现状

    ​ 从研究方法与技术应用中将手语识别技术大致分为两大主流:基于数据手套的手语识别和基于视觉的手语识别。基于数据手套的手语识别系统其实是一个多传感器融合系统,通过对手的角度信息、运动轨迹与时序信息融合处理来分类识别的系统。该系统能精确获取手的信息且识别性高,适合种类多的手语识别;但是使用时需要穿戴笨重的传感设备,这严重影响了人机交换的易用性和自然性,并且设备成本高,在实际生产生活中使用非常不便,难以批量使用。相对而言,基于视觉的手语识别是利用摄像头获取手语的二维图像或者视频,然后利用图像处理,机器学习等先关领域的算法进行手语的识别,该系统更加贴近社会的需求,最适合人机交互。但相对的,该模式手语识别系统很难实现手语特征提取的精确性以及很难有统一的手语识别方法等。因此通过视觉的手语识别系统存在识别率低、实时性差、适用性低的缺陷。

    ​ 对手语识别技术的研究最早产生于国外,1983年,美国电话电报公司的G.J.Grimes取得了“数字数据输入手套接口设备”的专利。该设备能识别72个单字字母,被认定是最早进行手语识别研究的人。1995年,美国麻省理工学院对本国连续手语识别进行研究。提取手语的手形、方向与运动轨迹作为多特征,然后利用隐马尔可夫进行跟踪识别。识别时要求佩戴有色手套。对组成的40个连续句子进行试验验证,正确率为91.3%。随后对句子给予相应语法约束后,识别率达到98%。2010年,日本Morpho公司研究出一项通过人脸寻找附近的手势进行动作识别,并对电视进行控制的人机交互技术。随后推出一款名为3D手势遥控器,利用手势的动作来达到遥控的功能。

    ​ 目前,国内对基于视觉的手语识别研究还较少,主要集中在对简单的手势识别研究上。1995年,哈尔滨工业大学的吴江琴、高文对手语识别系统进行了分析与研究,提出了利用数据手套采集手语的方向、位置、形状等信息,通过人工神经网络和隐马尔科夫相结合的方法实现手语识别方法,从而实现了对13个静态手势的识别以及简单的动作识别。2009年,西安建筑大学的郭彩龙等人针对如何提高手语识别率,通过研究图像的傅里叶描述子的平移、缩放、旋转不变性的特征,研究出一种基于傅里叶描绘子的中国静态识别算法。采用Sobe检测边缘,随后获取边缘的傅里叶系数作为特征量,最后利用欧式距离的模板匹配算法进行识别,识别率达到96.2%。2013年,西南科技大学的林水强等人针对如何实现自然手语识别交互,提出一种基于几何特征的手势识别方法。采用多序列背景模型、肤色跟踪与几何形状相结合的分割算法提取手势。随后利用动态帧方法获取多个几何特征用于决策树进行分类识别。对规定的6种手势进行测试,合格率达94%。

    图中只记录了部分相关研究。

    3.关键词

    手语类型分类:

    ​ 静态手语识别、孤立词手语识别、大规模连续动作手语识别

    研究方式分类:

    ​ 基于数据手套和传感器识别系统、基于视觉图像处理识别系统

    上述涉及相关算法:

    隐形马尔科夫算法(HMM)、人工神经网络、傅里叶描述子算法、Sobe边缘检测、欧式距离、决策树、肤色聚类算法与Harr特征检测算法、人体骨骼匹配算法、KNN临近算法

    3.1特征值

    • 隐形马尔科夫算法(HMM)

      隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。是在被建模的系统被认为是一个马尔可夫过程与未观测到的(隐藏的)的状态的统计马尔可夫模型。

    • 傅里叶描述子算法

      傅立叶描述子是分析和识别物体形状的重要方法之一。利用基于曲线多边形近似的连续傅立叶变换方法 计算傅立叶描述子,并通过形状的主方向消除边界起始点相位影响的方法,定义了新的具有旋转、平移和尺度不变 性的归一化傅立叶描述子。与使用离散傅立叶变换和模归一化的传统傅立叶描述子相比,新的归一化傅立叶描述 子同时保留了模与相位特性,因此能够更好地识别物体的形状。

      图片源文链接:OpenCV-python提取特征(批量处理数据)

    • Sobe边缘检测

      索贝尔算子(Sobel operator)是图像处理中的算子之一,主要用于边缘检测。在技术上,它是一离散型差分算子,用来运算图像亮度函数的梯度之近似值 。在图像的任何一点使用此算子,将会产生对应的梯度矢量或是其法矢量。

      opencv sobe 边缘检测算子

    • 肤色聚类算法与Harr特征检测算法

      肤色检测算法:RGB、Ycrcb之cr分量+otsu阈值化、YCrCb、HSV、基于椭圆皮肤模型的皮肤检测
      opencv自带肤色检测类AdaptiveSkinDetector等都是设定皮肤颜色的范围,再将其过滤出来,不同的是过滤的过程在不同的颜色空间下进行的。

      Haar分类器实际上是Boosting算法的一个应用,Haar分类器用到了Boosting算法中的AdaBoost算法,只是把AdaBoost算法训练出的强分类器进行了级联,并且在底层的特征提取中采用了高效率的矩形特征和积分图方法

    • 人体骨骼匹配算法

      基于骨架匹配的轮廓线提取方法可以生成静态图像中人体的轮廓线图。在图像中找到可以表征人体骨架的骨架关键点,通过骨架关键点,利用图像中各像素点所包含的边缘信息,结合人体形态学先验知识,构建了隐马尔科夫模型来匹配人体上对应骨架关键点的边缘关键点,少量的边缘关键点即可生成人体大致轮廓。

    3.2分类决策

    • 欧式距离

      欧式距离也称欧几里得距离,是最常见的距离度量,衡量的是多维空间中两个点之间的绝对距离。也可以理解为:m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。

      这里引用是用保存的已知手势特征点和预测手势图像特征点求取欧式距离再取均值,欧式距离越小,手势匹配度越高。

    • 人工神经网络

      人工神经网络,也就是ANN(Artificial Neural Network),它是模拟人类大脑处理信息的生物神经网络所产生出来的一种计算模型。而它主要用于机器学习的研究与调用,例如语音识别,计算机图像处理,NLP等。

      通过前面不同手势保存的特征点,对不同手势进行学习,由已知手势预测新的手势。

    • 决策树

      决策树是一种机器学习的方法。决策树的生成算法有ID3, C4.5和C5.0等。决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。

    • KNN临近算法

      近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。


    引用:

    [1] 江勇军. 基于Kinect的孤立词手语识别系统研究[D]. 2015.

    [2] 刘伟康. 基于Kinect的静态数字手语识别研究及系统实现[D]. 2016.

    [3] 孙丽娟. 基于边缘梯度方向直方图的中国静态手语识别[D]. 2009.

    [4] 武红娇. 复杂背景下的静态手语识别技术研究[D].

    [5] 丽娟. 基于边缘梯度方向直方图的中国静态手语识别[D]. 2009.

    [6] 韩宁江. 基于深度学习的手语识别方法研究[D].

    展开全文
  • 基于人工智能图像识别技术分析.pdf
  • 基于人工智能图像识别技术的研究.pdf
  • 人工智能-图像识别

    万次阅读 2019-04-18 15:23:38
    图像识别技术是信息时代的一门重要的...简单分析了图像识别技术的引入、其技术原理以及模式识别等,之后介绍了神经网络的图像识别技术和非线性降维的图像识别技术及图像识别技术的应用。从中可以总结出图像处理技...

    图像识别

      图像识别技术是信息时代的一门重要的技术,其产生目的是为了让计算机代替人类去处理大量的物理信息。随着计算机技术的发展,人类对图像识别技术的认识越来越深刻。图像识别技术的过程分为信息的获取、预处理、特征抽取和选择、分类器设计和分类决策。简单分析了图像识别技术的引入、其技术原理以及模式识别等,之后介绍了神经网络的图像识别技术和非线性降维的图像识别技术及图像识别技术的应用。从中可以总结出图像处理技术的应用广泛,人类的生活将无法离开图像识别技术,研究图像识别技术具有重大意义。

    1、图像识别技术的引入

      图像识别是人工智能的一个重要领域。图像识别的发展经历了三个阶段:文字识别、数字图像处理与识别、物体识别。图像识别,顾名思义,就是对图像做出各种处理、分析,最终识别我们所要研究的目标。今天所指的图像识别并不仅仅是用人类的肉眼,而是借助计算机技术进行识别。虽然人类的识别能力很强大,但是对于高速发展的社会,人类自身识别能力已经满足不了我们的需求,于是就产生了基于计算机的图像识别技术。这就像人类研究生物细胞,完全靠肉眼观察细胞是不现实的,这样自然就产生了显微镜等用于精确观测的仪器。通常一个领域有固有技术无法解决的需求时,就会产生相应的新技术。图像识别技术也是如此,此技术的产生就是为了让计算机代替人类去处理大量的物理信息,解决人类无法识别或者识别率特别低的信息。

    1.1 图像识别技术原理

      其实,图像识别技术背后的原理并不是很难,只是其要处理的信息比较繁琐。计算机的任何处理技术都不是凭空产生的,它都是学者们从生活实践中得到启发而利用程序将其模拟实现的。计算机的图像识别技术和人类的图像识别在原理上并没有本质的区别,只是机器缺少人类在感觉与视觉差上的影响罢了。人类的图像识别也不单单是凭借整个图像存储在脑海中的记忆来识别的,我们识别图像都是依靠图像所具有的本身特征而先将这些图像分了类,然后通过各个类别所具有的特征将图像识别出来的,只是很多时候我们没有意识到这一点。当看到一张图片时,我们的大脑会迅速感应到是否见过此图片或与其相似的图片。其实在“看到”与“感应到”的中间经历了一个迅速识别过程,这个识别的过程和搜索有些类似。在这个过程中,我们的大脑会根据存储记忆中已经分好的类别进行识别,查看是否有与该图像具有相同或类似特征的存储记忆,从而识别出是否见过该图像。机器的图像识别技术也是如此,通过分类并提取重要特征而排除多余的信息来识别图像。机器所提取出的这些特征有时会非常明显,有时又是很普通,这在很大的程度上影响了机器识别的速率。总之,在计算机的视觉识别中,图像的内容通常是用图像特征进行描述。

    1.2 模式识别

      模式识别是人工智能和信息科学的重要组成部分。模式识别是指对表示事物或现象的不同形式的信息做分析和处理从而得到一个对事物或现象做出描述、辨认和分类等的过程。

      计算机的图像识别技术就是模拟人类的图像识别过程。在图像识别的过程中进行模式识别是必不可少的。模式识别原本是人类的一项基本智能。但随着计算机的发展和人工智能的兴起,人类本身的模式识别已经满足不了生活的需要,于是人类就希望用计算机来代替或扩展人类的部分脑力劳动。这样计算机的模式识别就产生了。简单地说,模式识别就是对数据进行分类,它是一门与数学紧密结合的科学,其中所用的思想大部分是概率与统计。模式识别主要分为三种:统计模式识别、句法模式识别、模糊模式识别。

    2、图像识别技术的过程

      既然计算机的图像识别技术与人类的图像识别原理相同,那它们的过程也是大同小异的。图像识别技术的过程分以下几步:信息的获取、预处理、特征抽取和选择、分类器设计和分类决策。

      信息的获取是指通过传感器,将光或声音等信息转化为电信息。也就是获取研究对象的基本信息并通过某种方法将其转变为机器能够认识的信息。

      预处理主要是指图像处理中的去噪、平滑、变换等的操作,从而加强图像的重要特征。

      特征抽取和选择是指在模式识别中,需要进行特征的抽取和选择。简单的理解就是我们所研究的图像是各式各样的,如果要利用某种方法将它们区分开,就要通过这些图像所具有的本身特征来识别,而获取这些特征的过程就是特征抽取。在特征抽取中所得到的特征也许对此次识别并不都是有用的,这个时候就要提取有用的特征,这就是特征的选择。特征抽取和选择在图像识别过程中是非常关键的技术之一,所以对这一步的理解是图像识别的重点。

      分类器设计是指通过训练而得到一种识别规则,通过此识别规则可以得到一种特征分类,使图像识别技术能够得到高识别率。分类决策是指在特征空间中对被识别对象进行分类,从而更好地识别所研究的对象具体属于哪一类。

    3、图像识别技术的分析

      随着计算机技术的迅速发展和科技的不断进步,图像识别技术已经在众多领域中得到了应用。2015年2月15日新浪科技发布一条新闻:“微软最近公布了一篇关于图像识别的研究论文,在一项图像识别的基准测试中,电脑系统识别能力已经超越了人类。人类在归类数据库Image Net中的图像识别错误率为5.1%,而微软研究小组的这个深度学习系统可以达到4.94%的错误率。”从这则新闻中我们可以看出图像识别技术在图像识别方面已经有要超越人类的图像识别能力的趋势。这也说明未来图像识别技术有更大的研究意义与潜力。而且,计算机在很多方面确实具有人类所无法超越的优势,也正是因为这样,图像识别技术才能为人类社会带来更多的应用。

    3.1神经网络的图像识别技术

      神经网络图像识别技术是一种比较新型的图像识别技术,是在传统的图像识别方法和基础上融合神经网络算法的一种图像识别方法。这里的神经网络是指人工神经网络,也就是说这种神经网络并不是动物本身所具有的真正的神经网络,而是人类模仿动物神经网络后人工生成的。在神经网络图像识别技术中,遗传算法与BP网络相融合的神经网络图像识别模型是非常经典的,在很多领域都有它的应用。在图像识别系统中利用神经网络系统,一般会先提取图像的特征,再利用图像所具有的特征映射到神经网络进行图像识别分类。以汽车拍照自动识别技术为例,当汽车通过的时候,汽车自身具有的检测设备会有所感应。此时检测设备就会启用图像采集装置来获取汽车正反面的图像。获取了图像后必须将图像上传到计算机进行保存以便识别。最后车牌定位模块就会提取车牌信息,对车牌上的字符进行识别并显示最终的结果。在对车牌上的字符进行识别的过程中就用到了基于模板匹配算法和基于人工神经网络算法。

    3.2非线性降维的图像识别技术

      计算机的图像识别技术是一个异常高维的识别技术。不管图像本身的分辨率如何,其产生的数据经常是多维性的,这给计算机的识别带来了非常大的困难。想让计算机具有高效地识别能力,最直接有效的方法就是降维。降维分为线性降维和非线性降维。例如主成分分析(PCA)和线性奇异分析(LDA)等就是常见的线性降维方法,它们的特点是简单、易于理解。但是通过线性降维处理的是整体的数据集合,所求的是整个数据集合的最优低维投影。经过验证,这种线性的降维策略计算复杂度高而且占用相对较多的时间和空间,因此就产生了基于非线性降维的图像识别技术,它是一种极其有效的非线性特征提取方法。此技术可以发现图像的非线性结构而且可以在不破坏其本征结构的基础上对其进行降维,使计算机的图像识别在尽量低的维度上进行,这样就提高了识别速率。例如人脸图像识别系统所需的维数通常很高,其复杂度之高对计算机来说无疑是巨大的“灾难”。由于在高维度空间中人脸图像的不均匀分布,使得人类可以通过非线性降维技术来得到分布紧凑的人脸图像,从而提高人脸识别技术的高效性。

    3.3 图像识别技术的应用及前景 

      计算机的图像识别技术在公共安全、生物、工业、农业、交通、医疗等很多领域都有应用。例如交通方面的车牌识别系统;公共安全方面的人脸识别技术、指纹识别技术;农业方面的种子识别技术、食品品质检测技术;医学方面的心电图识别技术等。随着计算机技术的不断发展,图像识别技术也在不断地优化,其算法也在不断地改进。图像是人类获取和交换信息的主要来源,因此与图像相关的图像识别技术必定也是未来的研究重点。以后计算机的图像识别技术很有可能在更多的领域崭露头角,它的应用前景也是不可限量的,人类的生活也将更加离不开图像识别技术。

      图像识别技术虽然是刚兴起的技术,但其应用已是相当广泛。并且,图像识别技术也在不断地成长,随着科技的不断进步,人类对图像识别技术的认识也会更加深刻。未来图像识别技术将会更加强大,更加智能地出现在我们的生活中,为人类社会的更多领域带来重大的应用。在21世纪这个信息化的时代,我们无法想象离开了图像识别技术以后我们的生活会变成什么样。图像识别技术是人类现在以及未来生活必不可少的一项技术。

    人工智能

      Fly-AI竞赛服务平台是为AI开发者提供数据竞赛并支持GPU离线训练的一站式服务平台。每周免费提供项目开源算法样例,支持算法能力变现以及快速的迭代算法模型。有兴趣参与图像识别、语音、自然语言处理的AI开发者,可以参与竞赛并且有奖金可以赚取。

      https://www.flyai.com/d/OCRWords    3981个中文文字图像识别

      https://www.flyai.com/d/BirdClassification     200种鸟类图像分类

     

     

     

     

     

     

    展开全文
  • 医疗图像识别论文: 传统方法:依靠图像内容的图像检索方式(Content-based image retrieval CBIR)CBIR 基于色彩的索引技术 基于纹理的图像分类技术 基于形状的图像分类技术 神经网络方法 Coates等人...

    原文发布在我的幕布

    医疗图像识别论文:

    Convolutional Neural Networks for Medical Image Analysis: Full Training or Fine Tuning?
    下载地址
    :https://arxiv.org/pdf/1706.00712.pdf

    • 传统方法:依靠图像内容的图像检索方式(Content-based image retrieval
      CBIR)CBIR

      • 基于色彩的索引技术

      • 基于纹理的图像分类技术

      • 基于形状的图像分类技术

    • 神经网络方法

      • Coates等人所描述的单层网络结构学习框架:

        • Paccanaro, A., Hinton, G. E. (2001). Learning hierarchical
          structures with linear relational embedding. In Advances in neural
          information processing systems (Vol. 14). Cambridge: MIT Press.
      • Cruzroa等人提出基于稀疏自动编码器的深度学习模型,用于基底细胞癌的自动化肿瘤检测

        • Cruzroa A, Gilmore H, Feldman M, et al. Automatic detection of
          invasive ductal carcinoma in whole slide images with
          convolutional neural networks[J]. Proceedings of SPIE - The
          International Society for Optical Engineering, 2014,
          9041(2):139-144.
      • .Zou使用卷积神经网络对WCE图像中的消化器官进行分类

        • Zou Y, Li L, Wang Y, et al. Classifying digestive organs
          in wireless capsule endoscopy images based on deep
          convolutional neural network[C]// IEEE International Conference
          on Digital Signal Processing. IEEE, 2015:1274-1278.
      • Chen运用基于卷积神经网络的深度学习框架对青光眼进行识别

        • Chen X, Xu Y, Yan S, et al. Automatic Feature Learning for Glaucoma
          Detection Based on Deep Learning[M]//Medical Image Computing and
          Computer-Assisted Intervention – MICCAI 2015. Springer International
          Publishing, 2015:669-677.

    息肉与结肠镜检测

    A.息肉检测

    • 1.结肠镜检查是结肠癌筛选和预防的首选技术

    • 2.息肉在颜色、形状、和大小方面有差异

    • 3.息肉检查的错误率估计为4%~12%【43】,但是最近的临床显示,误检率可能高达25%。大肠癌的误检可能导致后续的转移性结肠癌,存活率低于10%

    • 4.早期的系统依赖于息肉的颜色与纹理进行检测,但是息肉之间较大的颜色变化跟表面纹理的可见性受限,会阻碍这个系统的适用性

    • 5.近期的系统依赖于时间信息与形状信息,提高息肉检测。外形的特征被证明比颜色跟纹理更加有效。这个方法在【42】达到高潮

    • [42]N.Tajbakhsh,S.Gurudu,andJ.Liang,“Automatedpolypdetectionincolonoscopyvideosusingshapeandcontextinformation,”IEEETrans.Med.Imag.,vol.35,no.2,pp.630–644,Feb.2016.

    • 6.为了试图克服仅依靠形状的方法的限制,我们建议使用结合形状和息肉边界进行手工雕琢(制作)的方法

    • 7.实验:

    • (1)选用40个短纤维结肠镜视频作为数据库,每个结肠镜检查帧带有一个二进制(二元)的正确标注的图像

    • (2)随机分为训练集:3800帧有息肉的,15100帧无息肉的

    • 测试机:5700帧有息肉的,13200帧无息肉的

    • (3)将【42】的handcraft方法用于训练集与测试集中获得一组有相应的边框的息肉候选

    • (4)对于每个候选,考虑到边框的大小,抽取了一组数据做了增强数据的补丁:(a)在三个刻度(scale)内扩大1.0X、1.2X、1.5X倍提取补丁。(b)水平垂直方向调整10%(c)转换候选位置通过水平和垂直的镜像和翻转,重复8次

    • 8如果边框落在正确样本中标记为+,否则标记为-

    • 9.息肉补丁提取的用于训练CNN

    • 10.更多的卷积层被被调节,效果越好1-5conv,678-fc

    • 11.当样本数量较少时使用微调的效果会明显好于全训练

    • B结肠镜的检查帧分类

    • 1.图像价值评价在结肠镜检查中有重要作用

    • 2.一个结肠镜视频通常包含很多无用信息的图片:对检查和治疗无用

    • 3.一个视频中的无用图片越多,结肠镜的可视化质量越低

    • 4.通过检测捕获图像的质量来限制低质量的检查和品质控制

    • 5.结肠镜检查的图像质量评价能被看作一个图像分类任务:把一个图像分为“有信息”和“无信息”fig(5)

    • 6.【65】提出了一种基于本地的与全球图像联合的误差重构特征,优于【66】【67】

    • a handcrafted approach based on local andglobal features that were pooled
      from the image reconstruction error

    • 7.使用深层的CNN代替精心设计

    • 8.实验:六个完整的结肠镜视频

    • (1)每个视频每5秒选取一帧:去除相似的帧

    • (2)取得4000个结肠镜帧,对于有无信息无差别取样

    • (3)通过专家手工标注有无信息

    • (4)分为2000个训练集与2000个测试集

    • (5)从每个500*350的帧中随机选取200个227*227的子图像——40000

    • (6)每隔帧判断为“有信息”的概率是子图像的平均概率

    • 9.性能对比

    展开全文
  • 面向人工智能图像识别技术的应用分析.pdf
  • 基于人工智能图像识别技术分析 (1).pdf
  • 基于人工智能图像识别技术在交通气象服务中的应用.pdf
  • 深度学习在人工智能领域已经取得了非常优秀的成就,在有监督识别任务中,使用深度学习算法训练海量的带标签数据,可以达到前所未有的识别精确度。但是,由于对海量数据的标注工作成本昂贵,对罕见类别获取海量数据...
  • 基于人工智能图像识别技术在城市轨道交通AFC系统的应用.pdf
  • 基于人工智能图像识别技术在抽水蓄能电站中的应用研究.pdf
  • 试析图像识别技术在人工智能中的应用.pdf
  • 图像识别技术在人工智能中的应用探析.pdf
  • 人工智能技术在胶囊内镜图像识别中的应用进展.pdf
  • AI 图像识别项目从入门到上线

    千次阅读 2018-07-03 02:45:11
    课程介绍 本课程是一个完整的项目实战课程,从项目调研开始到项目最终上线,完整的复现了基于...第 03~05 课,将介绍 Linux、图像、Python 等开源包,以及神经网络的基础知识,为接下来的项目做准备。 第 06~08 课...

    课程介绍

    本课程是一个完整的项目实战课程,从项目调研开始到项目最终上线,完整的复现了基于深度学习的实战项目的流程。

    本课程系列文章具有很强的工程性质,同时内容追求循序渐进,建议从头开始学习。

    • 第 01~02 课,将讲述如何调研一个项目,如何获取数据与整理数据。
    • 第 03~05 课,将介绍 Linux、图像、Python 等开源包,以及神经网络的基础知识,为接下来的项目做准备。
    • 第 06~08 课,将介绍目前 3 大用户量最大的深度学习开源平台,将讲述准备数据、定义网络、训练模型、使用模型测试自己的图片的整个流程。
    • 第 09~11 课,将集中讲解如何训练模型并进行迭代优化。
    • 第 12~14 课,我们将把训练出来的模型部署到微信小程序上,同时介绍小程序的前、后端的基础技术。

    认真学完这个系列文章之后,将会深入理解一个基于深度学习的项目是如何从一个想法变为一个真正产品的。对于欲转行的人来说,它提供了一个完整的学习链,学习完之后将直接具有从事该行业的基本能力。对于已经是相关从业人员来说,可以作为一个知识和经验的补充。

    专家推荐

    本课程是基于深度学习的图像项目开发实践课程。作者提供了一个非常完整的从深度学习理论、实践到工业级生产的链条。既有基础的代码与图像知识,深度学习入门理论、基于 Python 的几大主流开源框架的使用;又有实际项目开发中调研立项,从需求分析到实际业务模型的训练与迭代,最终到模型部署、小程序的前后端开发。本课程非常适合深度学习初学者作为入门,也适用于需要进一步巩固深度学习技能的从业者,十分推荐!

    —— 陈强,360 人工智能研究院科学家

    作者介绍

    龙鹏,6 年计算机视觉项目从业经验,华中科技大学本科,中国科学院硕士,原 360 图像搜索,人工智能研究院算法工程师,今陌陌深度学习实验室算法工程师,拥有个人技术公众号《与有三学 AI》,曾在 GitChat 开设过《AI 程序员码说摄影图像基础》课程。

    参与过图像增强降噪、自动驾驶、视频内容分析、人脸表情与 Parsing 等项目,并熟悉传统图像处理算法基础知识,拥有丰富的基于机器学习的计算机视觉项目经验。

    课程内容

    导读:致想入坑深度学习的你

    从混了几年到遇见深度学习

    2011 年暑假,湿热的武汉校园里,华科电子系里的前 15 名同学正在厮杀 13 个保外的名额,虽然单论裸成绩和加上加分后的成绩的话,我不会掉队,但是,在当时的十几个人中,大部分人仍然会觉得这个有很大的变数。到什么地步呢?举一个例子,拥有计算机网络这个证书到底是按照往年一样加 1 分?还是按照当年新规加 0.5 分?大家在辅导员面前多次争执。第一名和第十名的加权分差好像都没有超过 0.5 分的,所以这一点区别有多大,大家可以想象一下。

    为此,每晚回宿舍都会有最新消息传回来,我很苦恼,所以在 8 月份的时候,赶上了中科院物理所夏令营的晚班车。

    十几天的夏令营很爽,匆匆参观了几十个研究所,高端到紫金山天文台、正负电子对撞机等,听北航物理系专业的同学整天说:优秀的人才必须先留本校,所有有很多想出来的人考试故意放水等。然后,在参观后来就读的半导体所时,淋了一场大雨,当时以为北京每年还是会下很多次雨的。

    那个时候我曾经有另一个选择,即自动化所刘成林老师组。来北京之前邮件联系过,后来在刘老师办公室也聊了很久,只可惜夏令营回去之后,保外的竞争仍然由于额外增加专业考试的存在而没有结束,以至于误了自动化所的面试。后来被问面试结果如何时,实在无脸答问。

    没想到的是,保外最终以所有人的胜利结束了,折腾了几个月后,跟着系里以前的师兄,选择了中科院半导体研究所,毕竟自己是微电子专业,这也算是本行了吧。

    然后到了实验室做毕设,师兄拼凑了一台 512 M 内存的电脑,开始用 Xilinx 和 Matlab 做毕业设计,写 Verilog 代码,以前没有学拍照,照片也没保存下来,就只有下图为证了。

    enter image description here

    每天的业余生活就是打球打球打球,然后混到了硕士毕业。

    刚入研究所的第一年有高温假,几乎所有同学都回家度过了那两个星期的高温假,我跟另一个哥们儿留下来学习。把数字图像处理和 C++ Prime 认真看了一遍,算是入门了。直到 2015 年毕业,陆陆续续意识到深度学习的兴起,在外听百度 IDL 的一些人的演讲,也没有正儿八经的做过深度学习的项目。硕士论文写了 130 多页,从图像降噪到分割,从 Guided Filter 到去雾算法,到 Level Set、Grab Cut,全部都是传统的图像算法。毕业后还有好几个人问之前发的一篇改进 Guided Filter 的文章,不得不感叹,何凯明真不是一般人。

    毕业后进入 360 图像组,我们组和颜水成老师手下的一批学生一起组建成了最开始的 360 AI 研究院,开始从自动驾驶、辅助驾驶做到美颜相关的项目,才算是真正入了行业前沿。在 360 的日子是很苦涩的,两年住的地方都离公司不超过 50 米,但是环境不是 5 户的隔断、就是 7 平米的小卧室,从生活上来说,毫无质量可言。

    但是,加班的生活使我淡定了很多,没有学校里那么浮躁了,颜老师偶尔递过来给大家喝的鸡汤,也还受用,熏陶了一段时间之后,因为寻求更合适的生活而离开了。

    如果读书的时候,我更加努力,遇到更对的方向和优秀的人,那么今天一定会更好,相信学习完这套课程内容后,你不会后悔。

    我眼中的深度学习

    现在应该有一部分读者并不懂图像算法,只了解深层神经网络的调参,我觉得这是错误的。遇到真正有挑战的问题,需要用传统方法辅助解决的时候,一定会黔驴技穷。所以,建议大家趁早夯实自己的图像基础和传统机器学习算法基础。

    这些年大大小小做了不少项目,对于深度学习这个工具多少有了一些体会。本系列课程主要面向的对象是想快速入行的朋友。

    为什么深度学习这么火

    6年前的时候,我带着实验室师姐和师妹,参加中科院的一个植物识别比赛。

    那个时候,谁也没有深度学习经验,也没有多少机器学习的基础,神经网络玩的也不好,所以我们的思路是什么呢?用一些方法把植物主体提取出来,然后提取各种颜色特征、形状特征、纹理特征输入分类器。到最后,大家积极性并不高,比赛都没有完成。

    如果回到今天,这是一个再简单不过的分类问题了。

    深度学习之所以这么火,就是因为它的技术成熟了,它能让某些问题得到很轻松、成熟的解决。

    从刷脸支付到虐遍人间的 Alpha 狗,都是技术发展的产物,所以它该火,因为它做到了上一代技术做不到的事情。

    深度学习是什么,很难学吗

    深度学习是什么?我这里只说它的一个方向,深层卷积神经网络,这是图像处理领域所说的深度学习,后面说深度学习就指代这个了。它的本质是神经网络,不是本世纪出来的新技术,只是有了一些新技巧的加入,关于这个问题,我们以后再详细说。

    那么深度学习难学吗?

    当然难学,不然为什么做这一行的工资那么高、人才这么稀缺。但是,如果你把深度学习只当作一个调参工作来说,它不难学,一个高中生经过 3 个月的培训,足够了。那么,深度学习难在哪里?

    对所要解决的问题的理解

    传统方法解决问题的思路,是先拎出来一个任务,然后针对这个任务设计图像特征。在这个过程中,我们不可避免的会去简化问题,去针对不同的数据来源、想不同的方案。而深度学习这个黑盒子,淡化了这个过程,每个人尤其是新手,以为丢进去一批数据之后,就能得到想要的结果,而实际上几乎不可能。

    要想做好一个项目,需要知道应该准备什么样的数据、准备多少数据,不同来源的数据怎么使用,怎么确定哪些数据是高质量、哪些是低质量的。比如室内的数据和室外的数据,前置摄像头和后置摄像头的数据对于一个任务来说是不是有差异。

    需要知道什么时候该简化问题,比如表情识别的时候,不应该输入一整张图做训练。初学者,往往认为分类任务很简单,那是因为他们没有面临真正的问题,当你只是为了识别猫和狗,当然简单。但是当你要识别正脸和非正脸时,就必然要处理模糊边界。实际的业务,需要不断做出调整,远非实验室环境和比赛环境下近乎完美的设定。

    前段时间带了一个实习生对此就有了深刻的体验,感兴趣不妨读一读,方便手机阅读做了二维码。

    57fe86a0-689e-11e8-9f59-718a7297492a

    上面只说了一部分,实际上对所要解决的问题的理解,是一个很需要经验的活,只有不断实战才能进步,没有一年半载的锻炼,一般都无法独自承担任务。

    对能力的要求

    网上曾经有过对从事深度学习相关岗位人的能力要求,我这里做一个简化版,这些技能是必须掌握的。

    • 熟练掌握 C/C++、Python 等编程语言;
    • 熟练掌握 Caffe、TensorFlow 等以及不断新出的开源平台;
    • 熟练阅读行业前沿研究,都是英文 Paper,并经常需要复现结果。
    • 一般必须掌握爬虫、服务端等前后端的基础知识,保证日常项目需要时能独立开工;
    • 了解并熟悉 Cuda 等 GPU 编程技术,了解一些移动端的硬件知识;
    • 了解并熟悉 Android、iOS 等移动端的基础知识,在项目中可能会需要使用。

    优秀的人才,上面这些技能基本全部必备,难不难,技术人员对比下自己的水平,想必自有判断。

    好了,先说到这儿,以后要说的还多着呢,我是言有三,以后还请多多关照。

    福利:为了方便沟通、交流,建立了一个微信群,里面有国内顶尖互联网公司的朋友和遍布各地的学生,欢迎加入。由于已经超过 100 人,加群请添加有三微信:Longlongtogo。

    点击了解更多《AI 图像识别项目从入门到上线》

    第01课:如何科学的调研并启动一个项目

    每一个项目的第一步就是立项,立项需要进行充分的调研才能确定是否值得启动一个项目。调研主要是要做好两个方向:(1)算法调研,主要是确定可行的技术路线,更具体的说,想清楚要做的事情是否已经到达落地的水准,也就是可行性的验证;(2)市场调研,它主要确定的是,所选中的方案是否有市场需求,是否已经有成熟的竞争对手和市场。

    下面分别从这两个方向进行讲述,我们以图像风格化为例,所谓图像风格化,学术名词是 Image Style Transfer,研究起源于这一篇论文 A Neural Algorithm of Artistic Style[1],三年前我的公众号《与有三学 AI》也做过报导,有兴趣的读者可以看看:

    b0684980-660e-11e8-805a-fff8f9e45021

    它是采用神经网络的方法,分别学习到一幅图像的纹理和风格,从而实现从一幅图像风格到另一幅图像的迁移,如下,将图2的风格,应用到图1上。

    enter image description here

    当然,现在已经有了很多新的应用,尤其是基于人脸的非常多,关于详细的介绍和技术原理可以参考我以前开设的 AI 摄影基础课程,里面详细地讲述了摄影中各方面的图像知识。

    d460d050-660e-11e8-99a8-13c1eb5f6d08

    在我的知乎专栏中,也有更多的细节:

    084c3030-6614-11e8-a88c-9f3e5ab836f6

    下面言归正传,回到风格化研究的调研。

    从哪些地方开始调研

    市场调研

    在做算法调研之前,先要做市场调研。市场调研需要涵盖主流的产品形态,包括 App、普通的网页应用以及小程序;所面对的目标用户(年龄层次、地域分布)、现有的市场份额以及潜在的竞争对手等也需要了解。

    这一块儿没有多少可说的,平时多关注关注新闻、相关朋友圈的分享、相关公众号即可,比如当年非常火的 Prisma,作为从业人员想忽视也不容易的。

    2615c4a0-6614-11e8-805a-fff8f9e45021

    然后到 iOS 平台和安卓平台去搜搜关键词,看看各大公司是否已经跟上推出的类似产品?

    我们调研一下就知道,国内几大图像算法公司,腾讯的天天P图、美图科技的美图秀秀、Camera360 的 MIX 滤镜都有相关产品,其他小产品也不少。

    我们分别以三张人脸和风景图做测试。

    24617730-660f-11e8-99a8-13c1eb5f6d08

    28d59a30-660f-11e8-99a8-13c1eb5f6d08

    833aaa50-6610-11e8-924b-31a46a6329a5

    2d3bb370-660f-11e8-a88c-9f3e5ab836f6

    试试美图黑科技中绘画机器人:

    3dd916a0-660f-11e8-99a8-13c1eb5f6d08

    49c91e60-660f-11e8-924b-31a46a6329a5

    试试用天天P图出的小学生证件照吧:

    6d903f80-6610-11e8-805a-fff8f9e45021

    还有各种民国仙侠风:

    cdc304a0-6610-11e8-a88c-9f3e5ab836f6

    MIX 中艺术滤镜:

    e06b04e0-6610-11e8-99a8-13c1eb5f6d08

    56d90740-6e21-11e8-9722-a7ceb2ddb814

    当然,现在已经存在非常多类似的 App 了,初步的调研结果显示,基于图片的风格化技术已经很成熟,而且产品面世也已经不止两年了,我们偶尔会在朋友圈里看到类似的分享尤其是节假日,当然具体的用户比例,可能需要我们自己去做一些调研问卷、投票之类的。

    不过,还没有看到比较好的基于视频的调研结果,所以这可能是一个突破点。

    最后总结一下调研的结果。

    建议从以下几个方向:

    • 技术成熟度
    • 受众
    • 产品使用频率
    • 竞争对手

    enter image description here

    算法调研

    国内外前沿学术研究

    可以找一些好的博士硕士论文,相关综述,看看总结和方向,再找学术界和工业界的相关比赛以及数据集。

    中文调研

    (1)首先调研综述类文章,查看 CNKI 相关关键词的博士硕士论文,以及优秀中文期刊的综述。还是以图像风格化为例,到中国知网平台,搜索结果详见这里

    enter image description here

    (2)百度学术调研

    虽然百度学术与 Google 学术相差甚远,但是也可以作为辅助。

    点击该链接,可弹出如下图所示的结果:

    76552990-6611-11e8-99a8-13c1eb5f6d08

    这其中可以调研到发表时间、来源期刊,同时可以获取到引用格式,这在写作学术论文和调研报告中也会非常有用。

    8337f5c0-6611-11e8-a88c-9f3e5ab836f6

    英文调研

    中文调研应该作为一个入门的了解,而英文文献的调研,才是了解最前沿技术的正确方法,必须使用好 Google 学术以及 Google 通用搜索引擎。同时,由于现在很多的论文在接收和正式发表之前,都已经发在了arxiv平台上,所以为了获取最新的研究结果,这个也是必须的。

    (1)Google 与 Google 学术

    Google 学术擅长于寻找正式发表的学术论文,而 Google 通用搜索引擎则可以广泛浏览相关内容,都需要去仔细筛选。

    8d4cd4e0-6611-11e8-99a8-13c1eb5f6d08

    enter image description here

    另外,Google 和百度都提供了一个 API 调研,即关键词的热度趋势

    enter image description here

    百度指数

    enter image description here

    (2)Arxiv

    学术界最新的研究成果往往是先发表在这里,甚至可能领先正式出版机构一年以上,所以这也是需要去认真调研的。机器学习相关的在 computer science 栏目下。

    enter image description here

    enter image description here

    在调研学术论文的时候,优先看综述,然后重点关注知名的研究机构,引用量大的论文。

    比如,开启图像风格化这个方向的【1】,Neural Style Transfer: A Review【2】,李飞飞组的实时风格化研究【3】等,这些是需要重点关注的。

    通过阅读综述文章、一系列经典文章和前沿文章之后,就能对该方向的技术路线等有了很明确的认知。当然如果有机会参与一些比较牛的团队或者身边有相关人脉,则更有可能获得最新的研究成果,那也是极好的。

    行业媒体调研

    在机器学习领域,现在有很多的优秀自媒体,他们也会经常总结一些前沿的研究,所以这也是一个很好的调研渠道。

    这里做一些推荐:

    • 机器之心、新智元、AI 科技评论、AI 科技大本营,都是人工智能媒体与产业服务平台,注重总结学术界的最新研究与工业界的最新动向,干货很多。
    • 深度学习大讲堂、Paperweekly、国内 CV 界的前沿研究推送,以学术为主,解读前沿论文。
    • 大数据文摘、内容不限于 AI 与机器学习,所有与大数据相关的资料,所以也会显得更加全而杂乱。
    • 36氪、虎啸网等,注重商业报告,尤其强调行业趋势,创业的朋友肯定需要经常关注。
    • 知乎、微博,虽然现在知乎内容越来越多整体质量下滑严重,但是仍然是国内尤其是技术精英喜欢逛的地方。虽然微博娱乐泛滥,但是也不能完全否定它上面也有一些还不错的自媒体,像每天坚持截取论文研究结果的“爱可可爱生活”,以及各大新闻媒体如新浪科技、还有大佬的微博动向,比如雷军每次都会介绍自家小米的产品。

    当然厚脸皮推荐一下自己鼓捣的技术公众号《与有三学 AI》以及知乎专栏《深度学习模型训练经验与代码剖析》,水平有限未形成规模,欢迎大家加入,专栏上面已经放出。

    70703120-6614-11e8-805a-fff8f9e45021

    GitHub

    GitHub 的重要性就不用多说了吧,鉴于它已经成为了最大的技术人员交友平台,所以在这里调研技术再适合不够。另外,正好这几天微软收购了 GitHub,对于一个像苹果一样封闭的公司,微软做出这样的改变其后续动作值得期待。同时,微软亚洲研究院的计算机视觉研究是国际顶尖的,不知道这次并购会不会带来更多惊喜。

    以 image style transfer 为例,很快就能找到一个高质量的资源,点击详见这里

    enter image description here

    带有相当完整的论文 list 与开源代码,再精读这些资源之后,想不了解都难了。而且,等正式开始干活之后,这些资源很有可能就会成为起点。

    怎样写好调研报告

    上面既然已经完成了调研,那么要交出去给其他人看的时候,就一定要写好调研报告。下面做出一些总结,主要从以下几个方向入手,还是以图像风格化为例。

    用户调研总结

    (1)潜在用户

    • AI 技术爱好者,这一类人喜欢尝试新鲜技术。
    • 摄影爱好者,喜欢研究各类滤镜。
    • 女性,对于美颜和人脸风格化有需求的广大女性。

    (2)使用地点、时间点和频次

    朋友圈等社交平台,属于日常低频需求,朋友圈偶见转发,可能集中在特定节日,比如 5-4 青年节天天P图推出的民国风格。

    (3)用户需求

    求新与切合时间点,喜欢不断尝试新的滤镜,喜欢在特定时间段集中爆发尝试与转发。

    (4)使用平台

    移动端 App 和网页应用。

    总结:图像风格化实际上是一个低频非刚需,它与美颜有着本质的区别,因为后者只是对图像的微调,而前者则是一个新的创作。因此,如果做这一类产品,结合特定时间点做趣味性强的短期爆款制造营销事件比特意开发一个 App 会更加符合一个新的产品定位。

    竞争对手调研总结

    • 美图秀秀与天天 P 图等国内 App。

    对手特点,技术一流、产品全面且受众广,总是能在特殊时间点制造营销爆点,正面 PK 技术实力和产品设计都面临很大的考验,失败风险大。

    • 小蚁 AI 艺术等小程序:产品简单,效果相比主流 App 较差,有视频风格化。

    总结:针对大公司技术实力强但是不敢轻易尝试非成熟技术,而小公司技术实力弱但是产品可以快速迭代的特点,我们可以以短小精美的前端界面 + 最新技术探索的方式,甚至尝试非主流擦边球的形态来突然推出爆款。

    技术调研总结

    • 静态图片风格化

    技术路线已经比较成熟且风格化效果较好,相关 App 已经大量出现,门槛较低,有经验的工程师一个月内实现一个 demo 上线没问题。

    • 视频风格化

    计算代价较高相关竞品很少,需要具备一流研发能力的团队。

    最终总结:磨刀不误砍柴工,在正式想好做一个项目之前,最好先做好上面的3步调研,免得闭门造车。


    【1】 Gatys L A, Ecker A S, Bethge M. A neural algorithm of artistic style[J]. arXiv preprint arXiv:1508.06576, 2015.

    【2】 Jing Y, Yang Y, Feng Z, et al. Neural style transfer: A review[J]. arXiv preprint arXiv:1705.04058, 2017.

    【3】 Johnson J, Alahi A, Fei-Fei L. Perceptual losses for real-time style transfer and super-resolution[C]//European Conference on Computer Vision. Springer, Cham, 2016: 694-711.

    点击了解更多《AI 图像识别项目从入门到上线》

    第02课:如何科学的准备并整理数据
    第03课:如何储备代码基础
    第04课:怎样准备图像基础知识
    第05课:怎么储备深度学习与神经网络基础
    第06课:开源框架之 Caffe 图像分类实战
    第07课:开源框架之 TensorFlow 图像分类实战
    第08课:开源框架之 Pytorch 图像分类实战
    第09课:如何快速训练出第一版模型
    第10课:如何进行数据的迭代与优化
    第11课:如何进行模型的迭代与优化
    第12课:微信小程序模型部署之前端
    第13课:微信小程序模型部署之服务端
    第14课:总结

    阅读全文: http://gitbook.cn/gitchat/column/5b1f709a472e0a7085638f9b

    展开全文
  • 高中人工智能课程教学探索与实践——以图像识别为例.pdf
  • 学士论文项目-使用卫星图像识别水体的AI模型。 该项目是作为为学士学位论文进行的实验的一部分而开发的。 该项目的目标是训练一个使用卫星图像识别水体的AI模型。 团队 该研究小组由以下成员组成: 伊维卡·克恩...
  • 图像识别技术及其在人工智能领域半导体芯片拉力测试的应用研究.pdf
  • 小学人工智能课程的实施与探索——以“认识图像识别”为例.pdf
  • 从一片树叶入手认识图像识别技术——探索小学信息技术人工智能启蒙课程.pdf
  • 小学阶段人工智能校本课程的开发与实施——以《智能结算》图像识别一课为例.pdf
  • 选用最小二乘支持向量机(LS-SVM)为煤和矸石图像识别分类器,以灰度均值和最大频数对应的灰度值组成的灰度特征、纹理对比度和熵组成的纹理特征、最大频数对应的灰度值和纹理对比度组成的联合特征作为分类器的输入向量...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 36,376
精华内容 14,550
热门标签
关键字:

人工智能图像识别论文