计算机视觉主要应用

2019-04-09 16:47:33 zhinengxuexi 阅读数 3122

计算机视觉顾名思义,就是让计算机具备像人眼一样观察和识别的能力,更进一步的说,就是指用摄像机和电脑代替人眼对目标进行识别、跟踪和测量,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。

那么计算机视觉和人工智能是什么联系呢?
作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取“信息”的人工智能系统。计算机视觉目前还主要停留在图像信息表达和物体识别阶段,人工智能更强调推理和决策。

目前计算机视觉主要应用在安防摄像头、交通摄像头、无人驾驶、无人机、金融、医疗等方面。国内代表性公司有海康威视、大华股份等传统大公司,还有商汤科技、云从科技、依图科技以及旷视科技等独角兽企业,还有思岚科技、速感科技、阅面科技、云天励飞、Yi+、图漾信息、码隆科技、格灵深瞳、Insta360等创业企业。
人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
人工智能时代,AI人才都有哪些特征?
http://www.duozhishidai.com/article-1792-1.html
深度学习与计算机视觉的具体介绍
http://www.duozhishidai.com/article-15924-1.html
计算机视觉如何入门
http://www.duozhishidai.com/article-8235-1.html
计算机视觉影响人工智能的发展方式,主要有哪五种?
http://www.duozhishidai.com/article-2903-1.html


多智时代-人工智能大数据学习入门网站|人工智能、大数据、物联网云计算的学习交流网站

多智时代-人工智能大数据学习入门网站|人工智能、大数据、云计算、物联网的学习服务的好平台
2019-07-03 08:25:00 AI_study 阅读数 1072

点击上方AI算法与图像处理”,选择加"星标"或“置顶”

重磅干货,第一时间送达640?wx_fmt=jpeg

转载自:算法猿的成长

计算机视觉可以分为以下几大方向:

  1. 图像分类

  2. 目标检测

  3. 图像分割

  4. 风格迁移

  5. 图像重构

  6. 超分辨率

  7. 图像生成

  8. 人脸

  9. 其他

虽然这里说的都是图像,但其实视频也属于计算机视觉的研究对象,所以还有视频分类、检测、生成,以及追踪,但篇幅的关系,以及目前研究工作方向也集中于图像,暂时就不介绍视频方面应用的内容。

每个方向会简单介绍该方向需要解决的问题,以及推荐一些 Github 项目、论文或者是综述文章。

因为公众号不支持外链,所以文中部分链接无法直接点开,可以点击文末“阅读原文”,查看原文来直接跳转链接。


1. 图像分类(Image Classification)

图像分类,也可以称为图像识别,顾名思义,就是辨别图像是什么,或者说图像中的物体属于什么类别。

图像分类根据不同分类标准可以划分为很多种子方向。

比如根据类别标签,可以划分为:

  • 二分类问题,比如判断图片中是否包含人脸;

  • 多分类问题,比如鸟类识别;

  • 多标签分类,每个类别都包含多种属性的标签,比如对于服饰分类,可以加上衣服颜色、纹理、袖长等标签,输出的不只是单一的类别,还可以包括多个属性。

根据分类对象,可以划分为:

  • 通用分类,比如简单划分为鸟类、车、猫、狗等类别;

  • 细粒度分类,目前图像分类比较热门的领域,比如鸟类、花卉、猫狗等类别,它们的一些更精细的类别之间非常相似,而同个类别则可能由于遮挡、角度、光照等原因就不易分辨。

根据类别数量,还可以分为:

  • Few-shot learning:即小样本学习,训练集中每个类别数量很少,包括 one-shot 和 zero-shot

  • large-scale learning:大规模样本学习,也是现在主流的分类方法,这也是由于深度学习对数据集的要求。

推荐的 Github 项目如下:

  • Awesome Image Classification

  • awesome-few-shot-learning

  • awesome-zero-shot-learning

论文:

  • ImageNet Classification With Deep Convolutional Neural Networks, 2012

  • Very Deep Convolutional Networks for Large-Scale Image Recognition, 2014.

  • Going Deeper with Convolutions, 2015.

  • Deep Residual Learning for Image Recognition, 2015.

  • Inceptionv4 && Inception-ResNetv2,2016

  • RexNext,2016

  • NasNet,2017

  • ShuffleNetV2,2018

  • SKNet,2019

文章:

常用的图像分类数据集:

  • Mnist:手写数字数据集,包含 60000 张训练集和 10000 张测试集。

  • Cifar:分为 Cifar10 和 Cifar100。前者包含 60000 张图片,总共10个类别,每类 6000 张图片。后者是 100 个类别,每个类别 600 张图片。类别包括猫狗鸟等动物、飞机汽车船等交通工具。

  • Imagenet:应该是目前最大的开源图像数据集,包含 1500 万张图片,2.2 万个类别。

2. 目标检测(Object Detection)

目标检测通常包含两方面的工作,首先是找到目标,然后就是识别目标。

目标检测可以分为单物体检测和多物体检测,即图像中目标的数量,例子如下所示:

640?wx_fmt=jpeg

640?wx_fmt=jpeg

以上两个例子是来自 VOC 2012 数据集的图片,实际上还有更多更复杂的场景,如 MS COCO 数据集的图片例子:

640?wx_fmt=png

目标检测领域,其实有很多方法,其发展史如下所示:

640?wx_fmt=jpeg

从上图可以知道有几个方法系列:

  • R-CNN 系列,从 R-CNN 到 Fast R-CNN、Faster R-CNN,Mask R-CNN;

  • YOLO 系列,从 v1 到 2018 年的 v3 版本

    Github 项目:

  • awesome-object-detection

  • https://github.com/facebookresearch/Detectron

  • https://github.com/jwyang/faster-rcnn.pytorch

论文:

  • R-CNN,2013

  • Fast R-CNN,2015

  • Faster R-CNN,2015

  • Mask R-CNN,2017

  • YOLO,2015

  • YOLOv2,2016

  • YOLOv3,2018

  • SSD,2015

  • FPN,2016

文章:

  • 一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

常用的数据集:

  • VOC 2012

  • MS COCO

3. 图像分割(Object Segmentation)

图像分割是基于图像检测的,它需要检测到目标物体,然后把物体分割出来。

图像分割可以分为三种:

  • 普通分割:将不同分属于不同物体的像素区域分开,比如前景区域和后景区域的分割;

  • 语义分割:普通分割的基础上,在像素级别上的分类,属于同一类的像素都要被归为一类,比如分割出不同类别的物体;

  • 实例分割:语义分割的基础上,分割出每个实例物体,比如对图片中的多只狗都分割出来,识别出来它们是不同的个体,不仅仅是属于哪个类别。

一个图形分割的例子如下所示,下图就是一个实例分割的例子,用不同的颜色表示不同的实例。

640?wx_fmt=png

Github:

  • awesome-semantic-segmentation

论文:

  • U-Net,2015

  • DeepLab,2016

  • FCN,2016

文章:

4. 风格迁移(Style Transfer)

风格迁移是指将一个领域或者几张图片的风格应用到其他领域或者图片上。比如将抽象派的风格应用到写实派的图片上。

一个风格迁移的例子如下, 图 A 是原图,后面的 B-F 五幅图都是根据不同风格得到的结果。

640?wx_fmt=png

一般数据集采用常用的数据集加一些著名的艺术画作品,比如梵高、毕加索等。

Github:

  • A simple, concise tensorflow implementation of style transfer (neural style)

  • TensorFlow (Python API) implementation of Neural Style

  • TensorFlow CNN for fast style transfer

论文:

  • A Neural Algorithm of Artistic Style,2015

  • Image Style Transfer Using Convolutional Neural Networks, 2016

  • Deep Photo Style Transfer,2017

文章:

  • 图像风格迁移(Neural Style)简史

  • Style Transfer | 风格迁移综述

  • 感知损失(Perceptual Losses)

  • 图像风格转换(Image style transfer)

  • 风格迁移(Style Transfer)论文阅读整理(一)

5. 图像重构(Image Reconstruction)

图像重构,也称为图像修复(Image Inpainting),其目的就是修复图像中缺失的地方,比如可以用于修复一些老的有损坏的黑白照片和影片。通常会采用常用的数据集,然后人为制造图片中需要修复的地方。

一个修复的例子如下所示,总共是四张需要修复的图片,例子来自论文"Image Inpainting for Irregular Holes Using Partial Convolutions"。

640?wx_fmt=png

论文:

  • Pixel Recurrent Neural Networks, 2016.

  • Image Inpainting for Irregular Holes Using Partial Convolutions, 2018.

  • Highly Scalable Image Reconstruction using Deep Neural Networks with Bandpass Filtering, 2018.

  • Generative Image Inpainting with Contextual Attention, 2018

  • Free-Form Image Inpainting with Gated Convolution,2018

  • EdgeConnect: Generative Image Inpainting with Adversarial Edge Learning,2019

Github:

  • Awesome-Image-Inpainting

  • generative_inpainting

  • edge-connect

文章:

6. 超分辨率(Super-Resolution)

超分辨率是指生成一个比原图分辨率更高、细节更清晰的任务。一个例子如下图所示,图例来自论文"Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network"。

640?wx_fmt=png

通常超分辨率的模型也可以用于解决图像恢复(image restoration)和修复(inpainting),因为它们都是解决比较关联的问题。

常用的数据集主要是采用现有的数据集,并生成分辨率较低的图片用于模型的训练。

Github:

  • Image Super-Resolution for Anime-Style Art--用于动漫图片的超分辨率应用,14k 的 stars

  • neural-enhance

  • Image super-resolution through deep learning

论文:

  • Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network, 2017.

  • Deep Laplacian Pyramid Networks for Fast and Accurate Super-Resolution, 2017.

  • Deep Image Prior, 2017.

  • ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks,2018

文章:

  • 图像超分辨率重建

  • 超分辨率技术如何发展?这6篇ECCV 18论文带你一次尽览

  • 深度学习图像超分辨率最新综述:从模型到应用

  • ESRGAN:基于GAN的增强超分辨率方法(附代码解析)

7. 图像生成(Image Synthesis)

图像生成是根据一张图片生成修改部分区域的图片或者是全新的图片的任务。这个应用最近几年快速发展,主要原因也是由于 GANs 是最近几年非常热门的研究方向,而图像生成就是 GANs 的一大应用。

一个图像生成例子如下:

640?wx_fmt=png

Githubs:

  • tensorflow-generative-model-collections--集成了多种 GANs 的代码

  • The-gan-zoo--收集了当前的所有 GANs 相关的论文

  • AdversarialNetsPapers

论文:

  • Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks, 2015.

  • Conditional Image Generation with PixelCNN Decoders, 2016.

  • Pix2Pix--Image-to-image translation with conditional adversarial networks,2016

  • Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks, 2017.

  • bigGAN--LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS,2018

文章:

8. 人脸

人脸方面的应用,包括人脸识别、人脸检测、人脸匹配、人脸对齐等等,这应该是计算机视觉方面最热门也是发展最成熟的应用,而且已经比较广泛的应用在各种安全、身份认证等,比如人脸支付、人脸解锁。

这里就直接推荐几个 Github 项目、论文、文章和数据集

Github:

  • awesome-Face_Recognition:近十年的人脸相关的所有论文合集

  • face_recognition:人脸识别库,可以实现识别、检测、匹配等等功能。

  • facenet

论文:

  • FaceNet: A Unified Embedding for Face Recognition and Clustering,2015

  • Face Recognition: From Traditional to Deep Learning Methods,2018

  • MSFD:Multi-Scale Receptive Field Face Detector,2018

  • DSFD: Dual Shot Face Detector,2018

  • Neural Architecture Search for Deep Face Recognition,2019

文章:

数据集:

  • LFW

  • CelebA

  • MS-Celeb-1M

  • CASIA-WebFace

  • FaceScrub

  • MegaFace

10. 其他

实际上还有其他很多方向,包括:

  • 图文生成(Image Captioning):给图片生成一段描述。

Show and Tell: A Neural Image Caption Generator, 2014.

  • 文本生成图片(Text to Image):基于文本来生成图片。

AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks, 2017.

  • 图片上色(Image Colorization):将图片从黑白变为彩色图。

Colorful Image Colorization, 2016.

  • 人体姿态估计(human pose estimation):识别人的行为动作

Cascaded Pyramid Network for Multi-Person Pose Estimation, 2017

还有包括 3D、视频、医学图像、问答、自动驾驶、追踪等等方向,具体可以查看下面这个网站:

https://paperswithcode.com/area/computer-vision

而如果认定一个方向,想开始学习这方面的内容,首先推荐可以先查找中文方面的综述文章或者论文,当然如果英语阅读能力比较好的,也可以查看英文的综述文章,通过看综述来查看下自己需要阅读的论文,论文推荐先看最近3-5年内的论文,太过久远的论文,除非需要更加深入了解某个算法,否则都不太需要阅读。

此外,就是需要结合实际项目来加深对算法的了解,通过跑下代码,也可以更好了解某个算法具体是如何实现的。


参考

  • https://machinelearningmastery.com/applications-of-deep-learning-for-computer-vision/

  • https://paperswithcode.com/sota


小结

本文简单介绍了几个计算机视觉方面的应用,包括应用解决的问题以及推荐了几个 Github 项目和论文、文章,和常用数据集。

640?
END
640?

非常感谢大家的每一次阅读在看,大家的每一次点击都是对我的一个鼓励,看到阅读量一个一个上涨是一件非常开心的事情,如果能有一个小小的“在看”,我会更加的激动和努力创造,感谢感谢 >_<640?wx_fmt=jpeg

好文推荐:

  • 640?wx_fmt=jpeg

加群交流

扫码添加助手,可申请加入AI_study交流群。一定要备注:研究方向+地点+学校/公司+昵称(如目标检测+上海+上交+卡卡西),不根据格式申请,一律不通过。

640?wx_fmt=jpeg

喜欢就点个"在看"呗^_^

640?wx_fmt=jpeg

AI算法与图像处理

AI_study

月发文数目: ******

月平均阅读: ******

查看

 订阅公众号 导出

文章工具

已发文14小时

阅读数

点赞数

采集图文

合成多图文

保存长图

采集样式

查看封面

2018-07-27 06:00:32 weixin_39277458 阅读数 5251

1. 计算机视觉在机器人上的应用

该部分内容源自一篇中文文献,由于是在大约一年前读的,现在只是把当时的笔记复制过来,具体是哪篇文章会随后去找,如果有知情的也可以告诉我,谢谢大家。

1.1 传统工业机器人(机械臂)的工作原理是“示教-再现”的模式,这种模式缺乏对非设计情况的适应性。这篇文章是将计算机视觉技术利用在原有机械臂控制系统上,从而提高机械臂对不同环境条件的适用性。

1.2 具体构成图如下:

1.3 视觉系统算法构成:

1.4 软件实现基本流程:

1.5 这个项目中用的是定标算法,在实际拍摄场景中标定几个定位点,然后根据定位点确定摄像机和物体的3D位置。

1.6 本项目实现流程图:

2. 人机交互中计算机视觉应用

2.1 人机交互的组成:人机交互可以大概分为两个组成部分,语音和视觉,语音对应于语音自动识别,其试图构造能够感知人们交流的文字方面的机器;视觉对应于计算机视觉技术。其致力于构造能够“观察人”并自动感知相关视觉信息的机器。

2.2 计算机视觉在的发展定义:计算机视觉是一门试图通过图像处理或视频处理而使计算机具备“看”的能力的学科。通过理解图像形成的几何和辐射线测定,接受器(相机)的属性和物理世界的属性,就有可能(至少在某些情况下)从图像中推断出关于事物的有用信息。

2.3 计算机视觉发展的关联性:传统意义上,计算机视觉由诸如生物视觉建模、机器人导航和操作、监控安防、医疗图像及各种检查、检测和识别推动的。近年来,计算机视觉呈现多模态感知交互的态势。

2.4 计算机视觉中的人机交互:着重于建模、识别和解释人的行为。

1)人脸检测和定位:场景中有多少人,他们在哪里?

2)人脸识别:他是谁?

3)头和脸部的跟踪:用户的头部在哪里,脸部的位置和方向是什么?

4)脸部表情分析:用户在微笑,大笑,皱眉,说话还是困乏?

5)视听语音识别:使用语音识别以及伴随视话(lip-reading)和face-reading,判断用户说什么?

6)眼睛注视跟踪:用户的眼睛朝哪里看?

7)身体跟踪:用户的身体在何处?关节处(articulation)是什么?

8)手跟踪:用户的手在哪里?是2维的还是3维的?特别地,手的结构是怎样的?

9)步态识别:这是谁的走路/跑步风格?

10)姿势、手势和活动识别:这个人在做什么?

※ 人机交互的难点:

这些任务都非常困难,从一个摄像机拍得图像(有时或者是多相机从不同的视角)开始,这项 工作典型情况下至少包括每秒30次的240*320个像素每像素24比特)。我们试图很快地使这些数据变得有意义。与语音识别问题相比较,语音识别是从一个一维的,时间序列信号开始,然后尝试将其分段并分类成相对少数目的已知类别(音素或词)。计算机视觉事实上是一堆子问题的集合,这些子问题彼此间很少有共同点,且都非常复杂。

2.5 基于计算机视觉的前沿成果

虽然计算机视觉在局部取得了进展,但是依然没有被真正的商业应用,不过有一些征兆显示商业应用即将到来。

1)摩尔定律(英特尔的创始人Gordon Moore:当价格不变时,集成电路上可容纳的元器件的数目,约每隔18-24个月便会增加一倍,性能也将提升一倍。);相机技术的进步;相机的进步;数码视频的普及;软件的推广(Inter的OpenCV库)。

2)美国政府资助的人脸识别项目:FERET项目(1993-1997)和FRVT项目(2000-2002)。

3)DARPA资助的远距离识别人和视频监防的大型工程。

4)Geometrix,A4Vision和3Dbiometrics。

5)MIT媒体实验室的幼儿室工程。

2.6 技术挑战

虽然有很多这一类研究项目,但是为了从实验室走向商业化,几个问题需要说明:

1)鲁棒性:大多数视觉技术是脆弱,缺乏鲁棒性的,照明和相机位置的微小变化可能会导致系统出错。系统需要在各种条件下工作,且能适度地、快速地从错误中恢复。

2)速度:对于大多数计算机视觉技术,在全面和快速交互两者间都采取了实际折衷。视频数据太多了,以至于无法实时地做复杂处理。我们需要更好的算法、更快的硬件设备和更灵巧的方法来决策需要计算什么,可以忽略什么。(提供了已处理的图像流的数码相机能够有很大的帮助)

3)初始化:许多技术在得到了初始模型后,跟踪效果都很好,但是初始化步骤往往很慢且需要用户参与。系统必须能快速和透明地进行初始化。

前三个问题已经在日常的研究实验室和全球的产品研发组织得到了关注,使用性和上下文集成很少被考虑,但是随着更多的应用开发,这两个问题将会提到研究日程的前面。

4)使用性:对于开发系统的人来说(花费了许多时间研究复杂难点)视觉技术的示范使用能工作地很好,但对于那些没有经过“系统训练”的新手却很困难。这些系统需 要适应用户,处理无法预期的用户行为。此外,它们需要提供简单的纠错和处理错误解释机制以及能提供反馈给用户,以避免预料之外的灾难性后果。

5)上下文集成:一个基于视觉的交互技术本身不是最终的结果,而是一个更庞大的系统中的组成部分。手势和活动需要放在合适的应用过程中加以理解,而不是孤立的行为。从长期来看,这需要在各种应用的上下文关系中深刻地理解人类行为。

3. 基于计算机视觉的智能机器人设计

3.1 这个项目的设计内容包括传感器模块图像处理模块执行模块,目的是用于煤矿井下发生突发事件时井下环境的探测,完成安全检查和监控等功能。

3.2 原始输入图像是连续的数字视频图像,系统工作时,需调用图像处理模块对原始输入图像进行缩小边缘检测二值化哈夫变换等处理,从而获得有用的路径信息,运动控制模块根据此信息作出决策,通过无线串口将控制命令发给机器人。机器人接收指令在电机控制模块下作出相应的移动。

3.3 具体来说,这个项目是在视频中加有一个引导线,引导线在图像中的方位将会控制机器人的走向。此项目的局限性在于,此项目的机器人需要时刻保证引导线在视野内,这对于环境的适用性下降了。

3.4 本项目的设计模块统称为“上位机”。下位机是具体的执行平台。下位机的控制芯片采用NXP公司的ARM7中的PC2132微处理器,用来完成命令接收、电机控制和机器人状态信息的上传等功能。

3.5 电机控制电路利用L298芯片构成差动方式驱动电机运行,通过处理器驱动PWM信号控制电机转速,并且采用了PID闭环控制

2018-12-09 10:05:19 Dhane 阅读数 5782

    近年来,我们随处可以听到一个词,“人工智能”。机器的智能化成为了现今的一大研究热点,而机器要变得更加智能,必然少不了对外界环境的感知。有研究表明,人对外界的环境的感知70%以上来自人类的视觉系统,机器也是如此,大多数的信息都包含在图像中,人工智能的实现少不了计算机视觉。那么计算机视觉具体有哪些应用呢?

  1. 无人驾驶

    无人驾驶又称自动驾驶,是目前人工智能领域一个比较重要的研究方向,让汽车可以进行自主驾驶,或者辅助驾驶员驾驶,提升驾驶操作的安全性。目前已经有一些公司研发出了自动泊车等辅助驾驶功能并得以应用。目前这方面做得比较好的是谷歌的无人驾驶汽车。国内也有一些比较好的公司,如百度无人驾驶车已经在一些园区得以应用,还有图森未来的货运车也完成了多次路测,并已经投入市场使用。

    计算机视觉在无人驾驶中起到了非常关键的作用,比如道路的识别,路标的识别,红绿灯的识别,行人识别等等平常驾驶过程中需要注意的。另外还包括三维重建及自主导航,通过激光雷达或者视觉传感器可以重建三维模型,辅助汽车进行自主定位及导航,进行合理的路径规划和相关决策。

2.人脸识别

   人脸识别技术目前已经研究得相对比较成熟,并在很多地方得到了应用,且人脸识别准确率目前已经高于人眼的识别准确率,很多高铁站及门禁的地方都用到了人脸识别,很多都有刷脸系统,有些城市甚至在银行取钱都可以直接刷脸。

3.无人安防

   安防一直是我国比较重视的问题,也是人们特别重视的问题,在很多重要地点都安排有巡警巡查,在居民小区以及公司一般也都有保安巡查来确保安全。随着计算机视觉的发展,计算机视觉技术已经能够很好的应用到安防领域,目前很多智能摄像头都已经能够自动识别出异常行为以及可疑危险人物,及时提醒相关安防人员或者报警,加强安全防范。

4.车辆车牌识别

    车辆车牌识别目前已经是一种非诚成熟的技术了,高速路上的违章检测,车流分析,安全带识别,智能红绿灯,还有停车场的车辆身份识别等都用到了车辆车牌识别,不仅能识别出车牌的号码,目前车辆识别技术已经能对道路上的车辆车型进行识别,通过识别摄像头获取的图像,能获取到车辆的型号及颜色等特征。

5.智能识图

    智能识图是我们生活中比较常见的计算机视觉的应用了。看到一个纸质文档,想要把其转换成电子文档,直接把文档拍下来,用相关软件进行文字识别,就能把图像中的文字自动转换成电子文档,甚至还能自动翻译成其他语言。看到一件衣服或一个物品,想在网上找他的来源等其他相关信息,直接输入图片,以图搜图,很快就能找到很多该图片出现的地方以及很多类似的图片。甚至还有些能直接告诉你图片中的物体是个什么东西,或者大概判断图片中的人像的大概年龄等比较好玩的功能。

6.3D重构

    3D重构之前在工业领域应用比较多,可以用于对三维物体进行建模,方便测量出物体的各种参数,或者对物体进行简单复制。最近也慢慢开始应用到民用领域了,比如新出的华为mate20系列手机,就已经可以对玩偶进行三维建模,并能够设置一些特定的动作,让玩偶“活”起来,甚至可以与人进行一些互动。当然这里与人互动还用到AR技术。

7.VR/AR

    VR/AR技术相信大家都已经比较熟悉了。VR眼睛在前两年卖得特别火爆,还有一些9D游戏机,就是利用VR技术让人能够有一种身临其境的感觉。而AR技术目前比较常见的可能是双十一时候淘宝的天猫,还有之前比较火爆的宠物捕获游戏,可以在现实场景中加入一些其他元素,目前这个领域还在快速发展中。很多方便人们生活的应用也在不断推出,比如智能翻译,用手机对着需要翻译的字,在这个界面上就自动显示出相关的翻译,或者后面可能实现的虚拟试衣间等,将大大的方便人们的生活。

 

8.智能拍照

    这个相信是大家很熟悉的一个名词了,基本每个智能手机都开始配有这个功能。最基础的功能包括自动曝光,自动白平衡,自动对焦等,还有一些去燥算法,能很好的提高手机拍照的图像质量。随着计算机视觉技术的进步,一些自动美颜算法,自动挂件,自动滤镜,场景切换等越来越多有趣的功能都被开发出来。还有一些图像处理软件,像专业的Photoshop,还有比较民用化的美图秀秀,美颜相机等,基本也都是利用计算机视觉的技术。

9.医学图像处理

    常见的医学成像,比如B超,核磁共振,X光拍片等。随着AI技术的发展,还开始有一些AI诊断的功能,AI根据图像的特征对相关疾病的可能性进行分析。

10.无人机

    随着无人机技术的发展,计算机视觉技术在无人机上的应用必不可少,军用无人机中,可以对目标进行自动识别并自主导航,精确制导等,民用的无人机也类似,例如大疆的无人机,能够跟踪人进行实时的拍照,还有一些手势控制等。还有一些特殊场景的应用,例如电力巡检,农作物分析等。

11.工业检测

    工业领域计算机视觉也得到了充分应用,例如产品缺陷检测,工业机器人姿态控制,利用立体视觉来获得工件和机器人之间的相对位置姿态。

12.其他

    计算机视觉还有很多应用,随着技术的发展,应用领域也会越来越多。在工业领域的应用,在机器人技术方面的应用,这里就不一一的赘述了。相信随着计算机视觉技术的不断发展,我们的生活能够越来越智能化,便捷化。

    因为机器视觉课程刚好布置了这门作业,所以大概总结了一下,自己之前一段时间也在找计算机视觉相关的工作,所以多数还是根据自己对这个行业的了解来写的,难免和其他相关的总结有点类似。转载请注明出处。

参考文献:

https://36kr.com/p/5074487.html

http://wb.qdqss.cn/html/qdwb/20180226/qdwb303829.html

2019-04-02 19:01:23 zhinengxuexi 阅读数 2943

计算机视觉是一门研究如何使机器“看”的科学。

更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给一起检测的图像

作为一个科学学科,计算机视觉研究相关的理论和技术,视图建立能够从图像或者多维数据中获取“信息”的人工智能系统。

目前,非常火的VR、AR,3D处理等方向,都是计算机视觉的一部分。

计算机视觉的应用

无人驾驶

无人安防

人脸识别

车辆车牌识别

以图搜图

VR/AR

3D重构

医学图像分析

无人机

其他

了解了计算机视觉是什么之后,给大家列了一下当前计算机视觉领域的一些应用,几乎可以说是无处不在,而且当前最火的所有创业的方向都涵盖在里面了。其中包括我们经常提到的无人驾驶、无人安防、人脸识别。人脸识别相对来说已经是一个最成熟的应用领域了,然后还有文字识别、车辆车牌识别,还有以图搜图、VR/AR,还包括3D重构,以及当下很有前景的领域–医学图像分析。
人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
深度学习与计算机视觉的具体介绍
http://www.duozhishidai.com/article-15924-1.html
人工智能与计算机视觉
http://www.duozhishidai.com/article-15129-1.html
计算机视觉影响人工智能的发展方式,主要有哪五种?
http://www.duozhishidai.com/article-2903-1.html


多智时代-人工智能大数据学习入门网站|人工智能、大数据、物联网云计算的学习交流网站

多智时代-人工智能大数据学习入门网站|人工智能、大数据、云计算、物联网的学习服务的好平台