2012-04-17 23:19:14 xiaojiang0805 阅读数 10099

最近一直研究图像处理与模式识别的问题,通过同高手的交流,结合牛人的指点,现把自己的感受和体会跟大家分享,尤其是目标检测与识别这一块,如有不对的地方,希望高手指点一下!

 

如果有读关于目标检测和识别西文文献比较多的朋友,一定能够发现大多数的文献检测和识别的目标都是如下两类:人脸、汽车。但是对于类内差异较大的物体类,研究其检测与识别的文献并不多见。由此,引发了我的几点思考,和诸位共享。
首先:人脸是一类类内差异很小的目标,什么叫类内差异呢?我们可以这样理解:就是说它的configuration是不变的。不管是什么人种,都是两眼一鼻一嘴构成,因此对他的检测,采用模板匹配、Hmm、 基于Fragment的方法都可以达到较好的效果。然而,我们会发现,对人脸的识别研究的方法就寥寥可数了。人脸对于识别来说,他的类内差异就是相当大。目前在工程上最为有效的方法就是模板匹配,图像中的人脸和人脸库中的图像一一匹配,相似度最大的即为该人。同样,汽车也是一类类内差异不大的物体,它的显著且不变性特征就是车轮。车身可能万变,但车轮都如出一辙。因此,在图像中若能较好的检测出车轮,也就能检测到车辆了。


其次:为什么研究其他类目标的文献并不多见呢?难度大。难度大的原因就是要找出恒一不变的特征很难。比如:刚性物体——水杯。水杯的种类万千,要找出他们的共性不容易。柔性物体之类的则更加了。比如:检测树。


最后:给出我的一点研究启发:

          第一,在研究课题之前,一定要选择好研究的图像目标。其实也可以是大家都在研究的一类物体,并不需要标新立异,当然如果你有针对这类目标的好的检测方法,那也是惟愿如此。

         第二,并不一定要求你的方法放之四海皆准,只需要对某一类目标有效果,你同样可以发高水平的文章。

         第三,多尝试从数学的角度去理解图像的机理,从美术家的角度去理解图像的构造。

 

2019-04-20 08:13:50 weixin_42137700 阅读数 181

https://www.toutiao.com/a6679196033882259976/

 

人类想要实现一系列的基本活动,如生活、工作、学习就必须依靠自身的器官,除脑以外,最重要的就是我们的眼睛了,(工业)机器人也不例外,要完成正常的生产任务,没有一套完善的,先进的视觉系统是很难想象的。

机器视觉系统就是利用机器代替人眼来作各种测量和判断。它是计算科的一个重要分支,它综合了光学、机械、电子、计算机软硬件等方面的技术,涉及到计算机、图像处理、模式识别、人工智能、信号处理、光机电一体化等多个领域。图像处理和模式识别等技术的快速发展,也大大地推动了机器视觉的发展。

 

图像处理和模式识别等技术的快速发展大大地推动了机器视觉的发展

 

图像处理和模式识别等技术的快速发展 大大地推动了机器视觉的发展

机器视觉系统的应用

在生产线上,人来做此类测量和判断会因疲劳、个人之间的差异等产生误差和错误,但是机器却会不知疲倦地、稳定地进行下去。一般来说,机器视觉系统包括了照明系统、镜头、摄像系统和图像处理系统。对于每一个应用,我们都需要考虑系统的运行速度和图像的处理速度、使用彩色还是黑白摄像机、检测目标的尺寸还是检测目标有无缺陷、视场需要多大、分辨率需要多高、对比度需要多大等。从功能上来看,典型的机器视觉系统可以分为:图像采集部分、图像处理部分和运动控制部分。

 

图像处理和模式识别等技术的快速发展大大地推动了机器视觉的发展

 

图像处理和模式识别等技术的快速发展 大大地推动了机器视觉的发展

机器视觉系统工作过程

• 一个完整的机器视觉系统的主要工作过程如下:• 1、工件定位检测器探测到物体已经运动至接近摄像系统的视野中心,向图像采集部分发送触发脉冲。• 2、图像采集部分按照事先设定的程序和延时,分别向摄像机和照明系统发出启动脉冲。• 3、摄像机停止目前的扫描,重新开始新的一帧扫描,或者摄像机在启动脉冲来到之前处于等待状态,启动脉冲到来后启动一帧扫描。• 4、摄像机开始新的一帧扫描之前打开曝光机构,曝光时间可以事先设定。• 5、另一个启动脉冲打开灯光照明,灯光的开启时间应该与摄像机的曝光时间匹配。• 6、摄像机曝光后,正式开始一帧图像的扫描和输出。• 7、图像采集部分接收模拟视频信号通过A/D将其数字化,或者是直接接收摄像机数字化后的数字视频数据。• 8、图像采集部分将数字图像存放在处理器或计算机的内存中。• 9、处理器对图像进行处理、分析、识别,获得测量结果或逻辑控制值。• 10、处理结果控制流水线的动作、进行定位、纠正运动的误差等。

机器视觉系统的优点有:

• 1、非接触测量,对于观测者与被观测者都不会产生任何损伤,从而提高系统的可靠性。• 2、具有较宽的光谱响应范围,例如使用人眼看不见的红外测量,扩展了人眼的视觉范围。• 3、长时间稳定工作,人类难以长时间对同一对象进行观察,而机器视觉则可以长时间地作测量、分析和识别任务。• 4、机器视觉系统的应用领域越来越广泛。在工业、农业、国防、交通、医疗、金融甚至体育、娱乐等等行业都获得了广泛的应用,可以说已经深入到我们的生活、生产和工作的方方面面。

科幻电影中的智能机器人

 

图像处理和模式识别等技术的快速发展大大地推动了机器视觉的发展

 

图像处理和模式识别等技术的快速发展 大大地推动了机器视觉的发展

———如下图所示是一种有电脑操控的加工机械装置。———该装置主要通过前端的摄像头对被加工对象进行图像采集和加工定位,从而完成加工。———机械类的各部件的精度由工人的熟练程度和工作经验以及加工工具(如各类机床)到如今的由数字化和智能化的加工设备(如数控机床),更多的能适应社会需要和发展的高精度,高难度的零件被加工出来。

 

图像处理和模式识别等技术的快速发展大大地推动了机器视觉的发展

 

图像处理和模式识别等技术的快速发展 大大地推动了机器视觉的发展

视觉系统简单来说就可以用三个及独立又相互联系的模块来概括:目标物图像的采集、图像的处理、指令的发出。

视觉系统的设计分为软件设计和硬件设计两大部分

 

图像处理和模式识别等技术的快速发展大大地推动了机器视觉的发展

 

图像处理和模式识别等技术的快速发展 大大地推动了机器视觉的发展

视觉系统的硬件设计

视觉系统的硬件主要由镜头、摄像机、图像采集卡、输入输出单元、控制装置构成。

一套视觉系统的好坏则分别取决于摄像机像素的高低,硬件质量的优劣,更重要的是各个部件间的相互配合和合理使用。

 

图像处理和模式识别等技术的快速发展大大地推动了机器视觉的发展

 

图像处理和模式识别等技术的快速发展 大大地推动了机器视觉的发展

——在恶劣的自然环境中,在生产的一线,在许多复杂的情况下,要想保证整个视觉系统的正常工作,构成系统的各个硬件就必须具有很好的耐磨损性和经受住各种不可预料的情况和考验。——随着科技的进步和现代生产生活的需要视觉系统正在机器,特别是智能机械的飞速发展,原有的系统硬件已不适应新的需要,为此,必须提高硬件的水平和质量来保证系统的正常运行。 ——镜头、摄像机、图像采集卡、输入输出单元、控制装置构就好像电脑的显示器、电源、主机(处理器、内存条、硬盘、显卡等)一样,每一个构成部件都很关键,它们质量如果不过关,整个机器就无法正常工作,更别说完成复杂的工作和给以的任务了。

视觉系统的软件设计

——视觉系统的软件设计至关重要,在当今信息化大趋势下,智能控制越来越依靠软件方面的功用。——视觉系统的软件设计是一个复杂的课题,不仅要考虑到程序设计的最优化,还要考虑到算法的有效性,及其能否实现,在软件设计的过程中要考虑到可能出现的问题。——视觉系统的软件设计完成还要对其鲁棒性进行检测和提高,以适应复杂的外部环境(鲁棒性就是系统的健壮性。它是在异常和危险情况下系统生存的关键。)

一种视觉导航软件处理的流程图

 

图像处理和模式识别等技术的快速发展大大地推动了机器视觉的发展

 

图像处理和模式识别等技术的快速发展 大大地推动了机器视觉的发展

视觉系统的实际应用

•机器视觉技术的城市交通预警系统 •近几年来,随着经济的发展,我国各大城市内部的交通基础设施建设也得到了快速发展,但是,尽管城市道路越建越宽,立交桥越建越多,交通信号越来越复杂,道路的拥挤程度和交通事故的发生率却没有得到明显的缓解,交通运输业特别是城市交通承受着越来越大的压力。

 

图像处理和模式识别等技术的快速发展大大地推动了机器视觉的发展

 

图像处理和模式识别等技术的快速发展 大大地推动了机器视觉的发展

目前,随着城市交通现代化、智能化的进程日益加快,国内相关领域的研究也成为新的热点。关于智能交通系统(Intelligent Transportation System;简称为ITS)的研究得到了欧洲、美国、日本、加拿大等等很多发达国家的广泛重视,他们纷纷投入巨资应用于智能交通系统的研究,并进行了大量的模拟实验,很多子系统已经能够初步达到人们所希望的智能化程度。越来越多的事实已经证明,先进的ITS将有效地利用现有交通设施,减少交通负荷和环境污染、保证交通安全、提高运输效率、促进社会经济发展、提高人民生活质量,并能够推动社会信息化及新产业的形成。基于机器视觉技术的城市交通预警系统,是先进交通管理系统的子系统,是通过根据交通状况的变化及早预警,配合交通管理的智能监控系统。

基于机器视觉技术的城市交通预警系统结构框架

• 系统主要功能模块简介:• 视觉监测:城市交通环境是实时变化的,通过视频监测技术采集相关数据,将检测到的环境特征值送往信息融合处理器。• 信息融合处理器:将信息通过模糊神经网络方法得到输出结果。• 监测预警:根据并做出决策,即相应调整实时交通信息、信号控制,以及对于将要发生事故或已经发生事故区域采取紧急救援措施。

机器人视觉

•机器人视觉【robot vision】 使机器人具有视觉感知功能的系统。•机器人视觉可以通过视觉传感器获取环境的二维图像,并通过视觉处理器进行分析和解释,进而转换为符号,让机器人能够辨识物体,并确定其位置。•机器人视觉广义上称为机器视觉,其基本原理与计算机视觉类似。•计算机视觉研究视觉感知的通用理论,研究视觉过程的分层信息表示和视觉处理各功能模块的计算方法。而机器视觉侧重于研究以应用为背景的专用视觉系统,只提供对执行某一特定任务相关的景物描述。

机器人视觉硬件主要包括图像获取和视觉处理两部分,而图像获取由照明系统、视觉传感器、模拟-数字转换器和帧存储器等组成。根据功能不同,机器人视觉可分为视觉检验和视觉引导两种,广泛应用于电子、汽车、机械等工业部门和医学、军事领域。

2016-10-27 16:53:46 linghugoogle 阅读数 2442

《模式识别及其在图像处理中的应用》

1、模式识别基本框架

一般认为,模式识别是通过具体的事物进行观测所得到的具有时间、空间分布的信息,模式所属的类别或同一类中模式的总体成为模式类,其中个别具体的模式往往成为样本。

样本——预处理——特征选择和提取——分类器设计&&分类结果

【由上述分析可知,模式识别本身就是将特征空间映射为选择空间,将多维特征降维以减小复杂度,增加鲁棒性】

2、特征提取和选择

特征提取是指通过映射的方法用低维空间来表示样本的过程,特征提取后样本的可分性应该更好。常用方法:主元分析(PCA)、线性判别分析、核函数主元分析(Kernel PCA)、独立主元分析(ICA)、自组织映射(SOM)

特征提取后的各个特征的物理意义有时不是很明确,往往很难看出各个特征对分类器的影响,有的甚至有副作用。因此要在这些特征中选择一部分,这就是特征选择。

为了判断提取和选择的特征对分类的有效性,人们提出各种衡量特征分类性能的判据。最直接最有效的盘踞是计算分类器错误概率,但很难实现。最简单的判据是用于可用性判据的类内类间距离判据。

【由上述分析可知,提取和选择对算法性能有决定性的作用,具体操作上既可以通过有监督学习、也可以无监督的聚类分析;除此之外,判断标准很重要,只有有了判断标准,才能够对选择的算法进行衡量和改进,这是反馈】

3、模式识别的主要方法及其在图像处理中的应用

1)     统计决策法

以概率论和数理统计为基础,包括参数法和非参数法。参数法以Bayes决策准则为指导,其中最小错误率和最小风险贝叶斯决策是最常用的决策方法。参数估计方法在样本数据趋于无穷大时渐进理论,然而实际条件往往达不到。在样本数量有限的时候,往往根据样本直接设计分类器,这就是非参数方法。这类方法物理意义直观,但所得的结果和错误率往往没有直接联系。所设计的分类器不能保证最优。比较典型的有线性分类器、最近邻方法、K均值聚类发。

缺点:缺少结构信息。

2)     结构模式分析

利用模式的结构描述与句法描述之间的相似性对模式进行分类,每个模式由它的各个子部分(称为子模式或者模式基元)的组合来表示。对模式的识别常以句法分析的方式进行,即依据给定的一组句法规则来剖析模式的结构。当模式中的每一个基元被分辨出来后,识别过程就可通过执行语法分析来实现。

3)     模糊模式识别

将非此即彼的0,1判断更改为隶属度函数。模糊模式识别的关键在隶属度函数的建立,目前的主要方法有模糊统计、模糊分布法、二元对比排序法、相对比较法和专家评分法。

4)     人工神经网络模式识别

定义:用软件或者硬件的方法,建立许多以大量处理单元为结点,处理单元实现(加权值的)互联的拓扑网络,进行模拟。

主要特点:信息处理的并行性、自组织和自适应性、具有很强的学习能力和联想功能以及容错性能。

4、模式识别的新进展及其在图像处理中的应用

1)     支持向量机

2)     仿生模式识别

【这是篇2004年的论文,并且文章是综述,所以对SVM和仿生模式讲得不是很清楚,接下来找些SVM的论文研究研究】

 

《模式识别方法概论》

【这是篇2012年的文章,讲的内容很多与上面的文章有重复,所以不再每小节摘录,只摘录感觉写得好的地方】

1、为提高识别结果的可靠性,往往需要加入知识库(规则)以对可能产生的错误进行修正,或者引入限制条件大大缩小待识别特征在模型库的搜索空间。

2、SVM基本思想:先在样本空间或特征空间,构造出最优超平面,使得超平面与不同类样本之间的距离最大,从而达到最大的泛化能力。



2012-03-30 15:19:16 jianghuyong 阅读数 2639

Use our search box above to search ALL thefollowing sites!

开放模式识别项目 OpenPR

Pattern Recognition project(开放模式识别项目),致力于开发出一套包含图像处理、计算机视觉、自然语言处理、模式识别、机器学习和相关领域算法的函数库。

Advanced Digital ImagingSolutions Laboratory (ADISL)
Image Apprentice is a C/C++ based Image Processing Learner’s Toolkit. Studentsuse it as a companion to their favourite Image Processing Textbook. It allowsone to use self-written image processing algorithms as plugins. 
It comes with a Plugin Development Kit (PDK) that has a skeleton code having asimple coding style. A student who has attended a 101-level course in C/C++programming is well-equipped to write an Image Processing plugin for ImageApprentice using Visual C++.

AllSeeingI
AllSeeingI (ASI) is the codename for a computer vision and visualizationframework. It is a visual programming environment for rapid development andeasy reusability.

Editor'sNote - This project is just getting started but may be a chance for developersto contribute to a brand new vision system.

CamCap and CLAG
Links to the Nottingham video processing environment otherwise knowncollectively as CamCap, for camera and video processing work and CLAG, forcommand line based image processing/display and prototyping. The environment iswindows based and makes use of DirectShow and the intel open source computervision library (OpenCV).

CImg
The CImg Library is an open source C++ toolkit for image processing. Itprovides simple classes and functions to load, save, process and display imagesin your own C++ code. CImg stands for "Cool Image" : It is simple to useand efficient. It's like a STL for image processing!

CMVision
Project goal was to create a simple, robust vision system suitable for realtime robotics applications. The system aims to perform global low level colorvision at video rates without the use of special purpose harware.

CVIPtools
One of the primary purposes of the CVIPtools development is to allow students,faculty, and other researchers to explore the power of computer processing ofdigital images. 
The newest version of CVIPtools, version 4.3, developed at the Computer Visionand Image Processing Laboratory at Southern Illinois University atEdwardsville, under the continuing direction of Dr. Scott E Umbaugh iscurrently available with the new textbook, Computer Imaging: Digital ImageAnalysis and Processing.

EDISON
Code for the Edge Detection and Image SegmentatiON system. This system is alow-level feature extraction tool that integrates confidence based edgedetection and mean shift based image segmentation. It was developed by theRobust Image Understanding Laboratory at Rutgers University.

FILTERS
Filters is a library (not an application) implementing image filters and imageprocessing functions.

Gandalf
The Fast Computer Vision and Numerical Library. Gandalf is a C library designedto support the development of computer vision applications. Gwyddion
Gwyddion is a modular program for SPM (scanning probe microscopy) dataanalysis. Primarily it is supposed to be used for analysis of height fieldsobtained by means of scanning probe microscopy techniques (AFM, MFM, STM,NSOM), but generally it can be used for any other height field analysis orimage analysis.

Gluas plus GIMP - GNU Image Manipulation Program
Gluas is a GIMP plug-in providing a enviroment for testing algorithms for imageprocessing. The environment contains a simple editor for entering thealgorithms. It uses the lua interpreter.

IM Toolkit
Windows and UNIX - The idea behind IM was to create a toolkit that was not socomplex as OpenCV, neither so big as VTK, but that can be used as a solid baseto the development of thesis and dissertations, as for commercial applications.

ImageJ
ImageJ is a public domain Java image processing program inspired by NIH Imagefor the Macintosh. It runs, either as an online applet or as a downloadableapplication, on any computer with a Java 1.1 or later virtual machine.Downloadable distributions are available for Windows, Mac OS, Mac OS X andLinux.

Editor'sNote - This project is geared towards medical image analysis. If you need toanalyze image cross-sections, break/create image stacks, then this package isworth some attention!

ImLib3D
ImLib3D is a C++ library and visualisation system for 3D image processing. Itcontains most basic image processing algorithms, and some more sophisticatedones. ImLib3D images are STL-compliant templated containers.

Imalab
Imalab is a powerful development environment for complex applications incomputer vision. It allows for flexible interactive experimentation with thevision modules developed in the Prima team, and can be dynamically extendedwith new modules. A versatile scripting mechanism provides for fast andconvenient interactive development.

Editor'sNote - Most of the documentation is in French.

IMLAB
IMLAB is a free open source graphical application for Scientific ImageProcessing that runs in Windows, Linux and many other UNIX systems. It supportsmultiple windows, data types including 32 bit integers, 32 bit real numbers andcomplex numbers. It is implemented in C++ and also in C to provide a very simpleway to add new functions. It has many image operations and supports severalfile formats.

IPL
Intel® Integrated Performance Primitives (Intel® IPP) is a software library of highlyoptimized functions for multimedia, audio, video, speech, computer vision,image and signal processing.

JHLabs
Jerry's Java Image Processing Pages. A great way to explore many imageprocessing filters by experimenting with Java applets. 
Java Advanced Imaging (JAI) API
The Java Advanced Imaging API provides a set of object-oriented interfaces thatsupport a simple, high-level programming model which lets you manipulate imageseasily.

Leptonica Library
This site contains well-tested C code for some basic image processingoperations, along with a description of the functions and some design methods.A full set of affine transformations (translation, shear, rotation, scaling) onimages of all depths is included, with the exception that some of the scalingmethods do not work at all depths. There are also implementations of binarymorphology, grayscale morphology, convolution and rank order filters, andapplications such as jbig2 image processing and color quantization.

LTI-Lib
The LTI-Lib is an object oriented library with algorithms and data structuresfrequently used in image processing and computer vision. It has been developedat the Chair of Technical Computer Science (Lehrstuhl fuer TechnischeInformatik) LTI at the Aachen University of Technology, as part of manyresearch projects in computer vision dealing with robotics, object recognitionand sign language and gesture recognition.

Lispix
Lispix is a public domain image analysis program for Microsoft Windows (PC),written and maintained by David Bright. It features a collection ofspecial purpose research tools for electron microscopy and spectral imaging atNIST. Most of Lispix is written in Common Lisp.

LuaMat
LuaMat aims to provide a easy to use language to create visual effects and tomodify images. LuaMat is a fast way to use the most popular algorithms of ImageProcessing and Computer Vision. As Lua, becoming the standard for video-gamescripting engines, LuaMat is fast and has a simple syntax.

The Mimas toolkit
Mimas was originally conceived as a platform for real-time machine visionresearch. Its aim was and still is to reduce the turnaround time of newresearch into the application workspace. It is written in C++ and is releasedin source code form subject to the GNU Lesser General Public License (LGPL).

Mavis
Mavis is computer vision software for mobile robots. It's part of an ongoing,group robotics project, called Leaf.

MIRIAD
MIRIAD (Multichannel Image Reconstruction, Image Analysis and Display) is atoolbox, in the form of an environment with a large set of moderate-sizedprogram which perform individual tasks, involving calibration, mapping, deconvolutionand image analysis of interferometric data. MIRIAD software is also part of theHat Creek telescope control software; data obtained from the telescopes isdirectly written into MIRIAD format with a MIRIAD user interface.

Motion
Motion is a program that monitors the video signal from one or more cameras andis able to detect if a significant part of the picture has changed; in otherwords, it can detect motion.

tnimage
tnimage is a scientific image analysis program that allows you to create, edit,analyze, and produce color prints of images. It is particularly useful foranalyzing images of SDS and agarose gels and X-ray or MRI images.

NeatVision
NeatVision is a free Java based image analysis and software developmentenvironment, which provides high level access to a wide range of imageprocessing algorithms through well defined and easy to use graphical interface.NeatVision is in its second major release.

NIHIMAGE
NIH Image is a public domain image processing and analysis program for theMacintosh. It was developed at the Research Services Branch (RSB) of theNational Institute of Mental Health (NIMH), part of the National Institutes ofHealth (NIH).

Editor'sNote - The NIH IMAGE project is similar to ImageJ. In fact they are documentedside by side. ImageJ is recommended to be used by PC based users as NIH IMAGEis a Mac based program.

OpenCV
OpenCV is an extensive open-source image processing library, built on the IntelImage Processing Library (IPL). OpenCV aids commercial uses of computer visionin human-computer interface, robotics, monitoring, biometrics and security byproviding a free and open infrastructure where the distributed efforts of thevision community can be consolidated and performance optimized.

Peter Kovesi Research
MATLAB and Octave Functions for Computer Vision and Image Processing.

Projective Vision Toolkit
The Projective Vision Toolkit (PVT) is a series of utilities that allows one totake an image sequence and compute the fundamental matrix and trilinear tensor.
This can be used for such problems as camera selfcalibration, structure frommotion, camera motion annotation, image stabilization, 3D tracking andrecognition, etc.

RAVL - Recognition And Vision Library
RAVL provides a base C++ class library, together with a range of computervision, pattern recognition and supporting tools. The aim of RAVL is to movesoftware developed within the Centre for Vision, Speech and Signal Processingat the University of Surrey, England for research purposes into the publicdomain and to support its use in a wider community.

RoboRealm
Using RoboRealm you can create a low cost vision software solution with astandard webcam that allows you to explore the very complex world of imageanalysis and image processing. Through an easy to use analysis pipeline you canadd image processing filters to translate an image into robotic movements,computer actions, or just plain fun! RoboRealm is free todownload!

RobotVisionCAD
RobotVisionCAD or in short RvCAD is a computer aided design for ImageProcessing and Computer Vision. RvCAD's GUI presents users with a view whereusers drag and drop Image Processor Elements, and visually connecting them toform Image Processing Pipeline. RvCAD supports real-time live video processingfrom VideoForWindow, DirectShow(WDM) and Video4Linux on linux, compatiblecapture device.

TINA
TINA (TINA Is No Acronym) is an open source environment developed to acceleratethe process of image analysis research. TINA provides functionality to assistin all areas of image analysis including handling of image, image feature andgeometrical data; statistical and numerical analysis of data; GUI developmentas well as transmission and containment of data. TINA also provides a range ofhigh-level analysis techniques for both machine vision (3D object location, 2Dobject recognition, temporal-stereo depth estimation, etc) and medical imageanalysis (MR tissue segmentation, blood flow analysis, etc).

Tekkotsu
Exploring Tekkotsu Programming on the Sony AIBO. Tekkotsu (seewww.Tekkotsu.org) is an application development framework for the Sony AIBOrobot dog. ("Tekkotsu" literally means iron bones in Japanese, andrefers to a metal framework, such as the skeleton of a building.) At its lowestlevel, Tekkotsu provides primitives for sensory processing, smooth control ofeffectors, and event-based communication.

Torch3vision
It's a machine vision library, written in simple C++ and based on the Torchmachine-learning library. This package contains Basic image processing andfeature extraction algorithms such as rotation, flip, photometricnormalizations (Histogram Equalization, Multiscale Retinex, Self-Quotient Imageor Gross-Brajovic), edge detection, 2D DCT, 2D FFT, 2D Gabor, PCA to doEigen-Faces, LDA to do Fisher-Faces

UTHSCSA ImageTool
UTHSCSA ImageTool (IT) is a free image processing and analysis program forMicrosoft Windows 9x, Windows ME or Windows NT. IT can acquire, display, edit,analyze, process, compress, save and print gray scale and color images.IT canread and write over 22 common file formats including BMP, PCX, TIF, GIF andJPEG.

VXL
VXL (the Vision-something-Libraries) is a collection of C++ libraries designedfor computer vision research and implementation. It was created from TargetJrand the IUE with the aim of making a light, fast and consistent system. VXL iswritten in ANSI/ISO C++ and is designed to be portable over many platforms.There are libraries covering numerical algorithms, image processing,co-ordinate systems, camera geometry, stereo, video manipulation, structurerecovery from motion, probability modelling, GUI design, classification, robustestimation, feature tracking, topology, structure manipulation, 3d imaging, andmuch more.

XVision
XVision provides an application independent set of tools for visual featuretracking optimized to be simple to configure at the user level, yet extremelyfast to execute.

 

1、http://majianglin.ycool.com/post.1306975.html

2、http://www.openpr.org.cn/


2019-12-08 10:52:13 duozhishidai 阅读数 73

在我的理解里,要实现计算机视觉必须有图像处理的帮助,而图像处理倚仗与模式识别的有效运用,而模式识别是人工智能领域的一个重要分支,人工智能与机器学习密不可分。纵观一切关系,发现计算机视觉的应用服务于机器学习。各个环节缺一不可,相辅相成。

计算机视觉(computervision):用计算机来模拟人的视觉机理获取和处理信息的能力。就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,用电脑处理成为更适合人眼观察或传送给仪器检测的图像。

计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。计算机视觉的挑战是要为计算机和机器人开发具有与人类水平相当的视觉能力。

机器视觉需要图象信号,纹理和颜色建模,几何处理和推理,以及物体建模。一个有能力的视觉系统应该把所有这些处理都紧密地集成在一起。

图像处理(imageprocessing):用计算机对图像进行分析,以达到所需结果的技术。又称影像处理。

图像处理一般指数字图像处理。数字图像是指用数字摄像机、扫描仪等设备经过采样和数字化得到的一个大的二维数组,该数组的元素称为像素,其值为一整数,称为灰度值。

图像处理技术的主要内容包括图像压缩,增强和复原,匹配、描述和识别3个部分。

常见的处理有图像数字化、图像编码、图像增强、图像复原、图像分割和图像分析等。

模式识别(PatternRecognition)是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。

模式识别又常称作模式分类,从处理问题的性质和解决问题的方法等角度,模式识别分为有监督的分类(SupervisedClassification)和无监督的分类(UnsupervisedClassification)两种。模式还可分成抽象的和具体的两种形式。前者如意识、思想、议论等,属于概念识别研究的范畴,是人工智能的另一研究分支。我们所指的模式识别主要是对语音波形、地震波、心电图、脑电图、图片、照片、文字、符号、生物传感器等对象的具体模式进行辨识和分类。

模式识别研究主要集中在两方面:

一是研究生物体(包括人)是如何感知对象的,属于认识科学的范畴;

二是在给定的任务下,如何用计算机实现模式识别的理论和方法。

应用计算机对一组事件或过程进行辨识和分类,所识别的事件或过程可以是文字、声音、图像等具体对象,也可以是状态、程度等抽象对象。这些对象与数字形式的信息相区别,称为模式信息。

模式识别与统计学、心理学、语言学、计算机科学、生物学、控制论等都有关系。它与人工智能、图像处理的研究有交叉关系。

机器学习(MachineLearning)是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。

机器学习在人工智能的研究中具有十分重要的地位。一个不具有学习能力的智能系统难以称得上是一个真正的智能系统,但是以往的智能系统都普遍缺少学习的能力。随着人工智能的深入发展,这些局限性表现得愈加突出。正是在这种情形下,机器学习逐渐成为人工智能研究的核心之一。它的应用已遍及人工智能的各个分支,如专家系统、自动推理、自然语言理解、模式识别、计算机视觉、智能机器人等领域。

机器学习的研究是根据生理学、认知科学等对人类学习机理的了解,建立人类学习过程的计算模型或认识模型,发展各种学习理论和学习方法,研究通用的学习算法并进行理论上的分析,建立面向任务的具有特定应用的学习系统。这些研究目标相互影响相互促进。

人类研究计算机的目的,是为了提高社会生产力水平,提高生活质量,把人从单调复杂甚至危险的工作中解救出来。今天的计算机在计算速度上已经远远超过了人,然而在很多方面,特别是在人类智能活动有关的方面例如在视觉功能、听觉功能、嗅觉功能、自然语言理解能力功能等等方面,还不如人。

这种现状无法满足一些高级应用的要求。例如,我们希望计算机能够及早地发现路上的可疑情况并提醒汽车驾驶员以避免发生事故,我们更希望计算机能帮助我们进行自动驾驶,目前的技术还不足以满足诸如此类高级应用的要求,还需要更多的人工智能研究成果和系统实现的经验。

什么是人工智能呢?

人工智能,是由人类设计并在计算机环境下实现的模拟或再现某些人智能行为的技术。一般认为,人类智能活动可以分为两类:感知行为与思维活动。模拟感知行为的人工智能研究的一些例子包括语音识别、话者识别等与人类的听觉功能有关的“计算机听觉”,物体三维表现的形状知识、距离、速度感知等与人类视觉有关的“计算机视觉”,等等。模拟思维活动的人工智能研究的例子包括符号推理、模糊推理、定理证明等与人类思维有关的“计算机思维”,等等。

从图像处理和模式识别发展起来的计算机视觉研究对象之一是如何利用二维投影图像恢复三维景物世界。计算机视觉使用的理论方法主要是基于几何、概率和运动学计算与三维重构的视觉计算理论,它的基础包括射影几何学、刚体运动力学、概率论与随机过程、图像处理、人工智能等理论。

计算机视觉要达到的基本目的有以下几个:

(1)根据一幅或多幅二维投影图像计算出观察点到目标物体的距离;

(2)根据一幅或多幅二维投影图像计算出目标物体的运动参数;

(3)根据一幅或多幅二维投影图像计算出目标物体的表面物理特性;

(4)根据多幅二维投影图像恢复出更大空间区域的投影图像。

计算机视觉要达到的最终目的是实现利用计算机对于三维景物世界的理解,即实现人的视觉系统的某些功能。

在计算机视觉领域里,医学图像分析、光学文字识别对模式识别的要求需要提到一定高度。又如模式识别中的预处理和特征抽取环节应用图像处理的技术;图像处理中的图像分析也应用模式识别的技术。在计算机视觉的大多数实际应用当中,计算机被预设为解决特定的任务,然而基于机器学习的方法正日渐普及,一旦机器学习的研究进一步发展,未来“泛用型”的电脑视觉应用或许可以成真。

人工智能所研究的一个主要问题是:如何让系统具备“计划”和“决策能力”?从而使之完成特定的技术动作(例如:移动一个机器人通过某种特定环境)。这一问题便与计算机视觉问题息息相关。在这里,计算机视觉系统作为一个感知器,为决策提供信息。另外一些研究方向包括模式识别和机器学习(这也隶属于人工智能领域,但与计算机视觉有着重要联系),也由此,计算机视觉时常被看作人工智能与计算机科学的一个分支。

机器学习是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演译。

为了达到计算机视觉的目的,有两种技术途径可以考虑。

•第一种是仿生学方法,即从分析人类视觉的过程入手,利用大自然提供给我们的最好参考系——人类视觉系统,建立起视觉过程的计算模型,然后用计算机系统实现之。

•第二种是工程方法,即脱离人类视觉系统框框的约束,利用一切可行和实用的技术手段实现视觉功能。此方法的一般做法是,将人类视觉系统作为一个黑盒子对待,实现时只关心对于某种输入,视觉系统将给出何种输出。

这两种方法理论上都是可以使用的,但面临的困难是,人类视觉系统对应某种输入的输出到底是什么,这是无法直接测得的。而且由于人的智能活动是一个多功能系统综合作用的结果,即使是得到了一个输入输出对,也很难肯定它是仅由当前的输入视觉刺激所产生的响应,而不是一个与历史状态综合作用的结果。

不难理解,计算机视觉的研究具有双重意义。其一,是为了满足人工智能应用的需要,即用计算机实现人工的视觉系统的需要。这些成果可以安装在计算机和各种机器上,使计算机和机器人能够具有“看”的能力。其二,视觉计算模型的研究结果反过来对于我们进一步认识和研究人类视觉系统本身的机理,甚至人脑的机理,也同样具有相当大的参考意义。

人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
1.学习了哪些知识,计算机视觉才算入门?
2.计算机视觉在智能交通领域,主要有哪几方面的应用?
3.计算机视觉影响人工智能的发展方式,主要有哪五种?

多智时代-人工智能大数据学习入门网站|人工智能、大数据、物联网云计算的学习交流网站

多智时代-人工智能大数据学习入门网站|人工智能、大数据、云计算、物联网的学习服务的好平台
没有更多推荐了,返回首页