图像处理相关论文网站

2018-01-11 19:03:30 wzy_zju 阅读数 5294


      一: 去雾方面的论文

           1、Efficient Image Dehazing with Boundary Constraint and Contextual Regularization,下载地址:

           http://lab.datatang.com/1984DA173065/WebFile/DocWeb/2014012053738649.pdf

 

          效果:

    

     2、 Fast image dehazing using guided joint bilateral filter

         http://graphvision.whu.edu.cn/papers/cgi2012.pdf

      效果:

      3、Fast Haze Removal Algorithm for Surveillance Video   这是一篇讲如何对视频进行快速去雾的文章,没涉及到具体的算法,不过可以看看。

     二、双边滤波

   1、Recursive Bilateral Filtering ,这个在杨庆雄的网站里有下载:http://www.cs.cityu.edu.hk/~qiyang/,他的个人网站下还有好多其他的论文和算法下载。

        该算法速度非常快,但是效果有点瑕疵。

    三、单幅图像的高光去除

  1、Real-Time Specular Highlight Removal Using Bilateral Filtering

      2、Real-time highlight removal using intensity ratio

      3、Separating Reflection Components of Textured Surfaces Using a Single Image

    四、水下图像增强

  1、Enhancing Underwater Images and Videos by Fusion,这是一篇通过融合技术来增强图像的文章,虽然不是很复杂,但是文章的思路应该能广泛应用,这也是我今年重点研究何实现的文章之一。

      下载:http://research.edm.uhasselt.be/~oancuti/Underwater_CVPR_2012/

      效果:

   

 

    如上图所示,该算法还具有较强的去雾能力。

2017-12-21 10:47:36 IT_job 阅读数 4194

近期在准备研究生选题资料查找,在网上看到有人推荐了一些文章,自己以前看过下面的两篇,然后把其他的也下载下来大致看了一下,后续准备仔细看下下面这些大牛的文章,这些都是中文的,后面再找英文文献。

 

博士论文

 

1《图像去雾方法和评价及其应用研究》作者郭璠,指导老师蔡自兴 中南大学,2012年5月答辩论文

文章框架为单幅图像去雾处理、视频去雾处理、构建去雾效果的客观评价体系、去雾技术在实际中的应用(交通环境)展开研究。提出了一种基于传播图梯度优先规律的去雾方法。提出了一种基于傅里叶振幅谱特性雾天检测方法,提出了两种基于雾气理论的视频去雾算法。

 

2《图像快速去雾与清晰度恢复技术研究》作者嵇晓强,指导老师戴明,中国科学院,2012年5月答辩论文

文章针对雾天图像的退化问题,详细分析了雾天图像退化原因和模糊机理,对雾天降质图像去雾处理的基础理论和关键技术进行了深入的研究,并从非模型和基于模型两个方面对图像进行去雾处理。论文对已有的图像去雾方法进行完善、改进和引入新思路(改进了retinex算法、暗原色算法、提出自己的方法以及搭建了基于FPGA的系统硬件平台)。

 

3《图像去雾算法研究》作者任福东,指导老师于银辉,吉林大学,2015年12月答辩论文

文章总结了图像去雾技术的国内外研究现状,分析了图像增强的去雾算法中各种算法的优势和不足,进行了仿真实验,以及这些算法对雾天图像处理的适用范围。基于大气散射模型的图像去雾的优点与不足,进行了仿真实验。

 

4《图像实时复原技术的研究与应用》作者贾格,指导老师付承毓、彭先蓉,中国科学院大学,2016年5月答辩论文。

文章主要基于快速复原算法和高速实现两个方向展开。研究常见的降质模型和快速复原算法,研究基于概率模型的图像盲复原算法,提出了基于SeDDaRA算法的乘性迭代方法,提出基于双尺度的暗通道去雾复原算法,研究用高级语言进行FPGA设计的开发工具Impluse C,研究OpenCL技术,利用GPU平台提高图像复原算法的速度。

 

期刊

 

1《图像去雾的最新研究进展》作者吴迪,朱青松,中国科学院,发表时间2015年2月

文章归纳总结了两大类图像去雾方法: 基于图像增强和基于物理模型的方法, 深入探讨了其中的典型算法和研究成果, 并对这些算法的测试结果进行了定性和定量的分析比较,最后总结了图像去雾技术目前的研究状况和未来的发展方向.

 

2《图像去雾技术研究进展》作者禹晶,徐东彬,廖庆敏,清华大学,发表时间2015年2月

本文归纳和总结了图像去雾技术的国内外研究现状。将现有的方法分为基于物理模型和非物理模型两类,分别详细阐述了这两类方法,分析它们各自的优势和不足,并总结了算法性能评价的无参考客观质量评测准则。最后,指出该技术的研究难点和发展趋势。

 

3《图像去雾技术研究综述与展望》作者郭璠,蔡自兴,谢斌,唐琎,发表时间2010年9月

文章通过从图像处理和物理模型的研究角度对图像去雾技术进行综述,综合了近年来提出的典型的图像去雾方法的基本原理和最新研究进展,并对一些典型的及最新提出的去雾方法,给出了其视觉上的去雾效果和客观的评估数据。最后展望了图像去雾技术的未来研究方向,并给出了一些建议。她的博士论文中提过本文中的相关内容。

2015-04-03 21:45:09 zy122121cs 阅读数 14692

Colorization and Color Transfer(图像上色和颜色迁移)

Semantic Colorization with Internet Images, Chia et al. SIGGRAPH ASIA 2011
Color Harmonization, Cohen-Or, Sorkine, Gal, Leyvand, and Xu. Web Page
Computing the alpha-Channel with Probabilistic Segmentation for Image Colorization, Dalmau-Cedeno, Rivera, and Mayorga
Bayesian Color Constancy Revisited, Gehler, Rother, Blake, Minka, and Sharp
Color2Gray: Salience-Preserving Color Removal, Gooch, Olsen, Tumblin, and Gooch
Color Conceptualization, Hou and Zhang
Light Mixture Estimation for Spatially Varying White Balance, Hsu, Mertens, Paris, Avidan, and Durand. Web Page
Bayesian Correction of Image Intensity with Spatial Consideration, Jia, Sun, Tang, and Shum
Robust Color-to-gray via Nonlinear Global Mapping, Kim, Jang, Demouth, and Lee. SIGGRAPH Asia 2009 Web Page
Variational Models for Image Colorization via Chromaticity and Brightness Decomposition, Kang and March
Colorization using Optimization, Levin, Lischinski, and Weiss
Intrinsic Colorization, Liu et al. SIGGRAPH ASIA 2008 Web Page
N-Dimensional Probability Density Function Transfer and Its Application to Colour Transfer, Pitie et al.
Automated Colour Grading using Colour Distribution Transfer, Pitie et al.
Color by Linear Neighborhood Embedding, Qiu and Guan
Manga Colorization, Qu, Wong, and Heng
Color Transfer between Images, Reinhard, Ashikhmin, Gooch, and Shirley
Local Color Transfer via Probabilistic Segmentation by Expectation-Maximization, Tai, Jia, and Tang
Data-Driven Image Color Theme Enhancement, Wang, Yu, Wong, Chen, and Xu. SIGGRAPH Asia 2010 Web Page
Color Transfer in Correlated Color Space, Xiao and Ma
Fast Image and Video Colorization using Chrominance Blending, Yatziv and Sapiro

Texture Synthesis and Inpainting(纹理和成和修复)

Seam Carving for Content-Aware Image Resizing, Avidan and Shamir. Wikipedia
Synthesizing Natural Textures, Ashikhmin
PatchMatch: A Randomized Correspondence Algorithm for Structural Image Editing, Barnes, Shechtman, Finkelstein, and Goldman. SIGGRAPH 2009. Web Page
Image Inpainting, Bertalmio, Sapiro, Caselles, and Ballester
Video Watercolorization using Bidirectional Texture Advection, Bousseau, Neyret, Thollot, and Salesin
Camouflage Images, Chu et al. SIGGRAPH 2010 Web Page
Object Removal by Exemplar-Based Inpainting, Criminisi, Perez, and Toyama
Weiming DONG's web page contains useful information about texture synthesis and image resizing
Image Quilting for Texture Synthesis and Transfer, Efros and Freeman
Texture Synthesis by Non-parametric Sampling, Efros and Leung
RotoTexture: Automated Tools for Texturing Raw Video, Fang and Hart
Textureshop: Texture Synthesis as a Photograph Editing Tool, Fang and Hart
Multiscale Texture Synthesis, Han, Risser, Ramamoorthi, and Grinspun
Scene Completion Using Millions of Photographs, Hays and Efros
Image Analogies, Hertzmann, Jacobs, Oliver, Curless, and Salesin
Graphcut Textures: Image and Video Synthesis Using Graph Cuts, Kwatra , Schodl , Essa , Turk, and Bobick
Improved Seam Carving for Video Retargeting, Rubinstein, Shamir, and Avidan. Video
Multi-operator Media Retargeting, Rubinstein, Shamir, and Avidan. SIGGRAPH 2009. Web Page
Fields of Experts: A Framework for Learning Image Priors, Roth and Black
Curvature Regularity for Region-based Image Segmentation and Inpainting: A Linear Programming Relaxation, Schoenemann, Kahl, and Cremers. ICCV 2009.
Fast Texture Synthesis using Tree-structured Vector Quantization, Wei and Levoy
Non-homogeneous Content-driven Video-retargeting, Wolf, Guttmann, and Cohen-Or
Feature Matching and Deformation for Texture Synthesis, Wu and Yu

HDR and Tone Mapping(高动态范围成像和色调映射)

Do HDR Displays Support LDR Content? A Psychophysical Evaluation, Akyu"z, Reinhard, Fleming, Riecke, Bu"lthoff
Two-scale Tone Management for Photographic Look, Bae, Paris, and Durand
Real-time Edge-Aware Image Processing with the Bilateral Grid, Chen, Paris, Durand
Recovering High Dynamic Range Radiance Maps from Photographs, Debevec and Malik
Fast Bilateral Filtering for the Display of High-Dynamic-Range Images, Durand and Dorsey
Edge-Preserving Decompositions for Multi-Scale Tone and Detail Manipulation, Farbman, Fattal, Lischinski, and Szeliski. SIGGRAPH 2009. Web Page
Optimal HDR reconstruction with linear digital cameras, Granados et al., CVPR 2010.
Gradient Domain High Dynamic Range Compression, Fattal, Lischinski, and Werman
Modeling Human Color Perception under Extended Luminance Levels, Kim, Weyrich, and Kautz. SIGGRAPH 2009. Web Page
Perceptually Based Tone Mapping for Low-Light Conditions, Kirk and O'Brien. SIGGRAPH 2011. Web Page
Compressing and Companding High Dynamic Range Images with Subband Architectures, Li, Sharan, and Adelson
Radiometric Calibration Using a Single Image Lin, Gu, Yamazaki, and Shum
Determining the Radiometric Response Function from a Single Grayscale Image, Lin and Zhang
Interactive Local Adjustment of Tonal Values, Lischinski, Farbman, Uyttendaele, and Szeliski. Web Page
Exposure Fusion, Mertens, Kautz, Van Reeth
Radiometric Self Calibration, Mitsunaga and Nayar
Photographic Tone Reproduction for Digital Images, Reinhard, Stark, Shirley and Ferwerda
Ldr2Hdr: On-the-Fly Reverse Tone Mapping of Legacy Video and Photographs, Rempel, Trentacoste, Seetzen, Young, Heidrich, Whitehead, and Ward
High Dynamic Range Image Hallucination, Wang, Wei, Zhou, Guo, and Shum
Fast, Robust Image Registration for Compositing High Dynamic Range Photographs from Hand-Held Exposures, Ward

Intrinsic Images(本征图像)

Removing Photography Artifacts using Gradient Projection and Flash-Exposure Sampling, Agrawal, Raskar, Nayar, and Li
User-Assisted Intrinsic Images, Bousseau, Paris, and Durand. SIGGRAPH Asia 2009. Web Page
Flash Photography Enhancement via Intrinsic Relighting, Eisemann and Durand
Bayesian Model of Surface Perception, Freeman and Viola
Detecting Illumination in Images, Finlayson, Fredembach, and Drew
Ground Truth Dataset and Baseline Evaluations for Intrinsic Image AlgorithmsGrosse, Johnson, Adelson, and Freeman. ICCV 2009.
A Variational Framework for Retinex, Kimmel, Elad, Shaked, Keshet, and Sobel
Dark Flash Photography, Krishnan amd Fergus. SIGGRAPH 2009. Web Page
Lightness and Retinex Theory, Land and McCann
Estimating Intrinsic Images from Image Sequenceswith Biased Illumination, Matsushita, Lin, Kang, Shum. ECCV 2004
Post-production Facial Performance Relighting using Reflectance Transfer, Peers, Tamura, Matusik, and Debevec
Separation of Highlight Reflections from Textured Surfaces, Tan, Lin, and Quan
Recovering Intrinsic Images from a Single Image, Tappen, Freeman, and Adelson
Estimating Intrinsic Component Images using Non-Linear Regression, Tappen, Adelson, and Freeman
Deriving Intrinsic Images from Image Sequences, Weiss

Deblurring, Denoising, and Super-Resolution(图像去模糊,去噪和超分辨率)

Reinterpretable Imager: Towards Variable Post Capture Space, Angle & Time Resolution in Photography, Agrawal, Veeraraghavan, and Raskar. Eurographics 2010.
Invertible Motion Blur in Video, Agrawal, Xu, and Raskar. SIGGRAPH 2009.
Optimal Single Image Capture for Motion Deblurring, Agrawal and Raskar. CVPR 2009.
Coded Exposure Deblurring: Optimized Codes for PSF Estimation and Invertibility, Agrawal and Xu. CVPR 2009.
A Non-local Algorithm for Image Denoising, Buades, Coll, and Morel.
Analyzing Spatially-varying Blur, Chakrabarti, Zickler, and Freeman. CVPR 2010.
Fast Motion Deblurring, Cho and Lee. SIGGRAPH Asia 2009. Web Page
Motion Blur Removal with Orthogonal Parabolic Exposures, Cho, Levin, Durand, and Freeman. CVPR 2010. Web Page
Handling Outliers in Non-Blind Image Deconvolution, Cho, Wang, and Lee. ICCV 2011. Web Page
Display supersampling, Damera-Venkata and Chang
Image Upsampling Via Imposed Edge Statistics, Fattal
Single Image Dehazing, Fattal.    Web Page   Demo Code
Multiscale Shape and Detail Enhancement from Multi-light Image Collections, Fattal, Agrawala, and Rusinkiewicz
Removing Camera Shake from a Single Image, Fergus, Singh, Hertzmann, Roweis, and Freeman
Example-Based Super-Resolution, Freeman, Jones, and Pasztor
Space-Variant Single-Image Blind Deconvolution for Removing Camera Shake, Harmeling, Hirsch, and Scholkopf
Multiframe Blind Deconvolution, Super-Resolution, and Saturation Correction via Incremental EM, Harmeling, Sra, Hirsch, and Scholkopf
Single Image Haze Removal Using Dark Channel Prior, He, Sun, Tang. CVPR 2009.
Image Deblurring and Denoising using Color Priors, Joshi, Zitnick, Szeliski, and Kriegman. CVPR 2009. Web Page
Image Deblurring using Inertial Measurement Sensors, Joshi, Kang, Zitnick, and Szeliski. SIGGRAPH 2010. Web Page
Joint Bilateral Upsampling, Kopf, Cohen, Lischinski, Uyttendaele
Blind Deconvolution using a Normalized Sparsity Measure, Krishnan, Tay, and Fergus. CVPR 2011. Web Page
Blind Motion Deblurring Using Image Statistics, Levin
Image and Depth from a Conventional Camera with a Coded Aperture, Levin, Fergus, Durand, Freeman 
Sparse Deconvolution
4D Frequency Analysis of Computational Cameras for Depth of Field Extension, Levin, Hasinoff, Green, Durand, and Freeman. SIGGRAPH 2009. Web Page
Motion-Invariant Photography, Levin, Sand, Cho, Durand, Freeman. SIGGRAPH 2008. Web Page
Noise Estimation from a Single Image, Liu, Freeman, Szeliski, and Kang
Image Magnification Using Level-Set Reconstruction, Morse and Schwartzwald
Bayesian Image Super-Resolution, Continued, Pickup, Capely, Roberts, and Zisserman
Fast Image/Video Upsampling, Shan, Li, Jia, and Tang. Web Page
High-quality Motion Deblurring from a Single Image, Shan, Jia, and Argarwala. Web Page
Image Super-resolution using Gradient Profile Prior, Sun, Sun, Xu, and Shum.
Deblurring Using Regularized Locally-Adaptive Kernel Regression, Takeda, Farsiu, and Milanfar. Web Page
Kernel Regression for Image Processing and Reconstruction, Takeda, Farsiu, Milanfar. Web Page
Exploiting the Sparse Derivative Prior for Super-Resolution and Image Demosaicing, Tappen, Russell, and Freeman
Bayesian Image Super-Resolution, Tipping and Bishop
Non-uniform Deblurring for Shaken Images, Whyte, Sivic, Zisserman, and Ponce. CVPR 2010
Deblurring Shaken and Partially Saturated Images, Whyte, Sivic, and Zisserman. ICCP 2012
Image Super-Resolution via Sparse Representation, Yang, Wright, Huang, and Ma 
Image Super-resolution as Sparse Representation of Raw Image Patches Code
Image Deblurring with Blurred/Noisy Image Pairs, Yuan, Sun, Quan, and Shum
Progressive Inter-scale and intra-scale Non-blind Image Deconvolution, Yuan, Sun, Quan, and Shum
Denoising vs. Deblurring: HDR Imaging Techniques Using Moving Cameras, Zhang, Deshpande, and Chen. CVPR 2010. Web Page
Robust Flash Deblurring, Zhuo and Sim. CVPR 2010. Web Page


Matting and Editing(抠图和图像编辑)

Interactive Digital Photomontage, Agarwala, Dontcheva, Agrawala, Drucker, Colburn, Curless, Salesin, and Cohen
Video SnapCut: Robust Video Object Cutout Using Localized Classifiers, Bai, Wang, Simons, and Saprio. SIGGRAPH 2009. Web Page
PatchMatch: A Randomized Correspondence Algorithm for Structural Image Editing, Barnes, Shechtman, Finkelstein, and Goldman. SIGGRAPH 2009. Web Page
Face Swapping: Automatically Replacing Faces in Photographs, Bitouk, Kumar, Dhillon, Belhumeur, and Nayar. SIGGRAPH 2008. Web Page
The Patch Transform and Its Applications to Image Editing, Cho, Butman, Avidan, and Freeman. Web Page
A Bayesian Approach to Digital Matting, Chuang, Curless, Salesin, and Szeliski
Geodesic Image and Video Editing, Criminisi, Sharp, Rother, and Perez. SIGGRAPH 2011.
Coordinates for Instant Image Cloning, Farbman, Hoffer, Lipman, Cohen-Or, and Lischinski. SIGGRAPH 2009. Web Page
Shared Sampling for Real-Time Alpha Matting, Gastal and Oliveira. Eurographics 2010. Web Page
Geodesic Star Convexity for Interactive Image Segmentation, Gulshan, Rother, Criminisi, Blake, and Zisserman. CVPR 2010. Web Page and Code
A Global Sampling Method for Alpha Matting, He, Rhemann, Rother, Tang, Sun. CVPR 2011.
Guided Image Filtering, He, Sun, Tang. ECCV 2011. Code
Light Mixture Estimation for Spatially Varying White Balance, Hsu, Mertens, Paris, Avidan, and Durand. Web Page
Arcimboldo-like Collage Using Internet Images, Huang, Zhang, and Zhang. Web Page
Drag-and-Drop Pasting, Jia, Sun, Tang, and Shum. Web Page
Exploring Photobios, Kemelmacher-Shlizerman, Shechtman, Garg, Seitz. SIGGRAPH 2011. Web Page
Seamless Image Stitching in the Gradient Domain, Levin, Zomet, Peleg, and WeissPhoto Clip Art, Lalonde, Hoiem, Efros, Rother, Winn, and Criminisi
A Closed Form Solution to Natural Image Matting, Levin, Lischinski, and Weiss Code
Spectral Matting, Levin, Rav-Acha, and Lischinski
Paint Selection, Liu, Sun, and Shum. SIGGRAPH 2009.
Poisson Image Editing, Perez, Gangnet, and Blake
A Perceptually Motivated Online Benchmark for Image Matting, Rhemann, Rother, Wang, Gelautz, Kohli, and Rott. Web Page
A Spatially Varying PSF-based Prior for Alpha Matting, Rhemann, Rother, Kohli, and Gelautz. CVPR 2010.
AutoCollage, Rother, Bordeaux, Hamadi, and Blake
Alpha Estimation in Natural Images, Ruzon and Tomasi
New Appearance Models for Natural Image Matting, Singaraju, Rother, and Rhemann
Interactive Editing of Massive Imagery Made Simple: Turning Atlanta into Atlantis, Summa, Scorzelli, Jiang, Bremer, and Pascucci. SIGGRAPH 2011. Web Page
Flash Matting, Sun, Li, Kang, and Shum
Fast Poisson Blending Using Multi-splines, Szeliski, Uyttendaele, and Steedly. ICCP 2011.
Soft Scissors : An Interactive Tool for Realtime High Quality Matting, Wang, Agrawala, and Cohen
Image and Video Matting: A Survey, Wang and Cohen

Warping and Morphing(图像扭曲和变形)

As-Rigid-As-Possible Shape Interpolation, Alexa, Cohen-Or, and Levin
Feature-Based Image Metamorphosis, Beier and Neely
Optimizing Content-Preserving Projections for Wide-Angle Images, Carroll, Agrawala, and Agarwala. SIGGRAPH 2009. Web Page
Detail Preserving Shape Deformation in Image Editing, Fang and Hart
Feature-Aware Texturing, Gal, Sorkine, and Cohen-Or
As-Rigid-As-Possible Shape Manipulation, Igarashi, Moscovich, and Hughes
Polymorph: Morphing Among Multiple Images , Lee, Wolberg, and Shin
Content-Preserving Warps for 3D Video Stabilization, Liu, Gleicher, Jin and Agarwala. SIGGRAPH 2009. Web Page
Moving Gradients: A Path-Based Method for Plausible Image Interpolation, Mahajan, Huang, Matusik, Ramamoorthi, and Belhumeur. SIGGRAPH 2009
Multi-operator Media Retargeting, Rubinstein, Shamir, and Avidan. SIGGRAPH 2009. Web Page
Regenerative Morphing, Shechtman, Rav-Acha, Irani, and Seitz. CVPR 2010. Web Page
Image Morphing: A Survey , Wolberg

Useful Techniques(其他相关技术)

Gaussian KD-Trees for Fast High-Dimensional Filtering, Adams, Gelfand, Dolson, and Levoy. SIGGRAPH 2009. Web Page
Fast High-Dimensional Filtering Using the Permutohedral Lattice, Adams, Baek, and Davis. Eurographics 2010. Web Page
Fast Approximate Energy Minimization via Graph Cuts, Boykov, Veksler, and Zabih
Edge-Avoiding Wavelets and thier Applications, Fattal Web Page
Graphical Models: Probabilistic Inference , Jordan and Weiss
Loopy Belief Propagation for Approximate Inference: An Empirical Study , Murphy, Weiss, and Jordan
Bilateral Filtering: Papers, Resources, Applications, Paris and Durand
Constant time O(1) bilateral filtering Porikli
Image Alignment and Stitching: A Tutorial, Szeliski
Bilateral Filtering for Gray and Color Images, Tomasi and Manduchi
Image Smoothing via L0 Gradient Minimization, Xu, Lu, Xu, and Jia. SIGGRAPH Asia 2011. Web Page
Real-Time O(1) Bilateral Filtering, Yang, Tan and Ahuja Source Code
SVM for Edge-Preserving Filtering, Yang, Wang and Ahuja

... and Beyond

Photographing long scenes with multi-viewpoint panoramas, Agarwala, Agrawala, Cohen, Salesin, and Szeliski
Video Face Replacement, Dale et al. SIGGRAPH ASIA 2011. Web Page
Convolution Pyramids, Farbman, Fattal, and Lischinski. SIGGRAPH ASIA 2011.
Candid Portrait Selection from Video, Fiss, Argarwala, and Curless. SIGGRAPH ASIA 2011. Web Page
Image-Based Rendering Using Image-Based Priors, Fitzgibbon, Wexler, and Zisserman
"GrabCut"--Interactive Foreground Extraction using Iterated Graph Cuts, Rother, Kolmogorov, and Blake Web Page
Photo Tourism: Exploring Photo Collections in 3D, Snavely, Seitz, and Szeliski Web Page

Books for General Reference

Digital Image Processing, Second Edition, Gonzalez and Woods
Computer Vision: A Modern Approach, Forsyth and Ponce
The Art and Science of Digital Compositing, Brinkmann
Multiple View Geometry in Computer Vision, Hartley and Zisserman
Linear Algebra and Its Applications, Strang
Computer Vision: Algorithms and Applications, Richard Szeliski
2015-12-29 11:21:24 u013088062 阅读数 32635

  最近有人问我图像处理怎么研究,怎么入门,怎么应用,我竟一时语塞。仔细想想,自己也搞了两年图像方面的研究,做个两个创新项目,发过两篇论文,也算是有点心得,于是总结总结和大家分享,希望能对大家有所帮助。在写这篇教程之前我本想多弄点插图,让文章看起来花哨一点,后来我觉得没必要这样做,大家花时间沉下心来读读文字没什么不好,况且学术和技术本身也不是多么花哨的东西。

  一、图像处理的应用

  这个其实没什么好说的,一种技术的应用价值不是靠嘴上说,而是要看有多少人去搞,很简单的道理。其实我觉得判断一项技术有没有价值、有多大价值的最简单最有效的方法就是看有多少人在研究它。如果大家都在研究,那必然说明它很火,至少目前很火,以后的几年里依然还会火。因此,如果你不确定图像处理是不是有价值,那就查查全国图像处理工程师的数量就行了。

当然这里还是简单提一下。如果你真的只想问“图像处理有什么用?”,相信百度会给出比我更专业的答案。不过作为图像处理的行内人,我还是从几个基本的点来具体说一下。

  1、身份认证

  21世纪是刷脸的时代,这一点无可厚非。首先是银行,据说重庆的银行已经使用了人脸识别的验证系统来进行辅助的认证。其次是门禁系统,以前是指纹,虹膜,现在就是人脸。指纹、虹膜的识别虽然准确,但是有侵犯性,采集的过程中有侵犯性,验证的过程中也有侵犯性,反正让谁天天录指纹(采集指纹信息),用眼睛瞪摄像头(采集虹膜信息),谁都会觉得不舒服的,况且手还会脱皮。相比之下,人脸的识别就方便多了,拍张照片(采集人脸信息)谁都不会介意。最后是监控,一个摄像头所拍的监控能从不同的角度记录成百上千的人(比如车站等密集场所的监控),让警察去辨认将是一个浩大的工程,要是系统能够自动判别人员信息,无疑会给办案带来极大方便。

  2、监控安防

  安防监控可以说是图像处理领域最有潜力的应用领域。如今各个城市都在疯狂的安装监控摄像头,全国时刻都有无数的摄像头在录监控,但是安防监控的后端处理却没跟上。什么是后端处理,简单的说就是监控录像的视频处理。注意这里的视频处理可就不止包含人脸识别了,还有行人检测、异常检测、显著性检测、协同跟踪等。人脸识别之前说了,这里简单说说行人异常检测。图像处理中的行人异常检测在外行人眼中是一个非常有魔力的东西。毕竟让摄像头通过监控视频就能判断出当前画面中谁是好人谁是坏人(当然直接分为好人和坏人还是太武断了),在一般思维中貌似是不可能的。但是请不要忽略这样一个事实,就是目前大部分监控视频的分析处理都是由人工来完成的,警察破案时经常动不动就调出最近几天的监控视频,然后从头看到尾,其工程量之大可想而知。也正是这样才催生了人们对智能监控方面的研究,因为有这方面的实际需求。当然我们的视频分析程序不会直接给出诸如“好人or坏人”这样的武断而片面的判断结果。就当前的技术水平而言,能够统计当下监控画面中的人数(行人检测)、定位他们的人脸(人脸检测)、识别他们的身份(人脸识别)、判别他们的表情(表情识别)、检测他们的动作(异常检测),这就已经够了。这样以后人们就不会再面对长达几十甚至上百个小时的监控视频发呆,而是直接分析计算机给出的数据,当前画面中有多少人、都是谁、谁的动作可疑等。总之,接下来智能监控发展会很迅速,因为需求很迫切。

  3、深度学习(Deep Learning)

  通俗的说一句,“图像处理是深度学习应用的天堂”。深度学习这个概念可能有人不太熟悉,大家可以自行百度,我这里给出一个相对通俗的解释:“如果你不知道什么叫深度学习,就想想《终结者》中的T-800”。当然这句话不是我说的,是出自业界的一位大牛之口。当然这可能有点小片面,不过深度学习确实是公认的新一代人工智能的基础。

  这里举两个例子。一是谷歌的人工大脑项目。谷歌公司可以说是深度学习方面的牵头企业了,其在2012年公布的谷歌大脑项目,动用了1.6万个计算节点,训练数周,得到的人工智能模型能够自主识别猫脸图像,为新一代人工智能开辟了道路,之后微软深度学习研究院、百度深度学习研究院等机构都开始大量投入,各个高校也搞得风声水起,原因很简单,大家都知道它会火。

  第二就是图像识别方面的竞赛。最有权威的就是ImageNet竞赛。大家在一个拥有上千万张,上千类别的图像数据库上训练和测试自己的算法,比拼识别率。近几年来,摘得桂冠的一直都是深度学习模型,确切的说是卷积神经网络。更多有关ImageNet历年的竞赛信息大家可以自行百度。

  说道深度学习在图像处理的应用,不得不提中国的汤晓鸥教授,说他是国内深度学习的领头羊也不为过。他提出的DeepID人脸识别算法(一共分为三代),在一些大规模人脸数据库上的正确率(若LFW库)已经达到了99.75%,单纯从数字上讲的话可以说已经超越了人类的识别率,为此汤教授还开办了公司,开发FaceSDK(虽然还没有公布)。不过拿计算机和人脑相比本身就是不合理的,各有所长嘛。不过可见DeepLearning在图像识别领域的强大威力。至于深度学习与图像处理的关系这里就不用多说了,谷歌大脑识别的是图像,深度学习竞赛用的是图像,DeepID识别的还是图像人脸,虽然深度学习在其他方面诸如语音识别等也有应用,在图像处理依然是其主要的应用领域。

  二、图像处理研究工具

  图像处理的研究分为算法研究和应用两个部分。用到的主要编程语言有Matlab、C/C++、Python等,原因很简单,它们都有很多相应的第三方库,不用我们从零开始编程。

  1、Matlab

  MathWork公司的Matlab软件可以说是算法研究的利器,它的强大之处在于其方便快捷的矩阵运算能力和图形仿真能力,单从简洁性和封装性来说,确实完爆其他语言。但高度封装必然会相应的损失一部分灵活性,况且Matlab严格的讲更像是一个工具,而非一门编程语言。顺便提一句,它在2015年编程语言排行榜中位于第20名,仅次于IOS开发的Objective-C。

  对于算法研究人员(尤其是高校的硕士博士),首选工具自然是matlab,因为它简便快捷,封装性好,更重要的是全世界几乎所有的算法大牛、精英教授都会首先公布对应的Matlab源码,然后在逐步改写成其他语言进行实际应用。所以,如果你想做图像处理方面的研究,Matlab是必须掌握的,而且是熟练掌握。当你有一些想法需要验证时,最好明智的先用matlab编写出来测试。如果你上来就用看似高大上的C++来实验,不仅错误BUG一大堆,到头来可能效果还不佳,就算效果好,时间也会耽搁不少,毕竟算法开发还是要快的,这样才能赶在别人之前发论文。总之,只要是接触图像算法,终究逃不过Matlab,就算你是软件开发的,不研发算法,但总得能看懂别人的Matlab算法吧。

  对于之前没怎么接触过Matlab与图像处理的人,在这里推荐一本相关的书籍《MATLAB图像处理实例详解(附光盘)》。这本书对于Matlab图像处理入门还是很有帮助的。记得我当时刚上研究生时就靠两本书入门的,一是冈萨雷斯的《数字图像处理》,二是这本《MATLAB图像处理实例详解》。不过这里友情提示,在看这类教程(不仅仅是Matlab)时千万不要试图去记忆所有的工具函数,这种做法是十分愚蠢的。正确的做法是根据自己的情况快速翻阅这类工具书,可以找出里面的有实际意义的源码来敲一敲练练手感,至于具体的工具函数,只需要知道Matlab提供了这方面的功能就行了,以后用到了再回来查,或者谷歌百度。我觉得在入门阶段,最重要的不是看了多少书,听了多少课,而是尽快自己敲出一段代码,运行出结果,来建立自信和成就感,这才是支持我们走下去的最实在的动力。记得我当时看了没多久就自己敲了一个蹩脚的车牌检测的Matlab程序,现在看来真是漏洞百出,不过当时我真的很兴奋,很有成就感,觉得自己能干这行,对于初学者来说,这种感受弥足珍贵。

  2、OpenCv

  Opencv是Intel公司开发的C++图像处理工具包,形象的理解为就是C++版的Matlab。当初Intel公司开发这个工具包的初衷也是方便大家共享,希望大家能够在一个共同架构的基础上共同建造摩天大楼,而不是各自在自己的地基上盖平房。与Matlab不同,Opencv是面向开发的,稳定性好,异常处理机制周全,但有一点需要注意,由于Opencv是开源的,那么如果你在项目中直接调用了它的API,那就意味着你的项目也必须开源。因此在真正的产品开发过程中,往往需要从Opencv库里面挖代码,而不是直接调用,幸好Intel公司允许我们看源码,自己编译一把就可以了。

  说道C++和Opencv,有一个问题不得不提,那就是深度学习领域大名鼎鼎的Caffe框架。这是一个典型的基于C++和OpenCv的深度学习框架,由谷歌深度学习团队、“谷歌大脑”负责人之一贾扬清学者编写,并公布了源码。如今各个深度学习机构都在大量使用这个框架进行研究。

  这里同样对推荐两本关于Opencv方面的教程。一本是CSDN博客大牛毛星云写的《OpenCV3编程入门》,这是它根据自己多年的博客整理成的书,很详细,很典型的一本教程,介绍了OpenCv中相对前沿的知识。我翻看过这本教程,中规中矩,里面的代码通俗易懂,尤其适合初学者。当然大家同样要注意不要犯了死读书的毛病,只看它的功能,敲代码练手感即可,不要试图记忆API函数。重要的工具用多了自然会记住,不重要的工具记住了也没用。

  这里推荐的第二本书是《图像识别与项目实践――VC++、MATLAB技术实现》,这本书是一本偏向于工程应用的书,我之所以推荐它是因为它给出了很多有新意、能运行的代码。其中里面有一个项目让我印象很深,是一个车牌检测的实例。简单描述一下:由于车牌中的字符数是固定的,因此它通过判断横向区域笔画的跳变数以及笔画宽度来定位车牌区域。这个想法让人耳目一新,并且它还给出了详细代码,我也亲身试验过,效果还不错。

  这里同样再强调一下,就是一定要尽早入手写程序,建立自信和成就感。我当时学OpenCv正好用它开发了一个人脸性别识别的系统,是一个本科大学生创新计划的需求,效果还可以。

  3、Python

  Python在今年12月份的编程语言排行榜中名列第5,增长迅速。可以说Python已经逐渐成为当下脚本语言的新标准。Python在图像处理算法方面除了其自身简洁的编程优势外,还得益于两个重要的Python类库——Numpy和Theano。

  Numpy是Python的线性代数库,对于矩阵运算能提供很好的支持,并且能够在此基础上进行很多机器学习相关算法的开发仿真,这里推荐一本受到大家广泛认可的书《机器学习实战》,我最近也正在看这本书,里面对好多机器学习领域的经典算法,小到KNN,大到SVM,都给出了详细的介绍以及代码实现(Python版)。Theano是Python的机器学习库,能够方便的实现深度学习(例如卷积神经网络CNN)算法,网上很多对于DeepID算法的复现都是用的这个库。

  人觉得单从图像处理的角度评价的话,Python并没有前面两个工具(Matlab和OpenCv)应用广泛,不过作为通用的脚本语言,我觉得每个程序员都应该去了解了解它,毕竟俗话说没有烂的编程语言,只有烂程序员。我在学Python时第一个自己写的程序就是微信打飞机的小程序,在我的博客中有详细的教程,虽然是参照小甲鱼的《零基础入门学习Python》视频教程写的,但还是蛮有成就感的。

  三、图像处理研究方法

  我觉得,图像处理研究主要可以分为三个部分:基础概念、基本思想、算法研究。

  1、基础概念

  所谓基础概念,就是图像处理里最基本的知识,比如什么是图像?什么是像素?什么是彩色图像等等。没有一个明确的界限来划定什么是基础概念什么是高级知识,因人而异。了解图像处理的基础知识,有一本书是必读的,就是冈萨雷斯编写的、阮秋琦翻译的《数字图像处理》。这本书已经作为图像处理领域的经典教材使用了三十多年,我自己也把这本书看了好几遍,每一遍都会有新的体会。我觉得每一个搞图像的都应该熟读这本书。书中除了有几章内容在讲小波变换、模式识别等相对抽象的内容外,其他内容相对都是很基础的,本科生水平就能看懂。而且我建议要尽早看这本书,如果是研究生尽量在进入课题之前就看一遍,因为这样一本经典的书在进入课题之后可能就没时间看了,以后也顶多是查阅而已。我当初就是在大四的寒假看完了这本书,以后在图像入门的过程中就显得轻松很多。看完这本书,哪怕是只看前几章,明白了什么是图像(二维或者三维矩阵)、什么是像素、彩色图和灰度图、颜色空间、图像滤波、图像噪声、图像频域变换等概念,将来在进行更深一步的研究的话就会方便很多了。

  2、基本思想

  刚开始想把这部分内容命名为“基本算法”,意在介绍图像处理中的一些基本算法,后来仔细想想决定不这么写,因为图像处理是一个非常大的概念,图像处理不等于人脸识别,也不等于模式识别,直接介绍诸如图像处理基本算法之类的内容很容易写成空话,没有什么实际意义。读者有兴趣的话可以直接谷歌百度“图像处理十大经典算法”,上面有我想说的内容。

  万变不离其宗,算法是死的,重在思想。举个例子,我个人是主攻模式识别方向,在这个方向判断一个学生是否入门有一个非常简单的方法,就是“如果你能把图像很自然的想象成高维空间中的一个点”,那就说明在模式识别方面入门了,可以对图像进行分类了。当然标准不是唯一,在其他领域如目标检测也会有其他的判断标准,总之我们要对图像进行处理,那么图像就不再只是图像,它可能会演变成各种不同形式的概念,可能是点,可能是面,还可能是一个坐标空间。在目标跟踪的经典算法粒子滤波中,将一个个的小图像块看做一个个粒子;在子空间理论中,将一系列图像放在一起构建一个成分主空间(例如主成分分析PCA算法等等。,我不会详细介绍这些算法,说多了就显得抽象老套,但我要说的是我们一定要把图像本身理解好,它是一个图像,是一个矩阵,是一个信息的容器,是一种数据的表现形式,图像不一定都必须在视觉上有意义(比如频域的图像)。

  总之图像处理的基本思想还是要立足于图像本身,要深度到图像内部结构中,思维要灵活。我当时做本科毕设时,怎么也不知道图像和高维空间中的点之间有什么对应关系,后来总算有一天,突然就明白了,这也就是所谓的量变产生质变。总之一定要多想,多总结,主动去钻研,才能够真正领悟一些东西。最基本的东西往往蕴藏着深奥的道理,无论你现在多牛多厉害,都不能放掉最本源的东西。多想想图像是什么,有什么本质属性,你可能无法得到准确的答案,但肯定能得到一些有用的感悟(有点像哲学问题了)。

  3、算法研究

  算法研究应该是图像处理的核心工作,尤其是各大高校的博士硕士。这里我并不想谈那些高大上的算法,我更想说的是一些算法研究的一些基础的东西,比如说一些基础课程,比如说矩阵运算。

  研究图像处理的算法,离不开数学。在这里我建议图像处理方面的硕士一定要上两门课:《泛函分析》以及《最优化算法》,有的学校已经将这两门课列为了研究生阶段的必修课程。这两门可可以说是图像处理(至少是模式识别)的基础。我当初没上过最优化算法,但后来也自己补上了,不然真的是寸步难行。至于泛函我当时听课的时候也不是很懂,但是在之后的研究过程中发现很多图像处理的基本知识基本理论都和泛函分析中枯燥的定理如出一辙,没办法,有的东西本身就是枯燥的干货,学着费力,缺它不行。

  其次我想说的是矩阵运算。图像就是矩阵,图像处理就是矩阵运算。大家为什么都喜欢用Matlab,就是因为它的矩阵运算能力实在是太强大,在Matlab的世界中任何变量都是矩阵。同样OpenCv之所以能流行,不仅仅是因为它良好的封装性,也是因为它的矩阵格式,它定义了Mat基础类,允许你对矩阵进行各种操作。Python也不例外,它的Numpy就是一个专门的线性代数库。

  真正在图像编程过程中,那些看着高大上的API函数归根到底都是工具,查查手册就能找到,真正核心还是在算法,算法是由公式编写的,公式的单元是变量,而图像届的变量就是矩阵。所以,熟练去操作矩阵,求秩、求逆、最小二乘,求协方差,都是家常便饭。所以,如果你有幸能上《矩阵分析》这门课,一定要把它看懂,那里面都是干货。

  四、小结

  总之,图像处理就是一个典型的门槛低、厅堂深的领域。不需要太多基础,学过线性代数,会一点编程就够了;但是那些算法却深不可测,是个消耗功夫的活儿。在写这篇教程时我说的很直白,就像和大家对话一样,想到什么说什么。在最后我想说两句题外话,就是不仅仅针对图像处理,对于其他新技术的入门学习也是一样,尽快迈出第一步,尽快去建立自信和成就感,让自己有勇气走下去,然后缺什么补什么就行了。我觉得真正让人望而却步的往往不是技术本身,而是我们对自身的不自信。唯有果断开工,才能战胜心魔。


如果觉得这篇文章对您有所启发,欢迎关注我的公众号,我会尽可能积极和大家交流,谢谢。


2016-11-18 10:55:57 yangleo1987 阅读数 23426

所谓数字图像处理,是指将图像信号转换成数字信号并利用计算机对其进行处理的过程。20 世纪 50 年代,电子计算机已经发展到一定水平,人们开始利用计算机来处理图形和图像信息,这便是早期的图像处理。早期图像处理的目的是改善图像的质量,它以人为对象,以改善人的视觉效果为目的。数字图像处理作为一门学科大约形成于 20 世纪 60 年代初期。图像处理中,一般输入的是质量低的图像,而输出的是改善质量后的图像,常用的图像处理方法有图像增强、复原、编码、压缩等。

下面维视图像为您简单介绍一下数字图像处理的常用技术方法:

图像编码压缩:图像编码压缩技术可减少描述图像的数据量(即比特数),以便节省图像传输、处理时间和减少所占用的存储器容量。压缩可以在不失真的前提下获得,也可以在允许的失真条件下进行。编码是压缩技术中最重要的方法,它在图像处理技术中是发展最早且比较成熟的技术。

图像变换:由于图像阵列很大,直接在空间域中进行处理,涉及计算量很大。因此,往往采用各种图像变换的方法,如傅立叶变换、沃尔什变换、离散余弦变换等间接处理技术,将空间域的处理转换为变换域处理。这样不仅可减少计算量,而且可获得更有效的处理(如傅立叶变换可在频域中进行数字滤波处理)。小波变换这种方式在时域和频域中都具有良好的局部化特性,它在图像处理中也有着广泛而有效的应用。

图像描述:图像描述是图像识别和理解的必要前提。作为最简单的二值图像可采用其几何特性描述物体的特性,一般图像的描述方法采用二维形状描述,它有边界描述和区域描述两类方法。对于特殊的纹理图像可采用二维纹理特征描述。随着图像处理研究的深入发展,已经开始进行三维物体描述的研究,提出了体积描述、表面描述、广义圆柱体描述等方法。

图像分割:图像分割是数字图像处理中的关键技术之一。图像分割是将图像中有意义的特征部分提取出来,其有意义的特征如图像中的边缘、区域等,这是进一步进行图像识别、分析和理解的基础。虽然目前已研究出不少边缘提取、区域分割的方法,但还没有一种普遍适用于各种图像的有效方法。因此,对图像分割的研究还在不断深入之中,是目前图像处理中研究的热点之一。

图像增强和复原:图像增强和复原的目的是为了提高图像的质量,如去除噪声,提高图像的清晰度等。图像增强不考虑图像降质的原因,突出图像中所感兴趣的部分。如强化图像高频分量,可使图像中物体轮廓清晰,细节明显;如强化低频分量可减少图像中噪声影响。图像复原要求对图像降质的原因有一定的了解,一般应根据降质过程建立“降质模型”,再采用某种滤波方法,恢复或重建原来的图像。

图像分类(识别):图像分类(识别)属于模式识别的范畴,其主要内容是图像经过某些预处理(增强、复原、压缩)后,进行图像分割和特征提取,从而进行判决分类。图像分类常采用经典的模式识别方法,有统计模式分类和句法(结构)模式分类,近年来新发展起来的模糊模式识别和人工神经网络模式分类在图像识别中也越来越受到重视。

接下来,维视图像再为大家讲讲图像的基本属性有哪些:

图像的亮度:也称为灰度,它是颜色的明暗变化,常用 0 %~ 100 % ( 由黑到白 ) 表示。以下三幅图是不同亮度对比。

 

图像的对比度:即画面黑与白的比值,也就是从黑到白的渐变层次。比值越大,从黑到白的渐变层次就越多,从而色彩表现越丰富。以下两幅图是不同对比度下的画面对比。

 

直方图:表示图像中具有每种灰度级的象素的个数,反映图像中每种灰度出现的频率。图像在计算机中的存储形式,就像是有很多点组成一个矩阵,这些点按照行列整齐排列,每个点上的值就是图像的灰度值,直方图就是每种灰度在这个点矩阵中出现的次数。下图就是一幅图片的灰度直方图:

 

图像的噪声:就像对于听觉而言,在打电话时对方说话我们有时候会听到很嘈杂的噪声,以至于听不清楚对方在说什么。同样的,对于图像,原本我们可以很清晰的看到一幅图像,但是有时候图像上会有一些我们不需要的图案,使我们无法很清楚的看清一幅图,这就是图像的噪声。

除了以上我们介绍过的几种常用的数字图像处理技术方法外,一般还有:

直方图均衡化:通过灰度变换将一幅图像转换为另一幅具有均衡直方图的图像,即在一定灰度范围内具有相同的象素点数的图像的过程。

图像的加减运算:两幅图像的加减运算,就是将图像对应的存储矩形点列上的灰度值进行加减运算。图像相加可以将一幅图像的内容加到另一幅图像上,可以实现二次曝光,也可一对同一个场景的多幅图像求平均值,这样可以降低噪声。图像相减可以用于运动检测或去除图像中不需要的加性图案。

常用的去噪方法:主要是采用滤波器对带噪声图像进行滤波处理,如算术平均滤波、中值滤波等。

随着计算机技术的发展,数字图像处理技术已经深入到我们生活中的方方面面,其中,在娱乐休闲上的应用更是深入人心,如电影特效制作、电脑电子游戏、数码相机、视频播放、数字电视等。维视图像公司研发的XAVIS软件平台和SVS工业智能相机系统等,均包含了丰富的数字图像处理技术和方法,可轻松完成各种数字图像处理任务,为客户的图像处理结果提供专业而可靠的保障。

图像处理技术介绍

阅读数 732