精华内容
下载资源
问答
  • 2019年计算机视觉综述论文汇总

    千次阅读 2019-12-14 22:36:20
    【导读】本文整理了2019年计算机视觉方面的综述论文,包含目标检测、图像分割(含语义/实例分割)、目标跟踪、医学图像分割、显著性目标检测、行为识别、深度估计等。可以使读者对相关 目标检测 2019 四大目标检测...

    【导读】本文整理了2019年计算机视觉方面的综述论文,包含目标检测、图像分割(含语义/实例分割)、目标跟踪、医学图像分割、显著性目标检测、行为识别、深度估计等。可以使读者对相关

    目标检测

    2019 四大目标检测综述论文:

    Imbalance Problems in Object Detection: A Review

    Recent Advances in Deep Learning for Object Detection

    A Survey of Deep Learning-based Object Detection

    Object Detection in 20 Years: A Survey

    目标检测更多论文详见:【资源】最全目标检测论文汇总(含最新 2019)
     

    图像分割

    Deep Semantic Segmentation of Natural and Medical Images: A Review

    Deep Learning Techniques for Image Segmentation

    • intro: 本综述介绍了从2013年到2019年,主流的30多种分割算法(含语义/实例分割),50多种数据集,共计224篇参考文献
    • 链接: https://arxiv.org/abs/1907.06119

     

    目标跟踪

    A Review of Visual Trackers and Analysis of its Application to Mobile Robot

    Deep Learning in Video Multi-Object Tracking: A Survey

     

    超分辨率

    A Deep Journey into Super-resolution: A survey
    链接: https://arxiv.org/abs/1904.07523Deep
    Learning for Image Super-resolution: A Survey

     

    医学图像分割

    Deep learning for cardiac image segmentation: A review

    • intro: 本医学图像分割综述从FCN(2014)到Dense U-net(2019),超过250篇的参考文献(论文中光画图的工作量就超级大)
    • 链接: https://arxiv.org/abs/1911.03723

    Machine Learning Techniques for Biomedical Image Segmentation: An Overview of Technical Aspects and Introduction to State-of-Art Applications

     

    自动驾驶

    A Survey of Autonomous Driving: Common Practices and Emerging Technologies

    • intro: 在本次自动驾驶系统调查中,本文概述了一些关键创新以及现有系统。涉及内容如下: 1. 前景和挑战 2. 自动驾驶系统架构 3. 传感器 4. 定位和建图技术 5. 感知(2D/3D):目标检测、跟踪、道路和车道线检测 6. 评估方法 7. 自动驾驶相关数据集 8. 自动驾驶开源工具
    • 链接: https://arxiv.org/abs/1906.05113

     

    显著性目标检测

    Salient Object Detection in the Deep Learning Era: An In-Depth Survey

    Action Recognition: A Survey

     

    深度估计

    Monocular Depth Estimation: A Survey

    来源:知乎
    作者:Amusi

     

    展开全文
  • 【导读】本文整理了2019年计算机视觉方面的综述论文,包含目标检测、图像分割(含语义/实例分割)、目标跟踪、医学图像分割、显著性目标检测、行为识别、深度估计等。可以使读者对相关领域有一个...

    【导读】本文整理了2019年计算机视觉方面的综述论文,包含目标检测图像分割(含语义/实例分割)目标跟踪医学图像分割显著性目标检测行为识别深度估计等。可以使读者对相关领域有一个系统的了解。很适合初学者以及相关领域的研究人员。

    目标检测

    01

    1. Imbalance Problems in Object Detection: A Reviewintro: under review at TPAMI

    arXiv: https://arxiv.org/abs/1909.00169

    2. Recent Advances in Deep Learning for Object Detectionintro: From 2013 (OverFeat) to 2019 (DetNAS)

    arXiv: https://arxiv.org/abs/1908.03673

    3. A Survey of Deep Learning-based Object Detectionintro:From Fast R-CNN to NAS-FPN

    arXiv: https://arxiv.org/abs/1907.09408

    4. Object Detection in 20 Years: A Surveyintro:This work has been submitted to the IEEE TPAMI for possible publication

    arXiv: https://arxiv.org/abs/1905.05055

    5. 目标检测更多论文详见:https://github.com/amusi/awesome-object-detection

    图像分割

    02

    1. Deep Semantic Segmentation of Natural and Medical Images: A Reviewintro

    从 FCN(2014) 到 Auto-DeepLab(2019),本综述共含179篇语义分割和医学图像分割参考文献

    arXiv: https://arxiv.org/abs/1910.07655

    2. Understanding Deep Learning Techniques for Image Segmentationintro

    本综述介绍了从2013年到2019年,主流的30多种分割算法(含语义/实例分割),50多种数据集,共计224篇参考文献

    arXiv: https://arxiv.org/abs/1907.06119

    目标跟踪

    03

    1. A Review of Visual Trackers and Analysis of its Application to Mobile Robotintro

    本目标跟踪综述共含185篇参考文献!从传统方法到最新的深度学习网络

    arXiv: https://arxiv.org/abs/1910.09761

    2. Deep Learning in Video Multi-Object Tracking: A Surveyintro

    38页目标跟踪综述,含30多种主流算法,共计174篇参考文献

    arXiv: https://arxiv.org/abs/1907.12740

    超分辨率

    04

    1. A Deep Journey into Super-resolution: A survey

    arXiv: https://arxiv.org/abs/1904.07523

    2. Deep Learning for Image Super-resolution: A Survey

    arXiv: https://arxiv.org/abs/1902.06068

    医学图像分割

    05

    1. Deep learning for cardiac image segmentation: A reviewintro

    本医学图像分割综述从FCN(2014)到Dense U-net(2019),超过250篇的参考文献(论文中光画图的工作量就超级大)

    arXiv: https://arxiv.org/abs/1911.03723

    2. Machine Learning Techniques for Biomedical Image Segmentation: An Overview of Technical Aspects and Introduction to State-of-Art Applications

    arXiv: https://arxiv.org/abs/1911.02521

    显著性目标检测

    06

    1. Salient Object Detection in the Deep Learning Era: An In-Depth Survey

    arXiv: https://arxiv.org/abs/1904.09146

    github: https://github.com/wenguanwang/SODsurvey

    行为识别

    07

    1. Spatio-temporal Action Recognition: A Survey

    arXiv: https://arxiv.org/abs/1901.09403

    深度估计

    08

    1. Monocular Depth Estimation: A Survey

    arXiv: https://arxiv.org/abs/1901.09402

    地址连接:

    https://github.com/FranxYao/Deep-Generative-Models-for-Natural-Language-Processing

    文章转载自专知

    “哪吒头”—玩转小潮流

    展开全文
  • 导读:本文共汇总了从2020年4月至今的计算机视觉领域综述论文,共54篇,涵盖图像分割、 图像识别、人脸识别/检测、医学影像、目标检测、3D方向(自动驾驶/深度估计)、GAN、文本检测与识别、姿态估计等14个研究...

    导读:本文共汇总了从2020年4月至今的计算机视觉领域综述性论文,共54篇,涵盖图像分割、 图像识别、人脸识别/检测、医学影像、目标检测、3D方向(自动驾驶/深度估计)、GAN、文本检测与识别、姿态估计等14个研究方向。54篇论文打包下载请前往极市社区

    图像分割

    Unsupervised Domain Adaptation in Semantic Segmentation: a Review

    标题:语义分割中的无监督自适应研究进展

    作者:Marco Toldo, Pietro Zanuttigh

    链接:https://arxiv.org/abs/2005.10876

    A survey of loss functions for semantic segmentation

    标题:语义分割损失函数综述

    作者:Shruti Jadon

    链接:https://arxiv.org/abs/2006.14822

    A Survey on Instance Segmentation: State of the art

    标题:实例分割技术综述

    作者:Abdul Mueed Hafiz, Ghulam Mohiuddin Bhat

    链接:https://arxiv.org/abs/2007.00047

    人脸识别/检测

    Deep Learning Based Single Sample Per Person Face Recognition: A Survey

    标题:基于深度学习的单样本人脸识别研究综述

    作者:Delong Chen, Zewen Li

    链接:https://arxiv.org/abs/2006.11395

    A survey of face recognition techniques under occlusion

    标题:遮挡下的人脸识别技术综述

    作者:Dan Zeng, Luuk Spreeuwers

    链接:https://arxiv.org/abs/2006.11366

    本文介绍了现有的面部识别方法如何解决遮挡问题,并将其分为三类:1)遮挡鲁棒特征提取方法;2)遮挡感知的面部识别方法;3)基于遮挡恢复的面部识别方法。共引用193篇文献。

    Biometric Quality: Review and Application to Face Recognition with FaceQnet

    标题:生物特征质量:FaceQnet在人脸识别中的应用

    作者:Javier Hernandez-Ortega, Laurent Beslay

    链接:https://arxiv.org/abs/2006.03298

    Threat of Adversarial Attacks on Face Recognition: A Comprehensive Survey

    标题:对抗攻击对人脸识别的威胁:综述

    作者:Fatemeh Vakhshiteh, Ahmad Nickabadi

    链接:https://arxiv.org/abs/2007.11709

    本文对针对人脸识别系统的对抗性攻击进行了全面研究,详细阐述了针对这些系统的新对策,并根据不同的标准提出并比较了现有攻防策略的分类法。

    Cross-ethnicity Face Anti-spoofing Recognition Challenge: A Review

    标题:跨种族人脸反欺骗识别挑战:综述

    作者:Ajian Liu, Stan Z. Li

    链接:https://arxiv.org/abs/2004.10998

    The Creation and Detection of Deepfakes: A Survey

    标题:深度伪装的产生与检测:综述

    作者:Yisroel Mirsky, Wenke Lee

    链接:https://arxiv.org/abs/2004.11138

    图像识别

    Visual Relationship Detection using Scene Graphs: A Survey

    标题:基于场景图的视觉关系检测研究综述

    作者:Aniket Agarwal, Vipul

    链接:https://arxiv.org/abs/2005.08045

    本文对场景图生成的各种技术,它们表示视觉关系的效率以及如何用于解决各种下游任务的方法进行了详细的研究,并分析了该领域未来可能发展的各种未来方向。共引用95篇文献。

    Deep learning for scene recognition from visual data: a survey

    标题:从视觉数据中进行场景识别的深度学习:综述

    作者:Alina Matei, Estefania Talavera

    链接:https://arxiv.org/abs/2007.01806

    概述了可用于图像和视频场景识别的数据集、研究论文、集成技术。

    Automatic Target Recognition on Synthetic Aperture Radar Imagery: A Survey

    标题:合成孔径雷达图像目标自动识别综述

    作者:Kechagias-Stamatis

    链接:https://arxiv.org/abs/2007.02106

    军事应用的自动目标识别(ATR)是增强情报员和自主运行的军事平台的核心过程。本文对当前的SAR ATR体系结构进行调查和评估,采用SAR域中最受欢迎的数据集-移动和固定目标获取与识别(MSTAR)数据集。提出了SAR ATR体系结构的分类法,并比较了标准方法和扩展操作条件下每种方法的优缺点。共引用151篇文献。

    Deep Learning for Change Detection in Remote Sensing Images: Comprehensive Review and Meta-Analysis

    标题:遥感图像变化检测的深度学习:综合评述和Meta分析

    作者:Lazhar Khelifi, Max Mignotte

    链接:https://arxiv.org/abs/2006.05612

    3D相关

    A Quick Review on Recent Trends in 3D Point Cloud Data Compression Techniques and the Challenges of Direct Processing in 3D Compressed Domain

    标题:回顾3D点云数据压缩技术的最新趋势和3D压缩域中的挑战

    作者:Mohammed Javed, Pavan Chakraborty

    链接:https://arxiv.org/abs/2007.05038

    由于以3D点云形式(使用雷达)生成的数据量非常大,因此研究人员正设法发明新的数据压缩算法来处理。压缩域处理,即可以直接对压缩数据进行操作分析而不涉及解压缩和重新压缩的算法是新颖的。本文回顾了LiDAR生成3D点云数据压缩域的最新进展,并重点介绍3D点云数据压缩域处理的未来挑战。

    Autonomous Driving with Deep Learning: A Survey of State-of-Art Technologies

    标题:基于深度学习的自主驾驶:技术现状综述

    作者:Yu Huang, Yue Chen

    链接:https://arxiv.org/abs/2006.06091

    本文研究了自动驾驶系统的主要领域,如感知,映射和定位,预测,计划和控制,仿真,V2X和安全性等。并重点分析2D和感知中的3D目标检测,摄像头的深度估计,数据,特征和多传感器融合等。共引用351篇文献。

    Review on 3D Lidar Localization for Autonomous Driving Cars

    标题:自动驾驶汽车三维激光雷达定位技术综述

    作者:Mahdi Elhousni, Xinming Huang

    链接:https://arxiv.org/abs/2006.00648

    Deep Learning for LiDAR Point Clouds in Autonomous Driving: A Review

    标题:自主驾驶中LiDAR点云的深度学习:综述

    作者:Ying Li, Michael A. Chapman

    链接:https://arxiv.org/abs/2005.09830

    本文总结了最近五年的140多项关键贡献,包括里程碑式3D深度架构,在3D语义分割,目标检测和分类中出色的深度学习应用程序;数据集,评估指标和最新技术水平。共147篇文献。

    Deep Learning for Image and Point Cloud Fusion in Autonomous Driving: A Review

    标题:自动驾驶中图像与点云融合的深度学习:综述

    作者:Yaodong Cui, Dongpu Cao

    链接:https://arxiv.org/abs/2004.05224

    本文致力于回顾最近利用图像和点云的基于深度学习的数据融合方法。简要概述了关于图像和点云数据处理的深度学习,对相机-LiDAR融合方法、目标检测,语义分割和跟踪进行了深入分析比较。

    A Survey on Deep Learning Techniques for Stereo-based Depth Estimation

    标题:基于立体的深度估计深度学习技术综述

    作者:Hamid Laga, Mohammed Bennamoun

    链接:https://arxiv.org/abs/2006.02535

    本文对基于立体的深度估计这一新的且不断发展的研究领域进行了全面调查,总结了最常用的pipeline,并讨论了它们的好处和局限性。共引用157篇文献。

    医学影像

    A scoping review of transfer learning research on medical image analysis using ImageNet

    标题:利用ImageNet进行医学图像分析的迁移学习研究述评

    作者:Mohammad Amin Morid, Guilherme Del Fiol

    链接:https://arxiv.org/abs/2004.13175

    Deep Learning Based Brain Tumor Segmentation: A Survey

    标题:基于深度学习的脑肿瘤分割研究综述

    作者:Zhihua Liu, Huiyu Zhou

    链接:https://arxiv.org/abs/2007.09479

    本文对近期基于深度学习的脑肿瘤分割技术进行全面总结。涵盖了不同方法的优缺点,预处理,数据集和评估指标等。共129篇文献。

    A Survey on Deep Learning for Neuroimaging-based Brain Disorder Analysis

    标题:基于神经成像的脑疾病分析深度学习研究综述

    作者:Li Zhang, Daoqiang Zhang

    链接:https://arxiv.org/abs/2005.04573

    A review: Deep learning for medical image segmentation using multi-modality fusion

    标题:多模态融合用于医学图像分割的深度学习综述

    作者:Tongxue Zhou, Stéphane Canu

    链接:https://arxiv.org/abs/2004.10664

    Medical Instrument Detection in Ultrasound-Guided Interventions: A Review

    标题:超声引导治疗的医疗器械检测

    作者:Hongxu Yang, Peter H. N. de With

    链接:https://arxiv.org/abs/2007.04807

    A Survey on Domain Knowledge Powered Deep Learning for Medical Image Analysis

    标题:域知识驱动的医学图像深度学习研究综述

    作者:Xiaozheng Xie, Shaojie Tang

    链接:https://arxiv.org/abs/2004.12150

    本文总结了将深度学习模型引入医学领域知识以完成各种任务(如疾病诊断,病变,器官和异常检测,病变和器官分割)的最新进展。共引用268篇文献。

    A Review on End-To-End Methods for Brain Tumor Segmentation and Overall Survival Prediction

    标题:脑肿瘤的端到端分割和总体生存预测方法综述

    作者:Snehal Rajput, Mehul S Raval

    链接:https://arxiv.org/abs/2006.01632

    目标检测

    Foreground-Background Imbalance Problem in Deep Object Detectors: A Review

    标题:深度目标检测器中前景-背景不平衡问题综述

    作者:Joya Chen, Tong Xu

    链接:https://arxiv.org/abs/2006.09238

    本文研究了不平衡问题解决方案的最新进展。分析了包括一阶段和两阶段在内的各种深度检测器中不平衡问题的特征。 将现有解决方案分为两类:抽样和非抽样方案,并在COCO上进行了实验对比。

    GAN/对抗式/生成式

    A Survey on Generative Adversarial Networks: Variants, Applications, and Training

    标题:生成性对抗网络综述:变体、应用和培训

    作者:Abdul Jabbar, Bourahla Omar

    链接:https://arxiv.org/abs/2006.05132

    Generative Adversarial Networks (GANs): An Overview of Theoretical Model, Evaluation Metrics, and Recent Developments

    标题:生成性对抗网络(GANS):理论模型,评估度量和最新发展综述

    作者:Pegah Salehi, Maryam Taghizadeh

    链接:https://arxiv.org/abs/2005.13178

    Regularization Methods for Generative Adversarial Networks: An Overview of Recent Studies

    标题:生成性对抗网络的正则化方法:近期研究综述

    作者:Minhyeok Lee, Junhee Seok

    链接:https://arxiv.org/abs/2005.09165

    Universal Adversarial Perturbations: A Survey

    标题:普遍对抗扰动:综述

    作者: Ashutosh Chaubey, Pramod Mehta

    备注:20 pages, 17 figures

    链接:https://arxiv.org/abs/2005.08087

    文本检测与识别

    Text Detection and Recognition in the Wild: A Review

    标题:野外文本检测与识别研究综述

    作者:Zobeir Raisi, John Zelek

    链接:https://arxiv.org/abs/2006.04305

    本文不仅对有关场景文本检测和识别的最新进展进行了回顾,还介绍了用统一工具进行广泛实验的结果评估框架,用于评估案例选定方法的预训练模型。其次,确定用于检测或识别野外图像中文本的几个现有挑战:平面内旋转,多方向和多分辨率文本,透视变形,照明反射,部分遮挡,复杂字体和特殊字符。共引用193篇文献。

    Text Recognition in the Wild: A Survey

    标题:野外文本识别研究综述

    作者:Xiaoxue Chen, Tianwei Wang

    链接:https://arxiv.org/abs/2005.03492

    Survey on Deep Learning-based Kuzushiji Recognition

    标题:基于深度学习的Kuzushiji识别研究综述

    作者:Kazuya Ueki, Tomoka Kojima

    链接:https://arxiv.org/abs/2007.09637

    姿态估计

    Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods

    标题:单目人体姿态估计:基于深度学习的方法综述

    作者:Yucheng Chen, Mingyi He

    链接:https://arxiv.org/abs/2006.01423

    本文回顾了自2014年以来发布的基于深度学习的2D和3D人体姿势估计方法。概述了挑战,主要框架,基准数据集,评估指标,性能比较,并讨论了未来研究方向。

    图像去噪

    Learning from Noisy Labels with Deep Neural Networks: A Survey

    标题:基于深度神经网络的噪声标签学习研究综述

    作者:Hwanjun Song, Jae-Gil Lee

    链接:https://arxiv.org/abs/2007.08199

    本文对46种最先进的基于深度神经网络的噪声标签学习训练方法进行了全面回顾,将这些方法分为7组,系统比较了6种特性,并总结了常用的评估方法。共引用113篇文献。

    视频相关

    Movement Assessment from Skeleton Videos: A Review

    标题:基于骨骼视频的运动评估研究进展

    作者:Tal Hakim

    链接:https://arxiv.org/abs/2007.10737

    本文回顾了骨骼视频自动运动评估的最新解决方案,并根据其目标,功能,运动域和算法方法进行了比较。

    A Review on Deep Learning Techniques for Video Prediction

    标题:视频预测深度学习技术综述

    作者:Sergiu Oprea, Antonis Argyros

    链接:https://arxiv.org/abs/2004.05214

    本文对视频序列中预测的深度学习方法进行了综述:定义视频预测的基础知识,背景概念和常用的数据集,同时分析对比了现有视频预测模型,总结了它们的贡献、并指出未来研究方向。共引用241篇文献。

    异常检测

    Deep Learning for Anomaly Detection: A Review

    标题:异常检测的深度学习:综述

    作者:Guansong Pang, Anton van den Hengel

    链接:https://arxiv.org/abs/2007.02500

    本文综述了利用全面的检测方法分类法进行的深度异常检测的研究,涵盖了该方法的3个类别和11个细粒度类别的研究进展。综述目标功能,基本假设,优点和缺点,并进一步讨论了未来机会以及挑战。

    A Survey of Single-Scene Video Anomaly Detection

    标题:单场景视频异常检测综述

    作者:Bharathkumar Ramachandra, Ranga Raju Vatsavai

    链接:https://arxiv.org/abs/2004.05993

    神经网络训练

    Mixing Real and Synthetic Data to Enhance Neural Network Training – A Review of Current Approaches

    标题:混合真实数据和合成数据加强神经网络训练-当前方法综述

    作者:Viktor Seib, Stefan Wirtz

    链接:https://arxiv.org/abs/2007.08781

    深度神经网络在许多计算机视觉任务中已变得极为重要。 本文回顾比较了多种不同技术,以提高训练效果而无需获取更多真实标注数据。

    Boosting Deep Neural Networks with Geometrical Prior Knowledge: A Survey

    标题:用几何先验知识增强深度神经网络:综述

    作者:Matthias Rath, Alexandru Paul Condurache

    链接:https://arxiv.org/abs/2006.16867

    受卷积神经网络(CNN)在计算机视觉任务中成功的启发,一个有前景的领域是将关于要解决问题的对称几何变换的知识并入其中。这保证了更高的数据效率和更容易解释的过滤器响应。本文概述了将几何先验知识纳入DNN的不同方法。并尝试将这些方法连接到3D目标检测领域。

    视觉常识/其他

    Backdoor Attacks and Countermeasures on Deep Learning: A Comprehensive Review

    标题:深度学习的后门攻击及其对策综述

    作者:Yansong Gao, Hyoungshick Kim

    链接:https://arxiv.org/abs/2007.10760

    Survey on Deep Multi-modal Data Analytics: Collaboration, Rivalry and Fusion

    标题:深度多模态数据分析综述:协作、竞争和融合

    作者:Yang Wang

    链接:https://arxiv.org/abs/2006.08159

    Towards Robust Pattern Recognition: A Review

    标题:面向稳健模式识别的研究进展

    作者:Xu-Yao Zhang, Ching Y. Suen

    链接:https://arxiv.org/abs/2006.06976

    A survey on deep hashing for image retrieval

    标题:用于图像检索的深度散列技术综述

    作者:Xiaopeng Zhang

    链接:https://arxiv.org/abs/2006.05627

    Finger Texture Biometric Characteristic: a Survey

    标题:手指纹理生物特征研究综述

    作者:Raid R. O. Al-Nima, Jonathon Chambers

    链接:https://arxiv.org/abs/2006.04193

    A Concise Review of Recent Few-shot Meta-learning Methods

    标题:元学习方法的简要评述

    作者:Xiaoxu Li, Zhanyu Ma

    链接:https://arxiv.org/abs/2005.10953

    A Survey on Unknown Presentation Attack Detection for Fingerprint

    标题:指纹未知呈现攻击检测研究综述

    作者:Jag Mohan Singh, Raghavendra Ramachandra

    链接:https://arxiv.org/abs/2005.08337

    A Survey on Visual Sentiment Analysis

    标题:视觉情感分析综述

    作者:Alessandro Ortis, Sebastiano Battiato

    链接:https://arxiv.org/abs/2004.11639

    On the Synergies between Machine Learning and Stereo: a Survey

    标题:机器学习与立体视觉的协同作用研究综述

    作者:Matteo Poggi, Stefano Mattoccia

    链接:https://arxiv.org/abs/2004.08566

    A Survey on Deep Learning for Localization and Mapping: Towards the Age of Spatial Machine Intelligence

    标题:定位与制图深度学习综述:迈向空间机器智能时代

    作者:Changhao Chen, Andrew Markham

    链接:https://arxiv.org/abs/2006.12567

    Deep Learning for Vision-based Prediction: A Survey

    标题:基于视觉预测的深度学习研究综述

    作者:Amir Rasouli

    链接:https://arxiv.org/abs/2007.00095

    A Brief Review of Deep Multi-task Learning and Auxiliary Task Learning

    标题:浅谈深度多任务学习和辅助任务学习

    作者:Partoo Vafaeikia, Farzad Khalvati

    链接:https://arxiv.org/abs/2007.01126

    打包下载:https://pan.baidu.com/s/1BJhLrKiHwrGgrqfnZ0u8Eg
    密码:[hide]20wh[/hide]

    展开全文
  • 本文为计算机视觉领域综述论文Intelligent Visual Media Processing: When Graphics Meets Vision的翻译。由于英文水平有限,如有错误,还望批评指正。以下为翻译。

    本文为计算机视觉领域综述性论文Intelligent Visual Media Processing: When Graphics Meets Vision的翻译。由于英文水平有限,如有错误,还望批评指正。

    以下为翻译。

    智能视觉媒体处理:当计算机图形学遇到计算机视觉

    摘要

    近年来,计算机图形学和计算机视觉紧密合作,已经开发了各种算法和应用程序来分析和操作我们周围的视觉媒体。
    这个现象背后主要有三个驱动力:1)互联网大数据的可用性,使人们有了处理日益增长的大量资源的需求;2)强大的处理工具(如深度神经网络)为如何学习处理异构视觉数据提供了有效的方法;3)新的数据采集设备,如Kinect,成为二维图像理解和三维模型分析算法之间的桥梁。这些驱动力直到最近才出现,我们相信计算机图形学和计算机视觉的结合仍处于蜜月期的开始。在本文中中,我们调查最近的研究,计算机视觉技术是如何作用于计算机图形技术,反之亦然,并涉及了分析,操作,合成和互动的研究。我们还讨论了现存的问题,并提出可能的进一步研究方向。
    关键词:计算机图形学,计算机视觉,调查,场景理解,图像处理

    1 引言

    计算机图形学和计算机视觉开始于逆向问题。传统的计算机图形学开始于几何建模和生成仿真图像,着重于相互作用、合成等。如图一所示,传统的计算机视觉始于输入图像序列和生成几何模型,着重于语义的理解、匹配等。在90年代,人们已经注意到了这两个领域融合的趋势。越来越多的计算机图形学的研究人员正试图利用视觉技术,以帮助尽可能有效的创造和操作视觉场景。同样地,使用计算机图像学技术帮助解决视觉问题也开始流行起来。
    迄今为止,每天有数以亿计的互联网图像、视频和3D模型被创建,并在互联网上共享。如此多的视觉大数据催生了各种图像/视频/几何的分析和操作应用。
    一方面,使智能计算机图形工具能够用最少的用户交互智能创建引人注目的结果,需要计算机视觉技术从现有的海量数据中提取语义成分和知识,如深度卷积神经网络在广泛领域里不断刷新性能,但是它通常依靠昂贵的,大规模的,人类标记的数据来学习。克服这个计算机图像学瓶颈,可研究自动学习算法来收集训练样本。随着RGBD图像捕捉设备(如Microsoft Kinect, Intel RealSense, Apple PrimSense等)的出现,计算机图形学和计算机视觉的连续已经进一步模糊。RGBD将图像和几何处理算法直接联系在一起,使得计算机图像学和计算机视觉的有效协作变得更为容易。
    在本文中,我们调查最近的研究,以知道计算机视觉技术和计算机图形技术是如何相互促进的。这些主题包括显著性媒体处理(第2章),智能图像处理内容的理解(第3章),深度估计和三维建模(第4章),视觉学习数据合成(第5章)。我们还讨论了现存问题,并给对今后的研究方向给出建议。

    2. 显著性媒体处理

    显著性概念源于人类感知的研究,致力于场景的某些部分是如何对其他部分起作用的。显著性计算通常被认为是一种自下而上(因此通用的)的过程,基于局部图像特征,如颜色和对比。计算机视觉广泛应用了显著性,因为它提供了一种轻量级的方法来识别场景中最翔实和最重要的区域,如前景对象。另一类显着性的使用是帮助分析图像视频压缩或处理算法产生的图像的质量。例如,压缩产生的artifacts需要在听觉感知方面量化,那么显着性是是一个很好的替代。已有许多算法用于显著性检测,详见文献[13,14]。
    在图形学中也有许多受益于采用显著性去预测人类感知实例。一类是处理图像和三维建模的一些应用,在处理过程中会出现一些错误,例如图像缩放,或网格简化。如果能限制数据的非显著部分而不是显著部分的错误,将会得到更好的结果。另一类是当数据的某些部分通过amplification被增强,如提高图像的强度和表面曲率。限制显著区域的amplification会产生更少的混乱,得到更具吸引力的结果。

    2.1 内容感知缩放

    当在不同尺寸和不同纵横比显示图像内容时,内容失真是一个普遍现象。提高用户体验的一个明智的方法是确保突出的对象应保持其与原始内容相似,任何失真应限制在不太重要的区域。
    切缝法是内容感知图像缩放早期经典的方法。王进一步提高了速度问题,并通过连续优化代替离散切缝克服了锯齿边缘。受几何处理中的共形能量的启发,张提出了一个实时凸优化方法。一些作者已经将自底向上显著性方法延伸,包含了更高级别的方面,如目标语义和对称。图像重新定位也被扩展到处理图像放大、立体图像、视频序列和立体3D视频。
    调整3D模型的大小,同时需要尽可能地保留底层模型的重要结构,这是非常重要的。重要的研究工作已经进入这一领域,以便轻松地将3D模型放到不同的场景。苗和林构造了二次能量函数来指导显著特征保持模型的大小调整,在调整中用到了边缘灵敏度测量。贾设计了一个基于区域的描述符来计算每个区域的显着性,基于与邻域对比度和一个分层的方法来计算显着性。他们表明,通过优化网格上的全局能量函数,可以得到视觉吸引的网格缩放结果。

    2.2 形状简化与增强

    网格显著性是Lee首先提出的,在多尺度高斯加权平均曲率上使用了一个中心环绕算子。他们使用来自计算显著的映射的加权映射,引导顶点对收缩的顺序,以产生网格简化,并在其他方法上也显示了其优越性。
    Song等人提出了一种网格简化的网格显著性方法,将条件随机域模型(CRF)与显著性检测结合。在这个方法中,首先生成了一个网格的多尺度表征,然后采用CRF和领域连续性检测显著区域。Zhao和Liu提出了一种网格简化的替代方法。他们使用非局部均值滤波器,通过模糊形状指数场,产生了显著图。近来,Castell´o等人提出了一个基于视图的网格显著性表面简化方法。他们首先定义了一个新的简化误差度量来提高简化模型的视觉质量,并把视角显著性作为视角质量的加权因子。
    增强形状特征,使得视觉上的重要特征能够突出,基于艺术美感原因也需要网格显著性估计。文献[33]中,Miao等人通过将多边形网格的视觉显著性度量引入到正常增强操作中,提出了用于形状描述的显著性引导阴影方案。由于3D形状的视觉显著性方法的的引入,这种方法可以调节光照和阴影动态扰动的表面模型提高底层模型的几何特征。 文献[18]中,Miao等人提出了一个relief surface的基于视觉显著性的形状描述方法。他们将三个不同的自底向上特征图结合,并定义了一个新的多通道显著性方法。通过将这个显著性方法结合到夸大操作中,提出了一个显著性导向形状描述方法。在网格变形过程中,理解显著性特征也被用于保护重要的形状特征。

    2.3 可视化

    可视化的目标是引导观测者注意表征的相关方面。因此,对人类视觉系统的各个方面进行建模是非常重要的,而显著性则提供了一种简单的方法。
    Kim 和 Varshney设计了一种基于视觉显著性的算子帮助提升量的选定区域。他们把算子插入到一个现有的可视化管道中,表明基于人类视觉系统的中心包围机制,显著性引导增强的体积可视化是有效的,并且可以应用于多种上下文中。此外,Janicke 和 Chen [ 17 ]提出了一种衡量可视化质量的度量标准。他们认为,可视图像上显著性的分布可以看作是可视化质量的一个重要衡量标准。同时,他们提供了一种在数据集上下文中计算可视化图像的度量的方法。
    Semmo等人[ 35 ]用显著性控制不同的图形样式和层次细节的使用可视化的三维城市模型,以指导观众的视线最重要的信息。显著区域用真实感图形绘制,非显著区域用非真实感图形呈现,提供图像抽象。不同的渲染风格使用alpha混合以无缝的方式组合在一起。

    2.4 3D打印

    3D打印作为一种附加的制造工作,由于其能方便快速制造任何形状的物体而被广泛应用于广泛的应用领域。因此,它无疑是图形学研究的热点之一。
    Song等人[ 36 ]提出了一种基于体素化的3D打印,无需连接,胶的方法,并同时提出螺钉连接印刷三维零件的三维互锁。对象被分解为一组初始的三维联锁部件。为了改善它们的美观性,通过在相邻的三维零件之间交换体素来改善这些切割接缝,从而避免将切割接缝穿过突出部分。边界体素的显著性是通过三维网格显著性[ 19 ]测度来估计的。
    在文献[37]中,Wang等人提出了一种适用于3D打印系统的自适应宽度切割方案。为了减少打印时间,同时保持打印结果的视觉质量,他们优化了涉及这两个因素的成本函数。打印结果的视觉质量是通过显著性估计来维持的。此外,他们通过开发一个基于显著性的分割方法分割对象为部分,获得了更高的效率,并分别优化了各部分切片。

    3. 智能操作和合成的内容理解

    虽然大多数现有的计算机绘图工具,如Adobe PhotoShop和Autodesk Maya,主要支持低级操作,通常采用触摸或局部视觉内容[ 38-39 ]增强,高层次的图像编辑技术,允许用户指定有意义的变化,大规模使用简单的相互作用已经得到了广泛研究[40-41]。心理学家认为人处理和组织视觉信息是基于场景结构之间的关系。在意识到场景结构的同时,允许用户在场景对象水平上操作内容,是一种与我们的心理数据表示一致的有吸引力的编辑方式。
    然而,为了模拟真实的用户体验和物理环境操作,我们需要理解视觉数据中的内容并克服四大挑战:1)视觉数据是由单个的元素,例如,像素和多边形,而不是语义对象;2)对对象排列在三维几何信息恢复往往是一个病态问题,不大可能在不久的将来得到解决;3)相关对象之间很难推断,编辑加工在保持现实主义批判;4)语义约束对对象的行为应该在用户的调整需要不被操纵的目标信息,而且在人类经验的先验知识和互联网大数据存在。

    3.1 智能操作

    随着计算机视觉技术提供的内容理解水平的提高,可视媒体操作工具可以更智能地推断用户意图,从而减少对精确用户输入和繁琐交互的要求。
    文献[45]中,RepFinder系统检测近似重复对象,并建立它们之间的密集对应关系,使对象级别的操作同时保持重复的相关性。Goldberg等人[ 46 ]提出了交互式照片中使用相关的对象从互联网获得的图像处理的对象的数据驱动的方法。通过将候选对象与用户输入笔划相匹配,系统自动从因特网上查找候选对象,从而使一系列新的编辑体验不可能与低级操作(例如,删除一个对象的一部分以揭示其内部)相匹配。Lu等人进一步启用了对象级操作,用于视频内容的时间轴编辑。
    理解对象形状及其透视关系对于高级图像处理经验也是至关重要的。Zheng[49]等人探索了基于长方体代理结构的用户交互创建局部场景重建的方法。这种局部场景结构允许一系列直观的图像编辑,这样用户只需提供高层语义提示和系统以保证合理的操作,模拟真实世界的行为,否则是很难实现的。在文献[42]中,3扫描系统的进一步使用一般的圆柱体和长方体结构来理解形状、预测和关系的成分。除了对象几何之外,粗糙场景几何对于高级图像编辑应用也是很重要的。Iizuka等人[ 50 ]提出了一个系统,用户可以将图像中的对象的同时确保对象的大小和对象重叠自动调整。这是通过在一幅图像中借助用户绘制的笔画来估计场景的透视结构来实现的。从单个图像估计物体形状和场景几何本质上是一个不适定问题。这些方法如[50-53]的成功依赖于用户交互(例如,中风[ 53 ]和边框[ 54 ])和简化的假设(例如,长方体的代理[ 49 ]和[ 42 ]一般圆柱)。
    高级图形应用程序依赖于语义[ 55 ]或场景几何复杂对象[ 43,56 ]经常要求没有明确地在一个单一的图像存在的信息。从大量的视觉数据收集中获得的知识对于通过解决歧义和不确定性获得似是而非的结果很有用。在ImageSpirit [55]系统,Cheng等人建议将名词用作对象标签和形容词作为视觉属性标签。这允许基于一组具有密集对象类和属性标签的图像学习的语义知识进行新的语言交互。Kholgade等人[ 43 ]提出了杠杆的结构和对称性在三维模型估计光照和完成一个对象在一张照片上看到隐藏的部分。Huang[56]等人联合分析了单视图重建的Web图像和形状集合。这样的联合分析中的优化配方和稳定对应的估计,从而使重建不同的对象使用一个较小的收集现有的3D模型。

    3.2 视觉内容合成

    陈等人[47]开发了一个命名sketch2photo的有趣的系统,能够自动转换成一个简单的手绘草图,随着几个文本标签注释,成为一个真实的画面。由于图片是通过搜索互联网找到的,因此可能产生许多不合适的结果。为了克服这一缺点,本文采用了一种滤波方案来消除不合适的图像,并采用图像混合算法寻找被发现图像的最佳组合。
    文献[57] 提出了PposeShop系统构建人体分割图像数据库,进行综合个性化的漫画。通过使用计算机视觉技术,只需要极少的人工干预。分割进一步过滤[47]后,能够产生400个000分段的人类素质足够的品质。对图像进行分析,以便自动提供服装描述,用户可以使用这些文本属性在构建漫画条时查询数据库。Tanahashi等人[ 58 ]提出了可视化从故事情节的视频数据流的有效框架。Hasegawa和Saito [ 59 ]提出了一种合成频闪图像从视频序列中运动的分析方法。
    Lalonde等人[ 60 ]建立了一个能插入新对象为现有的照片系统。提出了一种新的自动算法,以提高目标分割和融合,估计真实的三维物体的大小和方向,并估计场景光照条件。此外,还提供了直观的用户界面,能够更快地插入对象。
    在文献[ 61 ]中,Xu等人提出了一个系统,可以自动转换手绘草图包含多个对象到一个语义有效的和精心安排的场景组成的三维模型。通过对三维模型进行共检索和联合放置,大大减少了基于草图的三维建模所需的用户干预量。
    Chia等人[ 62 ]设计了一个能用更少的体力劳动将灰度照片着色的新系统。用户提供一个语义文本标签,并选择一个自动生成前景对象分割,该系统可以使用新的滤波方法自动下载和过滤合适的相关图像。这些然后提供驱动的着色过程是合适的参考图像。

    4. 深度估计和3D建模

    图像数据的场景建模是计算机视觉和计算机图形学的主要任务之一,也是这两个领域合并或发散的重点。将三维几何分析中的许多分析方法,如三维几何分析引入到深度估计和三维建模中,以获得更精确的三维几何数据。因此,本节介绍了在图形和视觉,使用技术,如结构从运动恢复几何和合成图像的应用。

    4.1 三维场景建模

    与主动场景建模系统(如结构光投影器)不同,基于视觉的建模主要是利用图像的立体匹配来创建真实世界的三维模型。结构运动(SFM)是一种被动的建模技术,同时估计三维场景结构和摄像机构成的二维图像序列。虽然SFM问题提出了几十年前[ 63 ],直到最近,发展成为戏剧由于在计算性能的研究进展。基于SFM的应用也出现在场景重建和三维物体建模。
    Snavely等人开发了一个照片浏览器[64],它以非结构化的站点照片集合作为输入,计算每个照片的视点,以及场景中的稀疏3D点云。结果使用户能够在三维空间中探索照片。后来Agarwal等人。提出了一个命名为“罗马一天建成”的系统[ 65 ]。该系统可以处理非常大数量的照片(例如,谷歌在搜索一个城市时返回的结果)。Frahm等人[ 67 ]介绍了致密的三维重建系统,可以处理大约300万的互联网图像在一天的跨度在GPU的单台PC机。最近,该等人。实施“多视图环境”[ 68 ],一个端到端的基于图像的几何重建工具以现场照片作为输入,并产生一个纹理的表面网格的结果。
    各种应用程序可以使用视觉场景的建模和渲染的点云匹配和开发。Ceylan等人[ 69 ]运动耦合结构和城市立面D对称检测。恢复的对称信息和三维几何体使图像编辑操作保持了图像之间的一致性。Kopf等人[ 70 ]提出了一种创建平滑的摄像机运动从第一人称视频算法,这是在运动,因此遭受古怪的相机捕获。本工作采用SFM估计每一帧,再相机姿态呈现视频采用光滑的相机路径。
    由于SFM可以恢复大规模场景的结构,它可以用于定位。最近的研究已经发展到由SFM的点云识别查询图像的定位算法。Tan等人[ 71 ]提出了一个单眼的SLAM(同时定位与地图)使用了一种特殊的关键帧表示和更新的方法来处理动态环境系统。Li等人[ 9 ]提出了一种利用稀疏变换的三维形状和运动的联合估计方法,同时利用小波适合三维轨迹。该系统表现出强大的性能在处理非刚性目标的遮挡。

    4.2 面部表现

    面部表情在人类互动和面对面交流的各个方面起着至关重要的作用。因此,人脸和人脸的性能建模一直被认为是计算机图形学和视觉领域的一大挑战。使用特殊的设备,如面部标记[ 74 ],照相机阵列[ 75 ]和结构光投影仪[ 76 ],能够捕获高逼真度的三维面部几何形状,这对于拍摄尤其是电影和游戏制作是至关重要的。
    近来,已经开发出更适合于消费者级捕获方法的技术。它们不需要这种特殊设备,而是基于面部表情视频中三维几何和二维地标的联合建模。Cao等人[ 78 ]提出的实时人脸跟踪和动画一个全自动的方法与一个单一的视频摄像头,可以在RGDB-based算法的鲁棒性和准确性的证明达到同一水平。该方法引入了置换动态表达式(DDE)模型,该模型同时表示用户面部表情的三维几何形状和对应于视频帧中语义面部特征的二维面部标志。通过学习公共图像数据集的一般回归模型,该方法可以应用于任意摄像机,不需要任何训练就能推断出准确的二维面部标志和三维面部形状。Cao等人[ 66 ]进一步开发的面部跟踪系统,实时捕捉高逼真度的人的表现。

    4.3 人体运动捕捉

    运动捕捉是记录人(动物或关节结构)运动的过程,是场景建模的主要要求之一。它主要用于捕捉大规模的身体动作,即头部、手臂、躯干和腿部的运动。运动捕捉被广泛应用于教育、培训、体育以及最近用于电视、电影、视频游戏、虚拟现实等领域的计算机动画,这些动画主要在图形领域。虽然传统的方法往往是基于捕捉和主动或被动传感器,即声、惯性、LED加工、磁或反光标记,基于视觉的方法原则上允许自由触摸捕捉他们已逐渐引入图形和虚拟现实技术的应用。最近,4D表演捕捉(4DPC)[ 79 ]已被引入到捕获的形状,从多视点视频的外观和人体运动。它衍生出一系列具有时间一致的顶点和拓扑的重构三维网格,它捕捉到详细的表面动力学,加上可以投影到网格上的相关视频。利用4DPC数据,Huang等人[ 80 ]提出了一种骨架驱动的运动图路径优化和基于拉普拉斯表面变形模型学习部分角色动画。
    最近的研究集中在运动和外观控制来重现角色动画,并使用机器学习。Xia等人提出了一个新方法,实时生成的风格化人体运动,自动将未标记的,异构的运动数据的新的方式使用在线学习算法,自动构造一系列的自回归模型的局部混合料(MAR)捕捉到的运动方式之间的复杂关系。Pons-Moll等人[ 82 ]提出了一种新的模型,称为动态,从例子和能够为范围广泛的身体形状和运动产生现实的软组织运动。

    5. 综合大数据用于视觉学习

    近年来,计算机视觉中对数据的需求越来越大。这在一定程度上是由于机器学习的广泛使用,以及计算机视觉在大规模、严格测试中的日益强调。因此,研究人员正在寻找有效的手段来获取或产生如此大规模的培训和测试。
    三维模型的数据库提供了我们可以学习场景模型的例子。这样的3D模型提供了丰富的信息,视觉算法可以学习这些信息,如形状、表面法线、材料、光照、视点、透视和遮挡。问题是这些合成的数据是否有足够的质量对计算机视觉算法有用,因此需要注意提供逼真的特性,如噪音和自然变化。本节提供了三个使用合成数据进行可视化学习的示例。

    5.1 姿态识别

    从视频和图像中识别人的姿势已被广泛研究了几十年。如何快速、可靠地估计人的姿态是具有挑战性的。本小节将回顾一些使用合成数据的高级姿态识别方法。
    Shotton等人[ 3 ]提出了一种实时的人体姿态识别方法,将困难的姿势识别任务转化为一个简单的像素级分类问题呈现在身体部分的中间表示。为了训练数据,他们设计了一个随机呈现流水线,随机选择一组参数,如高度、重量和摄像机噪声,然后使用计算机图形方法从三维网格中渲染深度和身体部分图像。在学习过程中,他们采用简单的深度比较特征,即三维平移不变,采用随机决策森林。一个巨大的合成图像对数据库,很深的森林是没有过度拟合训练。
    在文献[84]中,Shotton等人介绍了两种有效的方法,正文部分分类(BPC)和偏移联合回归(OJR),预测身体关节的三维位置从一个单一的深度图像。类似的渲染方法,如[ 3 ]中所使用的生成合成数据,包括完全标记的训练数据,以及真正的手标记的深度图像,和测试数据。无论是BPC和牙买加陈年朗姆酒利用决策森林和简单的深度图像不变特征。但不同的是,BPC方法试图推断出一组,与感兴趣的节点对齐表面的身体部位,而牙买加陈年朗姆酒的方法试图直接估计身体内部节点的位置。
    Rogez和Schmid [ 83 ]设计了一种基于图像的合成引擎,结合不同的图像区域增加图像和使用产生的图像训练CNN,用于3D姿态预测。他们的基于图像的合成引擎由两部分组成。一个面向模型的控制程序引导图像拼接技术是先用针图像补丁在一起然后姿态感知混合过程进行提高质量和删除补丁缝。训练数据,一个端到端的CNN采用三维人体姿态分类。

    5.2 目标检测

    目标检测是计算机视觉领域中最具挑战性的课题之一,近年来取得了巨大的成功。深度图像合成数据集进一步推动了它的发展。
    Song和Xiao[85]建议使用深度地图进行目标检测。他们开发了一种3D探测器,帮助克服各种障碍,如纹理、光照、形状、杂波等的识别。训练数据是从数百个视图渲染三维CAD模型得到的合成深度图的集合。在深度绘制过程中,特征点从三维点云中提取,其次是样本SVM分类器[86]。
    Peng等人[ 87 ]用合成图像观察深度CNNs的不变性提出了各种低级别的线索和用于目标检测自己的CNN。在给定每个物体的三维CAD模型的基础上,通过模拟各种低阶线索,包括形状、表面颜色、反射率、位置等,生成一组合成二维图像。他们表明,如果一个模型被训练的检测任务,它不需要纳入合成图像模拟线索。
    Zhang等人利用紧凑型三维流形生成目标检测方案。低维高斯过程隐变量形状空间的训练。然后,从这个流形中采样形状变化,然后用于训练过程。

    5.3 目标识别

    随着深网络技术的发展,二维物体识别技术有了很大的发展。随着生产的3D点云数据先进的设备的出现,越来越多的研究[89-90]着眼于开发利用3D卷积网络的三维识别。
    Wu等人设计了卷积深层信度网络,用于三维体元数据的联合概率分布建模。为了训练深网络,根据体素是否在网格曲面上,将每个体素映射成一个二元张量,生成一个大规模的三维CAD模型数据集。
    Wohlhart和Lepetit[ 91 ]介绍了高效的、可扩展的最近邻搜索描述符空间进行物体识别。他们使用人工合成的和真实世界的数据进行训练。后者是通过定期采样的观点在对象创建网格半圆顶,和RGBD用搅拌机空背景渲染对象。一个卷积网络用于直接映射原始图像补丁到一个紧凑和有区别的描述符。他们还使用欧氏距离来评估描述符之间的相似性。

    6. 讨论和结论

    我们回顾了近年来计算机图形学和计算机视觉技术相互有益的各种研究成果。一方面,先进的视觉技术为理解和提供显著的特征、对象分割、三维几何、场景透视、语义等提供了强有力的工具。随着场景理解程度的提高,通过感知重要的对象部分,能够在对象级别执行操作,或者能够猜测用户意图,可以使许多图像处理工具更智能化。我们注意到,对于使用视觉技术的不同图形应用程序的性能进行比较,仍然没有几个大型基准。这妨碍了在纯计算机视觉工作中经常观察到的系统研究和性能提升。随着视觉技术的迅速发展,特别是最近的深入学习方法,我们相信越来越多的视觉分析将变得足够强大,以支持更多的视觉应用。
    另一方面,图形技术也被用于合成大的视觉数据,用于姿态识别、目标检测、目标识别等。也有许多分析方法起源于图形领域,如三维几何分析,这些方法被引入到深度估计和三维建模中,以产生更精确的三维几何数据,或捕捉人体运动和面部表现。然而,尽管增长非常快,在视觉中使用的图形技术的数量仍然比在图形中使用的视觉技术的数量少得多。需要更多的研究工作来帮助创建训练数据、生成候选检测、建模过程等。
    图形和视觉社区都需要对各种现实任务进行全场景理解。这种语义理解通常涉及不同的个体任务,这些任务是高度相关的。迄今为止,大多数研究都致力于研究一两个任务。虽然这种研究通常是非常深入的,但它不足以广泛地考虑许多视觉和图形任务,这将有助于比在典型的计算机视觉或图形系统中使用更多的线索。最近一些开创性的工作,共同探讨3D建模、目标分割、用户交互、在线学习、和相机的定位[型]。虽然这些新的系统只能处理简单的视觉场景,并支持有限的场景理解,但它们通过在环境中共同发现、重建、交互和学习,使用全场景理解引领了一个光明的未来。

    展开全文
  • 计算机视觉的应用与发展综述摘要:计算机视觉学是自二十世纪六十年代中期迅速发展起来的一门新学科。它是个边缘学科,集众家之所长,是个工程性很强的技术,主要需要有空间几何、矩阵分析、光电技术、图像处理、应用...
  • 计算机视觉综述

    千次阅读 2018-05-03 14:39:45
    计算机视觉入门系列(一) 综述自大二下学期以来,学习计算机视觉及机器学习方面的各种课程和论文,也亲身参与了一些项目,回想起来求学过程中难免走了不少弯路和坎坷,至今方才敢说堪堪入门。因此准备写一个计算机...
  • 时尚是我们向世界展示自己的方式,已经成为世界上最大的产业之一。时尚主要通过视觉来传达,因此近年来受到了计算机视觉研究者的广泛关注。
  • 计算机视觉论文

    2018-08-11 09:23:49
    关于计算机视觉的一篇论文,关于计算机视觉的一篇论文
  • [计算机视觉论文计算机视觉的应用与发展综述摘要:计算机视觉学是自二十世纪六十年代中期迅速发展起来的一门新学科。它是个边缘学科,集众家之所长,是个工程性很强的技术,主要需要有空间几何、矩阵分析、光电技术...
  • 计算机视觉的应用与发展综述摘要:计算机视觉学是自二十世纪六十年代中期迅速发展起来的一门新学科。它是个边缘学科,集众家之所长,是个工程性很强的技术,主要需要有空间几何、矩阵分析、光电技术、图像处理、应用...
  • 随着近几年来AI技术的飞速发展,人们将计算机视觉技术应用于自动驾驶,使得自动驾驶的应用变得可行,很大程度地推进...本文介绍一篇关于自动驾驶计算机视觉的全面综述,覆盖了该领域相关的问题、数据集和最先进的技术。
  • 德国马普所&苏黎世理工67页综述论文:针对自动驾驶的计算机视觉技术
  • 计算机视觉入门系列(一) 综述

    万次阅读 多人点赞 2020-12-16 04:42:36
    计算机视觉入门系列(一) 综述自大二下学期以来,学习计算机视觉及机器学习方面的各种课程和论文,也亲身参与了一些项目,回想起来求学过程中难免走了不少弯路和坎坷,至今方才敢说堪堪入门。因此准备写一个计算机...
  • 会议之眼文章解读篇 ...本文主要整理介绍了近两年来GAN模型在计算机视觉领域的经典文章,7篇文章已经上传到了百度网盘,追赶AI潮流的你怎么能错过呢?! BIGGAN Large scale gan training for high ...
  • 原标题:机器学习领域各领域必读经典综述论文整理分享 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的...
  • 本文是计算机科学家Christoph Rasche撰写的一份计算机视觉方面的系列教程,从传统的图像处理、特征提取到近几年很热的深度神经网络,以及深度学习方法在目标检测、图像检索、图像分割、目标跟踪等一系列前沿的介绍。...
  • 计算机视觉相关综述整理

    万次阅读 2018-03-13 01:00:38
    计算机视觉相关综述整理 计算机视觉与图像识别综述:这是一篇偏科普的通俗型综述,...综述计算机视觉中RNN应用于目标识别 :论文介绍 目标跟踪算法 Object Detection (Image) Detectron - Open Source Ob...
  • 计算机视觉入门综述

    千次阅读 2017-12-16 18:29:50
    计算机视觉入门综述 自大二下学期以来,学习计算机视觉及机器学习方面的各种课程和论文,也亲身参与了一些项目,回想起来求学过程中难免走了不少弯路和坎坷,至今方才敢说堪堪入门。因此准备写一个计算机视觉方面的...
  • 在过去的一年中,计算机视觉领域出现了许多优秀的工作,并推动了相关领域的技术发展与进步。极市平台对2020年出现的全部计算机视觉综述论文进行了分方向梳理。本篇文章为2020年图像分割方向的...
  • 计算机视觉综述论文 CVPR2020 ICCV2021
  • 图像处理与计算机视觉经典论文

    千次阅读 2013-08-08 14:52:09
    图像处理与计算机视觉经典论文 目录(?)[+] Bilateral FilterColorCompression and EncodingContrast EnhancementDeblur RestorationDehazing and DefogDenoisingEdge DetectionGraph CutHough Transform...
  • 计算机视觉技术与应用综述

    千次阅读 2019-08-19 09:53:47
    引用自:无人系统之“眼”——计算机视觉技术与应用浅析 张 丹,单海军,王 哲,吴陈炜 一、前言 ​         近年来,人工智能和深度学习获得突破,成为了大众关注的焦点。如LeCun Y,Bengio ...
  • 人工智能研究在本质上是学术性的,在你能够获得人工智能的某些细节之前,需要掌握大量的跨各类学科的知识。那么,阅读原始论文在学习的过程中有多重要?原始论文细节阅读是互联网大厂人工智能岗位面试...
  • 论文名称:A Survey on Visual Transformer 论文链接: ...受Transformer强大的表征能力的启发,研究人员提出将Transformer扩展到计算机视觉任务中。与卷积网络和循环网络等其他网络类型相比,基于
  • 21世纪初最有影响力的20篇计算机视觉期刊论文 选取论文的原则: (1)期刊论文,主要来源于以下期刊:TPAMI,IJCV,TIP,CVIU,IVC,MVA,PR,JMIV,IJPRAI… (2)发表在2000年以后 (3)SCI检
  • 受Transformer强大的表征能力的启发,研究人员提出将Transformer扩展到计算机视觉任务中。与卷积网络和循环网络等其他网络类型相比,基于Transformer的模型在各种视觉基准上都具有竞争力,甚至表现出了更好的性能。
  • 2019计算机视觉-包揽所有前沿论文源码

    万次阅读 多人点赞 2019-10-23 11:36:33
    效果堪比真实皮肤 其余人脸相关 (01)计算机视觉方向简介 | 人脸颜值打分 (02)计算机视觉方向简介 | 人脸识别中的活体检测算法综述 (03)计算机视觉方向简介 | 唇语识别技术 (04)CVPR 2019 论文大盘点-人脸...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 7,600
精华内容 3,040
关键字:

计算机视觉综述论文