精华内容
下载资源
问答
  • 2020年移动发展趋势

    千次阅读 2020-01-08 11:51:54
    Matt 与 Net Solutions 接触,以获得针对中小型企业细分市场构建的基于 IoT 的客户忠诚度计划。Matt 创建了一个名为 Beakn Mobile 的蓝牙硬件解决方案,该解决方案只需要在移动设备之间分发即可。 10. 即时应用...

    本文翻译自 AMIT MANCHANDA 的 12 Mobile App Development Trends to Watch Out for in 2020,可点击原文参考阅读。文章仅属个人观点,如有不同见解,欢迎留言讨论。

    移动手机正在以惊人的速度从根本上改变商业模型,运营模型和市场。到 2021 年,移动应用程序市场收入预计将达到 6930 亿美元。但是,按照 Gartner 先前的预测,10,000 个移动应用中有 9,999 个会失败。

    在这里插入图片描述

    当今不断发展和充满活力的市场中,仅仅拥有移动设备是远远不够的。在 2019 年大放异彩的流行应用,到了 2020 年可能就没那么热了。仅仅实施正确的移动应用开发策略并不能确保成功,而是需要在策略中纳入最新的移动应用开发趋势。那么2020年,我们需要关注些什么?

    1. 构建可折叠应用程序

    随着三星推出可折叠的 OLED 显示屏,操作系统已经准备好利用此技术来改善智能手机的体验。Google 在 2018 年通过其“屏幕连续性” API 正式宣布了 Android 手机支持可折叠操作。
    在这里插入图片描述
    据三星称,数百种流行的 Android 应用已经针对 Galaxy Fold 进行了优化,包括 Amazon Prime Video,Twitter,Spotify,Facebook,VSCO 和 Microsoft Office。

    由于“可折叠手机”将成为 2020 年的下一个流行语,因此您需要制定一种可在可折叠设备上无缝运行的移动应用开发策略。展开设备以提供更大的屏幕可能会对用户产生积极影响,并影响移动产品的设计。

    • 更大的屏幕意味着更多的空间可提供更好的沉浸式体验。
    • 使用多窗口,用户可以同时执行多个任务。

    视频流和游戏应用程序可以通过简单地增加屏幕尺寸来获得可折叠设备的最大收益,或者使用额外的空间来提供其他信息和控件。

    在这里插入图片描述

    2. 机器学习和人工智能

    大家都知道著名的移动应用程序 FaceApp,该应用程序一夜成名,因为它出色地利用了人工智能(AI)。它将滤镜添加到用户的照片中,以显示他们的年轻和年老时的样子。在过去的几年中,AI 和 ML 一直是趋势技术,现在AI 和 ML 已经渗透到各行各业。诸如 Replika,Cortana 和 Google Assistant 之类的流行移动应用程序在该领域进一步深入研究,并初现光明。并且,当深度学习与 ML 联手时,它可以通过提供有价值的数据和实时分析为移动应用程序开发项目创造奇迹。

    Core ML 3(Core ML 3), 苹果最新版本的机器学习模型框架,旨在帮助 iOS 开发人员将 AI 智能嵌入到他们的应用中。因此,今年,我们将更深入地研究这些技术,并适当地了解其功能以及许多组件。
    在这里插入图片描述

    3. 聊天机器人

    超过 50% 的买家希望使用更多 DIY 定制服务工具来加快在线购买的速度。聊天机器人是扩展这种客户关系管理的理想方法。到 2020 年,聊天机器人与移动应用程序的集成将从最初的基础发展到一个较高的水平。
    截至目前,Google Play 商店中约有 250 万个应用程序,Apple App Store 中约有 180 万个应用程序。但是,您会惊奇地发现,只有少数应用程序已部署了聊天机器人来提供更好的 UI/UX 服务。星巴克就是其中之一。他们发布了一个名为“我的星巴克咖啡师(My Starbucks Barista)”的应用,你需要告诉该应用您想要的咖啡种类,然后它才能为您下订单。
    预计到 2020 年,将有 80% 的企业使用聊天机器人,并且用户会快速而准确地找到答案,这是将聊天机器人集成到您的移动应用程序的真正商机。
    在这里插入图片描述

    4. 穿戴式应用整合

    可穿戴技术正在全球范围内逐步发展。根据 Statista 的数据,2017 年已连接的可穿戴设备数量达到 4.53 亿,预计到 2021 年将达到 9.29 亿。随着技术的进步,我们可以预期可穿戴应用将很快成为我们日常生活的重要组成部分。
    苹果公司在 WWDC 会议上宣布了其 WatchOS 的更新。Apple Watch 应用程序将不再需要配套的 iOS 应用程序,并将拥有自己的 App Store。 这显然标志着可穿戴技术的兴起。通过独立于 iPhone 运行的应用程序,Apple 已将 Apple Watch 的定位升级为用户可用于其数字需求的独立设备。

    在这里插入图片描述
    换句话说,应用程序开发人员和企业应该准备好为 Apple Watch 上的用户提供出色的数字体验的应用程序,从而比那些没有使用这些应用程序的开发人员或企业拥有更多的优势。

    5. 物联网移动应用

    互连的智能小工具网络被称为物联网。并且在 2019 年,亚马逊和谷歌等公司已充分利用该技术,并分别推出了 “Echo” 系列和 Google Home Voice Controller,从而增强了 IoT 的竞争。此外,谷歌以 21 亿美元收购可穿戴设备公司 Fitbit 的举动,以及它与家庭安全摄像头制造商 Nest 的合作,表明该公司正在迅速使用物联网技术。

    在这里插入图片描述

    零售、智能家居和精明的健康保险计划中的持续供应链已不再是科幻小说,而是已成为现实。随着对物联网和系统需求的增加,对具有物联网功能的应用程序的需求也将同时增加。

    6. 增强现实(AR)和虚拟现实(VR)

    “PokémonGo” 就像是东部沿海地区的临时风暴,虽然爆发期已经过去,但 AR 和 VR 仍将存在。AR 和 VR 技术不仅提高了游戏应用程序的质量,而且还有许多其它积极的用例。

    在这里插入图片描述
    苹果和谷歌等巨头已经有大量使用 AR 创新的新案例。例如,Google 即将为 Google Maps 引入一项新的 AR 功能,该功能将向人们实时提供方向。可以预见的是,在 2020 年,AR 集成将成为必不可少的移动应用开发趋势之一,它将通过为用户创造无缝体验来塑造移动行业。

    7. 手机钱包

    鉴于智能手机的普及和用户转向智能手表的意愿,Apple Pay 和 Google Wallet 等移动钱包肯定会得到相应的发展。因此,明年全年对移动钱包应用程序的需求将会增长。
    三星,苹果和谷歌等大品牌正在利用移动钱包为用户提供安全便捷的货币交易和账单支付平台。

    8. 移动应用安全

    我们知道,移动安全并不是什么新鲜事,但是随着 Uber 的黑客丑闻,甚至 Facebook 和 Google 也承认其安全漏洞,企业将寻求在网络安全方面进行更多投资,以加强数据和隐私信息的保护。
    例如,在 2018 年,Facebook 股价下跌了 8.5%,因为其卷入 Cambridge Analytica 用户数据泄露。 随后是 #DeleteFacebook 运动,甚至得到 WhatsApp 创始人 Brian Acton 的支持。

    在这里插入图片描述
    业界最有头脑的人将不得不加大赌注,以消除围绕移动应用程序的不确定性。 甚至苹果公司(Apple)在 WWDC 2019 上,也试图通过引入一项名为“Sign in with Apple”的新功能来解决安全问题。引入该功能的目的是打击应用程序登录期间的非法数据共享。

    预计到 2020 年,移动应用程序开发行业将朝着安全至上的方向发展,从而为稳健的 DevOps 战略奠定路线图。

    9. Beacons技术

    Beacons(信标)技术已经存在了一段时间,到 2020 年,又得到了较大发展。基于 Beacons 的通知正越来越多地帮助许多企业和行业以高度关联的方式与客户联系。

    根据 GeoMarketing 的数据显示,到 2020 年,全球信标部署数量预计将达到 4 亿,到 2026 年将有 565.54 亿美元的市场。
    在这里插入图片描述
    我们将在更多的场合中能看到它,比如启用信标的机场,移动支付信标,甚至自动个人信标。信标技术的使用可以帮助使虚拟游览更加个性化,信息共享更加顺畅和安全。

    由 Matt Frazier 创立的 Beakn mobile 是为满足客户不断变化的客户关系提供解决方案。Matt 与 Net Solutions 接触,以获得针对中小型企业细分市场构建的基于 IoT 的客户忠诚度计划。Matt 创建了一个名为 Beakn Mobile 的蓝牙硬件解决方案,该解决方案只需要在移动设备之间分发即可。

    10. 即时应用程序

    2016 年见证了即时应用程序的诞生 –- 即时移动应用程序的体积比普通应用程序小,用户友好且高度方便,因为无需下载它们。顾名思义,无需下载即可直接访问它们,有点类似于快应用。

    在这里插入图片描述
    即时应用程序不仅在用户中流行,而且在 iOS 和 Android 开发人员中同样受欢迎,因为与常规的移动应用程序相比,它们可以帮助开发人员实现更高的转化率。Hollar 和 NYTimes 声称,通过引入即时移动应用程序,他们能够将转换率从 20% 提高到 27%。
    随着用户不断要求更好的用户体验和更短的加载时间,即时应用程序的确是 2020 年受欢迎的趋势,从而消除了安装所需的等待时间。

    11.云存储开发

    在英国,有 54% 的企业在没有基于云的解决方案的情况下继续前进,因此云架构仍被视为未来趋势。但是到 2020 年,情况将不再如此。预计到 2020 年,全球公共云服务市场将从 2019 年的 2278 亿美元增长到 2664 亿美元,增长 17%。
    云技术在构建 Android 即时应用程序中发挥着重要作用。此外,iOS 设备还在某些应用程序中使用云数据库。云计算集成可帮助移动应用有效地存储大量数据并执行复杂的任务,同时具有成本效益和额外的安全性。

    在这里插入图片描述
    简化的操作,降低的托管成本,更好的存储和负载容量以及增加的用户保留率,是在云上开发移动应用程序的众多优势中的几个。

    12 总结

    Google Play,Apple App Store,Windows Store 和 Amazon App Store 中已经存在无数的移动应用程序。随着所有这些移动应用程序的发展,移动应用程序行业将继续快速发展。因此,要在竞争激烈的移动应用程序开发空间中脱颖而出,对于业务领导者来说,紧跟最新趋势和技术非常重要。新兴的移动应用程序平台开发技术,不断增长的后端平台和微服务,再加上新的硬件功能,将继续引领移动应用程序的发展。

    展开全文
  • 未来5-10年计算机视觉发展趋势

    千次阅读 多人点赞 2020-05-21 09:35:50
    未来5-10年计算机视觉发展趋势 来源:CCF计算机视觉专委会 引言 计算机视觉是人工智能的“眼睛”,是感知客观世界的核心技术。进入21世纪以来,计算机视觉领域蓬勃发展,各种理论与方法大量涌现,并在多个...

    未来5-10年计算机视觉发展趋势

     

    https://mp.weixin.qq.com/s/al58JbrJbVQabdE15Ca-8g

     

    来源:CCF计算机视觉专委会

    引言

    计算机视觉是人工智能的“眼睛”,是感知客观世界的核心技术。进入21世纪以来,计算机视觉领域蓬勃发展,各种理论与方法大量涌现,并在多个核心问题上取得了令人瞩目的成果。为了进一步推动计算机视觉领域的发展,CCF-CV组织了RACV 2019,邀请多位计算机视觉领域资深专家对相关主题的发展现状和未来趋势进行研讨。我们将研讨内容按专题实录整理,尽最大可能以原汁原味的形式还原观点争鸣现场,希望有助于激发头脑风暴,产生一系列启发性的观点和思想,推动计算机视觉领域持续发展。

    本期专题为“未来5-10年计算机视觉发展趋势”。各位专家从计算机视觉发展历程、现有研究局限性、未来研究方向以及视觉研究范式等多方面展开了深入的探讨。

    主题组织者:林宙辰,刘日升,阚美娜讨论时间:2019年9月27日发言嘉宾:查红彬,陈熙霖,卢湖川,刘烨斌,章国锋参与讨论嘉宾[发言顺序]:谢晓华,林宙辰,林倞,山世光,胡占义,纪荣嵘,王亦洲,王井东,王涛,杨睿刚,郑伟诗,贾云得,鲁继文,王亮文字整理:阚美娜,刘日升

     

    开场:山世光、林宙辰

    山世光:上次计算机视觉专委会常委会上,在谭院士的倡议下这次RACV尝试一下相对比较小规模的、以讨论未来与问题为主的这样一种形式。这次的RACV希望所有的发言人,都不是讲自己的或已经做的工作,而是围绕着每一个主题讲一讲自己的观点和看法。大家在发言的时候可以无所顾忌,可以争论。我们会有记录和录音,但最后的文字会经过大家的确认之后才发布。

    林宙辰: RACV是希望大家有一些深入的研讨,互相挑战,以达到深入讨论的目的。第一个主题是未来5-10年CV的发展趋势。希望我们这次研讨会尤其是CV发展趋势这个主题能够类似达特茅斯会议,产生一些新的思想。

     

    嘉宾主题发言

    1. 查红彬

    未来五年或十年CV的发展趋势是很难预测的,有时候想的太多,反而容易跑偏。所以,今天我主要从自己认识的角度说说后面我们该做些什么样的事情。

    首先,说说什么叫计算机视觉?我这里给了一个比较严格的定义,即使用计算机技术来模拟、仿真与实现生物的视觉功能。但这个定义并没有将事情完全讲清楚,这里把计算机和视觉两个概念揉到了一起,但到底什么叫计算机、什么叫视觉并没有说。什么叫计算机大家是能够公认的。但什么叫视觉,其实在计算机视觉领域里还没有一个大家都认可的定义。

    我们不妨先看看现在计算机视觉领域里有哪些研究内容。先来看看今年ICCV各个分会的关键词,其中最大的几个领域是deep learning;recognition;segmentation, grouping and shape等。这些领域是视觉吗?说是图像处理、分析与理解也能说的通。关键问题在于,我们讲来讲去到底是不是真的在做视觉?这点有必要再想想。举个例子--人脸识别:人脸识别现在能识别大量的人脸图像与视频,几十万、几百万人都能够识别。它是用大数据驱动的方式来达到目的的,而且是离线学习的。但识别算法在实际应用中对光照、遮挡等的鲁棒性比较差。我们回过头看看人的人脸识别有些什么样的功能呢?我们人识别人脸的功能很强,但只能识别很少数量的人脸,如亲戚、朋友、同事等,超过一定范围之后人是很难识别出来陌生人的人脸的,我们能看到有差别但分不清谁是谁。第二个,人是在生活情景当中进行主动性的样本学习。我们之所以能够认识亲属,是因为我们在日常生活当中与他们生活在一起,建立了各种各样的关系。我们主动地用样本来学,利用了不同层次的特征。所以,尽管我们识别人脸的数量少,但是我们对抗干扰的能力很强。所以我觉得这是人的人脸识别和现在机器的人脸识别之间的差别。也就是,人的视觉中的人脸识别有它明显的特点,它能很好地应对现实环境中的视觉处理任务。

    那么现实环境中的视觉处理应该考虑哪些因素呢?我们有计算机、机器人这些智能机器,同时还有其它两个关键的部分。第一个部分是要通过视觉这个接口来同外部世界建立联系,同环境进行互动;第二个是我们讲视觉的时候,生物的感知机理给我们提供了很多依据。这其中,我们要应对的是现实环境的开放性,以及三维世界的复杂性,我们要面对场景当中很多动态的变化以及层次性结构的多样性。


     

    另一方面,生物的感知机理有什么呢?它是一个学习过程,但这个学习是柔性的,并不是我们现在这样的离线学习并固定的方式。我们现在的机器学习用起来就只是测试。但我们人的学习中测试和学习过程并不是严格可分的,它有结构上的柔性,也需要层次化的处理。此外,它有主动性,能够根据它的目的和任务主动地进行学习。同时,我们日常生活当中所需要的是一种时序数据的处理,是一种增量型的处理过程。从这样的角度来看,我们将来的计算机视觉研究需要考虑把真实环境的特点与生物的感知机理融合进来。这样就会更接近“视觉”这个词本来的意义。

    那这其中有哪些事情我们可以去考虑呢?首先是学习的问题。现在,深度学习用的很多,但它只是我们人的模式识别当中的一部分功能,对于视觉研究来说,还有很大的挖掘空间。也就是说,我们考虑计算机视觉中的机器学习的时候,不仅仅是深度,还要把网络的宽度、结构可重构性与结构柔性结合起来。我们要把不同的结构层次研究明白,同时把不同模块之间的连接关系考虑到网络里来。我们人的大脑就是这样的,大脑从视觉的低层特征抽取往上,它具有很多不同的功能性结构在里面,而且这个功能性结构是可塑的。其次,除了通常讲的识别功能之外,我们要把记忆、注意等一些认知机制通过学习的方式实现出来。目前已经有一些这方面的工作了。将来这些机制在计算机视觉里面可能会作为学习的一个核心目标,融到我们现在的整个体系当中。另外,还应考虑通过环境的交互这种方式来选择需要的样本进行自主学习等。所以,这种学习方式上的结构柔性应该是我们追求的一个目标。

    另外一点,我们现在的计算机视觉还比较缺乏对动态场景的处理。我们现在很多工作是在静态场景里面,像人脸识别也是在静态场景里面来做。尽管有时候我们用视频来做,但并没有深入考虑整个场景的动态特性。现在动态目标的跟踪、检测、分析、行为的识别与理解等这些工作都有在做,但还没有上升到一个系统化的水平。我们也应该把更多的注意力放到像移动传感器的定位、三维动态场景的重建与理解等一些事情上面来。所以,我认为动态视觉是未来的另一个重要研究方向。

    还有一个是主动视觉。主动视觉是把感知与运动、控制结合起来,形成一个闭环。计算机视觉里很早就有一个研究课题,叫视觉伺服,是想把控制和感知很好地结合起来。我们的感知一部分是为任务目的服务,另外一部分是为感知本身服务,即从一种主动控制的角度来考虑感知功能的实现,以提高感知系统的自适应能力,迁移学习、无间断学习或终身学习等都可以应用进来。此外,还应当考虑常识、意识、动机以及它们之间的关系。也就是说,我们要把视觉上升到有意识的、可控制的一个过程。


     

     

    如果我们把前面提到的时序与动态处理等结合起来之后,应该更多考虑在线学习。我们不应该全部依赖目前这种离线学习、仅使用标注数据,而是应该在动态的环境当中,根据运动与动态数据流本身的特性来做预测与学习。这样可以把前面提到的记忆与注意力等一些机制结合起来,最终实现一种无监督的在线学习系统。这样一来就能把现实环境中的一些特点与变化考虑进来,形成一套新的理论。而这个理论,跟现在的深度学习、图像处理分析与理解等相比,会更接近我们讲的视觉这个概念。


     

    2. 陈熙霖

    预测可见未来是一件风险极大的事,对于这个命题作文我只能说个人的观点。我更愿意从历史的角度来看这件事情。首先,我们回顾一下计算机视觉的发展历程。我把过去几十年的过程分为以下几个阶段。第一个阶段我称之为启蒙阶段,标志性的事件是1963年L. Robert的三维积木世界分析的博士论文(Machine Perception of Three-dimensional Solids)和1966年夏天Minsky安排几个本科生做的手眼系统。这个阶段对计算机视觉的估计过于乐观,认为这事太容易了,很快就可以解决,正如S. Papert的报告中写到的“The summer vision project is an attempt to use our summer workers effectively in the construction of a significant part of a visual system”。启蒙阶段的重要启示就是发现这个问题远比想象的困难。

    从七十年代初期开始进入第二个阶段,我称之为重构主义,这是以D. Marr的视觉框架为代表的。这个框架在Marr的总结性著作“Vision --A Computational Investigation into the Human Representation and Processing of Visual Information”中有很好的阐述。其核心是将一切对象恢复到三维表达。其基本过程是:图像à基本要素图(primal sketch)à以观察者为中心的三维表达(2.5D skecth)à以观察对象为中心的3D表达。这个过程看起来很漂亮,但却存在两方面的问题——首先是这样的过程是否是必须的,其次是如果都试图恢复三维,这样不论对感知测量还是计算是否现实。我个人认为三维在计算机视觉中的作用也是有限的。这个阶段的工作也导致了上世纪90年代初对计算机视觉研究的反思和争论。有兴趣的各位可以看看1991年CVGIP: Image Understanding第53卷第1期上的讨论文章。

    第三个阶段我称之为分类主义,反正只要能识别就好,不管白猫黑猫抓住老鼠就好。人脸识别、各种多类物体识别等都在这个阶段大行其道,研究者们采用各种各样的方法,从研究各类不变算子(如SIFT、HOG等)到分类方法(如SVM、AdaBoost等)。这个阶段推进了识别问题的解决,但似乎总差最后一公里。

    最近的一个阶段我称之为拼力气比规模阶段,其核心是联结主义的复兴,这得益于数据和计算资源的廉价化。这类方法在各种分类问题上似乎得到了很好的解决。但这些方法背后缺少了很多研究需要追求和思考的东西,过去我们都在讲找一个美妙的办法。如同我们希望瞄准目标,以最小的代价击中目标。现在这类方法更像是炮决,今天我们似乎进入了这样的炮决时代。

    那么未来会是怎么样的?从前面的发展历史来看,计算机视觉经过几十年的发展进入了野蛮人的时代。什么叫进入野蛮人的时代了?今天大家说人工智能热,可几乎所有拿来验证人工智能的例子都是和计算机视觉相关的。而今天很多所谓的计算机视觉研究就是拿深度学习训练一个模型,所以说这是个野蛮人的时代。那么野蛮人时代有什么问题?我们看上一个和野蛮人时代相关的历史——罗马帝国。罗马帝国是被野蛮人消灭的,罗马(更具体的是指西罗马)从建国到被灭亡,中间大概有500年。而且西罗马被灭了以后,还有一个叫神圣罗马帝国,按照尤瓦尔·赫拉利《人类简史》上的说法后者既不神圣也不是帝国。当年罗马帝国也是所有的东西都讲究漂亮美丽——斗兽场、引水渠以及打到哪修到哪的条条大路(通罗马)。计算机视觉早年的研究者也是天天追求漂亮,要数学上美、物理上美等等,就和当年罗马帝国一样。现在也真的和罗马帝国一样了,我们遇到了蛮族人。这个蛮族人是谁?就是深度学习,和过去罗马人关心文明,蛮族人关心财富一样,在计算机视觉的研究上,我们也面临着如何选择的问题。当然,历史也会惊人地相似,蛮族人占领罗马以后也不是什么都没干。后来他们建立神圣罗马帝国,到后来导致文艺复兴。今天计算机视觉的研究在我们看来也需要一个文艺复兴。什么是我们的文艺复兴?我们当下的计算机视觉就处在这么一个需要思考的时期。而不是一味地倒向深度学习。现在有些研究走向比蛮力的阶段,就跟打仗比坦克、大炮的数量一样,靠拼GPU的规模和计算能力。下一步,我们需要往哪里走?这是现在这个野蛮人时代需要思考的。

    预测未来五到十年这是一个风险极大的问题。所以我只能通过前面讲的历史和我的一点思考谈谈对未来的一些可能。

    首先,一个值得关注的未来趋势是从识别到理解,套用古人的说法就是从知其然到知其所以然。过去十多年计算机视觉在识别方面取得了显著的进展,但是现在的识别远远不是我们所期望的识别。例如你教它识别一个杯子,它不会想到杯子和水有任何关系,不会想到杯子有任何的其他功能,因而完全是填鸭式的。今天的识别远远不是可解释的。谈到可解释,我认为在计算机视觉领域的可解释应该是对结论的解释,而不是解释网络行为,前者应该更有价值。那么要解释这一切靠什么?应该是靠某种形式的逻辑关系,这种关系可以通过语言表达,语言应该起到桥接作用。这里的语言和自然语言有关系也有区别,可以是独立于我们自然语言的,是机器自己对世界理解的语言。换句话说,我们把世界的物体重新编码起来,然后把物体和物体,物体和环境的联系建立起来就好。有了这样的从基本属性到对象直至环境的关系,就有可能实现从知其然到知其所以然。所以我觉得未来最重要的趋势就是从无需知识支撑的识别到需要知识支撑的理解,或者说从单纯的Bottom-up的识别到需要知识启发的具有反馈、推理的更广义的计算机视觉,这也是我自己这几年特别关注的研究方向。

    其次,值得关注的一个趋势就是对空间感的有限需求。关于为什么动物需要视觉,主要是两方面的需求——首先要保证寻找食物和不被天敌吃掉——识别能力;其次是保证不会因为对空间的错误判断而造成意外伤害(摔倒或者撞击等)。视觉最重要的就是解决这两件事情。那么为什么讲对空间感的有限需求?我们的三维空间感,只是在相对比较近的时候,才需要很精确。在距离稍远一点的情况下,大多数时候其实不关心精确的空间位置,而可能关心一些如遮挡、顺序等关系。另外,如果你试图把一切对象都用三维来表示的话,不管是从计算的代价还是从可实现性来讲都很难。试想恢复一个一米远处的对象,可以做得很精确,而对于一百米或者更远的对象,如果希望保持相同的量化精度,对深度值的量化就会成问题。这就是说的有限需求的含义,但是我觉得这件事情一定很重要,特别是在较近的时候。

    第三个值得关注的趋势就是不同模态的结合,即所谓聪明合一,人的聪明离不开耳聪目明。这里的模态不仅仅限于视听觉,还可以包括不同的二维、三维的视觉传感信息等。生物的感知从来不是仅靠单一模态的。在多模态中需要解决好的一个问题是不同模态间的对齐与因果问题。如果同时存在从多个模态获取的信息,时空对齐是非常重要的挑战。与时空对齐相关的另一个问题是因果关系,虽然我们希望获得因果,但绝大多数时候得到的仅仅是关联,两个现象之间可以是第三个因素导致的,如同云层间放电导致电闪和雷鸣,这两件事是关联的,但绝不是电闪导致雷鸣。在绝大多数情况下我更倾向于去探索关联而不是因果,特别是在数据驱动的模型下,离开机理试图发现因果是困难的。但在未来的计算机视觉研究中不同模态的结合和关联是一个重要的趋势。

    第四个需要关注的趋势是主动视觉,所谓主动就是在视觉系统中纳入了反馈的机制,从而具有选择的可能。视觉如果仅仅以独立的形式存在,则不论是从感知所需的精度、分辨率以及处理的能力都需要成指数规模的增加,生物视觉由于有了主动选择的机制,因而在视野、分辨率、三维感知与能量消耗方面得到了很好的平衡。当计算机视觉的研究不仅仅是为了验证某个单一的功能时,上述生物视觉的平衡一样需要在计算机视觉系统中考虑,实现从感知、响应到行为的闭环。从被动感知走到主动的感知,这是从算法到系统的一个重要趋势。将视觉的“看”与“响应”和“行为”构成广义的计算机视觉系统,通过有主动的“行为”进行探索,实现“魂”和“体”的合一。这对视觉应用系统是至关重要的——例如一个经过预训练的服务机器人,可以通过在新环境中的主动探索,实现整体智能的提升。所以我认为这是未来视觉应用系统的重要趋势。

    我没有讲具体的算法哪些是重要的。我想说一件事情,就是关于深度学习,我觉得未来深度学习就会像今天计算机里看到的寄存器、触发器、存储器乃至CPU一样,成为基本构件。关于趋势,延续前面的划分,计算机视觉将进入一个知识为中心的阶段。随着深度学习的广泛应用,计算机视觉系统将不仅处理单一任务。在复杂视觉任务的处理中,主动视觉将起到重要的作用。通过主动的响应和探索,构建并完善视觉系统对观察世界的关联(因果)关系并借此理解空间对象的时空关系、物理属性等。这算是我对今天讨论问题的个人预测。


     

    3. 卢湖川

    刚才前面两位老师已经提纲挈领的提了一些观点,我可能有一些和他们是相似的。

    从理论方面来讲,我觉得目前深度学习的理论好像有点走不太动了。具体来说,从Backbone的发展来看,网络结构的设计,基本上没有更多新的内容。另一方面,某些领域还是比较热门的,发展比较快。比如说自然语言处理(NLP)和视觉的结合,这几年取得了很多进展,特别是聊天机器人等相关的实际需求,驱动着VQA等技术都有较大的进展。尤其是基于图的方法和视觉结合在一起可能会越来越热。以知识图谱为例,如果知道一些先验知识,知道一些知识图谱的话,可能会更好的去理解图像或者视频。例如,给定一幅图像,里面有一只猫和一个鱼缸,猫用爪子抱住了鱼缸,还盯着鱼缸里面的鱼,如果我们知道知识图谱里猫和鱼的关系, 我们就能很好的描述出猫想吃鱼缸里的鱼,从而更好的帮助视觉理解图像或视频里目标和目标之间的关系。所以说,我觉得基于图或图谱的方法和视觉结合在一起未来几年会有更大的发展。

    第二方面,我觉得三维视觉会继续快速发展。从前两年开始冒头,到现在已经较为火爆,不仅仅局限于三维场景重构等领域,最近基于三维视觉的检测与分割等都有一些优秀的工作涌现。随着基于各种各样的嵌入式设备和手机端的需求,像华为手机已经有三个背面的摄像头,甚至多个摄像头(它的三个摄像头的定义,一个是超广角的,一个是广角的,另外一个是高精度的摄像头,不同的分辨率,可以更多的去模仿人的视觉方式)。由于人观测世界本身是三维的,所以移动端的这种大量的应用会牵引着三维视觉在这方面越来越走向更深入的发展。

    第三方面,最初我们提到深度学习时,通常都会说手工设计的特征(handcrafted feature)有各种各样的不好,而深度学习是一个端到端的网络。实际上,深度学习的网络结构也是手工设计的(handcrafted)。目前,网络结构搜索NAS兴起之后,我觉得在这方面可能会有更多的一些改善,能够把一些常规的操作,包括一些常规的模块都融入进去,来不断优化网络结构而不是手工设计(handcrafted design)。我觉得未来几年在这方面,甚至包括网络结构的压缩和裁剪方面都会有更多的进步。

    第四方面,深度学习兴起之后,我们看到诞生了一大堆的数据集,并且都是有ground truth标注的数据,在其驱动下,深度网络达到了一个比较好的性能,目前绝大多数的数据集在性能方面基本上也趋于饱和了,但是距离实际问题仍然有较大的距离。另一方面,人对世界的认知基本都是小样本学习的结果,和目前的大数据驱动的模式不太一样。所以能否将当前大数据驱动的方式和人参与的方式结合起来?现在也有很多这样的论文来研究人主动参与的或者是human in the loop的学习方式,可以把人对ground truth的主动标记结合起来,引导快速的学习,甚至把性能提高到一个更高的高度。

    第五方面,视频理解在前几年开始有初步的发展,特别是到这几年有更多的需求和深入的趋势。因为现在基于图像的所有任务做到一定程度之后可能都做不动了,或者说没有更多的花样了,那么对视频的各种理解越来越多,包括视频摘要、视频场景分类、广告识别、台标识别等等,很多这方面的应用,我觉得未来几年会有更长足的发展。

    我觉得在主题(topic)方面,未来会有更多的发展领域。随着刚才陈老师说到野蛮人的时代来了,大家参与视觉研究的热情很高,不光是学术界,产业界对这种需求也是非常巨大的。因此我觉得目前深度学习领域,视觉会在各个行业纵深发展。举个例子,这两天有一个公司提出这样的一个需求,即鞋印踩上去之后,希望能识别是哪个犯罪嫌疑人来踩的,这个就是足迹识别。进一步,他们想通过这个足迹来判断这个鞋的鞋面是什么样的,是什么牌子的。然后通过这些线索进而去库里搜索比对,搜索完了之后,再去视频里面去找犯罪嫌疑人,即穿这种鞋的人到底是谁。这个过程中,一步一步的从源头开始到后面,形成了一系列的视觉问题,行业的这种纵深发展需求是无限巨大的。视觉里面还有很多之前没有想到的事情在不断进步,两天前我参加了工业机器人展,看到有一个捡包裹的机器人。我们都知道快递小哥要送了一大堆包裹,各种各样的包裹都有,能否在包裹车拉来一车包裹后,让机器人去分类呢?我在展会上看到就有这么个机器人,它会自动的去识别是什么样的包裹,而且知道它的三维的曲面是怎么样,因为包裹放的角度都完全不同,它会调整机械臂,适应包裹的三维曲面的法线方向,去吸附它。我感觉在不同行业实际需求下,像分割、三维建模等视觉技术都会快速在各个行业里得到深入的发展。

    另外,我觉得在医疗图像方面也会有很大的进展。医疗图像现在更多的是各个疾病的检测。昨天跟一个医疗单位在一起交流,他们提供了一个很大的平台,它的最终目标是通过病人的不同模态的信息,来最后综合判断病人到底是什么样的病。不仅仅是关注医学影像信息的,还有一些其他的一些检查结果,其实是一个跨模态的融合,包括图像标注、病案标注等等,他们都使得医疗图像未来和视觉的结合会越来越紧密。

    目前5G不光是速度快容量大,它其实给计算机视觉AI带来了一个更广阔的前景,特别是无人车方面,刚才几位也提到了三维的地图等。跟中国移动交流了之后,发现他们的高精度地图,可以通过5G带宽实时传输,是可以看到马路崖子这种厘米级的精细度。所以我觉得5G+AI会为我们视觉相关领域的发展带来巨大的机会。以上就是我对未来5-10年视觉发展趋势的一些理解。 


     

    4. 刘烨斌

    我主要围绕三维视觉、虚拟现实和人工智能的发展谈点想法。虚拟现实是2016年火了之后一直发展比较平稳。2018年XISHUJI有过关于虚拟现实的重要性的指示,虚拟现实技术改变了未来的交互方式,主要是这种人与环境、人与人之间的交互方式可能会变得更加自然简单,并且取代键盘、手机触屏等现有的功能。

    三维视觉的趋势是做视觉信息的重构,提供三维的内容给虚拟现实,这个是三维重建,三维虚拟现实通过真实渲染能够产生很多数据,为视觉问题服务。很多视觉问题皆有数据驱动,数据如何得来,越来越多的部分时通过三维引擎来得到。计算机视觉的研究对象有好几类,室外的、室内的、包括人体人脸还有手,还有一些医学和生命对象。以人为本是计算机视觉的核心,所以我主要以人作为视觉研究对象,举例说明计算机视觉的发展趋势。

    从人为研究对象的角度,虚拟现实有三个目标,也即三个I,一个Immersion,一个Interaction,一个Imagination。三者都是虚拟人(AI、机器等)和真实人之间的作用关系。首先,虚拟人在视觉外观上是真实的,未来的虚拟人不管是真实做出来的机器人还是存储在计算机中的,都有逼近真人的发展趋势,使得交互更加友好。而这个目标,本质上就是人体的三维重建。第二个要素是人机的交互,虚拟人一定要能感知真实人的行为,包括手势识别,行为识别,情绪等这样的一些理解。最后,虚拟人需要对场景有反应,能够智能化,他能够根据你的行为智能地做下一步的处理,保证产生一个真实的虚拟人。

    总体来说,虚拟现实的智能建模技术被列为新一代人工智能发展规划里的八大关键共性技术,重点突破虚拟对象智能的行为建模技术,提升虚拟现实中智能对象行为的社会性、多样性、交互逼真性,实现虚拟现实和增强现实等技术与人工智能的有机结合和高效互动。上述定义中的重点是行为建模,行为必须是接近人的智能的行为,才能有交互的逼真性等等。围绕这个人体的建模,目前的目标一个是要精准的重建,第二是要规模化的采集,第三是要便携式(手机单图像也能做),第四是速度足够快,能够响应交互的要求,第五就是现在一个大的发展趋势,建模的结果含有语义信息,即语义化建模,包括服装,人脸,头发等。最后第六就是智能生成,即重建结果能真实动画展示。现有的三维视觉重建技术很难满足这六个方面的要求,所以围绕这些目标还有很多研究需要做。

    人体重建主要目的之一是全息通信。这里展示微软做的holoportation系统,它实现实时的,多相机下的人体动态三维重建。但这个系统的缺点是,它要求具有主动光,导致系统复杂度高,实时性和便捷性成为矛盾。实现实时高精度三维动态重建,也是未来的一个学术研究趋势。我们研制的单个深度相机实时的重建,虽然速度和便捷性都趋于完美,但精度还有待提高。单图像人体三维重建,虽然现在的质量还不算完美,但我觉得这是一个很实用的技术应用趋势。通过单个图像我们就可以来简便地重建它的三维模型,未来肯定是能大放光彩的。单图像人手动态三维重建,通过单个RGB监控相机就可以来实现实时性,可以看出三维重建输出了语义信息,已经取代了传统二维计算机视觉识别问题成为发展趋势。

    服装产业占据国民生产总值的6%,数字化服装是一个非常重要的计算机视觉应用之地。这个是展示我们最新做的一些事情,通过单个视频,可以网上的视频,就能通过语义的建模来实现比较高质量的服装三维建模,对一些VR、AR都可以应用,它是通过对人体和服装的解耦,语义信息的加入,包括光照和纹理的解耦来实现。这种东西未来可以产生一些应用,包括改变体型,包括增强现实的模拟,右边就是一个互联网视频的重构,它可以改变服装的颜色等等。我觉得这种便携实时的三维重建的趋势就是从低层次的三维建模,包括体素的、网格的,逐渐走向高层次的三维建模,包括部件级的重建、物理信息分离、感知物理动力学、特征空间的提取。这些高维信息能够智能地建模和生成,响应环境,控制和预测。包括图形学里做的一些研究,好玩的比如能让一个人去动的虚拟对象的这种物理的约束,包括我们自己去爬山这种增强现实的技术也会引入进来,把物理、智能响应引入进来。

    最后再谈谈更有广泛意义的一些动态三维重建问题。例如,医疗方面的比如外科手术的术野场景的三维感知,就是个非刚性复杂动态场景的三维建模问题。这是展示肝脏手术的视频,能够动态跟踪它的形状,三维扫描的CT可以在动态的场景下实时非刚性映射,辅助医疗和手术。还有就是在生命科学领域的动物行为三维重建,我觉得动物是未来视觉的一个很大的可以应用的点,我们叫计算行为学,也叫神经行为学。它研究的是行为跟神经活动的映射关系,通过采集动物行为数据来进行分析。行为学上对人进行分析非常难,因为人的基因差别非常大。但对于动物来说,可以做到每个小鼠基因都是一样的,像譬如在猪、猴子上也比较容易控制一些其他的差别的因素,所以对医疗,包括基因控制都会有帮助。在Nature子刊、Nature methods、Neural Science上都有一些相关的文章。它这里面其实有很多问题,包括群体对象自然环境下的交互,非刚性的捕捉,高层语义检测,互遮挡三维恢复,时间序列分析,有很多研究发表在Nature上。动物行为三维重建研究趋势就是希望动物更加自由地在实验环境里去生活,被记录,药物干预后提早发现行为差别。这样的研究还是很多的,包括可以提取维度更高的特征。我们也是在做这样一些研究,这里面有四个小猪,有两个是有渐冻症的,我们通过多视点拍摄,希望重构三维小猪的动作,通过重建动作来识别渐冻症小猪的行为特点,对未来的基因调控和药物治疗带来帮助。


     

    5. 章国锋

    几位老师已经从计算机视觉大的层面对未来5-10年发展趋势做了展望,我从我熟悉的三维视觉和AR方面对未来5-10年的发展趋势发表一下自己的看法。

    我的研究方向主要是SLAM,所以我就先从SLAM的角度做一些发展趋势的展望。我们都知道视觉SLAM是很依赖特征的,未来SLAM技术的发展趋势必然会从以前的底层特征比如点、线、面,向高层特征比如语义、文字、物体等趋势发展。并且,现在已经有一些提取运动规律的工作比如人的步态规律、机器人和无人车的运动规则等等,来进一步提高定位的稳定性。

    有一个趋势是朝着多传感器融合的方向发展,其实每个传感器都有着它的优点和缺点,那么最好的方法就是把这些传感器的信息都融合起来,比如说随着深度相机的流行,一些手机上都安装了深度摄像头,还有Wifi、蓝牙、地磁信号等等,把这些信号都融合起来肯定可以提升定位的稳定性。未来还会有更多类型的传感器出现,比如这几年新出来的事件相机、偏振相机,相信未来5-10年还会有一些新的传感器出来。通过多传感器融合,我相信SLAM技术会做的越来越精准和鲁棒。

    还有一个趋势就是随着5G时代的到来SLAM会朝着云和端结合的趋势发展,比如说现在高精度地图的构建是放在云上,并且支持动态的更新。这就很自然地涉及到移动端上的SLAM和云上的高精度地图如何做紧耦合,如何利用语义地图的信息来更好地定位,不同终端如何协同来做SLAM。

    现在主要是深度学习的时代,对于SLAM来说,目前已有不少基于深度学习的工作,相信未来还会有更多这方面的工作涌现出来,比如如何学习一个更好的特征,如何学习更好的策略去解决SLAM中手写规则的困境,可能还会有做得很好的端到端的位姿学习。还有一个非常重要的就是语义信息的融合,比如说,结构的信息怎么跟语义信息做更好的融合,就像人眼一样看世界。我觉得这是未来的一个发展趋势。

    以上是关于SLAM方面的。然后,三维重建,刘老师前面已经讨论得很多了,尤其是动态场景的重建,我这里稍微再做一点补充。我觉得未来物体的三维扫描方面,一些便携式、移动式的RGBD传感器会越来越流行,比如说基于结构光和ToF的深度传感器,未来我相信还会有一些新的传感器出现,可以帮助实现实时高效的三维重建。这里重建的不只是几何和纹理,还包括材质、语义等等。基于照片/视频的三维重建技术未来几年也还会有一些进展,比如实现更高的几何精度和纹理,能得到更细粒度的语义,并且结合分布式平台的算力实现更高效的重建。

    在大规模场景的三维扫描方面,目前基于相机拍摄的视频或者照片已经可以做到城市级场景的三维重建。一般都是通过无人机航拍,然后重建出来。如果进一步结合深度传感器(比如Lidar),相信可以实现更高精度的场景构建。再结合分布式平台的计算能力,实现整个城市甚至整个地球的完整三维地图的重建将不是问题。当然只是静态场景的重建还不算太难,更难的是怎么实现动态物体的重建和场景的动态更新,因为真实的世界不是静态的,而是动态变化的。我觉得未来可能会通过相对低成本比如多传感器融合的方式来实现四维的场景地图的动态更新。包括前面讲的通过三维扫描获得的物体模型可以注册到真实世界的三维地图中,来实现三维信息的共享和传递。


     

     

    然后,我想谈一下识别和重建的关系。识别和重建未来5到10年会往更深层次的融合。目前三维重建基本上是bottom-up的方式,对先验知识的利用不够充分,未来5-10年可能会诞生top-down的方式,比如说先识别后重建,或者两者同步进行。识别能够提供更高层次的结构先验,反过来重建能够帮助做更好的物体识别,因此未来会更加紧密的融合。另外,也还需要深度学习和几何优化算法的融合,才能最终构建出兼具几何外观、语义信息、结构化的、可动态更新的3D场景表示。

    另外,因为我本人一直在做AR方面的应用,所以也想谈一下关于AR/VR、AI和三维视觉协同发展的趋势。其实AR主要是AI和三维视觉的应用。这三者如果能够紧密协同发展,那么我相信未来五到十年就可以实现一个地球级的现实世界的数字化。左边这个图是华为前不久提出的Cyberverse数字现实技术,它主要是通过相机、Lidar等传感器对真实世界进行扫描并构建高精度地图,然后基于高精度地图来实现室内外精准的定位和导航以及各种AR效果。Cyberverse实际上也不是一个完全新的概念,Magic Leap在2018年就提出过类似的概念Magicverse,旨在将大规模物理世界和数字世界持续地融合在一起。如右图所示,Magicverse包括好几个层,主要两种类型,一类是叫做基础层(包含物理世界和数字世界),还有一类叫空间应用层。基础层最底下是物理世界,然后在物理世界上构造一个对应的数字世界,然后再上面就是空间应用层,包括流动性、能源与水、健康与保健、通讯、娱乐等。

    要实现这样一个数字化的现实世界,最关键的一点就是对物理世界进行三维数字化,也就是如何对高精度地图进行采集、构建和更新。我相信未来必然是朝着多模态、多传感器采集和融合的方式发展,因为每个传感器都有着它的优点和缺点,需要融合互补。这里最难的问题可能是怎么进行动态更新。我相信众包式的采集和更新是实现这个目标的有效方式,可以实现低成本、高频次的更新。高精度地图除了三维还应该包括语义信息,因此语义信息的提取也是非常重要的,而且需要满足不同应用的语义信息,比如说定位、AR/VR的展示、行为分析等等。这就要实现不同粒度语义信息的提取,这里面的粒度可以大到整个商场,再到一个门店,再小一点就是一个商品。除了物理世界的三维数字化,还需要对人的行为进行数字化,运动行为、消费的行为、社交行为等等。

    对于这样构建的人的行为也好、三维空间也好,再结合SLAM、AR技术,我们可以实现地球级的AR应用。当然,这里首先需要解决云端的高精度地图怎么与终端SLAM紧耦合,这样才能够实现长时间大范围的精准定位和高品质虚实融合。松耦合模式会有一些缺陷,误差累积会很快,稳定性也不够好。基于这样的一种方式,我们可以实现室内外的分米级甚至到厘米级的定位和导航。

    另外,我们知道5G时代很快就要到来了。目前的AR计算还主要是在终端,比如手机、AR眼镜等。未来有5G的情况下很多计算都可以放到云或边上,对终端的计算要求相对弱化,终端未来更多的是提供数据采集、连接和显示的能力。因为有云端算力的加持,高品质的AR效果可以得以实现,比如高逼真的物理效果模拟,准确的遮挡效果和虚实交互,精准的光照估计和电影级的真实感绘制与虚实融合效果就成为可能。在5G时代,一方面传输速度非常快,另一方面有云端算力加持,未来应用APP甚至都不要预装,我们打开一个APP就像在浏览器上输入网址或电视机上切换频道一样便捷。

    以上是我对三维视觉和AR方面未来发展趋势的看法,供大家参考。

     

    专家讨论发言

    谢晓华
     

    我感觉我们是不是忽略了一点,就是硬件发展。例如我们之前做超分辨率,做了很多,但是后来高清相机一出来,很多工作就白做了。那会不会在未来的十年范围内视觉传感器这一块会有比较大的突破,然后刚才提到的一些工作就没有必要去做了。


     

    林宙辰

    我想说一说什么样的计算体系适合做计算机视觉?现在我们都是基于冯诺依曼体系,但是人的视觉处理过程跟冯诺依曼体系有很大的差别。如果是在新型的计算平台上面,是不是很多计算机视觉的问题能更好或更高效的解决,我觉得是可以探讨的。另外一个,我赞成主动视觉和在线学习。我觉得现在的视觉系统触碰到了一点是,每个人都是from scratch,这样的话精力有限你就只能做一个非常简单的任务。我觉得将来可以做一个像wiki一样的项目,全世界都可以贡献,这样的话大家都在共同构建一个统一的系统,而且这个系统可以利用网络上的所有数据,可以自我进化(evolution)。然后这个系统大家都可以公用,这样就可以解决每个人的系统不停的从头学习的问题,因为单个人做的话只能做很小的一部分。


     

    林倞

    我想谈一谈关于benchmark或者关于AI的评价系统或者CV评价系统的好坏的基准。因为我认为我们很多的研究是受这个基准所驱动的,或者说是跟这个benchmark是相互驱动的。现在CV的趋势是融合、协同等,那么未来我们可能会需要一种新的评价体系来看CV的状况,可能不需要在一个特别的识别问题或者分割问题上达到特别高的精度,但是我们同时接入理解、分析、可解释性等,这样才能评价一个AI或者CV系统的鲁棒性,更像人一样的而不是把它归类为一个分类问题或者重建问题,我觉得这个可能是我们要很具体的去讨论和去发现的问题。


     

    山世光

    我们讨论十年后视觉可以发展到一个什么样的水平,可是我们并没有定义清楚,我们该如何从总体上度量视觉智能的进步,比如说现在视觉智能水平是60分,十年后我们可以做到80分,这个没有明确的标准。包括什么是视觉理解、图像理解,怎么定义呢?比如我们做人脸识别,很清楚,就是以某个数据库上的识别率为准。可是作为一个general的视觉我们好像没有这样的一个标准。

    另外,作为一个标准的benchmark的角度来说的话,是不是人的视觉也是分两种,一种是通用的视觉,一种是专用的视觉。比如我们普通人看不懂医疗影像但专业医师就可以,但是我们都有通用的视觉的能力。这两类视觉实现的路径是一样的还是不一样的?

    还有一个就是刚才提到的十年后我们可能把地球都数字化了,但是这个数字话不见得是个简单的数字化,比如是地图化的,那地图化的话对我们做视觉的有什么样的帮助呢?我觉得是不是类似于出现了一个视觉智能测试的“靶场”,我们的很多东西都可以在这个“靶场”里去测试。例如很多做自动驾驶的系统初步的训练都是用的合成的模拟数据。那么也许我们有了一个很好的关于地球的数字化模拟的时候,我们就有了一个很好的视觉的“靶场”,这个“靶场”既可以做训练也可以做测试。

    此外,要不要做视觉常识?大家都在说知识,我觉得知识这个体系如果没有常识,感觉有些空中楼阁。我们做视觉先得有视觉常识,有常识才有可能有所谓的理解,我不知道是否正确,我觉得这个问题可以讨论。


     

    陈熙霖

    关于理解的评价问题,我们可以想想人是怎么做的。对于人类形成体系的知识我们确实有benchmark,确实有考题。可是对人类探索中的知识是没有考题的。大家理解的知识最后形成一个公共认可的交集,最后逐步拓展。所以,我个人认为在未来的推动理解的研究中,benchmark不能没有,但是不能唯Benchmark。如果说过去近30年中Benchmark推动了计算机视觉的发展,今天可能成为束缚了计算机视觉发展的一个因素。我经常跟学生为此争论,一些学生认为离开可评测数据集的工作就不是研究。而对真正智能的研究可能就是没有Benchmark——没有最聪明,只有更聪明。对于场景理解一类的任务而言,一个机器可能发掘出100组关系,另一个机器可能发掘出300组关系,那后者的理解能力可能就超越了前者,如果前者的关系是后者的真子集,那后者就一定具有更强的理解能力。当然更多的是两者可能具有互补性,如同人类的三人行必有我师。

    第二件事情是说通用视觉与专用视觉,我的观点是对于医疗判读这类的所谓专用视觉其实远远超越了视觉本身,它不仅仅是视觉,医生的判断是在视觉现象基础上的知识/逻辑推理。


     

    胡占义

    这个观点我有点不大同意。我最近十多年一直在研究生物视觉,视觉绝不是说就是感知,视觉包含认知。仅仅视觉物体识别这个具体问题,人类就有约三分之一的大脑皮层参与。当然,某个大脑皮层区域参与视觉问题,绝不能说该皮层就是视觉皮层。大脑的大多数高级皮层,都在于加工多种感觉信息融合后的信息,进行认知决策和行为规划。所以说视觉问题,它涉及真个大脑,包括皮层和皮下组织的联合加工,绝不是完全由大脑的视觉皮层完成。视觉皮层是指主要对视觉信息进行加工的皮层,很多皮层参与视觉信息加工,但不是视觉皮层。

    我先说第一个观点,人的视觉和计算机视觉是有区别的,如果说把人类视觉的脑加工机制完全解释清楚,我觉得和搞清楚宇宙起源的难度没有区别,我研究了差不多十五六年生物视觉,据我所知,神经科学领域目前对视觉V1区研究的比较清楚,V2区已不太清楚,更不用后面的V4和IT区,以及前额叶(PFC)等高级皮层。视觉问题处理基本涉及到大脑皮层的各个区域。所以说研究计算机视觉我觉得我们要弄清楚到底什么是计算机视觉,什么是计算机视觉的核心科学问题,我们不能够把什么东西都往上加。我觉得我们要好好讨论讨论,五到十年内我们到底主要是研究视觉感知还是视觉认知?如果研究视觉认知那是一万年的事。我目前不怎么研究计算机视觉了,我主要关注生物视觉了,也许我说的不对,但我觉得大家还是聚焦一些,目标可实现一些。

    我们讨论五到十年的计算机视觉研究方向,不是指具体的算法,我们十年前也不知道深度学习能达到今天这样的一个高度,我们要讨论到底哪些方向是值得研究的,我自己觉得有三个需要关注的方向:1.基于神经生理的计算机视觉,估计在五到十年以内是一个重大方向;2.视频理解;3.涉及中国特色的全球战略相关的视觉研究:如卫星数据理解(全球战略),深海水下视觉信息处理(深海战略)。


     

    纪荣嵘

    我自己觉得我从博士毕业到现在大概10年的时间,我认为计算机视觉是远远超过了我当时读书时的任何方向,比如说自然语言理解,信息检索等等。我觉得一个重要的原因是深度学习带来的收获。但另一个方面,我们的这些系统太大太厚重,有没有可能把这个系统做的小一些,做的开销更小一些,这里面有几个维度。大家能马上想到的维度就是把系统做小,做小就可以把它放到端上,放到嵌入式设备上。第二个就是把系统做快,现在自动驾驶或者端上的设备的计算,有可能需要系统处理数据要远远快于实时。

    第三点,现在我们很多时候都是在做单点的系统,每个摄像机执行的功能都是一个完整的闭环,花了很多的计算代价做了很多重复的事情,未来的视觉系统有没有可能由点到面进行大范围系统之间的协同。就是说有没有可能由专到广的,为什么是由专到广,现在每个模型只能解决一个任务,为了解决目标识别用的是目标识别的模型,为了解决语义分割用的是语义分割的模型,为了解决人脸而用人脸的模型,我觉得我们的人脑并没有分得那么清楚。one by one或者 1 v 1的我个人感觉太消耗资源了,有没有可能有一种更灵活的机制,网络结构可以由不同的形式组合在一起,比如说一套模型的backbone,它往上的话既可以做识别又可以做分割还可以检索,还可以做相关的理解。这样的话就可以把整个计算量给降下来。我相信人类进化到现在这个阶段,我们用我们的大脑实现了多任务的,高效能的,并行而且只占用极小的存储开销,我们每天只用吃三碗米饭,我们能完成这个计算机系统消耗多少的计算量来完成的事情。

    第四个观点,我觉得我们的系统现在“吃”数据“吃”的太厉害。我觉得我们人类自身真的没有用到这么多的数据进行学习,我们用了大量的数据复用,比如说我识别消防车,只需要在车子上加一些特殊的部件,我就能识别消防车,我们人是很智能的。但是我们现在的计算机系统太吃这些硬性的资源,所以我觉得在计算资源的消耗上和训练数据消耗上我们也应该探索更多的机制。

    然后,从我自己的感受来说,过去的时间我们看到世界往前发展,我特别希望未来的五到十年里面,计算机视觉的发展是由我们中国的学者去引领的,因为我们现在有巨量的市场,这个市场有我们能马上可以看到的技术痛点,这痛点就在我们身边,应该是我们来做,而不是让外国人来做我们的痛点,我们应该去引领它,所以我觉得未来的五到十年有很多是我们这些中国计算机视觉的学者应该去做的事情。


     

    林宙辰

    在手机上要越做越小,我觉得这不是正确的方向。将来的视觉系统应该越做越大,不是越做越小。所有的运算通过5G放在云上面运算是未来的一个趋势。我们大家都在云端上建立一个大系统,这样的话能够解决多样性的问题。因为要用一个小系统来解决各种各样的问题,我觉得这个概率上讲是不可能的,就是要建立一个跟人脑一样复杂的一个系统,它才能够解决各式各样的问题,这个系统肯定只能放在云上面,手机端愿意多算就多,少算就少算,不要把所有的计算都挤到一个小的手机上面来。


     

    纪荣嵘

    我觉得不一定完全正确。我觉得端上可以做一些轻量级的计算,云上做更重量的计算。而且端上的计算可以使数据的传输由重量级变轻量级。比如说原来传图像,现在可以只传特征,原来要传所有的区域,现在只要传特定的区域。因为手机只用作摄像设备感觉太浪费了,手机其实是一个很好的计算设备。


     

    林宙辰

    我们并不矛盾。我是说想在手机上解决所有的问题这一点我是反对的。一开始你说要在手机上做小网络这个东西,肯定是越小功能越差。


     

    胡占义

    对于这个问题我提个建议,5G对我们计算机视觉影响有多大,其实就是小终端和大终端的问题。如果5G网络很快,终端干脆就可以很小,不需要在这里处理,直接放到云上。我觉得5G对计算机视觉的影响确实要好好理解。


     

    王亦洲

    你俩说的没有矛盾,在专业任务上一定要压缩。处理是与任务相关的,只要满足任务的需求就行。视觉是一个ill-defined problem。什么是视觉这个概念太大了,但如果局限到图像,又太小了。所以怎么去把握它呢?我们丢这个阵地,就丢在了问题的复杂度上面。现在已经被深度学习占领了,我们再漂亮的理论、性能都不行。 然后我们丢在哪儿了呢?视觉问题是不是深度学习就解决了?视觉并不仅仅是一个学习问题,刚才说视觉可以很大,它可以是个认知的问题,top-down、bottom-up、然后各种任务,我们定义的视觉问题的复杂度不够,系统的复杂度也不够。所以我们要把系统的复杂度给加上去,把任务的复杂度也加上去,但是在每个具体的专项的任务上面, 我们要尽量让它简洁(compact), 让它适合于任务(fit for task)就够, 所以怎么去拿回这个阵地,我觉得要在这两方面,复杂度上面加大,然后才能够有可能把这个视觉的东西给拿回来。但视觉其实不单单是视觉问题,应该是视觉主导的任务完成的一个问题。所以,以后CVPR它有没有存在的意义,或者说是不是还是那个趋之若鹜的东西都不一定。


     

    山世光

    我们值得讨论的问题是,怎么撇清计算机视觉与机器学习的关系?我们在未来几年是不是就认怂了,是不是计算机视觉的问题就是机器学习的问题。这个我觉得我们年轻人还是特别困惑,比如说有什么问题是机器学习肯定搞不定,只能靠计算机视觉理论和方法来去搞定的呢? 


     

    陈熙霖

    是现在很多东西都被划到机器学习了。可以对比一下30年前机器学习的书和30年前模式识别的书,再拿今天机器学习和模式识别的书,看差别就行。


     

    胡占义

    我觉得机器学习这个东西,是一种手段,它可以用于计算机视觉,也可以用于自然语言处理。模式识别和数学没有区别,我比较理想,我觉得一个是一种解释手段,一个是说要解决什么科学问题。


     

    王井东

    接着刚才山老师提到这个问题。现在计算机视觉这么火,有多少是机器学习能做出来的东西。像alexnet也是做视觉问题,其实根本没必要担心。我自己也做过机器学习,可以举个例子,早先做过加速、大规模等,在Matlab上面做,这怎么能证明这是个大规模的问题,所以说同样根本不用担心这个问题。

    刚才讨论到一个问题,就是说计算机视觉5到10年怎么走。现在遇到一个状况,不管是中国还是美国,今年年视觉方向的工作机会(opening)特别少,从2012起视觉火了8年,应该怎么继续走。计算机行业外的人给予CV很高的期望,比如超越人类。其实这件事情不靠谱,根本没有超越人类。但是不做计算机视觉的人总觉得计算机视觉的人应该做些什么东西。但是现在到这个阶段,也许这跟当年神经网络一样,像过街老鼠一样,说计算机视觉的人吹牛皮。其实不是我们吹得,是别人吹的。我们要思考,我们视觉如果继续往前走,科学研究方面是一个问题,另一方面是如何去得到持续关注真正做一些能够work的系统出来。尽管我们今天已经在很多方面做得不错,但坦白来讲还没真正work。计算机视觉是不是应该纯粹从视觉的角度解决,其实多模态是一个很好的方向,单单靠视觉这一点,在监控系统里面还是很大的一个问题。从方向上来讲我比较看好多模态这个方向。


     

    王涛

    关于未来计算机视觉发展的趋势很多。我感觉一个最重要的趋势应该是主动视觉。Imagenet竞赛能识别很多的物体,但是图像分类真正在实际场景中就不管用。真正管用的是基于物体检测,然后再进行识别的像人脸识别这种技术。为什么人脸识别成功了,图像分类系统还不成熟。输入一张图像,你必须得按不同的区域不同的粒度进行分析,比如在会场我们拍张照片,识别人,那我们去数人头。但是如果要识别投影仪设备,必须定位到这个投影仪图像才能找到。第二个问题是投影仪的信息有多种层次,比如说有人想知道牌子,那你必须再细看到那个Logo,但是另外有人想知道怎么操作这个投影仪,那你必须得识别它的各种接口,你才能把它的功能识别出来。我感觉最近的Imagenet和ActivityNet行为识别竞赛,大家现在做的这两类竞赛都是用图像分类的竞赛做。用图像分类做竞赛,实际中都不能用,为什么呢?它没有像人一样主动去识别,你得看到这个人,看到那个人真正发生动作的那一帧,这才能把它识别出来,所以我感觉主动是非常重要的。

    第二个,要有层次。层次就是不仅要识别出一些基本的要素,还要把里面的不同层次关系能够结构化的提取出来。我们实验发现把东西拿在一起学的效果会很差,但是如果把这个东西分成两个部分,先固定解码器学编码器,然后再固定编码器学解码器,系统就学出来了。我们的学习得有一些像搭积木一样的层次,先把基本的比如人脸、水杯、花识别出来,然后拍一张照片能把物体之间的关系给识别出来。

    第三个,应该怎么研究。视觉研究很广,想要做成功,得针对具体的应用。人脸识别系统很成熟,但是用在自动驾驶上识别行人就不行,得一类一类来,在不同应用场景中,需要看到不同的数据和不同的性质。所以我认为针对具体应用,未来除了在深度学习基础上主动视觉,发挥层次融合推理应该是一个比较好的趋势。


     

    胡占义

    我觉得主动视觉很重要,但5-10年主动视觉不可能取得巨大进展。这涉及到生物里面反馈(feedback)的高层知识,但反馈很难短期内取得进展。关于视觉的目的1994年CVGIP组织了一个专刊,曾经有过一个辩论。从1994年到现在,可以说主动视觉没有任何的进展。在生物神经系统里面有大量的反馈,但不知道反馈是什么东西。如果神经科学很难给出一点启示的话,那么我们计算机视觉就很难把它做成。这是我的一点个人观点。


     

    王涛

    我觉得以前主动视觉不成功是因为研究方法不对和技术限制。


     

    胡占义

    Recurrent有两个,一个是同层的抑制,一个是高层的反馈,而高层的反馈在生物视觉里面大家知道有大量的反馈,但是反馈的是什么东西还不清楚。所以说根据我的理解,我觉得3-5年内生物视觉很难有较大进展。


     

    王亦洲

    我补充一下,回到学习上,学习是视觉的核心。视觉其实是个伪问题,但学习是一个永恒的本质问题。没有学习,视觉存不存在都不太重要了。与其叫计算机视觉还不如叫computational visual intelligence. 视觉是一种智能,智能的核心是学习怎么去获得知识,反馈只是学习和推理的一个环节。学习是什么?是简单的模式识别,还是高级学习,这可能是学习下一步应该走的,给学习起一个俗的名字叫元学习,如果要和计算机视觉对应,我们叫元认知。核心就是学习,不搞学习是不行的。


     

    杨睿刚

    我觉得机器视觉与生物视觉应该有区别,不一定机器视觉要学习生物视觉。举个例子,比如说看全局我要大照片,然后看局部我要小照片,但是如果你有一个摄像头,可以一下子拍10亿像素,或者有一个摄像装置能把光场记录下来,那active learning与passive learning就没有区别了。这种硬件区别至少在二维图像上,将来我觉得十亿像素应该是很快到来的事情。


     

    陈熙霖

    这个地方我补充一句,这里的主动不仅指分辨率,其本质是通过主动的“行为”进行探索,从而达到有限资源的最大化利用。


     

    杨睿刚

    你说的是一种主动感知的explore,还有一种不改变环境不改变物体的。


     

    陈熙霖

    即使是不做改变,比如从一个角度看和从另一个角度看,光场相机并不解决这类问题,我们无法获得对象背后的光场。


     

    杨睿刚

    光场相机阵列。


     

    林宙辰

    杨睿刚的意思是说干脆把所有的信息都采集了,这个机制还是有点不一样。

     

    王亦洲

    主动学习有一个停机问题,有一个选择的问题。就是说,你所有信息都在这儿,你什么时候停下来,你决定采哪一块,这是最重要的。所以主动学习,它并不是你把所有东西都拍上去,你也得要选择。


     

    杨睿刚

    选择的问题肯定要在里面,但是现在做主动学习肯定涉及到机器人等问题,超出了计算机视觉的范畴。


     

    王亦洲

    所以就不要抱着计算机视觉了,这个就是我的意思。


     

    胡占义

    主动学习这里面有两个概念。第一个是要有探索和注视,否则的话就没有主动性。第二个是记忆,主动视觉是从生物来的概念。在计算机视觉里面,主动视觉这个概念太大了。


     

    查红彬

    我想这里可以将主动视觉与深度学习进行对比。深度学习的问题在于要有标注数据库,需要事先整理好的数据。而视觉系统在实际场景中工作时,需要自己选择对自己有用的样本。这样,将样本选择与视点选择,结构重构,计算优化等策略结合起来,就能有效地发挥其主动性,而不需要让人把所有的数据都收集好喂给它。


     

    郑伟诗

    学习对视觉很重要。Benchmark推动也束缚了目前计算机视觉的发展,ReID做到97%,大家就想不到该做什么,但问题本身并没解决。数据库太有限,采集的东西没有完全反映整个问题,比如说行人的遮挡问题,各种各样的问题。在有限数据的时候,学习可能不能完完全全地解决它。有限数据下的学习,有没有可能受到3D方面的启发?把一个人整个3D的信息,还有行人整个行为的3D信息都能捕捉到的话,我们就可以去掉开放环境下所受到的这些影响,然后我们就可以重构。像我们可以构造一个靶场,这个靶场很重要,无论我们做任何的系统都要做测试,但如果只在有限数据上或片面的数据上做测试的话,我们在真实应用的时候可能就会有受限。因此如果我们能够把3D这种因素嵌入到现在以2D图像为主导的计算机视觉里面的话,可能会对我们整个计算机视觉在未来3到5年的发展能有另外一个维度的推动作用。

    那么为什么做3D?另外一件事情就是现在可能在全世界都在谈的数据隐私问题。数据采集的隐私问题越来越重要,如果你用的是一个虚拟的靶场的话,这种隐私问题就完全不存在。所以,在未来包括可能在国外人脸识别、行人识别,甚至一些行为识别都有可能会受到严重的法律因素的滞后的影响的话,那么我们更需要从3D的角度,从另外一个维度去考虑,是不是在这方面可以拓宽计算机视觉的发展方向,这是我的观点。 


     

    贾云得

    我们做视觉很早了,早先把它作为一条小河,我们流那么多年,突然下大暴雨,现在是洪水猛兽(深度学习)来了。五年以后估计这个模式都过去了。我觉得那条河还会在。因为,从视网膜到视皮层这条通路在那摆着呢,非常高效。因此,还会有好多人研究,五年十年以后我们中国实验室做什么?肯定还是小河里面。

    我看好两个方向。第一个是三维视觉,三维视觉不会很热,也不会很冷,会一直往下走。第二,就是胡老师说的视频理解。这个好几个老师也说了,多模态,就像我们看电影也是一样的,看会儿画面看字幕,看会儿字幕看画面,来回互相理解,现在好像挺热的。原来我们遇到的是数据-语义的鸿沟。后面我们在识别结果和意识间的鸿沟也会出现,一旦有鸿沟就变成热点,因为里边主观加的东西太多了。我觉得视频理解应该是一个热点。


     

    鲁继文

    我觉得我们现在用了很多机器学习的知识。下一步,我自己更愿意做一些特别的工作,就是从机器学习到机器推理。比如给你一幅图像,你一看就知道这个图像未来应该怎么样发展,但对于计算机再强的网络都不行。我觉得现在计算机视觉里面很多时候性能之所以好,是在于我们对这个问题的定义,在这种定义基础上已经基本上可以解决。现在我们可能要再去找一些更能够描述或者更能够匹配人类视觉能力的计算机视觉任务。现在比如说检测、分割、检索、识别,都是单独的视觉任务,这种单纯的视觉任务还是有点简单。当然有的老师可能有不同的观点,就是说他们的变化这种东西可能比较难。但实际上人的视觉更多的时候可能不是这样子的。所以,我觉得在计算机视觉里面一个很重要的问题是怎么样找到这样的任务,能够更好的与我们人类的视觉任务匹配起来,这样的任务既不能太难也不能太简单。这样的任务我觉得还需要我们多花时间去思考讨论,我自己也不知道是什么任务。


     

    王亮

    未来5到10年的CV发展趋势这个主题的主要目的是希望听听我们国内视觉界专家们的新见解。今天听了各位讲了很多,方方面面都有。如果说个趋势的话,每一个方面可能都会有一定的趋势,但大家的意见有不相同,也有相同的地方。这个主题的定位是希望通过这次的深度研讨梳理几个视觉领域中最重要的大家都认可的这样一个发展趋势,有不同的意见没有关系,而且这个讨论也是有交叉的。


     

    查红彬

    这种讨论我觉得挺好。讲一些发展趋势,然后大家能够有一些思想上的碰撞和火花。做视觉研究,大家在发展趋势上,如果有完全一样的看法会很奇怪。要整理出比较明确的发展趋势也很难。为什么呢? 谁要想做出很好的工作,他就应该有一些与别人不一样的看法,如果大家都是同样的看法,这事情就很难往下做。所以我觉得,我们更多的是通过交流各自的想法,启发我们自己能有一些新的思路,或者在我自己的这些想法上能找到一些更多的理由、依据,然后把这个事情做下去。所以我想通过这些讨论,更多的是咱们能不能将来在国际会议上,在研究成果方面,我们也有自己的一些特色在里边。到目前为止,我们写文章是在拼什么?就拼数据库测试上性能提高了百分之几,而且大多数是在别人方法上改进一下,然后做个实验说我提高了百分之多少。但是我们很少有说你的想法跟别人在什么地方不一样,然后你这个不一样的东西在某个地方用起来会有一些效果。一开始你可能效果会比较差,而且你也不容易轻松地打动别人,但是在你的带领之下很多人都会来做这个事情的时候就不一样了。所以我想说,能不能将来不是只盯着这个数据库上的数据去拼,而是有更多的比较好的创意出来。


     

    山世光

    是不是可以倡议建立一个只评价idea、方法原理,不评价在benchmark或者数据库上的好坏的审稿机制?


     

    陈熙霖

    胡老师刚才提到的1994年CVGIP组织的一个专刊中,当年提出了三个需要改进的方面,今天真正实现的只有一件——就是benchmark。那场讨论中说我们这个领域里的工作缺乏比较,自说自话,之后就产生了各种各样比较的数据集。所以我刚才有一句话,在过去近30年中Benchmark推动了计算机视觉研究的进步,就是指的那场讨论开始的。


     

    查红彬

    我同意你的观点。现在回过头来看看,计算机视觉研究了这么多年,也许就是在那些文章出来之后,我们再没有看到什么新的主意、新的理论出来了。在那之前百家齐放,好像有很多新的说法出来。在那个benchmark出来之后大家都在做同样的事情,最后整个领域就变得不怎么活跃了。


     

    胡占义

    我们既然研究计算机视觉,我建议大家读一读Marr的书。


     

    卢湖川

    刚才说到的benchmark,我觉得至少计算机视觉这个benchmark的存在,使得计算机视觉有别于纯粹的机器学习,而且特别是起到了该有的历史作用。现在大家对它的诟病最主要的原因就是它还是一个单一的benchmark。那只能说这个benchmark并不像人一样,那如果有人再去定一个更复杂的benchmark,它是多维的,也许这个benchmark就能够驱动下一个时代的发展,也许就能够完成像人一样的学习或者识别等等。我觉得benchmark本身并没有太大问题,因为人从小受教育的时候就是教他这是什么那是什么,只是人是一个综合的智能体。现在的benchmark如果再往更高的维度发展,也许能够有更好的收获。


     

    杨睿刚

    现在的benchmark太多了,哪些benchmark重要,哪些benchmark不重要,还有随之而来的各种各样的比赛,哪些是重要的,哪些不重要。在某种意义上是不是也跟大家说,我又拿了个世界第一,但可能这个世界第一里面只有十个人参加。那有没有一种方法可以有这样的一个更加好的量化机制,可以给benchmark一个benchmark。


     

    王井东

    Benchmark现在有个很大的问题是很多人做不了。Imagenet很多人做不了,那做不了从我们研究人员的角度来讲,就是文章可能出不去,这是一个可能不好的地方。 但从另外一个角度来讲benchmark挺重要的。视觉的任务目的很多,我们做视觉还有一个重要目的就是培养学生,那至于视觉培养学生这个功能可能是区别于其他的,比如Multimedia。Multimedia从培养学生的角度上我觉得是很好的。但它有个很大的缺点,是没有benchmark。从这个角度来讲benchmark还是需要的。只是现在审稿人对数据集的规模期望更大了,这对很多人来讲尤其是学校里面是很有挑战的,现在可能就少数几个公司比较强。这是我对benchmark的观点。


     

    王亦洲

    建议PRCV单开一个track,鼓励创新性。单开一个不看性能的track。


     

     

     

    展开全文
  • 当前云网融合面临着新需求与新挑战,5G承载网络技术在确定性保障、定制化服务和智能管控运维等技术方面也面临着新的发展趋势。只有产业各方加强协同研究,才能共同推进5G承载网络新技术研发和试点验证,助力5G+垂直...
    导读随着5G建设的日渐加快,5G与云网融合共生互促,推动承载网络技术不断发展演进,云网融合必将成为行业高质量发展的必然趋势。当前云网融合面临着新需求与新挑战,5G承载网络技术在确定性保障、定制化服务和智能管控运维等技术方面也面临着新的发展趋势。只有产业各方加强协同研究,才能共同推进5G承载网络新技术研发和试点验证,助力5G+垂直行业的应用推广。

    5G承载网络技术发展趋势5G承载网络技术发展趋势

    云网融合驱动5G承载网络技术发展

    最新数据显示,我国已累计建设5G基站79.2万座,实现了所有地级市的5G网络覆盖,建成了全球规模最大的5G网络。5G网络不仅为广大消费者提供高速移动上网和高清视频业务,还为5G+垂直行业应用推广奠定了网络基础。目前,我国运营商正积极落实“新基建”战略并推动数字化转型,深入研究云网融合发展路径和6G等新架构、新技术愿景。

    中国电信于2020年11月发布了《云网融合2030技术白皮书》, 系统地介绍了云网融合的技术架构、三阶段发展路径和目标,提出了近期的关键举措及六大技术创新方向;中国移动于2020年11月发布了三份6G技术报告,提出了6G愿景需求、“2030+网络架构”和关键技术展望等,希望共同打造“数字孪生、智慧泛在”的美好世界。2021年3月,中国联通发布了《CUBE-Net 3.0网络创新体系白皮书》,希望在云网融合与算网一体、开放光网络与云光一体、5G网络与确定性服务、云网大脑与智能运营、泛在弹性超宽接入等领域,加强与产业各方的科技创新和研发合作。

    目前,我国5G核心网主要采用分布式云化数据中心架构,希望以此推动5G与云网融合进入共生互促时代,从而催生丰富多彩的5G应用创新,促进5G及其增强技术在工业互联网、智能电网、智能交通、智慧医疗、智慧教育等千行百业的应用与推广。对于承载网络来说,也应不断适应云网融合、人工智能、算力网络以及未来的6G发展需求。下一步,在承载网络领域,应全面深入研究确定性、智能化、定制化、灵活扩展、IP+光协同以及开放能力等方面的关键技术及发展趋势,提出适合我国产业应用发展的建议,有效支撑我国“新基建”发展和数字化转型。

    5G承载网络技术发展的三大趋势

    01、实现业务分级保障的确定性承载

    由于5G+垂直行业存在多种应用场景,且通常是eMBB、uRLLC和mMTC的融合应用,同时对SLA的需求也存在较大差异,因此提供性能有界保障的确定性网络成为关键使能技术。就目前现状来看,3GPP R17和R18标准将重点增强支撑uRLLC、网络切片的RAN和SA的定制化服务能力;ITU-T、IEEE802.1和IETF等多个国际标准化组织正分别开展L1-L3的确定性承载技术标准研究和定制;我国CCSA、5G推进组下属5G承载工作组、未来网络等多个产业联盟也都在积极开展相关技术标准和产业应用研究,如5GDNA已发布了5G确定性网络在电力行业的需求、技术和实践等系列白皮书。

    此外,支撑云网融合的确定性承载网络是由不同层面的技术协议和QoS机制组成,需客观分析L1层基于时隙复用的FlexE接口和基于时隙交叉的MTN通道技术、L2层基于以太网桥接的时延敏感网络(TSN)系列技术以及L3层基于IP的确定性网络(DetNet)技术优劣势和适用场景,结合各类业务的差异化需求,研究在安全、隔离、可靠性、带宽、时延、抖动和时频同步等维度分别提供有界分级保障的关键技术。面向运营商广域网和行业专网等应用场景,构建优化的确定性承载网络技术架构和应用方案,实现对工业控制、AR/VR、机器视觉等典型业务有界分级保障的确定性承载。

    02、适应云+AI+算力网络协同发展的定制化服务

    在5G与云计算、边缘计算、人工智能、算力网络等新兴技术融合发展的推动下,我国ICT产业正向着“连接+算力+应用+服务”的创新生态模式演进。在AI广泛应用的趋势下,云网融合对算力的要求呈现出指数级的增长,对云计算节点的算力供给也提出了新挑战。

    算力网络是实时传递算力等资源信息,实现多方异构的计算、存储、网络等资源的信息关联与高频交易的技术体系,从而解决不同类型云计算节点之间的算力分配与资源共享难题。未来,云网融合将向“算网融合”方向发展,承载网络也应提供无处不在的网络灵活连接能力,为算力网络及其应用提供定制化的服务能力并实现智能优质感知体验。

    SRv6是段路由(SR)技术基于IPv6的应用拓展,比SR-MPLS具备更高的灵活扩展性、更强的应用结合能力和更完善的定制化编程能力。目前,我国运营商和设备商已基于SRv6+EVPN实现了Overlay和Underlay的融合应用,同时也正在积极推动SRv6技术标准研制和现网试点应用。想要实现未来构建与业务应用紧密结合的定制化服务网络,SRv6技术标准还需不断完善。

    据悉,IETF已发布了SRv6封装(RFC8754)和编程(RFC8986)两项标准,SR-Policy等基础协议正处在工作组草案完善阶段,面向5G和云的网络切片、随流检测和BIERv6组播技术等也处于需求和框架研究阶段。因此,改善传送效率的包头压缩G-SRv6技术有望今年形成工作组草案。此外,解决跨多域业务应用感知的APN6还处于应用探索阶段,仍需结合应用场景和产业链成熟度逐步开展SRV6应用。

    03、构建行业虚拟专网的智能管控运维能力

    日前,工业和信息化部发布了5G应用行动计划,计划显示:将重点推动行业虚拟专网,实现终端、无线、承载到核心网的端到端网络切片智能协同编排和全生命周期管理,满足高效运维和业务快速发放需求。

    纵观云网融合发展大势,在技术层面上还需打通5G网络切片管控系统和云化数据中心管控系统,构建“云网大脑”,实现云网资源的统一纳管和一体化运营,使其具备智能、敏捷、精准的管控运营能力。除此之外,承载网络的管控系统也应集成承载子切片管控功能,支持根据不同切片业务场景和SLA指标分解来规划承载子切片模板,实现软硬隔离的切片资源编排、配置、监测和分析的全生命周期管控,并通过AI/ML实现多维度性能和故障告警的大数据分析,实现智能管控运维。

    合作推动5G承载技术标准和产业协同发展

    综上所述,目前我国承载网络技术仍需依靠持续发展来满足云网融合对确定性承载、定制化服务和智能管控运维等方面的能力需求。未来,我国运营商应加强与各类行业客户、科研院所、设备商、芯片/器件商等产业链各方的深入合作,同时将技术标准创新与产业健康发展紧密结合,协同推进面向云网融合的5G承载网络技术发展,大力支撑国家“新基建”发展战略和行业数字化转型。更多Linux资讯请查看:https://www.linuxprobe.com

    展开全文
  • 5G 是当前全球新一轮科技革命的焦点,是新时期拉动投资、实现产业升级、发展新经济的新通道和新平台,已成为各国数字经济战略的优先发展领域。5G 作为标准主导且专利密集型的领域,对标准必要专利的应用提出了更高的...
  • 三维激光雷达点云处理发展趋势

    千次阅读 2020-05-10 18:45:34
    文章目录发展趋势1、Point-Voxel2、结构呈现规律 本人关注的3D目标检测的文章多一些,所以本文在点云检测,分割领域的发展趋势的理解可能还浅一些,希望能与大家交流。 2020年的CVPR出来之后,在点云处理方面给人的...

    本人关注的3D目标检测的文章多一些,所以本文在点云检测,分割领域的发展趋势的理解可能还浅一些,希望能与大家交流。

    2020年的CVPR出来之后,在点云处理方面给人的感觉是耳目一新,从众多论文中可以看出点云处理的新的发展方向。

    发展趋势

    1、Point-Voxel

    在之前的发展中,方法大致可以分为如下几类:

    • Point-based:就是以pointnet++为代表,使用MLP提取point-wise的特征;以PointCNN为代表的,先计算卷积核,然后对点做卷积
    • Voxel-based:以Sparse Convolution为代表,使用3D卷积核提取特征
    • Graph-based:虽然看起来Graph based的方法适用性更强,是针对无序数据可以通用的一种方法,但在点云处理中,就显得速度慢,精度也并没有特别突出。

    2020年则更多的尝试在Point和Voxel相结合:

    Point-Voxel CNN for Efficient 3D Deep Learning,在保证速度的同时提取point-wise的细粒度的特征,减少了运算时间,提高了精度。而且该文章提出的是backbone,所以在识别、分割、分类的方法上都能使用。

    3DSSD: Point-based 3D Single Stage Object Detector,使用point-based的分支做分割任务,使用voxel-based分支做检测任务,point-based的特征来自于voxel-based的插值,从而增加了一种监督方法。

    PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection,同样使用voxel-based的分支的特征计算point-based分支的特征,但更像是在multi scale中进一步聚合特征,使用key point来描述整个点云。这其实也相当于提出了一种降采样的方法。

    Point和Voxel相结合的方法还是需要探索的,我个人认为需要对Voxel和Point这两种方法内部的具体计算做一些可视化,或许能够有一些启发。

    2、结构呈现规律

    处理点云的网络发展与处理图像的网络的发展趋势非常相似,目前处理点云的网络结构给人的感觉就是开始规范化,新的方法也基本属于主流框架中,类似于Pointnet,KD-Net这种框架已经被淘汰。

    在3D检测方面,由于mmlab的一系列工作,包括类似的STD等工作,将3D的检测框架也规范了起来。

    首先,Two stage的网络框架非常类似于2D中的结构,3D卷积被广泛的使用,在俯视图中做第一阶段的proposal。得到了proposal之后,使用aware pooling在体素中做特征pooling,这个pooling和2D中mask rcnn中用的非常相似。而具体的操作细节,例如aware pooling,例如预测point的mask,这种具体的操作已经被多篇文章证明其有效性。

    One stage的模型仍然处于探索阶段,目前文章还比较少,一大类别就是把点云栅格化然后在俯视图中做检测,这个其实并不是特别针对3D检测任务的。3DSSDStructure-Aware 3D Object Detection可以认为单阶段的一些探索。

    但相比于2D的检测网络,3D的结构仍然是多样的,loss也是多样的,能不能找到一种对各种任务通用的结构是一个值得研究的方向。

    3、Image和Point的融合

    Image和Point的融合分为前融合和后融合,前融合一般是将point投影到image上,将image扩展为rgbd四通道。后融合则是采取将检测结果进行融合。还有中间的融合,例如Frustum-Net这种,image的检测结果为point中的检测提供proposal。

    总的来说,融合的阶段有很多种,数据级,proposal级,结果级等,融合的方式也有很多,有将point投影到image中,以image为主体,也有通过这种投影关系获取point的rgb信息从而以point为主体的。所以融合方式多种多样,但哪种方式是有效的,能不能找到一种比较通用的融合的范式,仍然是一个开放性的问题。

    展开全文
  • 在新的一年开始之际,行业人士通常关注技术与市场在新的一年中最新的发展趋势。而数据的管理,存储和保护在2017年将会有哪些发展?期望了解企业IT基础架构哪些趋势?以下将展望大容量闪存驱动器,对象存储等技术发展...
  • 浏览器历史和发展趋势浅析

    千次阅读 2016-02-19 13:15:50
    浏览器历史和发展趋势浅析 浏览器是前端必须使用的工具之一,可以查看效果,可以调试代码,甚至可以直接编写代码。本文主要探寻浏览器的历史,浏览器内核的机制和对页面的兼容影响,浏览器现今的市场份额及未来...
  • 编程语言的发展趋势

    2011-08-08 10:41:00
    C#之父Anders Hejlsberg在2010年所做的一个名为"C# 4.0 and beyond"的演讲中介绍了他对于编程语言的发展趋势的判断, 指出了现代编程语言应该拥有的三大特性: 1.声明性 (Declarative) 代表就是LINQ, 少写代码, ...
  • 随着国内数据中心市场的快速发展,模块化数据中心以其高可靠、高效节能和整体快速部署的优势受到了市场的青睐,模块化已成为中小型数据中心发展的主流趋势,在大型数据中心的高密度场景也已大量应用。据相关数据统计...
  •  企业网D1Net编译整理了?2020年关键IT技术的开展前景如下。  01.数据中心自动化开展和更低廉的内存  行业剖析人士在年底的时分,通常会对将来一年停止预测。人们将会看到一些事情行将到来:在2020年,云计算得以...
  • 随着平安中国、智慧城市的建设,“一带一路”政策的鼓励和国防现代化建设的进一步推进,我国安防行业技术不断发展,全天候夜视监控已经成为检测视频监控系统是否完善、是否具有先进性的潜在衡量标准,因此主动红外...
  • 业内专家长篇综述:6G最新进展及未来发展趋势

    千次阅读 多人点赞 2020-12-19 16:49:12
    近日,由东南大学尤肖虎教授领衔,王承祥教授组织起草,联合国内外 24 家科研院校及企业的 50 位业内专家,针对 6G 最新进展及未来发展趋势撰写了一篇长达 70 多页的综述 “Towards 6G wireless communication ...
  • 步入新世纪以来,信息技术迅猛发展,与之相伴随的是给整个社会带来了一场生产生活方式以及思维模式的变革,从而使我们的工作生活环境发生了...面对大数据时代这一发展趋势,国家审计机关已经开展了“金审工程”一期...
  • 在可穿戴技术和大数据等趋势的推动下,带宽需求不断增长,企业对于数据中心的认识、构建和规划也正在发生转变,数据中心的新一轮快速发展已经开始。 一、 我国数据中心发展现状 数据中心是指在互联网上提供的各项...
  • 一、前言 物联网一词最早源自美国微软公司创办人比尔盖兹 (Bill Gates) ...由于当时信息技术发展未臻成熟,物联网并未引起世人太多关注。1998 年,美国麻省理工学院提出电子产品代码 (Electronic Product Code,EP...
  •  计算机的发展从单片机时代开始,历经客户服务器时代和互联网时代之后,现在正逐步走向网格时代。许多有别于传统存储系统的新趋势日益显现,实验性产品也正从理论研究阶段逐步走向产品化实践。  从存储系统...
  • 点击上方蓝字关注我们深度学习在医学影像中的研究进展及发展趋势王丽会1,2,秦永彬1,21贵州省智能医学影像分析与精准诊断重点实验室,贵州 贵阳 5500252贵州大学计算机科学与技...
  • 人工智能并没有一个统一的定义,但若一个计算机系统能做人需要智能才能做的事,一般便认为这样的计算机系统具有人工智能。因此,人工智能被广泛应用于许多需要人类智能的领域,如法律、医疗、金融、电子商务等,其中法律...
  • 随着经济的发展和竞争的加剧,企业对视频会议系统的需求越来越大。因此视频会议的走向问题就成为困扰各视频会议软件研发单位的主要问题。研究中大量数据表明:视频会议系统主要向灵活易用性、大众化平民化,家用小型...
  • 随着安防设备高清化、网络化、智能化的发展,云计算、云存储等大数据的相关技术也在不断渗入到金融安防领域,使金融安防行业有了更多的增长点,这也引来了不少安防企业进军金融安防市场。金融领域一直是安防企业关注...
  • 在EMNLP 2020的论文投递中,知识图谱的研究热度不减,并成为继续推动NLP发展的重要动力之一。在EMNLP 2020中,知识图谱领域有了哪些最新研究进展呢?作者从中选出了30篇文章,对未来2-3年知识图谱的研究趋势进行分析...
  • “云计算发展正呈现出三大趋势。”在日前举办的2016中国通信行业云计算峰会上,中国通信学会副理事长兼秘书长张新生抛出了这一观点。他指出,未来5~10年,我国云计算将向着三个重要方向发展。一是信息处理的集中化、...
  • 网络摄像机发展至今,已经基本满足了“高清”、“日夜监控”、“远距离监控”的需求,但是随着细分市场的发展,超广角摄像机需求逐渐凸显出来。主要应用在会议室、办公室、大厅/大堂、商场、仓库、车间等大面积开阔...
  • JSF的优势及未来发展趋势

    千次阅读 2007-08-17 11:28:00
    对话袁红岗:JSF的优势及未来发展趋势2007.08.06 袁红岗 共有评论(1)条 发表评论 [收藏到我的网摘]JSF,有些人对他有些陌生,有些人对它抱以期望的目光,有些狂热者甚至预言未来的Java Web主导者,2006年Sun把JSF...
  • graph_net;MoCo;27;第三代人工智能的理论体系;知识图谱;认知图谱算法与认知的结合;算法: BIDAF, BERT, XLNet;挑战 : 可解释性;36;37;Reasoning w/ Cognitive Graph;CogQA: Cognitive Graph for QA;42;
  • 浅谈软件定义网络(SDN)技术研究现状和发展趋势 长久以来,硬件在网络世界中保持着至高无上的地位。直到2008年斯坦福大学的学者提出 OpenFlow[1],并于2009年将其扩展为 SDN(software-defined networking)概念[2...
  • 照明从基于钨丝灯,气体放电灯的传统照明跨入基于 器件的,正好遇见移动...照明发展路线图(Roadmap)分为5个阶段,传统高效照明,照明,智能照明,可服务可升级的智能照明和以人为本(HcL)照明,给照明带来的价值和...
  • 智能交通系统作为交通现代化建设的重要内容,“十三五”期间仍将是我国交通科技领域重点支持和发展的战略方向。针对“一带一路”、“京津冀协同发展”、“长江经济带”等国家战略对交通运输提出的重大需求,以解决...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 16,451
精华内容 6,580
关键字:

net发展趋势