特斯拉gpu做图像处理 - CSDN
  • 英伟达™(NVIDIA®) Tesla™ GPU(图形处理器)在医学上的应用  Techniscan是一家开发自动化超声波成像系统的公司,该公司已经将其专利技术算法从基于传统CPU系统移植到了CUDA™以及英伟达™(NVID...
    英伟达™(NVIDIA®) Tesla™ GPU(图形处理器)在医学上的应用

      Techniscan是一家开发自动化超声波成像系统的公司,该公司已经将其专利技术算法从基于传统CPU系统移植到了CUDA™以及英伟达™(NVIDIA®) Tesla™ GPU(图形处理器)上。基于CUDA™的系统在不到20分钟内即可完成Techniscan算法的处理,而从前的系统则需要花费长达3倍的时间。在短时间内快速生成高度精细图像的能力在乳腺癌扫描领域中尤为重要。一旦这种检验设备通过了美国食品及药物管理局(FDA)的许可,患者将能够在一次就诊期间内拿到检验结果。如需了解更多信息,敬请访问www.techniscan.com。

      英伟达™(NVIDIA®) Tesla™ GPU(图形处理器)在金融上的应用

      Hanweck Associates是一家专门从事投资与风险管理的金融服务公司,该公司需要向其客户提供一种能够实时重新计算期权的方法。 Hanweck通过其Volera系列高性能期权分析产品来解决这一难题。 Volera仅使用了12个支持CUDA™的GPU(图形处理器)即可实时分析全美的股票期权市场。这项工作此前一度需要60多台常规服务器才能完成。 凭借CUDA™,Hanweck的客户能够更快地将当今瞬息万变的市场看得更加透彻,同时能够在功耗、硬件成本以及数据中心地产等方面节省巨额成本。如需了解更多信息,敬请访问: www.hanweckassoc.com。

      英伟达™(NVIDIA®) Tesla™ GPU(图形处理器)在能源上的应用

      近年来,随着油气勘探变得越来越复杂、成本越来越高,为了更准确地评估地表下岩层的状况,并确定地层地质结构,地震成像公司开始探索全新的相关技术。叠前时间偏移(PSTM)就是此类新型地震成像技术之一,但是这种技术需要大规模的计算量,从前,这种大规模计算意味着购置与运营成本非常高昂。吉星吉达科技有限公司(GeoStar)是专门致力于这一领域的一家领先的中国地球物理服务供应商,该公司正在寻求既能运行复杂地震算法又能降低成本与功耗的方法。

      为解决这一难题,吉星吉达与英伟达™(NVIDIA®)共同推出了一款基于英伟达™(NVIDIA®) Tesla GPU(图形处理器)的全新硬件与软件解决方案。近几个月以来,中国科学院(CAS)地质与地球物理研究所一直在测试搭配了吉星吉达解决方案的英伟达™(NVIDIA®) Tesla GPU(图形处理器)。在计算方圆740平方公里的叠前时间偏移数据时,与传统的66颗CPU(核心时钟频率3.4GHz)群集相比,24颗Tesla GPU(图形处理器)的处理速度提升了600倍以上。中科院研究人员认为通过进一步调整,还可以达到更快的速度。这意味着用户不仅可以实现性能的大幅提升,而且还能够在系统运行与散热的耗电成本上节省大笔开支。

      与传统CPU群集相比,英伟达™(NVIDIA®)与吉星吉达能够以更低的成本在PSTM运算上实现100400倍速度提升,同时将功耗降低95%。

      吉星吉达科技有限公司总经理刘钦表示:“对油气勘探行业来说,这是一款革命性的解决方案。基于CUDA™架构的英伟达™(NVIDIA®) Tesla™高性能计算解决方案彻底颠覆了油气勘探地震数据处理的固有方式,可以节省大量成本。”

      目前,由英伟达™(NVIDIA®)与GeoStar公司共同开发的解决方案得到中国国内石油天然气行业企业的广泛认可,并已开始用于大庆、胜利、吐哈等油田的勘探项目。

      英伟达™(NVIDIA®) Tesla™ GPU(图形处理器)在三维图像重构上的应用

      过程工业是以物质和能量的转化为核心的基础产业门类,包括了化工、冶金、钢铁、能源和环保等影响国计民生的重要行业,目前占中国GDP的近1/6。但这些产业也面临着能耗和资源消耗量大、污染严重等严峻的挑战。探索和引领优化工艺流程的新技术,提升生产效率和产品附加值,正日益成为这些行业竞争的焦点之一。计算机模拟技术在此大有用武之地,而模拟对象的复杂性决定了它对超级计算的迫切需求。而基于CPU的传统超级计算设备购置成本高,实验周期长,使企业既有成本压力带来的顾虑,又难以适应快速变幻的市场节奏,极大地限制了模拟技术在过程工程中的应用。宝钢、中石化、中石油等中国过程工业的龙头企业一直致力于探索与应用既能实现工艺流程优化,又能节约成本,提升效率的最新技术。

      为解决这一难题,中科院过程所经过长期探索,逐步认识到多尺度结构和离散化是许多工程问题的共同特征,由此建立了相应的通用算法框架和专门的硬件体系结构,通过模拟对象、软件和硬件的结构一致性实现高效能、低成本的超级计算。而2007年英伟达™(NVIDIA®) CUDA™和Tesla™ GPU的发布为由商用部件搭建此类系统提供了可能。过程所敏锐地抓住了这个机遇,于2009年成功搭建了主要基于英伟达™(NVIDIA®) Tesla™GPU的多尺度离散模拟并行计算系统,单精度峰值超过每秒1000万亿次浮点运算。为过程模拟提供了强大而实用的工具从而服务于节能减耗和工艺流程优化。目前过程所正与联想和曙光合作将为国内近十家用户分别建立百万亿次级GPU+CPU异构并行系统,实现其在过程工程、信息技术和基础科学研究等多个领域的应用。

      与以前单纯的CPU平台相比,应用英伟达™(NVIDIA®) Tesla™ GPU(图形处理器)的新平台不仅成本大幅降低,还能极大提高计算机效率,如某大企业冶金过程的离散粒子模拟的速度提升了50倍。

      中国科学院过程工程研究所研究员、超级计算系统项目负责人葛蔚说:“通过GPU对相关软件和硬件能力的提升,不仅能耗大幅降低,还可以使某种化工反应器模拟时间从一天缩短到2分钟。这是一个革命性的进展。”

      利用GPU超级计算系统,过程所已成功开展了多相流动直接数值模拟、材料和纳微系统微观模拟和生物大分子动态行为模拟等应用,证明了多尺度离散化并行计算模式的优势和前景。例如,对过程工业中常用的流态化反应器,通过模拟方法上的改进,该系统已能按接近实时的速度从毫米级的颗粒尺度模拟米级的宏观行为。这种能力在某清洁汽油生产工艺的开发和优化中已经并将进一步发挥重要作用。该系统也正应用于缝洞型油藏的驱采过程模拟。采用该系统的96个GPU,对含有100微米左右缝隙的0.16平方米的岩石样本,直接数值模拟的速度达到了4秒钟计算物理上的1小时,从而能有效替代能费时费力的物理实验。而对于冶金过程,该系统甚至能对数千立方米的高炉中厘米级的矿石物料进行全系统的三维动态模拟。如采用120个GPU,5个小时就能复现一个完整的布料过程。目前该系统已在宝钢新型钢渣处理工艺的开发中得到实际应用。在上述过程中,英伟达™(NVIDIA®) GT200 GPU的实际单精度速度普遍达到了CPU核的三十倍以上,甚至超过百倍,应用效果非常显著。

      英伟达™(NVIDIA®) Tesla™ GPU(图形处理器)在计算流体动力学上的应用

      分子动力学(molecular dynamics,MD)模拟是随着计算机技术的发展而兴起的一种科学计算方法,现已应用到广泛的领域中,如医药、材料、能源、机电等。随着纳米、微机电和微化工等技术的兴起,纳微流动的MD模拟近年来也成为热点。传统连续流体力学难以处理和解释这些尺度上的独特性质与现象,而流动归根结底是流体分子的集体行为,MD模拟能详细跟踪每个分子的运动,并通过分析速度、温度等统计性质阐释理论中的难点、发现新的机理,故日益受到重视。但计算能力一直是制约此研究发展的瓶颈。现在这方面很多成熟算法都基于传统体系结构的中央处理器(CPU),但其发展已显颓势。图形处理器(GPU)的计算能力现已远高于CPU一到两个量级。如何在MD流动模拟中利用GPU的强大能力已成为一个重要的现实课题。

      中国科学院过程工程研究所多相复杂系统国家重点实验室进行了图形处理器(GPU)上的分子动力学(MD)模拟。即利用配备了一片英伟达™(NVIDIA®) Tesla™ C870的服务系统来运行英伟达™(NVIDIA®) CUDA™架构, 通过方腔流及颗粒-气泡接触等实例初步展示了此方式从微观上模拟介观行为的能力。经证实,在英伟达™(NVIDIA®)公司技术助力下,该计算过程速度是以往运用单核CPU计算的20到60倍,最高可达150 Gflops。

      传统GPU对非图形应用支持有限,只能通过图形API编程,内存带宽较低且访问限制多,从而制约了其性能发挥。英伟达™(NVIDIA®) CUDA™的发布打破了传统GPU的性能瓶颈,提供了新的软硬件架构。本次模拟的多相体系中,CUDA™把GPU直接视作数据并行计算设备而不再将计算映射到图形操作上,以扩展性较好的区域分解和常用的消息传递接口(Message Passing Interface, MPI)协议实现各节点间GPU的并行计算,以类C语言的方式给开发者更大自由来实现GPU算法。CUDA™还能结合OpenMP,MPI和PVM等其他并行方式在节点内和节点间继续扩展计算能力,更好的发挥了GPU的强大性能,并将计算中的数据访问效率提高了一个量级以上。Tesla C870的有效计算性能(指计算分子对相互作用时的浮点操作数)是以往所采用的单核CPU的20~30倍。若考察极端情况,即只测试耗时最长的分子间作用力计算,GPU更占优势, 约能发挥150 Gflops,占其可利用计算峰值(346 Gflops)的40%多,而CPU能发挥2.4 Gflops,GPU的计算能力达到CPU的60倍之多!说明GPU很适合像多体问题。

      方腔流是流体动力学的一个经典问题,本次模拟将GPU应用于方腔流的MD模拟,使得模拟体系的规模有较大提高,在一定程度上达到了(亚)微米尺度,沟通了连续的流体力学和离散的分子动力学。而多相纳微流动研究对纳米、材料、生物、微机电与微化工系统等技术领域更有实用性,但也更有挑战性,目前还没有成熟的理论方法,其MD模拟需要更多的计算资源且实现更加复杂,因此GPU的应用显得更有价值。另一方面, 利用CUDA™技术和MPI协议,MD模拟可以实现某些物理实验难以进行的极端情况,这是MD模拟非常值得关注的新方式。总体来说,GPU在MD模拟上的应用还有巨大的潜力。如需进一步了解,请参阅科学出版社于2009年出版的《基于GPU的多尺度离散模拟并行计算》一书。

    来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/22785983/viewspace-682491/,如需转载,请注明出处,否则将追究法律责任。

    转载于:http://blog.itpub.net/22785983/viewspace-682491/

    展开全文
  • 如今在高性能计算领域混合计算成为新的关键词,位于世界先列的超级计算机有很多都采用了CPU+GPU的混合计算模式,如我国的“天河一号”,GPU计算在其中起到了重要的作用。那么,什么是GPU计算?GPU计算为何能够获得...
    如今在高性能计算领域混合计算成为新的关键词,位于世界先列的超级计算机有很多都采用了CPU+GPU的混合计算模式,如我国的“天河一号”,GPU计算在其中起到了重要的作用。那么,什么是GPU计算?GPU计算为何能够获得业内的青睐?


      什么是GPU?


      GPU这个词从1990年便开始使用,对应人们熟知的CPU(中央处理器),GPU指的是显卡上所使用的针对图像处理的处理芯片。GPU虽然发展的日期尚短,但是它一早就具备了多核心运算的优越功能。今天,人们使用的游戏显卡中,以非常廉价的9600gt显卡为例,它具有64个流处理器,我们称它们为cuda处理器,也就是说一个9600gt的GPU它具备着64个运算核心,跟当前最多的8核的CPU对比,足足8倍。如果是像gtx295或者最新的gtx480等,更高达480个运算核心。即便每个核心的工作效率比CPU的低一半,但是这个庞大的数量就足以弥补这些缺陷。


      GPU计算和Tesla


      随着GPU的日益发展,人们慢慢意识到GPU的真正潜力。2009年,NVIDIA公司正式把cuda的编译模式公开化,让众多编程人员一窥cuda的秘密。NVIDIA也把手上的拳头产品重新包装完善后,推出让业界震惊的tesla工作站。


      这个命名为tesla的工作站就是通过高密度集成cuda运算集群,已达到帮助程序开发人员实现利用cuda强大的集群运算模式,解决更高强度的运算工作。例如,空间数据运算,三维空间的高强度物理运算,系统分析和时下流行的动画渲染工作。在这样的新机器推出后,过去很多不可能完成的任务,如今都变得非常轻松。


      Nvidia举办的专家聚会当中,就有专家提出了很多著名的例子,如加勒比海盗2中两艘海盗船在巨型漩涡中对战的画面。制作专家指出,当时他们使用的是当时市面最先进的一套渲染农场,估计有20到40个节点左右。他们渲染那段画面中的一帧就耗费了20个小时,一个单帧画面就耗费了一个渲染农场20个小时的时间。然后他又指出,当他使用到GPU运算后,他发现时间至少会有10至15倍的缩减。


      另外一个例子,另一个专家在阐述他们制作变形金刚2的制作过程中,里面的一段挖掘金字塔顶部的动画中使用到大量的粒子。而这样的运算量,在过去的CPU运算时代是不可能实现的。最终他们利用GPU运算这一先进技术解决了这个难题。更有专家指出在2012电影中所看见的大量破坏画面,都是依赖GPU云运算得以解决,而使到画面更逼真更宏大。


      Tesla工作站是专门针对未来的GPU云运算市场所开发的利器。到底Tesla有什么出众的特点呢?


      Tesla工作站基于NVIDIA公司开发的Tesla显卡为中心的超级工作站,真正的主角就是这块tesla显卡。它具有448个cuda运算核心,3G/6G显存,1T的单精度运算速度和0.5T的双精度计算速度。其他的参数大可不必多说,来打个比方,这意味着这块tesla显卡中,具有448个1t运算速度的运算核心一同运算,并且具备3G/6G的显示内存可以供给调用,足够应付各种庞大的运算,如果对应当前的8核CPU的话,那就相当于60个CPU一同工作,相当于30台双CPU的工作站的运算量,根本不用提及现在市面还没有1t的运算速度的CPU销售。


    下面是笔者用自己的电脑和单片tesla工作站之间做了一个对比,笔者电脑使用的显卡为一quadro fx1800,电脑的渲染时间为7小时,运算采样值为4096个运算采样。应用Tesla工作站渲染时间为20分钟,运算采样值为8192个采样。对比非常强烈。

    来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/22785983/viewspace-686942/,如需转载,请注明出处,否则将追究法律责任。

    转载于:http://blog.itpub.net/22785983/viewspace-686942/

    展开全文
  • CPU和操作系统是现代PC的动力提供者,并为用户解决了数值计算这个有时困难到令人无法相信的问题。在你使用电脑,一边听音乐、浏览网站、一边阅读电子邮件的同时,操作系统会跟踪记录你的所有活动,并与后台交流信息...
    CPU和操作系统是现代PC的动力提供者,并为用户解决了数值计算这个有时困难到令人无法相信的问题。在你使用电脑,一边听音乐、浏览网站、一边阅读电子邮件的同时,操作系统会跟踪记录你的所有活动,并与后台交流信息、将你使用到的信息组织起来,尽管CPU一次只能执行多个独立任务中的一个,但是由于其运行速度足够快,所以这一系列任务看上去是同时执行。而对新一代多核CPU来说,每个核心都可以真正同时的执行更多的任务。

    GPGPU大战一触即发!NV即将发布新品牌
    不同的计算类型决定了GPU的架构更加适合通用计算

        另外一种不同类型的计算问题——并行计算,却一直局限在大型服务器集群和超型计算机领域。标准CPU架构的特长是管理多个离散的任务,但是有些任务能够被细分为多个更小的单位并且可以被并行化,CPU在处理这些任务的时候并没有突出的性能优势,但这恰恰就正好是适合GPU解决的问题类型。

        对于快速、廉价的解决这一类问题,GPU有着相当大的潜力可以发挥。GPU计算可以使得PC和工作站具有超级计算的能力,并且可以扩展服务器集群的处理范围,以解决先前CPU集群不能处理的问题。

        GPU计算的目标是充分利用GPU先天的巨大计算能力,以解决在高性能计算领域内许多相当困难但很重要的问题。

    GPGPU大战一触即发!NV即将发布新品牌
    GPU的浮点运算能力和CPU不在一个数量级

        在刚刚过去的几年中,图形处理单元(GPU)已经发展为具有强劲马力的计算设备。由于具有多达128个的处理单元以及相当高的存储带宽,为GPU提供了多到令人难以置信的计算资源,在图形或非图形处理中都是如此。

        上图的结果主要是由于GPU在架构上就是为计算密集型处理而设计,高强度并行计算—这本身也是图像渲染的需要。因此在GPU中,更多的晶体管被用于数据处理而不是数据存储与流控制。

        GPU特别适合处理那些可以具有较高算法强度且可以被被表达为并行数据计算的问题,换句话说,同样的程序如果通过细分成众多数据元素的并行执行,会具有较高的算术操作与存储操作之比。

         CPU的处理方式是使用一个单独的程序顺序的循环处理数据,GPU则是进行数据的并行处理,它把数据元素映射、规划为数以千计的并行处理线程。很多应用程序都有一个较大的数据集,就可以通过数据并行编程模式来加速他们的执行。这些应用程序包括:

    ·地震模拟
    ·计算生物学
    ·选择商业风险计算
    ·医学成像
    ·模式识别
    ·信号处理
    ·物理仿真

    NVIDIA Tesla:GPU计算解决方案

        NVIDIA提供了一套完整的GPU计算产品线,包括系统产品和全新的开发环境。产品线的中心是基于GeForce 8系列架构的GPU,以及CUDA开发工具包和C编译器。

    GPGPU大战一触即发!NV即将发布新品牌
    G80特殊的缓存式架构进一步提高了ALU浮点运算效能

    ·NVIDIA Tesla GPU将给PC和工作站带来更高计算性能;
    ·NVIDIA Tesla GPU 桌面超级计算机配合标准工作站可以提供令人难以置信的高强度计算性能;
    ·NVIDIA Tesla GPU 在一个1U形式的装置内集成了高密度的GPU核心;
    ·NVIDIA CUDA开发环境包含了快速傅氏变换、BLAS 算法。
    ·NVIDIA 软件开发包提供了文档以及编程样例。

        NVIDIA计算解决方案设计上与现行的IT基础结构做到了无缝衔接,遵守下列的工业标准:

    · C 编译器,提供一个为令人熟悉的、支持度很好的开发环境
    · 支持独立128bit的IEEE 754单精度浮点单元,和CPU浮点单元一样支持各种高级的浮点操作。(下一个版本将可以支持双精度计算)
    · 可以兼容于Intel/AMD的x86 32-bit和64-bit微处理器架构以及Microsoft or Linux 的操作系统。.
    ·具有PCI Express总线,最数据传输的上升沿和下降沿可以传送达到最大4 GBps的传输率。
    ·标准工业形式,同时支持桌面式和架装式配置
    · 支持NVIDIA 统一驱动架构

    Tesla C870 GPU 特性:

        新一代NVIDIA Tesla C870 GPUs 专为计算程序所设计,板载级GPU计算产品没有显示接口。处理器核心频率、显存配置以及计算特性都与图形卡产品发生了变化。

        GPU计算产品虽然没有显示接口,但是保留了完整的OpenGL and DirectX 功能支持,和NVIDIA Quadro graphics boards 以及NVIDIA GeForce GPUs, 完全相同,所以除了CUDA开发工具包以外,GPU计算产品也可以支持基于图形API的程序。

    科技改变生活!NVIDIA Tesla深入解析

    ·一个GPU (具有128个处理单元)
    ·518 gigaflops(峰值)
    ·1.5 GB专用存储器
    · 通过一个PCI Express x16插槽支持完整长度、双槽的产品

     Tesla D870 特性:

        NVIDIA Tesla GPU桌面超级计算机提供高强度的计算性能,具有工作站以及灵活的架式服务器解决方案。作为一个工作站的附属,每个Tesla D870提供两个GPU核心。也可以选择两套桌面系统,通过架式组合成一个3U配置。 未来版本的桌面系统可以每个系统提供4个GPU核心或者由3U架式系统提供8个GPU。

    科技改变生活!NVIDIA Tesla深入解析

    · 双GPU(每个GPU具有128个处理单元)
    · 1.036 teraflops (峰值)
    · 3 GB系统存储器
    · 和主机通过低功率的PCI Express x8 or x16适配器相连接
    ·可选择的机架固定组件

    Tesla GPU服务器S870特性:

        NVIDIA Tesla GPU服务器具有顶级的计算性能,NVIDIA将提供一个1U的GPU计算服务器。每个1U设备提供4到8个GPU,在获得最高性能的同时降低功耗。NVIDIA Tesla服务器产品的产品配置也将十分灵活,可以分别满足最大化性能或者低功耗要求等不同的应用场合。最初的服务器提供4个GEFORCE8系列GPU,消耗550瓦的功率。

    科技改变生活!NVIDIA Tesla深入解析

    · 四个GPU(每个GPU具有128个处理单元)
    · 2.072 teraflops (峰值)
    · 6 GB系统存储器
    · 和主机通过低功率的PCI Express x8 or x16适配卡相连接
    · 标准配置:一个PCI Express连接器驱动四个GPU
    · 可选配置:两个PCI Express连接器,每个驱动2个GPU

    NVIDIA CUDA GPU计算软件

        NVIDIA CUDA技术基于一种全新的用于开拓GPU运算性能的软件架构,CUDA程序执行时,GPU作为主CPU的协处理器工作,GPU可以处理大量的并行信息,同时CPU组织、解释、与后台交流要处理的信息。应用程序的计算密集型部分要被执行很多次,每次由主应用程序提交的不同数据,经过编译后由GPU并行执行。

    科技改变生活!NVIDIA Tesla深入解析
    CUDA辅助CPU进行通用运算功能的示意图

        CUDA包含3个主要的组件,可以高效执行并行程序的GEFORCE8 系列GPU;一个可访问GPU上并行计算资源的编译器,以及一个计算专用的运行时驱动。

    科技改变生活!NVIDIA Tesla深入解析

        CUDA的核心部分是专门开发的C编译器。首开先河的编程环境简化了并行程序的编码。C语言对大多数开发人员都十分熟悉的,可以使编程人员专注于开发并行程序而不是处理负责的图形API。为了简化开发,CUDA的C编译器允许程序员将CPU 和 GPU的代码混合记录到一个程序文件中。一些简单代码被增加到的C程序中,通知CUDA编译器哪些函数由CPU处理,哪些为GPU编译。然后程序被CUDA编译器编译,而CPU处理的代码则由开发者的标准C编译器编。

    A grafikán túl
    CUDA的计算流程

        开发人员使用一种全新的编程模式将并行数据映射、安排到GPU中。CUDA程序则把要处理的数据细分成更小的区块,然后并行的执行它们。这种编程模式允许开发人员只需对GPU编程一次,无论是包含多处理器的GPU产品或是低成本、处理器数量较少的产品。当GPU计算程序运行的时候,开发者只是需要在主CPU上运行程序,CUDA驱动会自动在GPU上载入和执行程序。主机端程序可以通过高速的PCI Express总线与GPU进行信息交互。数据的传输、GPU运算功能的启动以及其它一些CPU 和GPU交互都可以通过调用专门的运行时驱动中的专门操作来完成。这些高级操作把程序员从手动管理GPU运算资源中解放出来。对大规模数据进行解译与处理的能力处于计算科学的前沿领域,通过可以广泛普及CUDA的开发工具,任何程序都可以释放GPU的计算力量。通过CUDA软件和Tesla GPUs的结合,开发者现在能够在桌面平台进行大规模超级计算,同时也可以戏剧性的增加服务器集群的处理能力。

     GPU计算实例研究

        下面的一些实例展示了GPU计算的性能,众多运算密集型的应用程序执行速度已经可以通过NVIDIA的GPU产品获得令人瞩目的提升。

    医学成像:数字层析 X 射线照相组合

        数字层析X 射线照相组合是一种早期胸部肿瘤X射线透视法,可以使癌症对乳房组织的损害被更早的检测、发现。在这种应用中,美国马萨诸塞州综合医院就使用了NVIDIA的 GPU产品,通过对X射线透视所获取的数据进行高强度计算来重建图像。

        为了更好的显现肿瘤或其它癌变,层析X射线照相使用了视差技术,可以使图像上相邻物体间的距离更远、成像更清晰。电脑的任务就是将病人胸部的X光扫描图像电子式的排列组合起来。通过使用这种技术,可以消除层叠结构对癌变组织图像的模糊作用。

    科技改变生活!NVIDIA Tesla深入解析

        层析X 射线照相组合作为一种医学成像概念问世于上世纪60年代,但是直到90年代,当数字感光器具有足够的灵敏度之后才得以成为现实。但是,当时的处理器性能还不足以满足这项任务。首次通过层析 X 射线照相获得的数据进行医学成像的尝试中,花费了5个小时才完成对一个病人的扫描,时间太长,无法进入实际应用。使用一个由34台PC的服务器集群也耗费了20分钟才完成处理,结果还不错,但是在医院的放射实验室安置服务器集群是不切实际的。

        现在,在使用NVIDIA的GPU产品进行计算后,马萨诸塞州综合医院在图像重建的过程中获得了100倍的速度提升,使用一台PC只用5分钟就可以完成计算,使医生很快就可以得到成像图片并给出诊断结果。

    模拟与设计:生物医学核磁共振成像植入设备

        在医学领域内,为了保证核磁共振成像或是其它一些诊疗成像设备的安全使用,许多生物医学植入设备被广泛使用。在这些植入设备的模拟与设计过程中,需要进行高强度的计算,用传统的电脑集群将耗费相当多的时间。

    科技改变生活!NVIDIA Tesla深入解析

        著名的美国波士顿科学国际有限公司就是一个设计和制造起搏器和其他一些生物医学植入设备的公司,他们使用了NVIDIA GPU 运算技术加速整个计算过程。通过NVIDIA的 并行 GPU 架构,模拟过程的执行速度提高了25倍。不仅速度方面提高很多,在成本方面也比过去使用CPU集群时大大降低。

    地球科学: 石油与天然气勘探

        现在,石油与天然气的勘探正变得越来越困难。大型的油气储藏带经常处于地表下很深的地方以至于难于勘测。例如最近在墨西哥湾发现的油田就处于海床下20000英尺深的地方。为了解释地质数据,就必须对获得与处理大量的地震数据。

       大多数人今天仍然认为GPU是一种用于娱乐消费的技术。但是,休斯敦的Headwave(一个专门从事地质数据分析的公司)正着手开发新一代计算平台,以充分利用图形卡的并行计算潜力了。

    科技改变生活!NVIDIA Tesla深入解析

        Headwave的解决方案也通过NVIDIA 的GPU技术,并使用CUDA SDK来运行。地球物理学者可以更快速的筛选他们的数据,即便这些数据多达几TB的容量。过去处理这些多达几TB的数据需要数月的计算时间,而使用NVIDIA GPU 计算技术后,计算速度比过去提高了20倍。所以说,没有NVIDIA 的GPU 计算技术,即时演算这些数据是不可能的,石油与天然气公司将成为这项新技术的直接受益者。

    计算生物学:分子动力学模拟

        在分子动力学模拟领域内,模拟复杂的分子系统需要要耗费大量的时间,并使用复杂的计算机集群。位于Urbana-Champaign的美国伊利诺伊大学的研究人员就使用了NVIDIA的 GPU 产品用于计算生物分子、离子的相互作用,结果是运算速度比过去采用CPU集群提高了100倍。

    破解Tesla密码!专访NVIDIA技术经理
    关于人类疾病的研究是高性能科学计算的主要用途之一

        使用GPU工作站后,实际运算速度达到了705 gigaflops。这样非凡的成绩也使得生物科学研不再被限制在服务器集群平台,有了GPU计算,在个人实验室、桌面平台都可以很轻松的进行这些生物分子的模拟,从而使研究者之间不再争夺有限的计算资源。

        更进一步,在一些大规模服务器集群中引入GPU之后,一些过去无法实现的梦想现在也可以成为可能。纳米级分子动力学与NVIDIA计算技术的结合是尖端研究与软件开发技术的联姻,用于帮助超级计算机解读活性细胞分子的微小组成。

    科学计算:MathWorks MATLAB

        MATLAB是一种非常适合于对科学和数学算法进行快速编码的高级语言,并广泛应用于各种研究领域,例如信号与图像处理、测量、商业建模与分析、计算生物学等。

        使用NVIDIA 的GPU产品来加速MATLAB有两种方法,第一种不需要改变MATLAB的代码,仅通过插入CUDA FFT 或BLAS 函数库就可完成。为了进一步加速MATLAB程序,CUDA 中的MATLAB插件允许编程人员使用优化过的CUDA程序来替换某些关键函数,这些新的CUDA函数可以被MATLAB程序所调用。由于使用了CUDA函数,MATLAB的使用者可以方便的加速计算而不必重写整个应用程序。

    神经电路模拟:

    科技改变生活!NVIDIA Tesla深入解析

        大脑神经电路的模拟需要大规模的进行大规模的生物电路模拟,其中也涉及到大量的并行计算。模拟一个神经细胞需要在一秒钟内求解2亿个方程式。一个神经系统矩阵则有成千上万个神经细胞构成,对一格神经系统的即时模拟则需要超过10teraflops的计算能力。Evolved Machines公司在2006年与NVIDIA 合作,将神经系统的模拟速度比当今的x86 微处理器提高了130倍。

    来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/14741601/viewspace-371946/,如需转载,请注明出处,否则将追究法律责任。

    转载于:http://blog.itpub.net/14741601/viewspace-371946/

    展开全文
  • 计算机视觉在特斯拉

    2020-08-06 11:01:19
    难得的,特斯拉AI部门老大Andrej Karpathy 在PyTorch Devcon 19 上了一个技术演讲,包括AutoPilot 和Smart Summon等,本文是对这个演讲的详细剖析,可以一窥这个全球市值最高的汽车科技公司的内部AI技术栈。...

    由于保密以及DNA等原因,特斯拉公开的paper和技术细节资料都挺少的。难得的,特斯拉AI部门老大Andrej Karpathy 在PyTorch Devcon 19 上做了一个技术演讲,包括AutoPilot 和Smart Summon等,本文是对这个演讲的详细剖析,可以一窥这个全球市值最高的汽车科技公司的内部AI技术栈。也可以看到学术界和工业界的gap有多大,比如课程上1个YOLO搞定的事情,实际工作中需要7个以上YOLO,而且是同时,还是在边缘端,如何实现呢?

    作者:Jeremy Cohen
    编译:McGL
    公众号:PyVision(欢迎关注,专注CV,偶尔CS)

     

    Computer Vision at Tesla

    https://heartbeat.fritz.ai/computer-vision-at-tesla-cd5e88074376

     

    当我们观察计算机视觉世界时,可以看到现实与网络课程之间的真实差距。

    例如,你可能在一个在线课程中学习了如何运行 YOLO 网络,但是一个真实世界的案例可能要求在分布式 GPU 和混合网络架构中使用7个 YOLO 网络。什么鬼?我们在 Coursera 上可没学过这些东西!所以今天,我决定剖析一段来自特斯拉人工智能主管 Andrej Karpathy 的视频,并向你们解释特斯拉软件目前的情况。我将在本文的最后分享视频的链接。我希望你能意识到,没有什么是你不能理解的,至少从高层概念的角度看是这样。

     

     

    我们将深入研究:

    1. 任务——特斯拉在做什么?
    2. 传感器——Autopilot使用了什么传感器?
    3. 神经网络——特斯拉如何构建其神经网络?
    4. 训练——网络训练是如何进行的?
    5. 全技术栈回顾——他们整套系统的概述。

     

    特别是,我们需要解决特斯拉的一个大问题: 大约50个任务必须同时在设备上运行,只用一台计算机,不能占用太多的空间。

     

    FSD计算机

     

    那么让我们开始吧!

     

    1. 任务

    据伊隆 · 马斯克(Elon Musk)称,从2020年7月初开始,特斯拉已经接近完全自动驾驶汽车,也被称为Level 5级自动驾驶。不管是真是假,有一件事正变得越来越清晰: 特斯拉准备在其他任何人之前达到完全自动驾驶。一旦他们做到了,其他人很可能会很快跟进。

    特斯拉达到Level 5级自动驾驶相当于运动员罗杰 · 班尼斯特(Roger Bannister)第一次在4分钟内跑完1英里。这个任务完全不可能实现,直到罗杰 · 班尼斯特做到了,然后大家都突然跟着做到了。

    特斯拉汽车是做什么的?任何自动驾驶汽车(包括特斯拉)的主要功能,是保持在正确的车道上,以及遵循正确的轨迹改变车道。显然,像障碍物检测这样的任务是技术栈中很大的一部分。其他特性,如让汽车在停车场找到司机的智能召唤(Smart Summon)。这些额外的任务,和主车道及轨迹功能,都朝着长期目标前进: 全自动驾驶能力。

     

    特斯拉需要处理所有这些任务

     

    特斯拉的任务在今天是众所周知的。从车道检测,自动驾驶汽车最重要的特征,到行人跟踪,他们必须覆盖一切,并预测每一个场景。为此,他们使用了传感器。


    2. 传感器

    特斯拉使用了8个摄像头。这样他们可以覆盖周围所有区域的车辆,没有盲点。

     

    8个摄像头看到的画面

     

    这8个摄像头和其他的雷达融合在一起,这样他们就可以有效地定位和识别障碍物。雷达是非常好的互补传感器,因为它们可以直接估计速度。

    这些摄像头图像是如何处理的? 使用神经网络。

     


     


    3. 神经网络

    在车辆、车道线、路缘、人行横道以及所有其他特定的环境变量之间,特斯拉有很多工作要做。事实上,他们必须同时运行至少50个神经网络才能使其工作。这在标准电脑上是不可能的。

    特斯拉使用一种特殊的结构称为HydraNets,主干是共享的。

    类似于迁移学习,你有一个共同的块和为特定的相关任务训练的具体的块,HydraNets 的主干用所有的目标来训练,头用于训练具体的任务。这提高了推理和训练速度。

     

     

    特斯拉的神经网络

    神经网络使用 PyTorch 进行训练,这是一个你熟悉的深度学习框架。

    • 每个尺寸(1280,960,3)的图像都通过这个特定的神经网络。
    • 主干是一个修改过的ResNet 50 ——具体的修改是使用“空洞卷积“。
    • 这些头基于语义分割—— FPN/DeepLab/UNet 架构。然而,它似乎不是“最终任务” ,因为2D 像素和3D 之间的转换很容易出错。

     

    特斯拉还使用了鸟瞰图

     

    有时候,神经网络的结果必须用三维来解释。鸟瞰图可以帮助估计距离,并提供一个更好和更真实的世界理解。

     

    使用鸟瞰图的特斯拉Smart summon

     

    有些任务在多个摄像头上运行。例如,深度估计是我们通常在双目摄像头上做的事情。拥有两个摄像头有助于更好地估计距离。特斯拉使用神经网络进行深度回归来做这件事。

     

    两个摄像头的深度估计

    使用这种立体视觉和传感器融合,特斯拉不需要激光雷达。他们可以根据这两个摄像头进行距离估计。唯一的窍门是摄像头使用不同的镜头: 在右边,更远的距离显得更近。

    特斯拉也有循环任务,如道路布局估计。这个想法是类似的: 多个神经网络分开运行,另一个神经网络建立连接。

     

     

    可选地,这个神经网络可以是循环的,因此它涉及到时间。

    特斯拉的主要问题是,它使用8个摄像头,16个时间步长(循环架构) ,batch size为32

    这意味着每向前传递一次,就有4096张图像被处理。我不知道你怎么想,反正我的 MacBook Pro 不支持这个。事实上,1个甚至2个 GPU 都不能做到这一点!为了解决这个问题,特斯拉在 HydraNet 架构上下了大赌注。每个摄像头都是通过一个单一的神经网络处理的。然后将所有的信息组合成中间神经网络。令人惊奇的是,每一个任务只需要这个庞大网络的一小部分。例如,目标检测只需要前置摄像头,前面的主干和第二个摄像头。当然不是所有的任务都按同样的方式处理。

     

    特斯拉应用的8个主神经网络


    4. 训练

    网络训练用的是 PyTorch。需要多个任务,并且要花费大量的时间来训练所有48个神经网络头。事实上,训练需要GPU 70,000小时才能完成,差不多是8年。特斯拉正在改变训练模式,从“轮询”(round robin)到“工人池”(pool of workers)。idea是: 下面左边—— 一个漫长而不可能的选择。中间和右边,是他们使用的替代品。

     

     

    我没有很多细节可以分享,但是从本质上说,这些工人池并行的任务使网络更快。


    5. 完整的栈回顾

    我希望你现在对它的工作方式有了一个清晰的认识。这并不是不可能理解的,但是和我们可能习惯的东西绝对是不同的。为什么?因为它涉及到非常复杂的现实世界问题。

    在一个完美的世界里,你不需要 HydraNet 结构——你只需要在每个图像和每个任务中使用一个神经网络...... 但是这是不可能做到的。

    除此之外,特斯拉必须不断改进其软件。

    他们必须收集和利用用户的数据。毕竟,他们有成千上万的车辆在行驶,如果不好好利用他们的数据来改进模型就太愚蠢的。每个数据都被收集、标记并用于训练; 类似于所谓的主动学习(active learning)过程。

    下面是完整的循环。

     

    特斯拉全栈

     

    让我们从下到上来定义栈。

    • 数据——特斯拉从这些车辆中收集数据,并由一个团队给数据打上标签。
    • GPU 集群—— Tesla 使用多个 GPU (称为集群)来训练和运行它们的神经网络。
    • DOJO ー Tesla 使用一种他们称之为 DOJO 的东西来训练整个架构的一部分来完成特定的任务。这和他们在推理中所做的非常相似。
    • 分布式训练ーー特斯拉使用 PyTorch 进行分布式训练。
    • 评估——特斯拉用损失函数评估网络训练。
    • 云计算推断——云计算处理允许特斯拉同时改进其车队。
    • 推理@FSD ——特斯拉制造了自己的计算机,拥有自己的神经处理单元(NPU)和用于推理的GPU。
    • 影子模式——特斯拉从车辆中收集结果和数据,并将它们与预测进行比较,以帮助改进标注: 这是一个闭环系统!

     


     

    你可能会觉得我刚才详细介绍的一切信息量过大。它比大多数课程教授的要高级得多,这也是正常的。然而,这就是今天公司的运作方式。很少有公司能够直接使用预先创建的卷积层而不做任何修改。下面是我们刚才讨论的所有内容的总结:

    • 特斯拉同时运行50项任务,这些任务都必须在一台名为 FSD (完全自动驾驶)的非常小的计算机上运行。
    • 为了做到这一点,他们使用了一个 HydraNet 架构,这个架构允许他们在每个任务中使用相同的网络,只是使用不同的头。所有的头都与图像分割有关。
    • 特斯拉使用8个融合在一起的相机,并不是每个相机都用于一个任务。
    • 训练是使用 PyTorch 和一个工人池架构完成的(有些任务是同时训练的)。
    • 实现了一个完整的循环: 司机收集数据,特斯拉标记真实世界的数据,并在其上训练他们的系统。

     

    特斯拉的目标是成为第一家实现完全自动驾驶的公司。今天,他们是全世界市值最高的汽车公司,他们不打算停在那里。他们正面临着许多有趣的挑战,这些挑战是我们在舒适的家中学习人工智能和深度学习时不习惯面对的。

     

     

     

    展开全文
  • GPU对于目前深度学习来说,可谓如火如荼,目前对于GPU的研究与开发,整体的发展趋势非常好,而Tesla M60是目前主流的一款GPU服务,如何要发挥其GPU计算的威力, 我们需要一些基础环境的准备工作,苦于网上没有完整的...
  • 在自动驾驶领域,百度有望超越谷歌与特斯拉?最近,《福布斯》杂志发布了这样一条消息,声称自动驾驶会逐渐发展成为汽车行业未来竞争最为激烈的前沿阵地,而百度作为中国自动驾驶的“代表”,有望超越谷歌、Uber、...
  • NVIDIA Tesla/Quadro和GeForce GPU的比较

    千次阅读 2019-06-16 05:48:50
    所有NVIDIA GPU都支持通用计算(GPGPU),但并非所有GPU都提供相同的性能或支持相同的功能。GeForce GPU的消费者产品线(特别是GTX Titan)可能对那些运行GPU加速应用程序的人很有吸引力。但是,记住产品之间的差异...
  • 而每辆选配的特斯拉将搭载两颗该芯片,同时处理相同的数据,这意味着汽车能够处理有关计算或图像方面的多一倍的数据,将极大地提高车辆的安全性能。 还是马斯克算得一笔好账,随着特斯拉单车降价不断亲民,...
  • 【TechWeb】特斯拉CEO伊隆·马斯克在4月23日发布了最新自动驾驶演示视频...马斯克还表示,大约一个月之前,特斯拉放弃采用英伟达为Model S和Model X提供的图像处理解决方案,并在10天前放弃英伟达为Mo...
  • 马斯克前脚刚说完自家发布的自动驾驶计算机是全球最强,后脚就被...在刚刚结束的自动驾驶投资者日上,特斯拉发布了全自动驾驶(FSD)计算机(也就是 Autopilot 硬件 3.0),特斯拉芯片架构师 Pete Bannon 称这是...
  • 作者| 唐杉来源 | StarryHeavenAbove在近日结束的Tesla Autonomy活动中,Tesla非常“大方”的介绍了自己的Full Self-Driv...
  • 特斯拉(Tesla)和英伟达(Nvidia)的首席执行官们在各自2018年第二季度财报电话会议上,就特斯拉下一代自动驾驶汽车的新型自主驾驶人工智能芯片发表了讲话。 英伟达:愿助特斯拉打造芯片 Nvidia首席执行官黄仁勋...
  • 在今年12月初的神经信息处理系统大会NIPS上,马斯克承认,特斯拉自动驾驶硬件工程副总裁JimKeller正在领导AI芯片的开发工作。同时他表示,坚信Keller可以打造出“世界上最好的AI定制硬件”。 Keller如此被马斯克...
  • 作者:四驱姑娘特斯拉自动驾驶 Autopilot 最近一次上热搜,是因为夜间高速行车中紧急避让一只狼、一群过马路的鸭子、三头熊……在自动驾驶这条漫漫长路上,特斯拉 Autopilot(以...
  • 计算机视觉实际上是一个跨领域的交叉学科,包括计算机科学(图形、算法、理论、系统、体系结构),数学(信息检索、机器学习),工程学(机器人、语音、自然语言处理、图像处理),物理学(光学 ),生物学(神经...
  • 本文转自StarryHeavensAbove公众号,作者 唐杉 在刚刚结束的Tesla Autonomy活动中,Tesla非常“大方”的介绍了自己的Full Self-Driving (FSD) Computer从系统到芯片的很多细节。从芯片来看,其“透明度”超过了除...
  • 点击上方,选择星标或置顶,不定期资源大放送!阅读大概需要15分钟Follow小博主,每天更新前沿干货如果说 GPT 模型是所向披靡的战舰,那么 minGPT 大概算是个头虽小但仍能乘风破...
  • 计算机视觉实际上是一个跨领域的交叉学科,包括计算机科学(图形、算法、理论、系统、体系结构),数学(信息检索、机器学习),工程学(机器人、语音、自然语言处理、图像处理),物理学(光学 ),生物学(神经...
  • 计算机视觉研究院专栏作者:Edison_G英伟达A100 Tensor Core GPU架构深度讲解上次“计算机视觉研究院”已经简单介绍了GPU的发展以及安培架构的A100显卡,今天我们...
  • 来源:机器之心 |作者:Robert Lucian Chiriac参与:王子嘉、思、一鸣怎样在不换车的前提下打造一个智能车系统呢?一段时间以来,本文作者 Robert Lucian C...
1 2 3 4 5 ... 20
收藏数 628
精华内容 251
热门标签
关键字:

特斯拉gpu做图像处理