精华内容
下载资源
问答
  • Nvidia GPU卡演进架构及(P100)介绍.pdf
  • Nvidia GPU卡演进架构及(P100)介绍

    千次阅读 2017-08-05 11:04:41
    Nvidia GPU卡演进架构及(P100)介绍 http://linuxperformance.top/ 关于GPU 关于GPU我们可以回退到1985年ATi公司成立,开发出了第一款图形芯片和图形卡,那时候这种芯片还没有GPU的称号, ATI都是把图形...

    转载自:

    Nvidia GPU卡演进架构及(P100)介绍

    http://linuxperformance.top/

    关于GPU

    关于GPU我们可以回退到1985年ATi公司成立,开发出了第一款图形芯片和图形卡,那时候这种芯片还没有GPU的称号, ATI都是把图形处理器称为VPU。直到NVIDIA公司在1999年发布GeForce 256图形处理芯片时首先提出GPU的概念。从此NV显卡的芯就用GPU来称呼了。
    
    GPU最初是为图形渲染而生,专为执行复杂的数学和几何计算,可以让CPU从图形工作中解放出来。由于其诞生的使命,GPU在发展过程中专注于2D或者3D图形加速功能。
    

    但是在技术迭代过程中,GPU已经不再局限于2D/3D图形处理了,基于的GPU的通用计算技术发展引起了广泛的关注,事实也证明其在浮点运算、并行计算等方面的能力。此外机器学习等现代应用领域中GPU也成为了深度学习训练的最佳选择。虽然如此,图形化显示用途市场还是占英伟达营收的半壁江山,当然未来这个占比可能会逐渐变化。
    从这个GPU业务场景的变化中,我们可以体会到GPU架构的演进。我们来看下Nvidia GPU的技术演进。

    1. Nvidia架构演进

      Nvidia为了纪念物理学家,把每代GPU架构都用物理学家名字来命名:特斯拉、费米、开普勒、麦克斯韦、帕斯卡、伏特。就像Intel用地名来命名其架构一样,今年Nvidia会推出最新的基于Volta 架构的GPU。
      本文后面是以Pascal架构下的P100产品来讨论GPU性能测试维度。

    2. Pascal

      Nvidia在去年GTC( GPU Technology Conference ) 上宣布了 Pascal 架构,同时发布了该系列的P100产品。
      Pascal系列除了P100,还有二款产品P4和P40。
      先来看下P100的对外性能参数

    3. P100

      在官方材料中得到关于浮点计算的性能描述:
       5.3 TFLOPS of double precision floating point (FP64) performance
       10.6 TFLOPS of single precision (FP32) performance
       21.2 TFLOPS of half-precision (FP16) performance
      浮点计算性能是GPU领域很重要的性能指标, Nv官方也给出了P100的官方指标。
      此外在最近几代产品中,Nv都宣称了GPU在深度学习领域的加速情况,由于16位浮点计算能力的提高大大缩短了深度学习所需要花费的时间。
      关于P100具体参数如下:

    4. P100参数

      Tesla P100参数如下:
       芯片:GP100,sm_60
       工艺:16 nm FinFET
       支持:双精度 FP64, 单精度 FP32, 半精度 FP16
       功耗:250 W
       Nvidia CUDA 核心数:3584(56 SMs, 64 SPs/SM)
       GPU 时钟:Base = 1189 MHz, Maximum Boost = 1328 MHz
       PCIe:Gen 3 x16
       显存容量:16 GB HBM2(另有 12 GB 版本)
       显存位宽:4096 bits(另有 3072 bits 版本)
       显存时钟:715 MHz
       显存带宽:732 GB/s(另有 539 GB/s 版本)
      相比前代产品如下(此处加上了V100,不过V100和P100架构基本一致,差异在于密度和V100上针对深度学习的Tensor Core):
      Tesla Product Tesla K40 Tesla M40 Tesla P100 Tesla V100
      GPU GK180 (Kepler) GM200 (Maxwell) GP100 (Pascal) GV100 (Volta)
      SMs 15 24 56 80
      TPCs 15 24 28 40
      FP32 Cores / SM 192 128 64 64
      FP32 Cores / GPU 2880 3072 3584 5120
      FP64 Cores / SM 64 4 32 32
      FP64 Cores / GPU 960 96 1792 2560
      Tensor Cores / SM NA NA NA 8
      Tensor Cores / GPU NA NA NA 640
      GPU Boost Clock 810/875 MHz 1114 MHz 1480 MHz 1462 MHz
      Peak FP32 TFLOPS1 5 6.8 10.6 15
      Peak FP64 TFLOPS1 1.7 .21 5.3 7.5
      Peak Tensor TFLOPS1 NA NA NA 120
      Texture Units 240 192 224 320
      Memory Interface 384-bit GDDR5 384-bit GDDR5 4096-bit HBM2 4096-bit HBM2
      Memory Size Up to 12 GB Up to 24 GB 16 GB 16 GB
      L2 Cache Size 1536 KB 3072 KB 4096 KB 6144 KB
      Shared Memory Size / SM 16 KB/32 KB/48 KB 96 KB 64 KB Configurable up to 96 KB
      Register File Size / SM 256 KB 256 KB 256 KB 256KB
      Register File Size / GPU 3840 KB 6144 KB 14336 KB 20480 KB
      TDP 235 Watts 250 Watts 300 Watts 300 Watts
      Transistors 7.1 billion 8 billion 15.3 billion 21.1 billion
      GPU Die Size 551 mm² 601 mm² 610 mm² 815 mm²
      Manufacturing Process 28 nm 28 nm 16 nm FinFET+ 12 nm FFN

    5. P100架构

      一颗GP100 芯片包括 6 个图形处理簇GPC(Graphics Processing Clusters),每个图形处理簇GPC包含5个纹理处理簇TPC(Texture Processing Clusters),每个纹理处理簇包含2个流多处理器Streaming Multiprocessors(所以共计有60个流多处理器)和 8 个 512 位内存控制器(总共 4096 位)。
      如下图:
      1.png
      上图是全景图,我们来看下一个SM。
      GP100 的一个SM (由2个处理块组成,每个处理块包含32个CUDA核心)包括 64 个单精度 CUDA 核心。而 Maxwell和Kepler 的 SM 分别有 128 和 192 个单精度 CUDA 核心。虽然每个SM包含的CUDA核心数量只有Maxwell SM中CUDA核心数的一半,但总的 SM 数目增加了,而且每个 SM 保持与上一代相同的寄存器组,所以总的寄存器数目增加了。那么GP100上的每个线程可以使用更多寄存器,比旧的架构支持更多线程、warp 和线程块数目。与此同时,GP100 总共享内存量也随 SM 数目增加而增加了,带宽显著提升不至两倍。
      2.png
      从架构上我们看到单位CUDA核心资源都是增加了,因此我们可以确信,P100的FP16能力肯定是提升不少的。另外FP16转成FP32时候直接是2:1的转换的非常高效,也提升了FP32的能力。

    6. GPU互联

      在当前机器中,一个CPU会对应2个或2个以上GPU,那么CPU与GPU之间的很容易成为瓶颈,因此Nvidia推出了nvlink来实现GPU与GPU之间的互联。8张卡互联的拓扑如下图:
      3.png

    展开全文
  • Tesla P100

    2019-03-30 12:12:00
    它利用全新的 NVIDIA Pascal™ 架构打造出速度极快的计算节点,性能高于数百个速度较慢的通用计算节点。利用更少的快速的节点获得更高的性能,能在节省资金的同时,大幅提高数据中心吞吐量。 超过 400 个 HPC 应用...
    640?wx_fmt=gif特色与介绍

    640?wx_fmt=jpeg
    将人工智能应用于自动驾驶汽车,预测未来气候,研发治疗癌症的新型药物,这些都是如今需要克服的全球重大挑战,但是,必须进行海量的计算才能实现相应目标。当今的数据中心依赖大量互连的通用计算节点,在性能方面难以驱动重要的高性能计算 (HPC) 和超大规模工作负载。


    NVIDIA® Tesla® P100 GPU 加速器是当今市场上为数据中心打造的精尖之作。它利用全新的 NVIDIA Pascal™ 架构打造出速度极快的计算节点,性能高于数百个速度较慢的通用计算节点。利用更少的快速的节点获得更高的性能,能在节省资金的同时,大幅提高数据中心吞吐量。


    超过 400 个 HPC 应用程序(包括 10 大 HPC 应用程序中的 9 个)以及深度学习框架已得到加速,现在每个 HPC 客户都可以在他们的数据中心中部署加速器。 
    640?wx_fmt=jpeg

    Tesla P100 进行了全方位重新塑造,从原材料硅到成品,各个层面都采用创新方法精工制作。每一项开创性的技术都使得性能大幅提升,从而打造出更为快速的计算节点。


    640?wx_fmt=jpeg

    640?wx_fmt=png

    NVIDIA TESLA P100 加速器性能规格
    Double-Precision Performance4.7 TeraFLOPS
    Single-Precision Performance9.3 TeraFLOPS
    Half-Precision Performance18.7 TeraFLOPS
    NVIDIA NVLink™ Interconnect Bandwidth-
    PCIe x16 Interconnect Bandwidth32 GB/s
    CoWoS HBM2 Stacked Memory Capacitye16 GB or 12 GB
    CoWoS HBM2 Stacked Memory Bandwidth720 GB/s or 540 GB/s
    Enhanced Programmability with Page Migration Engine
    ECC Protection for Reliability
    Server-Optimized for Data Center Deployment


    640?wx_fmt=jpeg

    展开全文
  • CY37064P100

    2010-09-01 18:44:56
    架构是基于一个数字逻辑是由一个可编程互联连接块矩阵器(PIM)。每个逻辑块自身的特点阵列产品来说,产品长期分配器,16个宏单元。从分配的PIM逻辑块产出和所有信号输入引脚的逻辑块的投入。
  • Nvidia Tesla P100 性能评测

    万次阅读 2019-01-23 12:05:08
    GTX 1080/1070虽然性能很强悍,但它们在全新的帕斯卡家族中只能...担任首发的Tesla P100(似乎也叫Tesla P1),只开启了3584个单精度、1792个双精度核心,即便如此单、双精度浮点性能也高达10.6TFlops、5.3TFlops,...

    GTX 1080/1070虽然性能很强悍,但它们在全新的帕斯卡家族中只能算是中档水准,真正的大杀器是顶级大核心GP100,拥有3840个FP32单精度、1920个FP64双精度CUDA核心,主要面向高性能计算领域。

    担任首发的Tesla P100(似乎也叫Tesla P1),只开启了3584个单精度、1792个双精度核心,即便如此单、双精度浮点性能也高达10.6TFlops、5.3TFlops,同时还搭配了4096-bit 16GB HBM2高带宽显存,并支持全新的NVLink互连总线,取代传统PCI-E。

    NVIDIA Tesla P100计算卡性能首测:震撼地球!

    NVIDIA Tesla P100

    那么它到底性能如何呢?圣地亚哥超级计算中心的Scott Le GrandRoss Walker、亚马逊网络服务的Scott Le Grand联合编写了一个通用计算测试工具AMBER,可模拟生物分子周围的力场,并与NVIDIA合作对Tesla P100进行了一番测试,包括单路、双路、四路。

    由于测试所用硬件还是工程样品,操作系统是Linux,而且测试工具和测试方法是专门为了考察纯粹计算性能而设计的,所以结果反映的只是纯计算能力,和游戏表现无关。

    事实上,GP100核心应该永远不会出现在消费级领域,GTX 1080 Ti、GTX Titan X 2之类的顶级卡会使用GP102

    参与对比的产品中,Tesla M40基于麦克斯韦架构大核心GM200,3072个流处理器,单精度性能突破7TFlops,双精度只有0.21TFlops,搭配384-bit 12GB GDDR5显存。

    Tesla K80使用的是两个开普勒架构大核心GK210,4992个流处理器,单双精度浮点性能8.74、2.91TFlops,搭配两组384-bit 12GB GDDR5。

    Tesla K40的核心是GK110,2880个流处理器,单双精度浮点性能4.29、1.43TFlops,搭配384-bit 12GB GDDR5。

    GTX 1080、Titan X、980 Ti、980也都加入了对比,另外还有几颗纯CPU,包括双路的E5-2697 v4/2698 v3/2650 v3,分别有32/32/20个核心。

    具体测试原理、流程啥的就不多说了,专业性太强,只简单看看结果:

    NVIDIA Tesla P100计算卡性能首测:震撼地球!

    NVIDIA Tesla P100计算卡性能首测:震撼地球!

    NVIDIA Tesla P100计算卡性能首测:震撼地球!

    NVIDIA Tesla P100计算卡性能首测:震撼地球!

    NVIDIA Tesla P100计算卡性能首测:震撼地球!

    NVIDIA Tesla P100计算卡性能首测:震撼地球!

    NVIDIA Tesla P100计算卡性能首测:震撼地球!

    NVIDIA Tesla P100计算卡性能首测:震撼地球!

    NVIDIA Tesla P100计算卡性能首测:震撼地球!

    NVIDIA Tesla P100计算卡性能首测:震撼地球!

    NVIDIA Tesla P100计算卡性能首测:震撼地球!

    NVIDIA Tesla P100计算卡性能首测:震撼地球!

    相比于前辈M40,P100的计算性能提升相当猛,绝大部分项目都在50%左右,少数甚至超过80%,有的甚至接近100%!

    事实上在大部分时候,单路P100都能干掉双路M40,领先幅度10-20%不等。

    对比消费级游戏卡,P100单路已经相当于GTX Titan X四路的水准,也可以看到GTX 1080同样十分凶猛,多数情况下都达到或者接近M40的水平,但不够稳定,有时候相当于单块Titan X,有时候超过人家两块。

    最遗憾的是,NV-Link总线的威力还没有发挥出来,双路、四路P100的提升幅度普遍还不如PCI-E。

    八路Tesla P100
    标题八路Tesla P100

    原文链接

    Nvidia Tesla P100 性能评测

    更多推荐

    百度开启燎原计划并启动AI加速器,打造自己的AI平台

    英特尔联合脸谱, 正在开发人工智能芯片

    利用人工智能回答员工的重复性问题,Spoke获得2800万美元融资

    算法交易的神经网络:强化经典策略

    三星重仓“物联网智能”,扩大AI朋友圈

    本文为ATYUN(www.atyun.com)编译作品,ATYUN专注人工智能

    请扫码或微信搜索ATYUN订阅号及时获取最新内容
    请扫码或微信搜索ATYUN订阅号及时获取最新内容标题

     

    展开全文
  • GPU架构

    2020-09-21 11:54:00
    费米架构: 2010年发布 开普勒架构: 2012年发布 麦克斯韦尔架构: 2014年发布 Tesla M40 帕斯卡架构: 2016年发布 Tesla P4 P100 伏特架构: 2017年 Tesla V100 图灵架构: 2018年 Tesla T4 安培架构: 2020年

    费米架构: 2010年发布
    开普勒架构: 2012年发布
    麦克斯韦尔架构: 2014年发布 Tesla M40
    帕斯卡架构: 2016年发布 Tesla P4 P100
    伏特架构: 2017年 Tesla V100
    图灵架构: 2018年 Tesla T4
    安培架构: 2020年 Tesla A100

    展开全文
  • p40与p100训练性能对比

    万次阅读 2018-09-10 15:46:31
    深度学习训练,选择P100就对了 原文:https://yq.aliyun.com/articles/238764 摘要: 本文使用NVCaffe、MXNet、TensorFlow三个主流开源深度学习框架对P100和P40做了图像分类场景的卷积神经网络模型训练的性能对比...
  • Tesla P100 是NVIDIA Tesla 加速计算平台的最新产品,能为全新级别... 借助采用五项突破性技术的全新 NVIDIA Pascal GPU 架构,Tesla P100 能发挥无与伦比的性能和效率来运行对计算能力要求最高的应用程序。  NVIDI
  • 根据NVIDIA官方消息,NVIDIA在硅谷2016 GTC(GPU技术大会)上发布了多项人工智能、VR相关技术,其中包括采用Tesla架构、支持NVLink的Tesla P100,以及基于该架构打造的深度学习超级计算机NVIDIA DGX-1。 NVIDIA DGX...
  • 深度学习训练,选择P100就对了

    千次阅读 2017-11-13 14:20:35
    1.背景 去年4月,NVIDIA推出了Tesla P100加速卡,速度是NVIDIA之前高端系统的12倍。同年9月的GTC China 2016大会,NVIDIA又发布了Tesla P4、P40...同为Pascal架构且运算能力接近的P100和P40常常被拿来对比,单看Spe
  • 作为一个7年的GPU开发者,随着加速算法应用的普及以及应用GPU设备的增多,各种设备结构(比如Kepler Maxwell Pascal)和GPU系列混入脑中,经常记...四、P100计算卡架构及特性 五、V100计算卡架构及特性 一、GP...
  • 配置有GPU的云服务器或物理机需要安装正确的驱动软件才能够...本文以Centos系统+Tesla P100 GPU为例,展示GPU驱动和CUDA的安装过程。Centos 安装 Tesla DriverCentos上安装Tesla驱动有两种方式:Shell脚本安装,适用...
  • Nvidia在之前的GTC大会上正式发布了全新一代的计算卡Tesla P100,这也是世界上首款采用Pascal架构的计算卡,那么对于这么一块计算卡来说,它的性能如何,通用计算能力怎么样?现在已经有媒体做了相关的测试,号称是...
  • 英伟达公司已经推出了其Tesla P100加速芯片,采用PCIe卡形式且可接入标准服务器节点以支持人工智能与超级计算机级别的工作负载处理工作。 P100公布于今年4月在加利福尼亚州召开的英伟达GPU技术大会上:这款16纳米...
  • ZD至顶网服务器频道 04月06日 新闻消息:GTC16大会消息:期待已久,NVIDIA的Pascal架构GPU终于出笼。它就是GP100,GP100将现身于Tesla P100里,目标应用是高性能计算(如超级计算机模拟天气和核燃料之类的)和深度...
  • IBM加大云托管服务力度,日前宣布推出Nvidia 的Tesla P100 图形处理器(GPU),成为在云里提供Tesla P100 图形处理器的第一大云提供商。 IBM在旗下的云平台上推出Tesla P100 GPU,标志着企业可以更迅速、更有效地用...
  • 在 CEO 黄仁勋的带领下,Nvidia 早已成长为一家超脱显卡芯片制造领域的企业。...通过Nvidia的NVLink架构,该服务器连结了双路八核(或十核)的 IBM Power8 CPU,以及高达四路的 Nvidia Tesla P100 GPU...
  • Nvidia Pascal GPU 架构详解

    万次阅读 多人点赞 2016-12-25 17:44:49
    本文作于 2016/12/25,作者卜居。 写在前面:本文假定读者有一定 CUDA 基础。...Nvidia 在今年的 GTC( GPU Technology Conference ) 上高调宣布了 Pascal 架构——专门针对每瓦性能优化的新架构,采用 16n...
  • NVIDA GPU架构演进

    2021-03-21 09:52:55
    GPU发展时间表 GPU架构的更新主要体现在SM、TPC的增加,最终体现在GPU...Pascal架构: 这个比例又提高到了1:2(P100)但低端型号里仍然保持为1:32,型号Tesla P40、GTX 1080TI/Titan XP、Quadro GP100/P6000/P5000 Vota
  • GTX 1080/1070虽然性能很强悍,但它们在全新的帕斯卡家族中只能算是中档...担任首发的Tesla P100(似乎也叫Tesla P1),只开启了3584个单精度、1792个双精度核心,即便如此单、双精度浮点性能也高达10.6TFlops、5.3TFlop
  • 本文使用 RNN 与 LSTM 基于 TensorFlow 对比了英伟达 Tesla P100(Pascal)和 V100(Volta)GPU 的加速性能,且结果表明训练和推断过程的加速效果并没有我们预期的那么好。 循环神经网络(RNN) 很多...
  • NVIDIA安培架构

    千次阅读 2020-06-23 10:13:04
    NVIDIA安培架构 NVIDIA Ampere Architecture In-Depth 在2020年英伟达GTC主题演讲中,英伟达创始人兼首席执行官黄仁勋介绍了基于新英伟达安培GPU架构的新英伟达A100 GPU。本文将介绍新的A100 GPU,并描述NVIDIA安培...
  • NVIDIA深度架构

    2021-04-30 11:20:33
    NVIDIA深度架构 本文介绍A100 GPU,NVIDIA Ampere架构GPU的重要新功能。 现代云数据中心中运行的计算密集型应用程序的多样性推动了NVIDIA GPU加速的云计算的爆炸式增长。此类密集型应用程序包括AI深度学习(DL)训练...
  • NVIDIA GPU架构功能总结

    2020-07-19 16:12:42
    TESLA P100 先进功能: 1.支持FP16半精度 混合精度 VOLTA 架构 支持型号: Titan V 先进功能: 支持FP16半精度 自动混合精度 支持Tensor Core (640) 第一代 Tensor Core 精度为FP16 CUDA支持精度 FP64/FP32/FP16...
  • 一、了解NVIDIA显卡架构

    千次阅读 2020-06-16 15:54:01
    架构排序(时间顺序): Tesla: 市面已经没有相关显卡 Fermi:GeForce 400, 500, 600, GT-630 Kepler:Tesla K40/K80, GeForce 700, GT-730 Maxwell: Tesla/Quadro M series GeForce 900, GTX-970 Pascal: Tesla ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,241
精华内容 496
关键字:

p100架构