精华内容
下载资源
问答
  • 这里,我们列出了英伟达近年来各种适合深度学习显卡的详细参数,并作出一些说明,方便大家根据自己的需求挑选适合自己的显卡。直接上图(小编整理了好半天)。怎么看这张图呢,主要看几个关键的性能指标。1. 单...

    2ed45f3127e7e79314526c414682d207.png

    这里,我们列出了英伟达近年来各种适合深度学习的显卡的详细参数,并作出一些说明,方便大家根据自己的需求挑选适合自己的显卡。直接上图(小编整理了好半天)。

    8d3a61fdfa8c42f0162c543f36619e2f.png

    怎么看这张图呢,主要看几个关键的性能指标。

    1. 单精度浮点数运算速度

    18c9dd22f0e8b75c879d30853afde673.png

    单精度浮点数,也就是FP32,tensorflow里面的tf.float32,是我们最常用的数据精度,也是各个深度学习框架默认的数据精度。可以看出,在这项性能指标上,各个显卡的差距都不是很大。综合性价比,这里推荐2080Ti, 2080以及1080Ti。

    2. 显存大小

    827b3f73db9cecc41553d6e0bc0e4807.png

    显存即显卡内存,决定了我们一次读入显卡进行运算的数据多少(batch size)和我们能够搭建的模型大小(网络层数、单元数),是对深度学习研究人员来说很重要的指标,可以看到RTX 8000拥有48GB的最大显存,Tesla V100 32GB版具备32GB显存,不过这些卡的价格都太昂贵了,这里小编更推荐2080Ti以及1080Ti。如果确实需要大显存,更实惠的方案是购买两张TITAN RTX,并通过Nvlink组成双卡实现显存共享,享受48GB和两张卡的算力。

    5738b3233f37e72558d72ac5c20ad076.png

    3.半精度浮点数运算速度

    c748b1ca6b2e1ec56016b24f3b9d64a8.png

    如果对运算的精度要求不高,那么就可以尝试使用半精度浮点数进行运算。这个时候,Tensor核心就派上了用场。Tensor Core专门执行矩阵数学运算,适用于深度学习和某些类型的HPC。Tensor Core执行融合乘法加法,其中两个4*4 FP16矩阵相乘,然后将结果添加到4*4 FP16或FP32矩阵中,最终输出新的4*4 FP16或FP32矩阵。NVIDIA将Tensor Core进行的这种运算称为混合精度数学,因为输入矩阵的精度为半精度,但乘积可以达到完全精度。Tensor Core所做的这种运算在深度学习训练和推理中很常见。所以,购买具备Tensor Core的显卡战未来吧。英伟达宣称使用Tensor Core进行矩阵运算可以轻易的在训练时达到2-5倍的提速,同时降低一半的内存访问和存储。不仅提升运算速度,还能把显存占用减半,这样的好事就是由Tensor Core实现的。这里推荐RTX系列,例如2080Ti。需要注意的是采用上一代Pascal架构的显卡,比如1080Ti和TITAN Xp并没有Tensor Core这样的专门计算单元,所以半精度浮点数性能很差。

    混合精度训练带来的好处具体可以参考这里

    Dreaming.O:浅谈混合精度训练zhuanlan.zhihu.com
    14cbd8f4d5973abe1a4776cd459f7e9f.png

    4.双精度浮点数运算速度

    20118b890bdebead8afa7089e92dd599.png

    适合对精度要求非常高的专业人士,例如医学图像,CAD。但是双精度浮点数性能高的都是价格十分昂贵的型号了,大家选购时没有特殊需要不建议参考这项指标。

    5.不同类型的神经网络的指标参考顺序

    对于不同类型的神经网络,主要参考的指标是不太一样的。下面给出一种指标顺序的参考:

    卷积网络和Transformer:Tensor核心数>单精度浮点性能>显存带宽>半精度浮点性能

    循环神经网络:显存带宽>半精度浮点性能>Tensor核心数>单精度浮点性能

    可以看到,主流显卡的显存带宽是差不多的,至少400GB/s的速度在正常使用中完全不是瓶颈。至于Tensor核心数,只要不是上一代的Pascal架构,主流的显卡tensor核心数也是完全够用的。我们认为,对于做深度学习的同学来说,主要的参考指标应该是单精度浮点性能以及显存大小,次要参考指标是半精度浮点性能(tensor核心数)。

    ******************************************************************************************

    综上所述,不同的显卡适合不同的人士。老黄还是非常精明的,越专业的地方比如大显存和双精度运算性能,越是价格高昂。不过对于我们来说,做深度学习使用老黄的游戏卡就行,这里十分推荐2080Ti,适中的价格、突出的性能和支持混合精度训练,的确很香。

    最后,对于各位同学来说,配置一台自己的GPU服务器太贵了,一张RTX小两万,一张2080Ti小一万,让人望而却步。对于新手,有个能随时练手的GPU服务器还是很重要的,给大家推荐深极智能云算力(topgpu.top)平台,可以用较小的投入使用强大GPU服务器,1080Ti每卡时不到1块钱,2080Ti每卡时不到2块钱,让人人都能跑深度模型!

    欢迎大家关注我们的微信公众号--深极智算,关注后即可获取24小时时长的免费算力入口。

    深极智算(TopGPU)使用教程mp.weixin.qq.com
    8b3c55534fc6137fd900bbad2ad50cc2.png
    展开全文
  • 记录,太坑了,深度学习显卡损坏原来是这样子的。 时间 2020-10-23 深度学习服务器,3张 RTX2080Ti。 损坏的是1号卡,就是夹在0号和2号卡中间的那张卡。 可能常年温度太高,烧坏了。 事件记录: 每过一段时间,1号卡...

    记录,太坑了,深度学习显卡损坏原来是这样子的。

    时间 2020-10-23

    深度学习服务器,3张 RTX2080Ti。
    损坏的是1号卡,就是夹在0号和2号卡中间的那张卡。
    可能常年温度太高,烧坏了。

    事件记录:

    每过一段时间,1号卡温度和功率会变成nan。重启服务器就好了。

    但服务器经常有任务,也不能随便重启,没看到什么问题,就不管了。

    又过了一段时间。发现模型运算超慢的。还以为那里出问题了,查来查去,然后发现执行nvidia-smi命令也超慢的。怀疑机器问题,重启一下,好了,就像啥事没发生过。

    改了一个模型,只是小小的改动,拿去训练。Loss nan?我就改了个小地方,怎么Nan了!又改了下Loss,没用,醉了,咋回事,查不出问题,暂时搁置了。

    好奇怪啊,明明训练分数不错啊,怎么一预测这个鬼样子,热图上总有一些奇怪的伪影,有些地方预测也没错啊。啊,一定是我训练时的验证函数写的不够好,我改改改。。。

    然后到了今天,我草,预测热图怎么还是这吊样。把服务器的模型权重拿下来,准备拉到笔记本里大幅度调试一通。

    等了10分钟,笔记本跑完了,这不对啊,这预测热图完美啊。开始怀疑是不是有代码没有同步到服务器上去?然后把我的实验代码全部同步了一遍。

    ???怎么回事???,预测热图怎么还是差距这么大??莫非是依赖库有问题????马上全部依赖库更新一通。

    Orz,开始怀疑人生,莫非是pytorch的问题?我的笔记本是torch 1.6,服务器是 torch 1.5.1 。更新服务器pytorch到1.6,没用!不会是CUDA问题把,我的笔记本是CUDA 10.2,服务器是 10.1,换CUDA,搞不起啊,下载太耗时间了。

    突然一个想法,死马当活马医,试试换成0号卡,Orz,这热图跟我笔记本预测一模一样了。

    原来是显卡的问题,擦,这CUDA运算时内部都不检测数值正确性的吗。这显卡运算单元出毛病了,居然还不报错。

    突然间理解了以前显卡坏的时候,都会见到花屏,敢情原来是算错数。

    贴两张热图
    正常卡预测的热图
    在这里插入图片描述
    出问题的卡预测的热图
    在这里插入图片描述

    展开全文
  • 如果是深度学习的话,那就有的谈了, 结论:纯综合算力而言1080ti,单卡算力2080ti,性价比1080ti. float16算力而言:两个1080ti不如2080ti(以两个1080ti并行算力达1.8算) float32算力而言:能并行任务两个1080ti...

    如果是单玩游戏,那么2080ti最好,光线追踪,而且双卡复用需要游戏支持,所以一般只能发挥单卡性能,那自然2080ti。

    如果是深度学习的话,那就有的谈了,

    结论:纯综合算力而言1080ti,单卡算力2080ti,性价比1080ti.

    float16算力而言:两个1080ti不如2080ti(以两个1080ti并行算力达1.8算)

    float32算力而言:能并行任务两个1080ti(以两个1080ti并行算力达1.8倍算)胜。

    复杂度而言:2080ti安装维护更简单

    任务形式而言:多个学生同时跑不同实验就1080ti,只主要跑一个实验推荐2080ti

    但双卡需要耗费更多槽位,功耗提升,散热问题,cpu内存主板也需要同时考虑,而且1080ti二手矿卡多,可能也会造成成本接近类似的情况(2080ti花屏问题不知道解决没有)。

     

    4月20号目前市价假设:

    1080ti 6500

    2080ti 11000

    根据几大网站对于经典网络(VGG,resnet)的统计如下:

    https://www.quora.com/Which-GPU-is-better-for-deep-learning-GTX-2080-Ti-or-Titan-V

    及另外一个网站统计:

    https://bizon-tech.com/us/blog/gtx1080ti-titan-rtx-2080-ti-deep-learning-benchmarks

    按照上面统计,从单张1080ti 6500元 去按照算力实际提升算单张2080ti的价格

    bizon 16fp 8695元 32fp 8400元

    lamdba 16fp 11206元 32fp 8783元

    而实际目前观察到的市价是11000,

    可以看到除了fp16有足值提升外,32fp是有性价比不足的问题的。

    将2080ti相对1080ti的算能提升比在单次评估和多次训练及vgg resnet网络统计对比如下:

    长时间 单次评估

    ‘vgg 0.77 0.74

    resnet 0..69 0.72

    这意味着,对于网络结构而言,越深越复杂网络训练评估中2080ti相对耗时减少效应越明显。

    而同一网络是否会因为训练时间延长而使得2080ti耗时减少越明显尚不得而知。

    而如果是fp64的话,那还是titan v吧,理由如下:深度学习 显卡 硬件

    https://www.quora.com/Which-GPU-is-better-for-deep-learning-GTX-2080-Ti-or-Titan-V

    展开全文
  • 深度学习显卡性价比(仅供参考)

    万次阅读 2019-06-12 11:50:00
    只是学习使用,780Ti性价比最高,速度够用,而且也不会经常满载去跑大型网络训练,电费无视。 如果对性能有要求,最优性价比的是980ti,但如果对性能要求较高,选2070或1080ti吧。 还有一个选择,双1070 SLI ##...

    先说结论:

    只是学习使用,780Ti性价比最高,速度够用,而且也不会经常满载去跑大型网络训练,电费无视。

    如果对性能有要求,最优性价比的是980ti,但如果对性能要求较高,选2070或1080ti吧。

    还有一个选择,双1070 SLI

     

    ##以下表格中的价格数据均为二手

      

     

     

    转载于:https://www.cnblogs.com/wolflzc/p/11008724.html

    展开全文
  • 学习深度学习显卡(GPU)可以说是比不可少的投资。本文试图探究哪个GPU才是学习入门性价比最高的?为什么深度学习需要GPU?我们先来比较一下CPU和GPU的不同,下图是一个简化的处理器内部结构图[1],其中:DRAM即动态...
  • 学习深度学习显卡(GPU)可以说是比不可少的投资。本文试图探究哪个GPU才是学习入门性价比最高的?为什么深度学习需要GPU?我们先来比较一下CPU和GPU的不同,下图是一个简化的处理器内部结构图DRAM即动态随机存取...
  • 目前只有Nvida GPU能完整的支持深度学习,所以请购买较新的nvidia显卡(pascal、turing架构以上)2.GPU上的投资回报比基本呈线性变化,因此可以按照自己的需要配置不同GPU。3.保持工作站长期稳定工作需要一个靠谱的...
  • 先解释一点,深度学习为什么需要显卡计算?GPU 是为大规模的并行运算而优化;GPU 上则更多的是运算单元(整数、浮点的乘加单元,特殊运算单元等等);GPU 往往拥有更大带宽的显存,因此在大吞吐量的应用中也会有很好的...
  • Titan RTX深度学习评测结果 NVIDIA TITAN RTX 专为数据科学、AI 研究、内容创作和通用 GPU 开发而构建。它基于 Turing 架构搭建,具有 4608 个 CUDA 核心、576 个用于加速 AI 的全速混合精度 Tensor Core 核心和 72 ...
  • 原标题:在深度学习中喂饱GPU 新智元推荐来源:知乎专栏作者:风车车【新智元导读】深度学习模型训练是不是大力出奇迹,显卡越多越好?非也,没有512张显卡,也可以通过一些小技巧优化模型训练。本文作者分析了他的...
  • 现在,数据科学家和研究人员可以在能源勘探和深度学习等应用场合中解析PB级的数据,速度比使用传统 CPU 快几个数量级。Tesla GPU亦有能力以前所未有的超快速度运行更大型的模拟。此外,Tesla 还能为虚拟桌面、应用...
  • 2020.9.2日,NVIDIA发布会...现在让我们着眼于显卡的另外一个适用领域——深度学习,让我们看看这代显卡对于深度学习的影响有多大。同时,也会列出不同显卡的性能对比、性价比等可视化图表方便大家阅读以及对于不同...
  • 在这篇文章中,Lambda Labs对Titan RTX的深度学习性能与其他常见GPU进行了基准测试。我们测量了Titan RTX在ResNet50,ResNet152,Inception3,Inception4,VGG16,AlexNet和SSD上的单GPU培训性能。不包括多GPU培训...
  • 前言之前一直在装有一张1080Ti的服务器上跑代码,但是当数据量超过10W(图像数据集)...在深度学习的时代,谁掌握算力谁便领先一步,因此有必要提升自己的计算能力。这是我目前使用的服务器的配置清单,主板理论可以插...
  • 深度学习需要的显卡配置

    万次阅读 2018-10-29 20:56:15
    如何判断自己的显卡是否可以用来进行深度学习? 1、显卡的类型        由于NVIDIA公司在很早之前就推出了CUDA这个可以用代码来控制GPU的架构,所以NVIDIA使用的人较多,所以...
  • NVIDIA显卡深度学习算力表

    万次阅读 2018-11-23 15:28:06
    参照不同型号的显卡的算力图 https://developer.nvidia.com/cuda-gpus#collapseOne 主流研究深度学习的还是Tesla和Titan 系列显卡
  • 深度学习———显卡AND GPU

    千次阅读 2019-07-25 20:22:02
    在训练深度学习网络过程,常常听到朋友说卡,这里的卡就是显卡显卡包括显存和GPU。像1080Ti卡显存是11GB,2080Ti显存卡同为11GB。 GPU计算单元,用来数值计算的,常常这样表示:一秒钟能进行多少个浮点数先乘再加...
  • nvidia 显卡深度学习Any deep learning model has two phases — training and inference. Both the phases are as important as the other. The training phase is an iterative process — we iterate to find ...
  • linux(manjaro) tensorflow2.1 conda cuda10 双显卡笔记本深度学习环境搭建下学期要学tensorflow,看着我可怜的1050ti,流下了贫穷的泪水,但无奈要做实验啊,学还是得学的,安装过程记录一下,仅供参考关于manjaro之前写...
  • 市场上用于深度学习训练计算机大致情况如下:(1)服务器/工作站(支持2、4、8块GPU架构):普遍存在噪音大,无法放置于办公环境,必须放到专门的机房,维护成本高,另外数据存储带宽、延迟、容量也不尽如意。...
  • ubuntu笔记本外置显卡开展深度学习

    千次阅读 2020-01-12 00:02:04
    雷蛇灵刃笔记本+雷电3外置显卡坞:ubuntu18+pytorch和tenorflow开展深度学习1. 软硬件准备1.1 硬件配置1.2 系统2. 具体步骤2.1 给雷蛇笔记本安装ubuntu18.04LTS2.2 设置启动项2.3 在ubuntu上配置环境附件conda虚拟...
  • 深度学习显卡市场,英伟达的地位还是暂时无人能够撼动的。专业卡暂不纳入考虑,毕竟性价比太低了。大家平时使用的还是老黄的游戏卡,性能排第一的就是Titan RTX了,具备24G大显存,然而售价也高达两万块。接下来...
  • python,深度学习,机器学习,tensorflow 文章目录安装python解释器安装cuda下载步骤安装步骤安装是否成功确认配置cudnn配置环境变量配置虚拟环境安装tensorflow 安装python解释器 由于这里需要安装tensorflow中的gpu...
  • 如何选一块支持深度学习的Nvidia显卡 本文以tensorflow为例,具体讲解什么样的nvidia显卡可以支持深度学习 nvidia显卡多如牛毛,但并不是所有的型号都可以支持tensorflow的所有型号,本文讲解如何确定一个具体型号的...
  • 深度学习——ubuntu16.04更新显卡驱动 好不容易搭好了深度学习的环境,使用两个月后突然报错 运行nvidia-smi报错: NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure ...
  • 深度学习中使用显卡的介绍

    千次阅读 2018-12-09 12:30:11
    独立显卡主要分为NVIDIA和AMD两大阵营,相对来说,NVIDIA显卡知名度与市场占有率都更高。CPU的全称是Central Processing Unit,GPU的全称是Graphics Processing Unit。CPU是计算机的核心处理器,GPU是用来处理图像的...
  • 人工智能随着核心算法、计算能力的迅速...在军事领域人工智能武器将成为未来武器的王牌……(一)了解深度学习算法深度学习两个主要过程:训练(Training)和推理(Inference)。其中:训练(Training)是将大量数据加载到...
  • 深度学习的显存与显卡

    千次阅读 2018-12-19 16:06:39
    科普帖:深度学习中GPU和显存分析     https://oldpan.me/archives/how-to-calculate-gpu-memory 浅谈深度学习:如何计算模型以及中间变量的显存占用大小   https://blog.csdn.net/qq_2866...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,224
精华内容 889
关键字:

深度学习显卡