先说结论:
只是学习使用,780Ti性价比最高,速度够用,而且也不会经常满载去跑大型网络训练,电费无视。
如果对性能有要求,最优性价比的是980ti,但如果对性能要求较高,选2070或1080ti吧。
还有一个选择,双1070 SLI
##以下表格中的价格数据均为二手
这里,我们列出了英伟达近年来各种适合深度学习的显卡的详细参数,并作出一些说明,方便大家根据自己的需求挑选适合自己的显卡。直接上图(小编整理了好半天)。
怎么看这张图呢,主要看几个关键的性能指标。
1. 单精度浮点数运算速度
单精度浮点数,也就是FP32,tensorflow里面的tf.float32,是我们最常用的数据精度,也是各个深度学习框架默认的数据精度。可以看出,在这项性能指标上,各个显卡的差距都不是很大。综合性价比,这里推荐2080Ti, 2080以及1080Ti。
2. 显存大小
显存即显卡内存,决定了我们一次读入显卡进行运算的数据多少(batch size)和我们能够搭建的模型大小(网络层数、单元数),是对深度学习研究人员来说很重要的指标,可以看到RTX 8000拥有48GB的最大显存,Tesla V100 32GB版具备32GB显存,不过这些卡的价格都太昂贵了,这里小编更推荐2080Ti以及1080Ti。如果确实需要大显存,更实惠的方案是购买两张TITAN RTX,并通过Nvlink组成双卡实现显存共享,享受48GB和两张卡的算力。
3.半精度浮点数运算速度
如果对运算的精度要求不高,那么就可以尝试使用半精度浮点数进行运算。这个时候,Tensor核心就派上了用场。Tensor Core专门执行矩阵数学运算,适用于深度学习和某些类型的HPC。Tensor Core执行融合乘法加法,其中两个4*4 FP16矩阵相乘,然后将结果添加到4*4 FP16或FP32矩阵中,最终输出新的4*4 FP16或FP32矩阵。NVIDIA将Tensor Core进行的这种运算称为混合精度数学,因为输入矩阵的精度为半精度,但乘积可以达到完全精度。Tensor Core所做的这种运算在深度学习训练和推理中很常见。所以,购买具备Tensor Core的显卡战未来吧。英伟达宣称使用Tensor Core进行矩阵运算可以轻易的在训练时达到2-5倍的提速,同时降低一半的内存访问和存储。不仅提升运算速度,还能把显存占用减半,这样的好事就是由Tensor Core实现的。这里推荐RTX系列,例如2080Ti。需要注意的是采用上一代Pascal架构的显卡,比如1080Ti和TITAN Xp并没有Tensor Core这样的专门计算单元,所以半精度浮点数性能很差。
混合精度训练带来的好处具体可以参考这里
Dreaming.O:浅谈混合精度训练zhuanlan.zhihu.com4.双精度浮点数运算速度
适合对精度要求非常高的专业人士,例如医学图像,CAD。但是双精度浮点数性能高的都是价格十分昂贵的型号了,大家选购时没有特殊需要不建议参考这项指标。
5.不同类型的神经网络的指标参考顺序
对于不同类型的神经网络,主要参考的指标是不太一样的。下面给出一种指标顺序的参考:
卷积网络和Transformer:Tensor核心数>单精度浮点性能>显存带宽>半精度浮点性能
循环神经网络:显存带宽>半精度浮点性能>Tensor核心数>单精度浮点性能
可以看到,主流显卡的显存带宽是差不多的,至少400GB/s的速度在正常使用中完全不是瓶颈。至于Tensor核心数,只要不是上一代的Pascal架构,主流的显卡tensor核心数也是完全够用的。我们认为,对于做深度学习的同学来说,主要的参考指标应该是单精度浮点性能以及显存大小,次要参考指标是半精度浮点性能(tensor核心数)。
******************************************************************************************
综上所述,不同的显卡适合不同的人士。老黄还是非常精明的,越专业的地方比如大显存和双精度运算性能,越是价格高昂。不过对于我们来说,做深度学习使用老黄的游戏卡就行,这里十分推荐2080Ti,适中的价格、突出的性能和支持混合精度训练,的确很香。
最后,对于各位同学来说,配置一台自己的GPU服务器太贵了,一张RTX小两万,一张2080Ti小一万,让人望而却步。对于新手,有个能随时练手的GPU服务器还是很重要的,给大家推荐深极智能云算力(topgpu.top)平台,可以用较小的投入使用强大GPU服务器,1080Ti每卡时不到1块钱,2080Ti每卡时不到2块钱,让人人都能跑深度模型!
欢迎大家关注我们的微信公众号--深极智算,关注后即可获取24小时时长的免费算力入口。
深极智算(TopGPU)使用教程mp.weixin.qq.com
记录,太坑了,深度学习显卡损坏原来是这样子的。
时间 2020-10-23
深度学习服务器,3张 RTX2080Ti。
损坏的是1号卡,就是夹在0号和2号卡中间的那张卡。
可能常年温度太高,烧坏了。事件记录:
每过一段时间,1号卡温度和功率会变成nan。重启服务器就好了。
但服务器经常有任务,也不能随便重启,没看到什么问题,就不管了。
又过了一段时间。发现模型运算超慢的。还以为那里出问题了,查来查去,然后发现执行nvidia-smi命令也超慢的。怀疑机器问题,重启一下,好了,就像啥事没发生过。
改了一个模型,只是小小的改动,拿去训练。Loss nan?我就改了个小地方,怎么Nan了!又改了下Loss,没用,醉了,咋回事,查不出问题,暂时搁置了。
好奇怪啊,明明训练分数不错啊,怎么一预测这个鬼样子,热图上总有一些奇怪的伪影,有些地方预测也没错啊。啊,一定是我训练时的验证函数写的不够好,我改改改。。。
然后到了今天,我草,预测热图怎么还是这吊样。把服务器的模型权重拿下来,准备拉到笔记本里大幅度调试一通。
等了10分钟,笔记本跑完了,这不对啊,这预测热图完美啊。开始怀疑是不是有代码没有同步到服务器上去?然后把我的实验代码全部同步了一遍。
???怎么回事???,预测热图怎么还是差距这么大??莫非是依赖库有问题????马上全部依赖库更新一通。
Orz,开始怀疑人生,莫非是pytorch的问题?我的笔记本是torch 1.6,服务器是 torch 1.5.1 。更新服务器pytorch到1.6,没用!不会是CUDA问题把,我的笔记本是CUDA 10.2,服务器是 10.1,换CUDA,搞不起啊,下载太耗时间了。
突然一个想法,死马当活马医,试试换成0号卡,Orz,这热图跟我笔记本预测一模一样了。
原来是显卡的问题,擦,这CUDA运算时内部都不检测数值正确性的吗。这显卡运算单元出毛病了,居然还不报错。
突然间理解了以前显卡坏的时候,都会见到花屏,敢情原来是算错数。
贴两张热图
正常卡预测的热图
出问题的卡预测的热图
如果是单玩游戏,那么2080ti最好,光线追踪,而且双卡复用需要游戏支持,所以一般只能发挥单卡性能,那自然2080ti。
如果是深度学习的话,那就有的谈了,
结论:纯综合算力而言1080ti,单卡算力2080ti,性价比1080ti.
float16算力而言:两个1080ti不如2080ti(以两个1080ti并行算力达1.8算)
float32算力而言:能并行任务两个1080ti(以两个1080ti并行算力达1.8倍算)胜。
复杂度而言:2080ti安装维护更简单
任务形式而言:多个学生同时跑不同实验就1080ti,只主要跑一个实验推荐2080ti
但双卡需要耗费更多槽位,功耗提升,散热问题,cpu内存主板也需要同时考虑,而且1080ti二手矿卡多,可能也会造成成本接近类似的情况(2080ti花屏问题不知道解决没有)。
4月20号目前市价假设:
1080ti 6500
2080ti 11000
根据几大网站对于经典网络(VGG,resnet)的统计如下:
https://www.quora.com/Which-GPU-is-better-for-deep-learning-GTX-2080-Ti-or-Titan-V
及另外一个网站统计:
https://bizon-tech.com/us/blog/gtx1080ti-titan-rtx-2080-ti-deep-learning-benchmarks
按照上面统计,从单张1080ti 6500元 去按照算力实际提升算单张2080ti的价格
bizon 16fp 8695元 32fp 8400元
lamdba 16fp 11206元 32fp 8783元
而实际目前观察到的市价是11000,
可以看到除了fp16有足值提升外,32fp是有性价比不足的问题的。
将2080ti相对1080ti的算能提升比在单次评估和多次训练及vgg resnet网络统计对比如下:
长时间 单次评估
‘vgg 0.77 0.74
resnet 0..69 0.72
这意味着,对于网络结构而言,越深越复杂网络训练评估中2080ti相对耗时减少效应越明显。
而同一网络是否会因为训练时间延长而使得2080ti耗时减少越明显尚不得而知。
而如果是fp64的话,那还是titan v吧,理由如下:深度学习 显卡 硬件
https://www.quora.com/Which-GPU-is-better-for-deep-learning-GTX-2080-Ti-or-Titan-V
先说结论:
只是学习使用,780Ti性价比最高,速度够用,而且也不会经常满载去跑大型网络训练,电费无视。
如果对性能有要求,最优性价比的是980ti,但如果对性能要求较高,选2070或1080ti吧。
还有一个选择,双1070 SLI
##以下表格中的价格数据均为二手
转载于:https://www.cnblogs.com/wolflzc/p/11008724.html