精华内容
下载资源
问答
  • 3dmark是一款专门为测量显卡性能的软件,也可以作为衡量电脑的性能的一项指标,那我们在下载3dmark软件之后,该怎么测试显卡性能呢,怎么使用,3dmark怎么使用,下面就和小编一起来看看吧!1、打开我们在电脑中下载...

    3dmark怎么用?3dmark是一款专门为测量显卡性能的软件,也可以作为衡量电脑的性能的一项指标,那我们在下载3dmark软件之后,该怎么测试显卡性能呢,怎么使用,3dmark怎么使用,下面就和小编一起来看看吧!

    1、打开我们在电脑中下载好的3dmark软件工具,进入到主页之后,设置相关的参数,在【Basic】选项卡中设置预置类型和运行方式;

    64013429fdc624c414272ee61bd846b7.png

    2、然后切换到【Advanced】选项卡,选择使用图形测试或者物理测试、综合测试,再设置分辨率、缩放模式等等;

    4480f76eb153362f7e6038b9dd848c31.png

    3、在跳转到【Professional】选项卡,设置图像质量工具、例如时间轴、固定FPS等等,以及输入文件;

    e599c8dd24635fc96028a2553e299e32.png

    4、接着在【结果】选项卡中,就可以看到运行结果,以及图形分数、物理分数、结合分数等等;

    82f450e61f82d0e5e2b444e63de15ead.png

    5、最后,我们在【帮助】选项卡中,查案到3dmark软件的详细信息,如产品版本、注册码、版本等等;

    66568ee5cc829e886be66a3b30eda339.png

    以上就是3dmark怎么用的全部内容了,希望以上内容对您有所帮助!

    最后关注以下平台可以观看视频教程

    今日头条:老韩学知识

    B站:有趣的老韩

    抖音号:老韩软件教学

    展开全文
  • 众所周知,Nvidia的CUDA计算平台可以实现数量惊人的并行运算,因此受各个流行的机器学习框架青睐。为了尝试人工智能,我最近组装了一台机器,配备了一块入门级的GeForce GTX 1060显卡。该显卡来自于索泰,有1280个...

    006b6ce2e7df14aa8b25d0cef58c0d13.png

    众所周知,Nvidia的CUDA计算平台可以实现数量惊人的并行运算,因此受各个流行的机器学习框架青睐。为了尝试人工智能,我最近组装了一台机器,配备了一块入门级的GeForce GTX 1060显卡。

    该显卡来自于索泰,有1280个CUDA核心,带6 GB的GDDR5显存。

    c7c2dfb170627067037b83122d8f2826.png
    图1. Nvidia GeForce GTX 1060显卡

    以下是我进行的两个简单测试,略做记录。第一个测试,用C++写的CUDA程序计算两个大数组的浮点加和,得到了两千多倍的加速。第二个是用Keras+TensorFlow写的MNIST手写数字识别,得到了10倍加速。

    大数组浮点加和测试

    我按照Nvidia开发者博客的CUDA入门文章,An Even Easier Introduction to CUDA,写了一个简单的程序,对两个长度均为100万的单精度浮点数组进行逐元素加和。

    CUDA的并行运算方式也就是所谓的SIMT,即单指令多线程。在CUDA的术语中,运行在GPU上的函数称为核(kernel)。为了进行并行运算,CUDA将函数的执行分散到线程块(数量为numBlocks),每个线程块含有若干个线程(数量为blockSize),所有线程块和其中的线程共同组成了线程网格(Grid)。调用函数时,需要在函数名后面用CUDA特有的三重尖括号指定numBlocks和blockSize。

    add<<<numBlocks, blockSize>>>(N, x, y);

    其中N为数组的长度,x为第一个数组,y为第二个数组。

    修改其中的numBlocks和blockSize,用nvprof进行性能分析,得到如下测试结果。

    c10de905a0f66f78ad926061eab65dc5.png
    图2. 性能分析结果,numBlocks = 1, blockSize = 1

    f6e9075e59d2b22b6bc08040f0dd3039.png
    图3. 性能分析结果,numBlocks = 3907, blockSize = 256

    b7eaa5fec1e241916139364f7be68755.png
    图4. 大数组浮点加和测试结果汇总

    其中最后一行的3907是在调用前通过计算得到的numBlocks。

    numBlocks = (N + blockSize -1) / blockSize;

    由上面的结果,可以得出,充分利用GPU的多线程并行计算特性后,计算速度提升了惊人的2383倍。

    MNIST手写数字识别测试

    第二个测试是用Keras进行了经典的MNIST手写数字识别。代码来自于一篇非常深入浅出的文章,Image Classification using Feedforward Neural Network in Keras。

    09c7c31fed7f297b313dde32404fa9ef.png
    图5. MNIST手写数字识别模型

    Keras提供了一个非常高层的API,而其底层可以是其他深度学习框架,如TensorFlow。我在同一台电脑上分别安装了CPU版和GPU版的TensorFlow。下面是测试结果。

    07a96059210f25261a4dafd54d57f291.png
    图6. MNIST手写数字识别测试结果,CPU版

    44e023b3c9cb24a1bb6b36441e0acd7a.png
    图7. MNIST手写数字识别测试结果,GPU版

    f49eca8068ee9b140521a8c8f538cf5d.png
    图8. MNIST手写数字识别测试结果汇总

    由上图可见,在这个简单的深度网络测试中,通过GPU得到了10倍的加速。

    总结

    在某些可并行处理的应用中,即使是上一代的中端游戏显卡,其大量的计算单元(本例中的显卡含1280个CUDA cores)也能得到显著的提升。

    笔者身处非常传统的非技术行业,以上知识均为自学,因此难免有遗漏或错误,欢迎各位读者(假装有读者)提出宝贵的建议。

    ------------------出其不意的分割线--------------------

    本文转自在我的个人博客。更多有趣的文章,欢迎访问http://www.jwnote.com。

    初试CUDA,入门显卡实现两千倍加速 - Jay's Notes​jwnote.com
    bdbd10dbfe2e98da20b909ee1199471b.png
    展开全文
  • 作者: 王乐园 王贻达 AWS AI本文谈的是在移动端加速卷积神经网络。虽然AWS是个云服务公司,我们同样重视edge上的计算。...现代终端设备一般一个片上系统 (SoC)做计算,上面部署了通用的CPU和集成显卡。...

    作者: 王乐园 王贻达 AWS AI

    本文谈的是在移动端加速卷积神经网络。虽然AWS是个云服务公司,我们同样重视edge上的计算。现代终端设备一般都跟云端服务器相连,但只要可能,我们都希望计算可以在本地终端解决,这样做的好处是多方面的:既可以减小网络带宽的压力,又可以避免网络传输产生的时延,还可以让用户的数据更安全。现代终端设备一般用一个片上系统 (SoC)做计算,上面部署了通用的CPU和集成显卡。对于日益增多的卷积神经网络推理计算来说,在移动端的CPU(多数ARM,少数x86)上虽然优化实现相对简单(参见我们对CPU的优化),但此处它并非最佳选择,因为:1)移动端CPU算力一般弱于集成显卡(相差在2-6倍之间);2)更重要的是,已经有很多程序运行在CPU上,如果将模型推理也放在上面会导致CPU耗能过大或者CPU节流,造成耗电过快同时性能不稳定。所以在移动端进行模型计算,集成显卡是更好的选择。

    说起来很有道理,但用起来就不一样了。实际中我们发现移动设备上的集成显卡利用率很低,大家并不怎么用它来跑卷积神经网络推理。原因其实很简单:难用。在AWS,我们面对很多移动端机器,里面用到集成显卡多数来自Intel, ARM和Nvidia,编程模型一般是OpenCL和CUDA。虽然对于某些特定模型和算子,硬件厂商提供了高性能库(Intel的OpenVINO, ARM的ACL, Nvidia的CuDNN),但它们覆盖度有限,用起来不灵活,造成即使对单一硬件做多模型的优化,工程代价也很大,遑论我们面对的硬件类种类繁多。总之,要用传统方法在集成显卡上实现一个通用高效的模型推理并不容易。

    好在现在我们有了深度学习编译器。Apache TVM从一开始的设计目标就是做好模型和硬件的中间件,把不同模型编译到不同硬件上执行,中间尽量统一管理,这跟我们对集成显卡的需求是完全一致的。于是,我们的解法是扩展Apache TVM对集成显卡的支持,用同一套IR来统一描述神经网络并根据硬件类型lower到不同的硬件平台上去。这样我们可以尽量复用优化,并且利用TVM已有的优化方案(比如此文提到的算子优化、图优化和协同优化)来实现在集成显卡上的高效模型推理。最后,我们还在TVM上对几个在集成显卡上经常被用到的计算机视觉特定算子进行了精调。我们在三款主流厂商的集成显卡上进行了验证,包括AWS DeepLens (Intel Graphics), Acer aiSage/Rockchip RK-3399 (ARM Mali)和Nvidia Jetson Nano (Nvidia GPU with Maxell architecture)。 这个项目的结果发表在了并行计算会议ICPP 2019:A Unified Optimization Approach for CNN Model Inference on Integrated GPUs。相关代码都已经merge到Apache TVM里了。时至今日这个项目也还没有做完,我们依然在根据实际需要不断扩展对不同模型和硬件的支持。

    具体地说,为了让TVM高效快速支持集成显卡上卷机神经网络的推断计算,我们在TVM已有框架下加入了下图彩色部分所示的部分,包括IR,对算子和计算图的优化,以及对CUDA/OpenCL后端的优化。

    cf0bdfafd3d9f0a74aef5b095c1b0bdf.png

    以下是我们在不同移动端显卡上优化后的性能和原厂提供软件的比较(latency, 数字越低越好)。从图中看出我们的性能在大部分模型上比原厂快,而且模型覆盖率更高,比如在我们做实验的时候Intel OpenVINO还不支持在DeepLens上跑目标检测网络。

    1ee8c780c5d2a186840cd9af5f01aed0.png

    84cf20ab2ac99e9b531a2f7ec5cfe4ab.png

    d7c97fa1afc0e26da7887184f052cc61.png

    下图是我们使用算子搜索和计算图搜索前后的性能变化(speedup, 数字越高越好),具体优化算法概念上跟我们在CPU上的优化是一样的,不过算子搜索模板因为硬件架构的不同而有所改变。

    125ea76242bd5656ecb2e2f2a3c4844b.png

    86688cbefdbc53f8592e3028213b14fe.png

    907714a2dc65ea7dd58475972978a1a7.png

    另外,我们也在TVM中加入了对视觉模型某些操作算子的一些细致优化。其中包括对视觉模型中常见NMS算子,扫描算子的优化。NMS中包含一个GPU上经典的优化问题:排序。排序和扫描在英伟达显卡上都已经有对应的优化,但是在英特尔集成显卡上并没有相应实现。我们用TVM IR实现了GPU经典优化,下方左图是我们对GPU排序的优化,右图是对扫描的优化。和普通的排序不同,NMS中的排序是区块排序,意思是数据分散在不同区块中,排序仅发生在每个区块中,不同区块间数据顺序无需改变。因为GPU有高速并行处理大数据的能力,不适合小区块的处理,我们将不同区块放在同一个数组里,并且记录下每个区块开始的位置。我们将这个大数组均分成n块(具体数量根据GPU硬件资源决定)。图中假设我们GPU有5个并行线程,我们将数据均分为5块。每个线程单独排序每块数据,跨越区块边界的不去排序。在每块数据排序结束后再进行合并操作,用的也是GPU经典的线程合作式合并方法。详细方法介绍请参考上方链接的论文。我们发现用TVM IR实现和用OpenCL/CUDA实现不仅无需在不同后端采用不同语言,代码数也有显著减少。

    11fec4894ef01aa0c45c7d1d87f32c8d.png

    下图是计算机视觉模型在优化相应算子前后的性能比较(speedup, 数字越高越好)。

    42514a4006e9334e2b6dc3411546466c.png

    a41caf59dc94ee357252a6a4d72a9de4.png

    aa0129aee4a9002e43871e0f62df0353.png

    虽然我们做了一系列针对集成显卡可编程性和性能的优化,还是要承认集成显卡的可编程性和灵活度比CPU要差,比如排序这种算法,在CPU上可以快速实现,但是在集成显卡上实现一个相对性能较优的方法要更大的工程量。如果用户提出一个新模型,而我们没有足够时间来实现一个集成显卡上面的优化方案,这时我们提供了一个替代方法,把新模型中暂不支持的运算放回到CPU上执行。这样可以保证任意模型我们都可以快速用我们的系统实现。实际操作中,对于一些计算量较小但控制逻辑复杂的视觉算子,在CPU上实现简单得多,而且在CPU上和集成显卡上性能差别并不是很大。例如,把SSD模型的NMS算子退回到CPU上执行与全模型在集成显卡上执行比较,在AWS Deeplens上用退回方法速度仅下降0.5%。退回的实现方法逻辑上很简单,利用了两次遍历图的逻辑。第一次遍历将需要在GPU/CPU上跑的算子进行分别标记,第二次遍历将插入数据拷贝算子。具体的退回实现方法请参看上面我们提到的论文。

    展开全文
  • 未来数年之后很可能搭载龙芯CPU的电脑也能走进家庭和办公桌,但是相比CPU来说,GPU的并行计算能力更强,在前景看好的AI计算和图形计算中用处可能比CPU更大,那么未来搭载国产GPU的独立显卡路在何方呢?最近,国内的...

    说到国产独立显卡,对于大家来说可能是距离国产CPU更为遥远的产品,好在这几年国产龙芯3号已经渐成起色,未来数年之后很可能搭载龙芯CPU的电脑也能走进家庭和办公桌,但是相比CPU来说,GPU的并行计算能力更强,在前景看好的AI计算和图形计算中用处可能比CPU更大,那么未来搭载国产GPU的独立显卡路在何方呢?最近,国内的兆芯给出了规划!

    5c72bef7de86ac6ec3799821f92405cb.png

    全国产计算机“天玥”系列最近在全国多地陆续下线,眼尖的用户可能也发现其中一些型号居然配备了独立显卡,让人对其性能表现非常好奇。近日,兆芯在一则官方视频中公布了一份详细的路线图,其中不但提到了未来兆芯CPU的发展,还首次宣布了GPU独立显卡!也就是说,兆芯的GPU将会填补长久以来国产GPU领域的空白,未来的国产计算机搭载国产独立显卡成为了可能!

    bf9cbe388d16f8d02690906b3785db38.png

    从兆芯的这张产品规划图上来看,这款独立显卡的GPU会采用28nm工艺制造,虽说相比目前NVIDIA和AMD的7nm和12nm工艺已经明显落后,但是作为国内有能力量产的半导体工艺,而且还是首款国产GPU芯片,28nm工艺应该也是可以接受的,最重要的是,这款显卡的功耗可能只有70w左右,显然是非常轻量化的产品,28nm工艺完全够用。

    8dcef20d3dc80d37ccb2233728ee007a.png

    虽说兆芯这款独立显卡的发布时间尚不明确,但是据了解可能最快会在年底,也有可能推迟到明年。不管怎么说,龙芯CPU目前已经看到了希望,随着国产GPU芯片的问世,我想未来的发展之路也会越来越广阔,期待我们能尽快用上国产显卡的那一天!

    展开全文
  • GPU_显卡计算

    2012-05-21 10:56:56
    基于显卡原理,详细介绍了GPU的编程开发基础。
  • GPU 显卡计算能力

    2017-06-23 22:04:02
    因为有的时候caffe文件中的Makefile.config文件中的cuda的计算能力太低,在编译的时候会...错误的原因是因为Makefile.config中的cuda的计算能力和自己的GPU显卡计算能力不匹配导致的; 常见的GPU显卡计算能力参考下
  • NVIDIA显卡计算

    万次阅读 2018-01-29 10:12:44
    查询的官网地址https://developer.nvidia.com/cuda-gpus#collapseOne CUDA-Enabled Tesla Products CUDA-Enabled Quadro Products CUDA-Enabled NVS Products CUDA-Enabled GeForce Products ...CUDA-Enabl
  • NVIDIA 显卡计算能力

    万次阅读 2016-08-22 09:24:21
    在编写CUDA程序的时候,显卡计算能力是需要了解的。NVIDIA显卡计算能力见官网 https://developer.nvidia.com/cuda-gpus 本人的电脑是MAC PRO,所以这里先介绍下如何获得MAC PRO 的信息: 1.点击桌面上左上...
  • 一键修改所有显卡计算模式,
  • 查看NVIDIA显卡计算能力

    万次阅读 2019-02-27 14:45:21
    CUDA GPUs NVIDIA GPUs power millions of desktops, notebooks, workstations and supercomputers around the world, accelerating computationally-intensive tasks f...
  • WIN10下查看CUDA版本 & 显卡计算能力

    千次阅读 2020-05-30 11:45:03
    显卡计算能力一、查看显卡支持的NVCUDA版本号二、查看自己显卡计算能力 一、查看显卡支持的NVCUDA版本号 1.在 开始菜单 或 右击桌面 打开 NVDIA控制面板 2.点击 系统信息 3.在弹出的 系统信息对话框 , 点击 组件 ...
  • 计算机显卡检测

    2008-06-24 20:49:56
    计算机显示器、显卡检测工具。
  • 计算显卡对比

    2019-09-24 10:17:36
    科学计算显卡的几个主要性能指标: 1、运算能力:FLOPS 每秒浮点运算次数,TFLOPS表示每秒万亿(10^12)次浮点计算; 2、计算性能: 3、显存大小:显存大小也决定了实验中能够使用的样本数量和模型复杂度。 4. ...
  • 英伟达 GPU显卡计算能力查询表

    万次阅读 2020-11-15 11:06:35
    我是的是算力2.1的显卡,环境要求算力3以上的显卡,无奈最后只能使用实验室的服务器了。 下面列出各种型号的英伟达 GPU与对应的算力,希望能够帮助各位读者。在配置环境之前先看一下自己显卡的算力,以免像小白...
  • 显卡和异构计算

    千次阅读 2021-05-06 21:23:17
    显卡:将计算机系统需要的显示信息进行转换驱动显示器,并向显示器提供逐行或隔行扫描信号,控制显示器的正确显示,是连接显示器和个人计算机主板的重要组件,是“人机”的重要设备之一,其内置的并行计算能力现阶段...
  • 计算机显卡排名

    2012-06-16 14:29:05
    一些显卡排名,希望对发雏鸟们有用。资料不算新
  • 转码解密挖矿 显卡计算能力大对比
  • 查看显卡计算

    千次阅读 2020-11-13 17:39:35
    最近在运行darknet时,遇到过查看电脑显卡计算力的情况,搜了很多,找到计算机显卡算力,但是并没有找到自己电脑gtx1650的。无意中在安装完cuda运行samples时,看到了查找电脑计算力的程序。在/usr/local/cuda/...
  • GeForce和TITAN产品 显卡计算能力

    千次阅读 2020-01-01 10:10:26
    显卡 计算能力 NVIDIA TITAN RTX 7.5 Geforce RTX 2080 Ti 7.5 Geforce RTX 2080 7.5 Geforce RTX 2070 7.5 Geforce RTX 2060 7.5 NVIDIA TITAN V 7.0 NVIDIA TITAN Xp 6.1 NVIDIA TITAN X 6.1 GeForce GTX 1080 Ti ...
  • 计算机显卡知识普及

    千次阅读 多人点赞 2018-01-28 20:42:12
    显卡知识普及 一、什么是显卡?   显示接口卡(Video card,Graphics card)、显示器配置卡简称为显卡,是个人电脑基本组成部分之一。   用途是将计算机系统所需要的显示信息进行转换驱动,并向显示器提供...
  • GeForce笔记本电脑产品 显卡计算能力

    千次阅读 2020-01-01 10:09:23
    显卡 计算能力 Geforce RTX 2080 7.5 Geforce RTX 2070 7.5 Geforce RTX 2060 7.5 GeForce GTX 1080 6.1 GeForce GTX 1070 6.1 GeForce GTX 1060 6.1 GeForce GTX 980 5.2 GeForce GTX 980M 5.2 GeForce GT...
  • 计算机组成-显卡

    2019-08-19 16:19:22
    显卡(Video card,Graphics card)全称显示接口卡,又称显示适配器,是计算机最基本配置、最重要的配件之一。显卡作为电脑主机里的一个重要组成部分,是电脑进行数模信号转换的设备,承担输出显示图形的任务。显卡...
  • 【cuda】——显卡计算能力查询

    千次阅读 2020-11-06 16:33:19
    有时候在编译cuda的源码的时候,需要指定显卡计算能力,可以去链接查询
  • CUDA深度学习显卡算力文件修改 参考:aiuai 目的:在使用Pytorch进行深度学习训练的时候,在setup时需要对算力进行设置,根据机器使用的不同的GPU型号,需要改写nvcc编译使用的参数。 例如: #!/usr/bin/env python3...
  • 深度学习中我们对GPU的计算能力一般是要求大于5.0,具体情况具体分析,低于5.0也并非一定不可以。 那为啥不用CPU?...另附英伟达显卡计算力官网查询地址: NVIDIA GPUs Compute Capability 英伟
  • 英伟达GPU显卡计算能力评估

    万次阅读 2017-06-24 12:37:13
    Find out all about CUDA and GPU Computing by attending our GPU Computing Webinars and joining our free-to-joinCUDA Registered developer Program. Learn about Tesla for technical and ...
  • 显卡计算力怎么看找到自己的显卡型号,之后从这张图上找到自己的位置。达到低性能,就能玩网游流畅,达到中性能,就能低画质下玩大作(BF4这种),达到高性能就能高画质玩大作,达到最高性能就能碾压一切游戏❷ 有...
  • halcon17中最令人感兴趣的是深度学习,需要下载安装cuda_9.0.176_windows.exe和cudnn-9.0-windows7-x64-v7.zip...只需将解压文件放到X:\Program Files\MVTec\HALCON-17.12-Progress\bin\x64-win64\thirdparty即可使用
  • C# 获取计算机显卡信息,vs05版本下载即可运行。
  • 一般情况下,系统默认是双显卡自动切换的,需要性能的时候会自动使用独显,不需要大型图形计算的时候就会切换成核显以达到省电的目的。N卡的笔记本设置方法几乎样,都是需要进入Nvidia控制面板里面操作。尤其是一些...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 73,409
精华内容 29,363
关键字:

如何用显卡计算