英伟达 GPUDirect™ | CUDA ZONE
无论是为快速变化的金融市场建模、探索大量地质数据,还是研究复杂科学难题的解决方案,你都需要一款能够提供最高吞吐量以及最低延迟的计算平台。 GPU 加速的集群与工作站已经得到广泛认可,这些设备可为执行计算密集型任务而提供巨大的处理能力。应用程序利用英伟达 GPUDirect™ 则能够更快地得出结果。
利用 GPUDirect,第三方网络适配器、固态硬盘 (SSD) 以及其它设备均可直接读写 CUDA 主存储器,消除了不必要的系统存储器拷贝与 CPU 系统总开销,从而在英伟达 Tesla 与 Quadro 产品上可大幅提升数据传输速度。
GPUDirect 还支持 GPU 之间直接对等 (P2P) DMA 传输、从其它 GPU 以 NUMA 风格直接存取显存。 这些功能为未来版本中 GPU 与其它设备之间直接 P2P 通信奠定了基础。
如需了解更多信息,敬请参阅 GPUDirect 技术概述演示文稿。
主要特性:
·      加速与网络和存储设备之间的通信
通过直接与固定 CUDA 主存储器交换数据,避免了不必要的系统内存拷贝和 CPU 系统总开销。
·      GPU 之间的对等传输
利用高速 DMA 传输,在同一系统中将数据从一颗 GPU 直接拷贝到另一颗 GPU。
·      对等存储器存取
在 CUDA 内核中利用对其它 GPU 显存的 NUMA 风格存取,优化 GPU 之间的通信。
·      用于视频的 GPUDirect
为基于帧的设备优化流水线,这些设备包括抓帧器、视频切换器、HD-SDI 捕捉以及 CameraLink 设备等等。 了解更多信息
MPI 应用程序可自动得益于 GPUDirect 加速的网络通信。
下列图表显示了 GPUDirect 技术是如何工作的。
英伟达 GPUDirect™ 加速与网络和存储设备之间的通信
同一个 PCIe 总线上 GPU 之间的英伟达 GPUDirect 对等 (P2P) 通信。
如何实现 GPUDirect?
 
CUDA 驱动程序支持 GPUDirect 对等传输以及存储器存取。 你需要的仅仅是包含 R270 驱动程序 (或更新版本) 的 CUDA Toolkit v4.0 以及在同一个 PCIe 总线上配备两颗或更多 Fermi 架构 GPU 的系统。 如需了解在应用程序中使用 GPUDirect P2P 通信的更多信息,敬请参阅:
运行红帽子企业版 Linux (RHEL) 的英伟达 Tesla M 级和 Tesla S 级数据中心产品支持 GPUDirect 加速的网络与存储设备通信。 未来版本将添加对更多 GPU 以及 Linux 发行版的支持。
想要在系统中启用这一功能,敬请下载下列文件并遵照 README 文件中的安装说明操作。
你可能还需要联系 InfiniBand 供应商和/或为使用 GPUDirect v1.0 的适配器安装更新驱动程序。 请使用下列链接或者直接联系 InfiniBand 供应商:
·      如需用于 Mellanox ConnectX-2 InfiniBand 适配器的 OFED 驱动程序映像,请联系 hpc@mellanox.com
·      利用 QLogic OFED+ 6.1 或 QLogic InfiniBand Fabric Suite 6.1 即可支持 QLogic TrueScale HCAs。 如果你有任何疑问或者想要了解更多细节,敬请联系 QLogic 技术支持