在AI技术快速发展的背景下,GPU显卡面临着更严苛的性能需求。GDDR显存是专为显卡设计的高性能DDR存储器,主要承担图形数据的存储与传输,其工作频率、电压等参数区别于标准DDR内存。
最初,显卡内存兼容CPU内存,当时的显卡主要使用DDR内存。但随着图像处理需求逐年攀升,早期DDR内存因位宽有限,难以满足GPU并行计算需求,导致帧率下降或卡顿。在此基础上,GPU显存慢慢转向GDDR。三星电子1998年推出的首款16 Mb GDDR内存芯片,标志着GPU和CPU内存开始分离。
GDDR具有更高的数据传输速率和带宽,在推动GPU的发展过程中起到了很关键的作用。从GDDR显存诞生以来,到现在共计演进了7个版本(GDDR到GDDR7),每一代都在提升带宽和降低功耗方面有所改进。如今,GDDR7的起始速度达到32 GT/s,比最快的GDDR6内存高60%,比最快的GDDR6X内存高33%。
在GTC 2024上,三星、SK海力士展示的GDDR7内存解决方案代表GDDR7进入商用落地阶段,这两家企业还通过客户合作计划与明确量产时间表,直接推动该技术从实验室走向终端市场。
根据规划,搭载GDDR7的GPU于2025年5月正式上市,其中英伟达GPU RTX 5060首发,高端型号(如RTX 5090)将于2025年年末推出。在此背景下,Rambus半导体IP产品管理总监Nidish Kamath围绕“GDDR7加速AI推理”主题做了分享,同时,他还向《国际电子商情》介绍了Rambus的GDDR7内存控制器IP。
生成式AI设备需要更大的内存
伴随AI下沉到边缘端和终端,轻量化通用模型使之适配专用需求,正成为行业在边缘设备落地AI的主流方式。简化后的专用模型可以把参数量降到更低,又能保证较好的用户体验,不失为一种经济可行的商业模式。
当前,支持生成式AI的手机究竟多大的内存?Nidish Kamath表示,在大语言模型(LLM)的推动下,AI PC和AI智能手机等设备中的设备端AI,已率先适应神经网络赋能的边缘计算和端点应用。为应对边缘与端点设备对带宽和内存容量的爆发式需求,新一代高带宽、低延迟内存技术成为关键解决方案。目前,DDR5、GDDR7及LPDDR5/5X等先进内存已在这些设备中实现规模化应用。
不过,设备类型也限制了支持AI应用的内存选择范围。目前,LPDDR5已被移动设备广泛采用,其性能和带宽足以满足手机AI应用需求,而且还能将功耗控制在较低水平。据Yole Group研究显示,生成式AI的演进正推动移动设备内存需求激增:旧款机型受限于处理能力难以满足要求。当前基础AI功能仅需约100MB内存,但搭载LLM的进阶功能内存需求可能骤增至7GB。
HBM主导AI训练,GDDR适用边缘推理
这种内存需求的指数级增长,直接推动了不同内存技术的场景分化。在云端训练端,HBM(高带宽内存)凭借其3D堆叠架构提供的超高带宽,完美适配大模型参数频繁调用的需求;而在边缘侧,GDDR6/7则通过更优的能效比和模块化设计,满足移动设备对LLM推理的实时性要求与成本约束。
Nidish Kamath进一步分析称,最新HBM3E的运行速率为每引脚9.6 Gb/s,单个内存的总带宽可达1.2 TB/s,GDDR7支持每引脚40 Gb/s数据速率,单个GDDR7内存的带宽为160 GB/s。对比之下,在内存带宽上HBM3E与GDDR7的差距明显。
两者的性能差异,主要是因为两种内存结构上的不同。基于2.5D/3D架构的HBM直接集成于GPU芯片内,并包含中介层、处理器及内存堆栈。这种设计使HBM能够在低延迟下实现高带宽性能,并且更加节能,从而能够处理密集型AI训练或机器学习等高性能计算(HPC)任务。
但HBM强大的性能背后是其更高的复杂性,这持续推高了其生产成本。主流边缘和终端设备由于工作负载较轻,一般无需为了获得HBM的强大性能而投入大量成本,GDDR的内存容量和带宽就可以满足其需求。
此外,GDDR采用传统的2D架构并与GPU裸片分离,相较于HBM使用的更复杂的2.5/3D架构,其实现更为简单。这种较低的复杂性和易于实现的特性进一步降低了成本。通过采用PAM3信令技术,GDDR7仍能保持出色的带宽性能,足以满足边缘和终端设备中AI推理应用的需求,因此广受边缘和终端设备设计师的欢迎。
未来内存挑战:兼顾节能和性能
当然,如今正处于生成式AI进入商用化元年,其对内存的性能要求还相对不高,但随着未来更高级的AI功能商用落地,将会对内存有着更高的性能要求(比如带宽、延迟、效率等)。对此,Nidish Kamath称,未来所面临的重大挑战在于“如何在进一步节能的前提下提供更高的性能”。内存为处理器提供高速数据缓冲,互联技术构建处理器间及处理器-内存间的直达通道,二者协同解决海量数据搬运效率问题。
“随着处理器运行速度的加快,我们必须同时加快数据传输速度,无论是处理器之间的数据传输,还是处理器与内存之间的数据传输。此外,我们还必须满足数据传输的功耗要求,确保数据在处理器与内存、处理器与其他处理器之间的通道和链路上能够更高数据速率地可靠传输。这个领域将涌现许多新技术。Multi-PAM将成为支持数据速率持续提升的技术之一。”
但对于内存技术而言,提升单芯片的数据位数本身就是一项挑战。随着存储单元为容纳更多数据位而不断微缩,其他一些需要管控的物理效应也随之而来。其中的问题还包括片上错误。因此,片上纠错技术也将比当前应用得更为广泛。此外,还需应对诸如RowHammer和RowPress等效应,在这些效应下,对特定存储单元的重复或持续访问可能会干扰邻近区域的单元。
以Rambus为代表的行业领先企业,正联合产业伙伴在内存架构创新、信号完整性优化等关键技术领域开展深度研发合作。“我们深知行业当前所面临的种种挑战,亦了解到众多业界顶尖人才正致力于解决这些问题。凭借在高性能内存领域超过30年的深厚经验与积累,Rambus致力于提供行业领先的解决方案,以期始终与最先进的标准同步,并助力构建‘AI 2.0’的新世界,”他介绍道。
“AI 2.0”需要更高性能的内存系统
与“AI 1.0”相比,“AI 2.0”对内存系统有着新的要求。具体来看,“传统AI”主要专注于基于输入模型进行数据分析和预测,且局限于有限的输入/输出模态(例如文本到网页结果)。比如,典型的“AI 1.0”应用有语音助手、推荐引擎和搜索平台,这些系统在处理相对简单的任务(如语音转语音、文本转文本、语音转文本)方面表现出色,但它们无法处理复杂多样的内容创作。
随着LLM的出现,“AI 2.0”时代开启了跨多种模态的无限创意与创新可能性。LLM能够理解复杂输入(包括文本、图像或语音),并生成从传统文本响应到更高级形式(如代码、图像、视频甚至3D模型)的输出。这种多模态特性在GPT-4、PaLM2、ERNIE 4.0、Inflection-2、Gemini 1.5和Olympus等LLM中均有所体现,并且正在扩展至更多边缘和终端应用场景。
从个性化体验到跨计算架构(云、边缘、终端)的行业特定解决方案,“AI 2.0”应用的迅猛发展对AI训练和推理工作流的内存带宽和容量提出了巨大的要求。例如,在AI训练方面,对应的AI模型规模正迅速扩大——Chat GPT-3的1,750亿参数与Chat GPT-4的1.76万亿参数相比相形见绌,突显出对内存带宽和容量需求的持续增长。
与此同时,许多AI应用正从数据中心向边缘和终端迁移,这也对现有的内存系统提出了更高要求。采用GDDR内存的GPU一直是推理引擎的首选。Rambus GDDR7控制器通过PAM3信令,提供了一种功能齐全、节省带宽的内存实现解决方案,推动了先进GDDR内存在前沿AI加速器、图形处理和高性能计算应用中的使用。
提供业界领先的GDDR7性能
为了提升内存带宽,GDDR7采用PAM3而非NRZ(PAM2)信令。这种新的编码方案可在两个时钟周期内传输“3位信息”,与GDDR6在相同时钟频率下相比,数据传输速率提升50%,将通道性能提升至每引脚40 Gbps。为确保在如此高的运行速度下数据的可靠传输,GDDR7内存整合了先进的RAS(可靠性、可用性与可服务性)机制。这有助于减轻由高频操作及PAM3信令固有特性所带来的信号完整性挑战。
Nidish Kamath介绍说:“Rambus GDDR7控制器通过集成额外的增强型数据完整性功能,包括片上ECC、数据中毒及错误校验等,来满足对更高可靠性的严苛要求。”Rambus GDDR7内存控制器IP提供业界领先的GDDR7性能,单个GDDR7内存可实现最高40 Gbps的传输速率和160 GB/s的可用带宽。其GDDR7内存控制器IP的主要特征包括以下:
- 每引脚最高40 Gbps传输速率;
- 支持所有GDDR7链路特性,包括PAM3和NRZ信号格式;
- 支持多种GDDR7产品尺寸和速度;
- 针对各种流量场景优化,实现高效率和低延迟;
- 灵活的AXI接口支持;
- 支持低功耗模式(自刷新、休眠自刷新、动态频率调节等);
- 可靠性、可用性和可维护性(RAS)特性,如端到端数据路径校验、存储寄存器校验保护等;
- 综合全面的内存测试支持;
- 支持客户和第三方PHY集成。
据Nidish Kamath介绍,Rambus GDDR7内存控制器的交付内容包括:控制器(源代码)、测试台(源代码)、完整文档。同时,该公司还针对GDDR7内存控制器还提供专家技术支持、维护更新、定制、SoC集成等服务。
他解释说:“在客户的产品设计与开发阶段,出现需要技术支持的问题时,我们可快速协助客户确定问题并提供解决方案,从而缩短客户产品的上市时间。我们还提供综合全面的内存测试支持及第三方PHY集成支持,帮助客户实现完整的GDDR7内存子系统。”
小结
随着2025年英伟达RTX50系GPU量产,GDDR7将进一步推动生成式AI在移动设备的规模化落地。目前,JEDEC已规划Multi-PAM技术路线,目标将GDDR7传输速率提升至48 GT/s,以支撑150亿+参数模型的终端部署。不过,应对万亿参数模型需依赖Multi-PAM升级(48 GT/s)及异构内存架构创新,以平衡性能、功耗与成本。
