AI智能体记忆成本飙升5倍?英伟达震撼推出ICMS平台,破解万亿参数模型“记忆瓶颈”,吞吐量暴增500%!

Agentic AI scaling requires new memory architecture

英伟达推出ICMS平台,破解AI智能体“记忆瓶颈”

随着基础模型参数规模迈向万亿级、上下文窗口扩展至百万tokens级别,AI智能体正从无状态的聊天机器人演变为能够执行复杂工作流程的智能协作伙伴。然而,其规模化应用正面临一个核心瓶颈:“记忆”成本正以超过处理能力的速度飙升

当前,部署此类系统的组织面临一个两难选择:将推理上下文存储在稀缺且昂贵的高带宽GPU内存(HBM)中,或是将其卸载到缓慢的通用存储中。前者成本过高,后者则因延迟问题而无法支持实时智能体交互

【核心挑战:爆炸式增长的“记忆”开销】

这一挑战根植于Transformer模型的工作机制。为避免为每个新生成的词重新计算整个对话历史,模型会将先前状态存储在键值(KV)缓存中。在智能体工作流中,此缓存充当跨工具和会话的持久记忆,并随序列长度线性增长。

KV缓存构成了一种独特的数据类别:它是即时性能所必需、但无需企业级持久性保证的衍生数据。现有的存储架构(从GPU HBM到共享存储)在处理这种高速、临时性数据时效率低下。当上下文从GPU溢出到系统内存,最终到达共享存储时,效率急剧下降,导致毫秒级延迟和每token功耗上升,昂贵的GPU则在等待数据时处于闲置状态。

【英伟达的解决方案:专为AI记忆设计的存储层】

为突破这一阻碍智能体AI规模化的瓶颈,英伟达在其Rubin架构中引入了推理上下文内存存储(ICMS)平台,旨在创建一个专门处理AI记忆瞬时性与高速特性的新存储层级。

英伟达CEO黄仁勋表示:“AI正在革新整个计算堆栈——现在轮到了存储。AI不再是单次问答的聊天机器人,而是理解物理世界、进行长远推理、基于事实、使用工具完成实际工作,并具备短期和长期记忆的智能协作者。”

ICMS平台在现有存储层次中插入了一个专用层,即“G3.5”层。这是一个基于以太网连接的闪存层,专为千亿级规模推理设计。其核心在于将存储直接集成到计算单元中,并利用NVIDIA BlueField-4数据处理器,将上下文数据的管理任务从主机CPU卸载。

【量化收益:吞吐量与能效双提升】

该架构带来了可量化的运营收益:
* 吞吐量:通过将相关上下文保留在此中间层(比标准存储快,比HBM便宜),系统可在需要前将内存“预置”回GPU,从而减少GPU解码器的闲置时间,使长上下文工作负载的每秒处理token数(TPS)提升高达5倍
* 能效:由于该架构消除了通用存储协议的开销,其能效比传统方法高出5倍

【产业协同与未来影响】

实现此架构需要改变IT团队对存储网络的看法。ICMS平台依赖NVIDIA Spectrum-X以太网来提供高带宽、低抖动的连接,使闪存存储几乎如同本地内存。在编排层,NVIDIA Dynamo和推理传输库(NIXL)等框架负责管理KV块在各级存储间的移动。

主要存储供应商已开始对齐这一架构,包括戴尔科技、HPE、IBM、Pure Storage等在内的公司正在基于BlueField-4构建平台,相关解决方案预计于今年下半年面市

采用专用的上下文内存层将影响企业的容量规划和数据中心设计。向智能体AI的过渡迫使数据中心进行物理重构。通过引入专门的上下文层级,企业可以将模型记忆的增长与GPU HBM的成本解耦。该架构允许多个智能体共享一个庞大的低功耗内存池,从而降低处理复杂查询的成本,并通过实现高吞吐量推理来推动规模化。

延伸思考:
1. 随着AI智能体记忆需求的指数级增长,未来数据中心的基础设施设计理念(如“存算分离”)是否会发生根本性变革?专为AI优化的新型存储层级会成为未来数据中心的标配吗?
2. ICMS这类专用架构在提升性能的同时,是否会加剧AI硬件生态的封闭性?企业如何在追求极致效率与保持技术栈的开放性和可移植性之间取得平衡?

阅读 ArtificialIntelligence News 的原文,点击链接

Simon