Nvidia Rubin CPX forms one half of new, "disaggregated" AI inference architecture — approach splits work between compute- and bandwidth-optimized chips for best performance

在2025年9月10日的发布会上，英伟达揭开了Rubin CPX GPU的神秘面纱。这款专用芯片不仅是Rubin家族的异类，更是其"拆解式推理"战略的核心组件。通过将AI推理拆分为"上下文构建"与"内容生成"两个阶段，英伟达正在重新定义人工智能硬件生态。

从架构设计看，Rubin CPX采用GDDR7显存的单芯片方案，专攻需要高密度计算的上下文推理任务。这种设计与配备HBM4显存的标准版Rubin GPU形成鲜明对比——前者凭借30 PFLOPs的NVFP4算力构建逻辑框架，后者则利用288GB海量显存处理内容生成。这种分工协作如同CPU与GPU的经典组合，在AI时代焕发新生。

备受关注的Vera Rubin NVL144 CPX机柜堪称算力巨兽：144个Rubin GPU、144个CPX GPU与36个Vera CPU共同组成8 exaFLOPs的运算矩阵，内存带宽达到惊人的1.7PB/s。当我们回看今年初的GB300 NVL72系统时，这个数字意味着性能提升整整7.5倍。值得注意的是，英伟达透露的"1亿美元投资创造50亿收入"的商业模型，暗示着AI推理市场正从硬件销售向生态服务转型。

不过，这种芯片级分工是否会影响开发者的易用性？英伟达给出的答案是NVLink与CUDA生态的持续进化。随着GTC 2026的临近，我们期待看到Rubin家族如何在真实AI场景中验证其技术蓝图。值得思考的是，当芯片架构开始模仿人脑的功能分区，这是否预示着一个全新的智能计算纪元正在开启？

Related Articles