电子行业点评报告:百万TOKEN时代来临 RUBIN CPX重塑推理架构与产业链

2025-09-10 13:45:07 和讯  东吴证券陈海进/解承堯
  投资要点
  Rubin CPX 切入百万Token 痛点,重塑推理架构基础。过去一年,随着生成式AI 进入规模化落地阶段,行业对“长上下文”的需求快速上升。无论是企业级知识库问答、代码生成,还是多模态长视频生成,均需要模型在极大输入序列下保持推理准确性与计算效率。然而,现有GPU 在应对超长上下文时普遍存在内存带宽瓶颈与计算冗余,导致算力利用率不足。英伟达于2025 年9 月发布的Rubin CPX,正是为解决这一痛点而生,标志着NVIDIA 将推理场景的架构优化推向新高度。
  Rubin CPX 是一款专为“百万级上下文”推理场景设计的专用加速处理器(Contextual Processing eXtension)。其设计目标是通过硬件与架构优化,提升对超长上下文场景的吞吐与能效,并在机架级系统,如VeraRubin NVL144 CPX 中与Rubin GPU 及Vera CPU 协同构成面向大规模推理的整体平台。
  上下文与生成任务分工,实现算力利用率与效率提升。在大模型推理过程中,可大体分为两类任务:一是“上下文分析”,即对超长输入序列进行编码、筛选与压缩,以便后续生成环节调用;二是“生成任务”,即基于上下文信息进行逐Token 的预测输出。二者在计算负载和性能需求上差异显著:上下文分析更依赖并行化处理和带宽利用,而生成任务则要求对计算延迟与单步性能进行极致优化。英伟达Rubin CPX 定位为“上下文处理加速器”,负责对海量输入做高通量注意力与前置计算;而Rubin 系列通用GPU 则负责生成/输出阶段的持续带宽密集型任务。官方展示的Vera Rubin NVL144 CPX 机架中,144 个Rubin CPX(context)配合 144 个Rubin GPU(generation)与 36 个 Vera CPU(调度/通用),共同提供完整服务能力,进而实现资源的高效利用,推理成本降低以及推理响应加速。
  Rubin CPX 30PFLOPS,机架8EFLOPS 算力,2026 年落地路径明确。
  从技术参数看,Rubin CPX 单卡提供约30 PFLOPS(NVFP4 精度)的算力,并搭载128GB GDDR7 显存,同时内置视频编解码能力,可满足多模态场景需求。官方展示的Vera Rubin NVL144 CPX 系统,由 144 张CPX、144 张Rubin GPU 和36 个Vera CPU 共同构成,其整体性能指标达到8 ExaFLOPS 算力、100TB 高速内存与1.7PB/s 内存带宽,相比上一代GB300 NVL72 系统在上下文处理效率上实现数倍提升。根据公司规划,Rubin CPX 预计将在2026 年底上市,与 Rubin GPU 与Dynamo、TensorRT-LLM 等软件工具链一体化部署。
  海外算力链受益加速,长上下文推理带来新增长动能。从产业角度来看,Rubin CPX 的推出不仅是NVIDIA 产品线的升级,更意味着海外算力基础设施进入“上下文与生成分工协作”的新阶段。随着百万Token 推理与长视频生成成为AI 应用的标配需求,硬件和软件的耦合度显著提高,算力产业链的价值量同步上升。无论是 GPU、存储、网络,还是配套的高速 PCB、光模块与封装工艺,相关厂商都有望深度受益。我们认为Rubin CPX 的量产与落地,将成为全球算力需求加速释放的重要信号,产业链公司中长期成长空间将更加清晰。
  产业链相关公司: PCB/CCL:沪电股份、胜宏科技、生益电子、深南电路、景旺电子、广合科技、生益科技、南亚新材;铜缆:沃尔核材、博创科技、华丰科技;光芯片/光器件:博创科技、仕佳光子、太辰光、长光华芯、源杰科技;服务器代工:工业富联、华勤技术
风险提示:供应链波动风险,下游需求不及预期,行业竞争加剧。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:刘畅 )

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

【广告】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

有问必答- 持牌正规投资顾问为您答疑解惑

    热门阅读

      和讯特稿

        推荐阅读