电子行业点评报告：百万TOKEN时代来临 RUBIN CPX重塑推理架构与产业链

2025-09-10 13:45:07 和讯东吴证券陈海进/解承堯

　　投资要点
　　Rubin CPX 切入百万Token 痛点，重塑推理架构基础。过去一年，随着生成式AI 进入规模化落地阶段，行业对“长上下文”的需求快速上升。无论是企业级知识库问答、代码生成，还是多模态长视频生成，均需要模型在极大输入序列下保持推理准确性与计算效率。然而，现有GPU 在应对超长上下文时普遍存在内存带宽瓶颈与计算冗余，导致算力利用率不足。英伟达于2025 年9 月发布的Rubin CPX，正是为解决这一痛点而生，标志着NVIDIA 将推理场景的架构优化推向新高度。
　　Rubin CPX 是一款专为“百万级上下文”推理场景设计的专用加速处理器（Contextual Processing eXtension）。其设计目标是通过硬件与架构优化，提升对超长上下文场景的吞吐与能效，并在机架级系统，如VeraRubin NVL144 CPX 中与Rubin GPU 及Vera CPU 协同构成面向大规模推理的整体平台。
　　上下文与生成任务分工，实现算力利用率与效率提升。在大模型推理过程中，可大体分为两类任务：一是“上下文分析”，即对超长输入序列进行编码、筛选与压缩，以便后续生成环节调用；二是“生成任务”，即基于上下文信息进行逐Token 的预测输出。二者在计算负载和性能需求上差异显著：上下文分析更依赖并行化处理和带宽利用，而生成任务则要求对计算延迟与单步性能进行极致优化。英伟达Rubin CPX 定位为“上下文处理加速器”，负责对海量输入做高通量注意力与前置计算；而Rubin 系列通用GPU 则负责生成/输出阶段的持续带宽密集型任务。官方展示的Vera Rubin NVL144 CPX 机架中，144 个Rubin CPX（context）配合 144 个Rubin GPU（generation）与 36 个 Vera CPU（调度/通用），共同提供完整服务能力，进而实现资源的高效利用，推理成本降低以及推理响应加速。
　　Rubin CPX 30PFLOPS，机架8EFLOPS 算力，2026 年落地路径明确。
　　从技术参数看，Rubin CPX 单卡提供约30 PFLOPS（NVFP4 精度）的算力，并搭载128GB GDDR7 显存，同时内置视频编解码能力，可满足多模态场景需求。官方展示的Vera Rubin NVL144 CPX 系统，由 144 张CPX、144 张Rubin GPU 和36 个Vera CPU 共同构成，其整体性能指标达到8 ExaFLOPS 算力、100TB 高速内存与1.7PB/s 内存带宽，相比上一代GB300 NVL72 系统在上下文处理效率上实现数倍提升。根据公司规划，Rubin CPX 预计将在2026 年底上市，与 Rubin GPU 与Dynamo、TensorRT-LLM 等软件工具链一体化部署。
　　海外算力链受益加速，长上下文推理带来新增长动能。从产业角度来看，Rubin CPX 的推出不仅是NVIDIA 产品线的升级，更意味着海外算力基础设施进入“上下文与生成分工协作”的新阶段。随着百万Token 推理与长视频生成成为AI 应用的标配需求，硬件和软件的耦合度显著提高，算力产业链的价值量同步上升。无论是 GPU、存储、网络，还是配套的高速 PCB、光模块与封装工艺，相关厂商都有望深度受益。我们认为Rubin CPX 的量产与落地，将成为全球算力需求加速释放的重要信号，产业链公司中长期成长空间将更加清晰。
　　产业链相关公司： PCB/CCL：沪电股份、胜宏科技、生益电子、深南电路、景旺电子、广合科技、生益科技、南亚新材；铜缆：沃尔核材、博创科技、华丰科技；光芯片/光器件：博创科技、仕佳光子、太辰光、长光华芯、源杰科技；服务器代工：工业富联、华勤技术
风险提示：供应链波动风险，下游需求不及预期，行业竞争加剧。
【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

（责任编辑：刘畅）

【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

【广告】本文仅代表作者本人观点，与和讯网无关。和讯网站对文中陈述、观点判断保持中立，不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考，并请自行承担全部责任。邮箱：news_center@staff.hexun.com

看全文

写评论已有条评论跟帖用户自律公约