计算机行业：英伟达LPU方案印证专用推理芯片的可行性

2026-03-01 12:35:04 和讯西部证券郑宏达/李想

　　根据华尔街见闻，英伟达或将在GTC 开发者大会上发布一款整合Groq“语言处理单元”（LPU）技术的AI 推理芯片。该款AI 推理芯片有望采用SRAM集成与3D 堆叠，或将基于下一代Feynman 架构，针对大模型推理的延迟和带宽瓶颈进行优化。OpenAI 已承诺采购该AI 推理芯片，并投资300 亿美元。OpenAI 已同意成为该新处理器的最大客户之一，并宣布将向英伟达购买大规模的“专用推理产能”。
　　该款AI 推理芯片主计算裸片（Compute Die）或将采用台积电最先进的A16（1.6nm）工艺制造，包含SRAM 存储库的LPU 单元或制成独立的Die，直接堆叠在计算核心上。该设计利用了A16 工艺的“背面供电”特性，释放芯片正面空间用于垂直连接，有望实现超低延迟的数据传输。
　　分析与判断：
　　生成式AI 模型参数量持续增大，促进AI 推理芯片加速迭代。从GPT-3 的1750 亿参数，到Claude、Gemini、GPT-5 等万亿级参数量模型的出现，生成式AI 模型的参数实现了10 倍以上的跃升。传统GPU 追求通用计算能力，但在面对万亿参数模型的推理需求时，AI 推理芯片更需要向专用化与异构化的方向不断迭代。
　　AI 推理的硬件架构正在发生革新，Prefill 和Decode 分离的异构计算正在加速落地。AI 推理主要分为预填充（Prefill）和解码（Decode）两个计算过程，两者对算力基础设施的性能要求，也存在着差异。因此，解耦这两个过程，能够更有针对性地优化算力与内存资源，增强整体资源利用率。针对这一计算特点，英伟达于2025 年9 月推出Rubin CPX 方案，使用Rubin CPX处理预填充计算过程。在收购Groq 的关键技术许可后，英伟达更进一步通过外部技术整合来突破芯片在解码时的计算能力。
　　我们认为：英伟达将LPU 整合进自身AI 芯片体系，展现了专用推理芯片（ASIC/DSA）在生成式AI 推理计算中的重要性。这或将印证国产AI 芯片通过专业推理架构，在AI 推理侧实现性能突破的可能性。AI 推理芯片的高速迭代，或将推动单位token 计算成本持续下降，促进下游采购需求，有望驱动国产AI 芯片实现弹性较大、确定性较高的增长。
　　建议关注：1）AI 推理芯片：寒武纪（已覆盖）、海光信息（已覆盖）、天数智芯。2）互联技术：盛科通信（已覆盖）、澜起科技。3）AIDC：东阳光、润泽科技（已覆盖）。
　　风险提示：下游需求不及预期；新一代AI 推理芯片落地和商业化不及预期；宏观经济不及预期。
【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

（责任编辑：刘畅）

【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

【广告】本文仅代表作者本人观点，与和讯网无关。和讯网站对文中陈述、观点判断保持中立，不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考，并请自行承担全部责任。邮箱：news_center@staff.hexun.com

看全文

写评论已有条评论跟帖用户自律公约