电子元器件行业:非摩尔补摩尔 CLOUDMATRIX384加速国产算力突破

2025-06-23 08:15:07 和讯  国泰海通证券舒迪/段笑南
  本报告导读:
  CloudMatrix 384 释放国产算力芯片性能,单卡运算效率超越H100,有望加速国产算力需求增长。
  投资要点:
  投资建议。CloudMatrix 384 基于超节点架构与UB 网络互连有效提高推理效率,单颗NPU 芯片计算效率超越英伟达H100 芯片性能,有望加速国产算力芯片需求增长。推荐标的:中芯国际、寒武纪-U、海光信息、华丰科技、兴森科技、芯碁微装。
  CloudMatrix 384 采用三项核心创新提高处理性能。根据《ServingLarge Language Models on Huawei CloudMatrix384》,CloudMatrix384将384 个昇腾910C、192 个鲲鹏CPU 及其他硬件集成至统一的超节点。其核心创新包括(1)设计一种点对点服务架构,将预填充、解码和缓存解耦为可独立拓展的资源池。可通过UB 网络实现高带宽、统一的缓存数据访问;(2)设计一种大规模专家并行策略,利用UB 网络实现高效token 分发和专家输出组合,可使每个NPU 芯片托管一个专家,实现低解码延迟;(3)提出针对CloudMatrix384的硬件感知优化,主要包括高度优化的算子、基于微批次的流水线和INT8 量化,提升运算效率和资源利用率。
  Cloudmatrix 384 有效提高推理效率,单NPU 运算效率超越H100。
  根据《Serving Large Language Models on Huawei CloudMatrix384》,CloudMatrix-Infer 单NPU 在<50 ms TPOT 条件下,可实现预填充吞吐量6688 tokens/s 和解码吞吐量1943 tokens/s,分别对应预填充阶段4.45 token/s/TFLOPS 的计算效率和解码阶段1.29 token/s/TFLOPS的计算效率,均超过H100 基于SGLang 的计算性能及H800 基于Deepseek 的计算性能。我们认为,CloudMatrix 384 基于超节点架构与UB 网络互连充分释放国产算力芯片性能,有效弥补国产算力在先进制程方面的不足,有望加速国产算力芯片应用场景突破。
  催化剂。国产算力集群架构升级迭代。
  风险提示。CloudMatrix384 实际使用效果不及预期。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:董萍萍 )

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

【广告】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

有问必答- 持牌正规投资顾问为您答疑解惑

    热门阅读

      和讯特稿

        推荐阅读