电子元器件行业：非摩尔补摩尔 CLOUDMATRIX384加速国产算力突破

2025-06-23 08:15:07 和讯国泰海通证券舒迪/段笑南

　　本报告导读：
　　CloudMatrix 384 释放国产算力芯片性能，单卡运算效率超越H100，有望加速国产算力需求增长。
　　投资要点：
　　投资建议。CloudMatrix 384 基于超节点架构与UB 网络互连有效提高推理效率，单颗NPU 芯片计算效率超越英伟达H100 芯片性能，有望加速国产算力芯片需求增长。推荐标的：中芯国际、寒武纪-U、海光信息、华丰科技、兴森科技、芯碁微装。
　　CloudMatrix 384 采用三项核心创新提高处理性能。根据《ServingLarge Language Models on Huawei CloudMatrix384》，CloudMatrix384将384 个昇腾910C、192 个鲲鹏CPU 及其他硬件集成至统一的超节点。其核心创新包括（1）设计一种点对点服务架构，将预填充、解码和缓存解耦为可独立拓展的资源池。可通过UB 网络实现高带宽、统一的缓存数据访问；（2）设计一种大规模专家并行策略，利用UB 网络实现高效token 分发和专家输出组合，可使每个NPU 芯片托管一个专家，实现低解码延迟；（3）提出针对CloudMatrix384的硬件感知优化，主要包括高度优化的算子、基于微批次的流水线和INT8 量化，提升运算效率和资源利用率。
　　Cloudmatrix 384 有效提高推理效率，单NPU 运算效率超越H100。
　　根据《Serving Large Language Models on Huawei CloudMatrix384》，CloudMatrix-Infer 单NPU 在<50 ms TPOT 条件下，可实现预填充吞吐量6688 tokens/s 和解码吞吐量1943 tokens/s，分别对应预填充阶段4.45 token/s/TFLOPS 的计算效率和解码阶段1.29 token/s/TFLOPS的计算效率，均超过H100 基于SGLang 的计算性能及H800 基于Deepseek 的计算性能。我们认为，CloudMatrix 384 基于超节点架构与UB 网络互连充分释放国产算力芯片性能，有效弥补国产算力在先进制程方面的不足，有望加速国产算力芯片应用场景突破。
　　催化剂。国产算力集群架构升级迭代。
　　风险提示。CloudMatrix384 实际使用效果不及预期。
【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

（责任编辑：董萍萍）

【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

【广告】本文仅代表作者本人观点，与和讯网无关。和讯网站对文中陈述、观点判断保持中立，不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考，并请自行承担全部责任。邮箱：news_center@staff.hexun.com

看全文

写评论已有条评论跟帖用户自律公约