本报告导读:
CloudMatrix 384 释放国产算力芯片性能,单卡运算效率超越H100,有望加速国产算力需求增长。
投资要点:
投资建议。CloudMatrix 384 基于超节点架构与UB 网络互连有效提高推理效率,单颗NPU 芯片计算效率超越英伟达H100 芯片性能,有望加速国产算力芯片需求增长。推荐标的:中芯国际、寒武纪-U、海光信息、华丰科技、兴森科技、芯碁微装。
CloudMatrix 384 采用三项核心创新提高处理性能。根据《ServingLarge Language Models on Huawei CloudMatrix384》,CloudMatrix384将384 个昇腾910C、192 个鲲鹏CPU 及其他硬件集成至统一的超节点。其核心创新包括(1)设计一种点对点服务架构,将预填充、解码和缓存解耦为可独立拓展的资源池。可通过UB 网络实现高带宽、统一的缓存数据访问;(2)设计一种大规模专家并行策略,利用UB 网络实现高效token 分发和专家输出组合,可使每个NPU 芯片托管一个专家,实现低解码延迟;(3)提出针对CloudMatrix384的硬件感知优化,主要包括高度优化的算子、基于微批次的流水线和INT8 量化,提升运算效率和资源利用率。
Cloudmatrix 384 有效提高推理效率,单NPU 运算效率超越H100。
根据《Serving Large Language Models on Huawei CloudMatrix384》,CloudMatrix-Infer 单NPU 在<50 ms TPOT 条件下,可实现预填充吞吐量6688 tokens/s 和解码吞吐量1943 tokens/s,分别对应预填充阶段4.45 token/s/TFLOPS 的计算效率和解码阶段1.29 token/s/TFLOPS的计算效率,均超过H100 基于SGLang 的计算性能及H800 基于Deepseek 的计算性能。我们认为,CloudMatrix 384 基于超节点架构与UB 网络互连充分释放国产算力芯片性能,有效弥补国产算力在先进制程方面的不足,有望加速国产算力芯片应用场景突破。
催化剂。国产算力集群架构升级迭代。
风险提示。CloudMatrix384 实际使用效果不及预期。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:董萍萍 )
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
【广告】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com
最新评论