通信设备及服务行业:AI超算浑然一体 光互联地位显著提升

2023-06-02 19:00:13 和讯  国泰君安王彦龙/黎明聪
  本报告导读:
  超算中心趋于一个整体,光互联重要性快速提升;GH200性能提升原因在存储,H100仍为主流场景应用;芯片光模块比为1:9,比DGX H100 组网更高。
  摘要:
  超算中心趋于一个整体,光互联重要性快速提升。Nvidia CEO 黄仁勋在大会上反复提到,未来的超算数据中心将表现的越来越像一个超级计算机,正如这次DGX GH200 系统可以将256 个GPU 无缝连接,使其性能等于一个超大号的GPU。DGX GH200 里面采用了242.4 公里的光纤,证明在高速互联领域,对光通信器件、模块的应用将大大增加,光进铜退的趋势在服务器外部的层级趋势越来越明显。
  GH200 性能提升原因在存储,H100 仍为主流场景应用。集群性能的提升主要有算力本身、网络、存储三大要素。市场担忧DGX GH200对GPT3 训练性能提升2.2x,不利光模块比例提升。但算力层面,单颗GH 芯片和H100 芯片FP8 浮点算力没有差异。存储层面,DGXGH200 内部GPU 和CPU 的连接方式与DGX H100 不同,其高速触达的存储容量可以大幅提升。我们观察到对于同样消耗数十TB 内存级别的操作,存储瓶颈越明显,DGX GH200 系统表现就比DGX H100集群越优越。因此,传统GPT3、GPT4 等主流大模型下,DGX H100集群(NVLink 联网)与DGX GH200 系统没有明显差异,因为存储、网络、算力都不是瓶颈。
  芯片光模块比为1:9,比H100 NVLink 组网更高。这个数字比DGXH100 使用NVLink 组网下还要高2 倍,主要的差距在于是DGX H100服务器内到服务器外做了2:1 的收敛,8 个GPU仅用了4 个NVSwitch芯片,无法做到1:1 无阻塞的传输。而GH200 是6 个NVSwitch 芯片对应8 个GPU,可以实现胖树架构,因此这个光模块比例约比256个H100 NVLink 组网方案多一倍。
  投资建议:超算中心与传统云中心相比,网络相关投入比例将继续增加,重点关注数通产业链和算力网络链:1)数通光模块核心标的:
  新易盛、天孚通信、光迅科技;2)稀缺的光芯片突破企业:光库科技,仕佳光子;3)有望突破的模块企业,受益标的:剑桥科技、博创科技、华工科技。
  风险提示:DGX GH200 推广不及预期,AI 训练需求不及预期
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

热门阅读

    和讯特稿

      推荐阅读