一、InfiniBand 与以太网是AI 大模型训练集群的主要互联技术
AI 模型参数规模不断扩大,对大模型训练网络提出更高要求。随着以 GPT3.0 为代表的大模型展现出令人惊艳的能力后,智算业务往海量参数的大模型方向发展已经成为一个主流技术演进路径。以自然语言处理(NLP)为例,模型参数已经达到了千亿级别。计算机视觉(CV)、广告推荐、智能风控等领域的模型参数规模也在不断的扩大,正在往百亿和千亿规模参数的方向发展。
大模型训练中大规模的参数对算力和显存提出了更高的要求,千亿参数模型需要2TB 显存,当前的单卡显存容量不够。即便出现了大容量的显存,如果用单卡训练的话也需要32 年。为了缩短训练时间,通常采用分布式训练技术,对模型和数据进行切分,采用多机多卡的方式将训练时长缩短到周或天的级别。
分布式训练就是通过多台节点构建出一个计算能力和显存能力超大的集群,来应对大模型训练中算力墙和存储墙这两个主要挑战。而联接这个超级集群的高性能网络直接决定了智算节点间的通信效率,进而影响整个智算集群的吞吐量和性能。要让整个智算集群获得高的吞吐量,高性能网络需要具备低时延、大带宽、长期稳定性、大规模扩展性和可运维几个关键能力。
InfiniBand 和以太网RoCEv2 是当前智算网络互联主要方案。要满足智算网络的低时延、大带宽、稳定运行、大规模以及可运维的需求,目前业界比较常用的网络方案是 InfiniBand 方案和 RoCEv2 方案。
1)Infiniband
InfiniBand 网络的关键组成包括Subnet Manager(SM)、InfiniBand 网卡、InfiniBand 交换机和InfiniBand 连接线缆。
支持InfiniBand 网卡的厂家以NVIDIA 为主。InfiniBand 网卡在速率方面保持着快速的发展。200Gbps 的HDR 已经实现了规模化的商用部署,400Gbps 的NDR 的网卡也已经开始商用部署。交换机方面,NVIDIA 在2021 年推出了400Gbps 的Quantum-2 系列交换机(64*400G)。交换机上有32 个800G OSFP口,需要通过线缆转接出64 个400G QSFP。InfiniBand 交换机上不运行任何路由协议。整个网络的转发表是由集中式的子网管理器(SubnetManager,简称SM)进行计算并统一下发的。除了转发表以外,SM 还负责管理InfiniBand 子网的Partition、QoS 等配置。
2)RoCEv2 网络
RoCEv2 网络则是一个纯分布式的网络,由支持RoCEv2 的网卡和交换机组成,一般情况下是两层架构。支持RoCE 网卡的厂家比较多,主流厂商为NVIDIA、Intel、Broadcom。数据中心服务器网卡主要以PCIe 卡为主。RDMA 网卡的端口PHY 速率一般是50Gbps 起,当前商用的网卡单端口速率已达400Gbps。
支持RoCE 的交换机厂商中,市场占有率排名靠前的包括新华三、华为等。支持RoCE 的网卡当前市场占有率比较高的是NVIDIA 的ConnectX 系列的网卡。
当前大部分数据中心交换机都支持RDMA 流控技术,和RoCE 网卡配合,实现端到端的RDMA 通信。国内的主流数据中心交换机厂商包括华为、新华三等。
高性能交换机的核心是转发芯片。当前市场上的商用转发芯片用的比较多的是博通的Tomahawk 系列芯片。其中Tomahawk3 系列的芯片在当前交换机上使用的比较多,市场上支持Tomahawk4 系列的芯片的交换机也逐渐增多。
博通、Marvell 主导全球商用交换芯片市场。根据以太网交换芯片设计企业是否从事品牌交换机的研发、生产与销售,可以简单将以太网交换芯片设计企业分为自用厂商与商用厂商,前者主要从事以太网交换机产品的生产销售,其自研芯片用于自产的以太网交换机产品,主要厂商包括思科、华为等;而后者的商用交换芯片通常用于销售予其他以太网交换机整机厂商,主要厂商包括博通、美满(Marvell)、瑞昱、英伟达、英特尔、盛科通信等。
以太网交换芯片领域集中度较高,少量参与者掌握了大部分市场份额。博通的以太网交换芯片产品在超大规模的云数据中心、HPC 集群与企业网络市场占据较高份额,为以太网交换芯片全球龙头。由于以太网交换芯片行业具备较高的技术壁垒、客户及应用壁垒和资金壁垒,因此当前行业整体国产程度较低,国内参与厂商较少。
根据灼识咨询数据,2020 年中国商用以太网交换芯片市场以销售额口径统计,博通、美满和瑞昱分别以61.7%、20.0%和16.1%的市占率排名前三位,合计占据了97.8%的市场份额。此外,盛科通信的销售额排名第四,占据1.6%的市场份额,在中国商用以太网交换芯片市场的境内厂商中排名第一;中国商用万兆及以上以太网交换芯片市场方面,盛科通信的销售额排名第四,占据2.3%的市场份额,在中国商用以太网交换芯片市场的境内厂商中排名第一。
投资建议
AI 大模型发展快速,模型参数规模的扩大带来数据量的快速增长,给AI 数据中心网络带来压力,网络交换成为AI 领域发展的底层重要支撑技术,其中以太网交换以及GPU 卡间互联成为重中之重。英伟达、博通等全球领先厂商积极布局,组建行业联盟,主导全球竞争。盛科通信-U 是国内领先的以太网交换芯片供应商,打破国外垄断,积极参与国内互联标准建设,建议重点关注。
风险提示
行业技术路线变化风险
以太网与Infiniband 以及卡间互联标准尚未固定,技术路线未来可能发生变化。
竞争加剧风险
国内交换机厂商自研交换机芯片,可能加剧行业竞争。
产品研发进度不及预期风险
交换机芯片研发难度较大,可能研发进展不及预期。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:刘静 HZ010)
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
【广告】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com
最新评论