谷歌发布最新一代TPU v5p 及对应AI HPC,性能倍增
1) 在BF16 精度下,TPU v5p 的训练速度提升至v4 的1.7 倍达459TFLOPS,约为H100 三分之一,芯片间互联(ICI)带宽提升至v4 的2 倍达4.8 Tbit/s(单卡6 接口,单口速率为800Gbit/s);
2) 单一POD 中最大可互联芯片数上,v5p 提升至v4 的约2.2 倍达8960片,因此v5p POD 最大算力为v4 四倍左右;
v5p 服务器继续沿用3D 环形拓扑结构及OCS
谷歌在前代v4 服务器上使用了3D 环形拓扑结构及OCS(OpticalCircuit Switch,光路交换机),v5p 服务器将继续沿用。参考v4 服务器架构,每64 个节点组成4×4×4 的立方体,每个芯片节点在6 个方向上进行连接,其中立方体表面上相对的芯片需连接至同一交换机。
目前在64 元立方体中,芯片间使用无源电缆(Passive Electrical Cables)连接,表面上芯片则需外接光模块连接对应OCS,具体数量为96 支(16 支/面×6 面),因此光-芯比约为1.5:1,若向H100 算力看齐(约3 片v5p 算力等于1 片H100),则等效“光-芯比”为4.5:1。
谷歌通过Apollo 全光交换方案实现高效互联,光器件迎新需求OCS 及装有环行器(Circulators)的波分复用光模块是Apollo 中核心部件。OCS 由MEMS 振镜、发射/镜头模组、光分路/合路器、伺服器等部件组成。其中发射模组射出的光线经MEMS 振镜发射后,由摄像模组接收,伺服器根据接收到的相机数据持续优化MEMS 振镜及信号光反射路径。OCS 中振镜在v4 版本中由2D 升级为3D,预计v5p 版本OCS 中也将使用3D 振镜。
环行器具有三个端口,一个端口接收光发射器(Tx)的光信号,一个端口向光接收器(Rx)传输光信号,一个端口对外收发光信号。环行器将传统双工光模块转换为双向光模块,进而将所需OCS 端口及光纤数量减半。
投资建议
谷歌最新推出的芯片、服务器互联方案等进一步验证了AI 算力建设大趋势带来的光通信带宽需求高弹性,同时开辟了对环行器、MEMS 振镜等光学产品的新需求。推荐深度绑定北美大客户的全球光模块龙头厂商【中际旭创】及光器件领军者【天孚通信】。
风险提示:高速光模块需求不及预期;客户开拓与份额不及预期;产品研发落地不及预期;行业竞争加剧。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
最新评论