本文来自“光通信深度:以太网在AI算力中的Why、How和What”,文章参考“RoCE取代IB:为何之前是IB,现在是RoCE?”。
在传统以太网上延展,超以太网联盟聚集头部玩家。超以太网联盟(UEC)由 Linux 基金会及其联合开发基金会倡议主办,目标是超越现有的以太网功能,以 RDMA 和 RoCE 等提供面向 HPC 和 AI 计算的高性能、分布式和无损传输层,其初创成员包括 AMD、Arista、博通、思科、Eviden、HPE、Intel、Meta 和微软。
截至 2024 年 3 月 19 日,UEC 目前已新增 45 名新成员,并已发布 UEC 规范 1.0 概述白皮书,简述了 UEC 规范可实现八大功能和超以太网传输(UET)的性能优势。
博通是全球领先的有线和无线通信半导体公司,目前已在行业深耕 60 余年,拥有深厚的技术积累与丰富的产品组合。在 RoCE领域,公司从控制器、适配器、NIC、交换机四方面入手,目前已有超 30 种相关产品,近期博通基于第四代 RoCE 推出单端口 400GbE 以太网适配器 N1400GD 和单端口 400GPCIe 以太网 NIC P1400GD,主要应用于 AI、云计算、高性能计算和存储的网络构建。
英伟达在 NIC 和交换机方向进行布局,尽管此前英伟达是 InfiniBand 的主要推动者及供应商,但也持续在 RoCE 方向布局,陆续推出 Spectrum SN4000 和 Spectrum SN5000 交换机则,并于今年推出与 IB 新产品同规格的 Spectrum X800 交换机,同时计划于 2025 年推出 512 端口的 Spectrum UltraX800 交换机,于 2026 年推出带宽相比 X800 翻倍的 X1600。
2020 年以来,Meta 始终致力于运营基于 RoCE 的分布式训练集群,但早期面临一致性挑战。为实现 RoCE 的 AI 计算应用落地,Meta 作为创始成员成立超以太网联盟,并积极推进 RoCE 的部署。公司使用Arista 7800 和 Wedge 400 等组成的 RoCE 网络能够实现 400G 互连,现已成功运用于Llama3 集群。
RDMA 相比传统 TCP/IP 技术更符合 AI 计算高并发、低延迟的要求,是更优选。和之前的 TCP/IP 软硬件架构相比,RDMA 使得通信系统直接通过网卡访问 GPU 显存数据,流程无需经过操作系统或 CPU,这种高吞吐、低延迟的网络通信非常适合在大规模并行 AI 计算集群中使用。
目前支持RDMA的网络有Infiniband、RoCE(RDMA over Converged Ethernet)、iWARP,各类网络特性各异:
Infiniband:专为 RDMA 设计,从硬件级别保证可靠传输,应用效果好,无需做针对性的设计研发但是需要 IB 网卡和交换机支持,成本高昂
RoCE:基于以太网和传输层 UDP 协议设计,消耗的资源更少,可以使用普通的以太网交换机,但需要专门支持 RoCE 的网卡。
iWARP:基于以太网传输层 TCP 协议,利用 TCP 达到可靠传输。相比 RoCE,在大型组网的情况下,iWARP 的大量 TCP 连接会占用大量的内存资源(RoCE的 UDP 连接不需要),对系统规格要求更高。可以使用普通的以太网交换机,但需要专门支持 iWARP 的网卡。
在 AI 算力建设浪潮中,IB 是早期局部最优解,RoCE 是更广泛最优解。在 AI 算力建设加速之初,高吞吐、低延迟的网络要求需要支持 RDMA 的网络通信,从英伟达H 系列 GPU 持续性地供不应求也可以看出,短时间内快速、保质、保量实现算力落地是各算力投资方的核心诉求,因此英伟达的 GPU 加上天然适配 RDMA 的 IB 网络架构是当时的最优解。
长期看,以太网/RoCE 相比 IB 在云计算领域有更深厚的产业应用基础,实现成本也更低,随着技术越来越成熟,且推理需求逐渐起势,以太网将逐步将来到 AI 算力舞台中心。
文章来源:技术架构师联盟