中文科技资讯
业界资讯 互联网 手机资讯 电脑硬件 数码产品 家电产品 APP应用 手机游戏 美通快讯

高通量以太网联盟引领AI智算,Scale-Out到Scale-Up全场景覆盖新突破

2025-08-15来源:ITBEAR编辑:瑞雪

在人工智能领域,算力集群的持续扩张正面临前所未有的挑战。如何确保算力随着集群规模的扩大而线性增长,成为业界亟待解决的难题。传统的并行计算方式,通过将模型参数与数据分散到多个GPU上协同作业,虽然能有效利用多GPU的算力,但同时也引发了数据交换需求的激增,对网络带宽提出了更高要求。

大模型训练中的数据同步呈现出明显的周期性特点,这意味着集群中的任何性能瓶颈,无论是链路拥塞还是设备故障,都可能对整个任务的进度与稳定性构成威胁。为了保持集群算力的线性扩展,构建能够长期维持高带宽、低延迟和稳定性能的互联体系至关重要。然而,传统网络设计并未针对GPU间密集通信场景进行优化,难以满足高强度AI负载的需求。

为了应对这一挑战,业界开始探索以GPU为核心的全新网络架构。这种架构从拓扑设计、协议选择、链路管理到拥塞控制,均针对AI的特点进行了专门优化,旨在满足GPU间高速通信的需求。在全球范围内,这一难题的解决不仅依赖于硬件的堆叠,更需要一系列体系化的技术架构创新,包括拓扑优化、协议演进、链路管理与智能调度等方面的突破。

在这一背景下,阿里云与中国科学院计算技术研究所携手,于2022年7月启动了高通量以太网(ETH+)协议的制定工作。一年后,由双方发起的“高通量以太网联盟”正式成立,成员单位已超过50家,涵盖了云厂商、芯片厂商、系统集成商、科研院所等多个领域。该联盟致力于制定面向AI智算场景的高通量以太网协议,推动国内智算网络标准化,并积极融入国际智算网络组织,构建开源开放、融合共赢的产业生态。

在Scale-Out阶段,“高通量以太网联盟”率先提出了构建面向AI智算领域的以太网生态,并实现了Scale-Out网络协议的收敛、协议标准发布及芯片化落地。例如,网卡芯片、交换芯片、硅光芯片等关键成果相继问世,同时基于阿里云HPN架构体系,实现了全国产的落地方案。随着战局的不断推进,超节点开始走进数据中心组网,Scale-Up场景成为关注焦点。在这一场景下,“高通量以太网联盟”促进产业共识,推动协议制定和原型验证,始终坚持Scale-Out和Scale-Up网络融合发展的理念,并基于以太网大芯片容量和光互连技术,构建了全解耦的UPN(超性能网络)架构解决方案。

在2025年8月14日于鄂尔多斯举办的高通量以太网联盟年度发布会上,联盟发布了涵盖Scale-Up和Scale-Out网络场景的多项重要成果。其中包括高通量以太网(ETH+)协议1.1联盟标准的重磅发布,以及全量支持高通量以太网特性的首款国产400G智能网卡芯片、首款国产25.6T交换芯片、支持高通量以太网ERack+、ORack+的国产硅光芯片等。还推出了首款高通量以太网64超节点高超柜(ERack+)以及基于高通量以太网光互联的超节点解决方案UPN 512。

高超柜在设计上充分考虑了高密高带宽高速率的需求,相比其他Scale-Up技术方案,以太网交换芯片具有大带宽、大Radix、高速率的优势。同时,高超柜支持CPU和GPU的解耦和灵活配比,以适应不同业务需求。作为一个开放的系统,高超柜以开放架构支持高通量以太网生态的芯片和系统快速落地,从机柜到Switch tray、Compute tray,均采用开放解耦思想,便于不同芯片根据规范快速适配和集成。高超柜在关键部件选择上均考虑了国产化,为国产化贡献力量。

联盟认为,Scale-Up场景的发展需要分阶段推进。第一阶段已经完成了高通量以太网协议1.1的发布以及ERACK+ 64原型系统的验证。第二阶段将推动UPN新型系统架构的设计和标准制定,构建基于以太网光互联技术的分布式可扩展系统。随着AI格局的快速重塑,不同企业的私有协议与联盟此起彼伏,生态分化明显。以太网凭借长期积累的生态与广泛的兼容性,展现出独特的规模优势。为了将这一优势进一步转化为产业竞争力,“高通量以太网联盟”正承担起推动国产化与体系化落地的使命,致力于通过打造具备国际竞争力的智算网络,实现AI智算大集群到AI智算大算力的质变。