在人工智能技术飞速发展的当下,数据中心网络性能指标中,延迟的重要性愈发凸显。对于AI训练任务而言,低延迟是保障训练集群内所有图形处理单元(GPU)和节点高效运转的关键。它能够最大程度减少设备空闲时间,进而提升整体训练效率。而在需要实时或近乎实时响应的AI推理场景中,低延迟更是不可或缺的核心要素。
随着GPU集群规模不断扩大,从数百个延伸至数百万个,功耗、空间以及可用性等方面的限制,迫使AI集群分散布局于多个城域和区域数据中心。“跨规模”这一概念应运而生,专门用于描述数据中心之间的AI网络连接。然而,数据中心的位置选择以及它们之间的间距,都受到延迟因素的严格制约。
数据中心网络延迟的构成中,光在光纤电缆中传输所耗费的时间占据关键地位。当网络距离跨越城域、区域,甚至延伸至长途和海底时,这一因素逐渐成为影响延迟的主导力量,相比之下,网络设备自身产生的延迟则显得微不足道。因此,光纤延迟的大小主要取决于传输距离以及每公里光纤的延迟特性。那些提供数据中心互连服务(如波长服务、暗光纤和托管光纤网络)的网络运营商,往往通过优化光纤路由,确保拥有最短的光纤路径,以此在激烈的市场竞争中脱颖而出。
每公里光纤延迟与光纤的折射率紧密相关。自20世纪60年代问世以来,传统光纤至今已在全球部署超过70亿公里。尽管在降低损耗和提升性能方面不断取得进步,但这些光纤均采用二氧化硅作为纤芯材料。二氧化硅纤芯光纤(SCF)的折射率约为1.5,这意味着光在其内部的传播速度比在真空中慢约30%。
空芯光纤(HCF)的出现,为光纤技术带来了全新的发展方向。与传统的二氧化硅纤芯光纤不同,空芯光纤的纤芯呈中空状态,内部填充空气或特定气体,其折射率约为1。这一特性使得光在空芯光纤中的传输速度比在传统光纤中快50%,延迟降低约30%。对于AI领域的跨规模应用而言,这一优势意义重大,它能够将数据中心之间的最大连接距离增加50%,同时使数据中心的占地面积扩大125%。这为网络运营商提供了更为广阔的选址空间,使他们能够将数据中心设置在房地产成本较低,且具备充足电力和冷却水资源供应的区域。
在人工智能时代,功耗问题同样备受关注。空芯光纤不仅能够助力数据中心靠近低成本电源布局,还能在降低光网络功耗方面发挥显著作用。其降低功耗的主要途径之一是通过减少光损耗。目前,传统二氧化硅纤芯光纤的光损耗稳定在约0.14 dB/km,而最先进的空芯光纤最小光损耗已降至约0.05 dB/km,研究人员仍在不断探索,力求实现更低的光损耗。更低的光损耗意味着对高耗电光放大器的需求大幅减少。在短距离的数据中心互连应用中,甚至可能无需使用光放大器;中等距离的互连场景中,数据中心之间的光放大需求也可能大幅降低;即使是长距离的互连,所需的在线放大器站点数量也会减少,且站点之间的间隔增大。空芯光纤还具有低色散和非线性损伤的优点,从长远来看,这有望促使相干光引擎的设计更加简化,进而降低功耗。低光损耗特性还可能延伸至数据中心内部,降低相关应用的光功耗。
除了低延迟和降低功耗的优势外,空芯光纤还具备提升光纤容量的潜力,这得益于其更宽的频谱以及改善后的波长频谱效率。然而,在空芯光纤能够在商业环境中实现大规模部署之前,仍面临诸多亟待解决的挑战。这些挑战涵盖成本、可制造性、供应商的多样性,以及与测试、熔接、连接器安装、维修和与传统二氧化硅纤芯光纤耦合等操作环节相关的问题。
尽管面临重重挑战,但近期光学行业会议上传来的消息显示,在空芯光纤领域已取得显著进展。多家主要云服务提供商与空芯光纤供应商纷纷宣布开展部署工作,并建立合作伙伴关系以扩大生产规模。目前,这些初期部署主要聚焦于AI数据中心之间的城域跨规模应用。随着空芯光纤成本的逐步下降和生产规模的不断扩大,低延迟和低损耗的特性有望推动其在数据中心内部的应用,而海底部署则成为空芯光纤生态系统的长期发展目标。