中文科技资讯
业界资讯 互联网 手机资讯 电脑硬件 数码产品 家电产品 APP应用 手机游戏 美通快讯

牛津大学揭秘大型语言模型“深度诅咒”,层归一化缩放技术成破解关键

2025-08-22来源:ITBEAR编辑:瑞雪

在人工智能领域,一项由牛津大学刘世伟教授领衔的国际合作研究近日引起了广泛关注。该研究联合了西湖大学、埃默里大学、大连理工大学及萨里大学等多家顶尖学府,其突破性成果已于2025年7月发表于人工智能领域的权威期刊上。论文题为《大型语言模型中的深度困境》,感兴趣的读者可访问arXiv:2502.05795v2获取全文。

该研究深入探讨了当前最先进的大型语言模型(例如ChatGPT、Claude等)在训练过程中的一个奇特现象:模型层次越深,后续层级的重要性反而越小。为了形象地说明这一问题,研究团队将其比喻为一座智慧大楼,其中每一层本应各司其职,共同为最终智能输出贡献力量。然而,他们惊人地发现,大楼的上半部分“工匠”几乎在消极怠工,即便移除这些层级,模型的整体表现也几乎不受影响。

为了验证这一现象的普遍性,研究团队选取了当前流行的多个大型语言模型家族作为测试对象,包括Llama、Mistral、DeepSeek和Qwen系列。他们巧妙地设计了一系列实验,通过逐一移除模型的不同层级,观察并记录模型性能的变化。实验结果令人震惊:移除深层的多个层级后,模型的表现几乎未受影响,甚至在某些情况下略有提升;相反,移除浅层的任何一层都会导致模型性能显著下降。

研究团队将这一奇特现象命名为“深度困境”。这一名称形象地揭示了当前大型语言模型训练中的一个根本矛盾:尽管我们投入了大量计算资源来训练更深的模型,期望获得更强的能力,但实际上,越深的层级对模型的贡献越小,仿佛被某种无形的困境所束缚。

为了深入理解这一现象,研究团队进一步分析了层与层之间表示的相似性。他们利用角度距离这一数学工具来测量不同层级的输出相似性。结果表明,在深层网络中,相邻层级的输出几乎完全相同,这意味着这些层级只是在重复前面层级的工作,没有产生任何新的有用信息。

研究团队还对比了两种不同的网络架构设计:现代大型语言模型普遍采用的“前置层归一化”(Pre-LN)与较早模型使用的“后置层归一化”(Post-LN)。通过对比实验,他们发现采用Pre-LN的模型更容易出现深度困境现象,而采用Post-LN的模型则表现出相反的趋势:深层比浅层更重要。这一发现为理解深度困境的根源提供了重要线索。

为了揭示深度困境的理论根源,研究团队深入探讨了Pre-LN架构的工作原理。他们发现,在Pre-LN架构中,随着网络层数的增加,输出的方差会呈指数级增长。这种增长导致深层网络的梯度趋近于单位矩阵,使得这些层级几乎变成了“透明层”,没有进行任何有意义的转换。为了直观理解这一概念,研究团队用烹饪过程进行了类比:如果后续步骤只是简单的“保温”操作,那么无论进行多少步骤,最终的味道都不会有太大变化。

面对这一棘手问题,研究团队提出了一个简洁而有效的解决方案:层归一化缩放(LNS)。这一方法的核心思想是通过给每一层的输出乘以一个与层深度相关的缩放因子来控制方差的增长。缩放因子等于当前层深度的平方根的倒数,即1/√l,其中l为层的索引。这种设计确保了每一层都能发挥其应有的作用,避免了深层网络的“偷懒”现象。

为了验证LNS的有效性,研究团队进行了大规模的实验验证。实验涵盖了从小型模型到大型模型的各种规模,结果显示LNS在所有测试规模上都显著优于传统的归一化方法。特别是在工业级别的训练规模下,LNS仍然表现出显著的性能提升。

研究团队还进行了下游任务的微调实验。他们使用Commonsense170K数据集在八个不同的推理任务上测试了经过LNS预训练的模型。结果显示,使用LNS预训练的模型在微调后的表现也明显优于传统方法。这表明LNS不仅改善了预训练效果,还增强了模型的通用学习能力。

为了深入理解LNS的工作机制,研究团队还进行了详细的分析实验。他们验证了LNS确实能够有效控制输出方差,并分析了LNS对层间表示多样性的影响。实验结果表明,LNS成功地让每一层都发挥了应有的作用,提高了模型的整体性能。

LNS的实现既简单又巧妙。它不需要引入额外的可学习参数或调整任何超参数,只需在每个层归一化操作的输出后乘以相应的缩放因子即可。这种设计既保持了Pre-LN的训练稳定性优势,又解决了深层网络效果不佳的问题。

值得注意的是,研究团队还发现LNS与某些初始化策略可能存在冲突。他们建议在使用LNS时移除缩放初始化以获得最佳性能提升。研究团队还将LNS应用到视觉Transformer中进行了初步探索,发现LNS的具体实现可能需要根据不同的模型架构和任务进行调整。

这项研究的实际应用价值巨大。当前训练大型语言模型需要消耗大量计算资源和能源,而深度困境意味着其中相当一部分投资实际上是浪费的。LNS的引入能够提高训练效率和最终性能,降低计算成本。

对于工业界来说,这意味着在相同的计算预算下可以获得更好的模型性能,或者在保持性能不变的情况下显著降低计算成本。考虑到大型语言模型的训练成本高昂,这种效率提升的经济价值不言而喻。

对于研究界来说,这项工作开启了重新审视现有架构设计的新视角。它表明,即使是被广泛采用的设计选择也可能存在根本性缺陷,需要更深入的理论分析来发现和解决。研究团队的工作为未来模型架构的设计提供了重要指导,强调了在追求更深、更大的模型时,必须仔细考虑深度对模型行为的影响。

光联携手利元亨,共话新能源制造AI时代网络新路径与新机遇
聚焦企业在全球范围内的多分支互联与云IDC接入问题,方案基于光联自建全球光纤骨干网络及华为SD-WAN设备,支持MPLS、Internet与4G/5G等多种链路融合,并可弹性部署多种拓扑模型,实现总部、分支…

2025-11-15

桥梁位移监测仪:精准感知位移 灵活部署续航 守护桥梁安全出行
这种方式能够利用清洁能源为设备持续供电,既体现了节能环保的理念,也巧妙地解决了在市政供电不便场景下的设备续航问题,保障了监测工作的不间断进行。为了便于现场操作与维护,桥梁位移监测仪还配备了便捷的配置方式。 …

2025-11-14

星闪智联引领未来:无线短距通信开启智能社会新篇章
为统一目标、保证质量,在国际星闪联盟组织与号召下,联盟领导、行业协会及合作伙伴的11位代表上台发起了《消费电子新短距产业共建倡议》,明确提出要“共建星闪技术新标准、共创智能连接新应用、共赢消费电子新未来”。 …

2025-11-13

苹果推进卫星功能研发:离线地图、第三方接入等拓展iPhone新可能
苹果还为第三方应用程序提供使用卫星连接的应用程序接口(API),这一举措意味着苹果允许开发者自愿将卫星连接功能集成到他们的应用中,为iPhone用户打造出更多创新应用。这一举措或许是苹果在卫星通信领域进一步…

2025-11-12

量子卫星引领通信变革:搭建全球高速安全互联的量子通信新桥梁
卫星可将纠缠光子发送到地面,实现长距离量子通信。 地面量子网络通过卫星互联全球量子密钥分发网络形成实现真正安全、分布式通信3. 军事与国防应用 随着技术成熟和全球布局加速,未来的互联网将不再依赖传统线路,而…

2025-11-12

Marantz与B&W组合:以多元功能承载家庭温情,让音乐共鸣融入日常
我在活动上最常遇到来宾,不管是男的,还是女的,他(她)问我:我手机上这些音乐能不能通过蓝牙,或Apple Airplay传到音响播放。 用高级音响回归音乐本身你会发现原来美好的东西就在身边最近我在电脑里找到了…

2025-11-12

中国互联网发展成果斐然:5G用户超11亿,AI与6G专利领跑全球
8日,由中国网络空间研究院牵头编撰的《中国互联网发展报告2025》和《世界互联网发展报告2025》蓝皮书在2025年世界互联网大会乌镇峰会上正式发布。 报告显示,截至2025年6月,我国固定宽带接入用户总数已…

2025-11-10

乌镇峰会:机器人炫技、AI赋能,共绘网络空间命运共同体新蓝图
潮新闻记者还与宇树科技G1机器人来了一场格斗赛,“小家伙”个头不大,拳脚功夫却耍得游刃有余。 在今年的乌镇峰会上,各类机器人不仅是一场炫技,更是已经逐渐走进大家的日常生活。在他看来,是全球共同努力,推动了人形…

2025-11-10

骁龙8Gen5定档11月发布:用旗舰架构“降维”中端,性能与性价比如何平衡?
不管是户外刷视频还是家里传大文件,都能减少卡顿和等待时间,这对依赖移动网络的用户来说是个不小的加分项。 总的来说,骁龙 8 Gen5 是一颗 “取舍明确的真香芯片”,它放弃了极限性能,却换来了更均衡的体验和更…

2025-11-10