中文科技资讯
业界资讯 互联网 手机资讯 电脑硬件 数码产品 家电产品 APP应用 手机游戏 美通快讯

DeepMind新突破:AI智能体自主发现RL算法,性能超主流算法

2025-10-28来源:快讯编辑:瑞雪

当人工智能(AI)开始具备自主“进化”能力,人类在技术发展中的角色或将被重新定义。近日,Google DeepMind团队在权威科学期刊《自然》上发表了一项突破性研究,提出了一种名为DiscoRL的全新方法,使智能体(Agent)能够在多环境交互中自主发现强化学习(RL)规则,无需依赖人类设计的算法。实验表明,该方法在Atari游戏基准测试中超越了MuZero等主流RL算法,并在未见过的环境中展现出高效稳定的性能。

强化学习是AI实现自主决策的核心技术之一,但长期以来,如何让智能体自主开发高效的RL算法一直是研究难点。传统方法依赖人类专家设计算法,不仅耗时费力,且难以适应复杂多变的环境。DeepMind团队提出的DiscoRL通过多代智能体在不同环境中的交互经验,实现了RL规则的自主发现。其核心在于结合智能体优化与元优化:智能体通过更新策略和预测优化自身参数,元网络则通过调整学习规则的目标,最大化智能体的累积奖励。

具体而言,智能体的训练过程涉及两类优化:在智能体优化阶段,研究团队采用Kullback–Leibler散度衡量策略与预测的差距,确保训练稳定性。智能体会输出策略(π)、观测预测(y)、动作预测(z)等结果,元网络为其生成学习目标,智能体据此更新自身参数。同时,模型引入辅助损失函数,优化动作价值与策略预测,提升学习效率。在元优化阶段,多个智能体在不同环境中独立学习,元网络根据整体表现计算元梯度,调整自身参数以最大化累积回报。智能体参数定期重置,使学习规则能在有限时间内快速提升性能。

为验证DiscoRL的有效性,研究团队以四分位数平均值(IQM)作为综合性能指标,在Atari基准测试中进行了评估。基于57款Atari游戏训练的Disco57规则,在相同游戏中的IQM得分达13.86,超越了MuZero、Dreamer等现有算法,且在实际运行效率上显著优于MuZero。进一步测试显示,Disco57在16个ProcGen二维游戏、Crafter基准测试中均表现出色,并在NetHack NeurIPS 2021挑战赛中获得第三名,且未使用任何领域特定知识。

研究还发现,环境复杂性与多样性对RL规则的泛化能力具有关键影响。基于Atari、ProcGen和DMLab-30三个基准(共103个环境)发现的Disco103规则,在Crafter基准上达到人类水平表现,并在Sokoban任务中接近MuZero的最先进性能。这表明,参与训练的环境越复杂多样,所发现的RL规则越强大,即使面对未见过的环境也能保持高效。

在效率与稳定性方面,DiscoRL同样表现突出。最优版本的Disco57规则在每个Atari游戏约6亿步内被发现,相当于在57个游戏中进行3轮实验,远低于传统人工设计算法所需的实验次数和人力投入。随着训练环境数量增加,DiscoRL在未见过的ProcGen基准上的性能持续提升,显示出强大的扩展性。

DeepMind团队指出,未来高级AI的RL算法设计可能由机器主导,通过高效扩展数据与计算能力实现自动化,无需人类干预。这一突破虽为学术领域带来新潜力,但也引发了对技术社会影响的担忧——当前社会尚未完全准备好应对此类技术的广泛应用。

2025年精选两款上网行为监控软件,助力企业构建高效安全办公网络
然而,员工在工作时间内浏览无关网页、沉迷社交娱乐、私自外传文件、滥用即时通讯工具等行为,不仅影响工作效率,更可能带来数据泄露、病毒感染、合规违规等重大风险。 管理者可查看某员工在一周内使用微信、抖音、Ste…

2025-10-28

宁夏自然资源厅以“自主可控+AI”赋能 筑牢智慧国土网络安全坚实屏障
近日,宁夏自然资源厅以“自主可控技术+智能化防御”为核心,将人工智能深度嵌入自然资源“一张网”,构建高可靠、高可信的网络安全防护体系,为全区智慧国土建设筑牢安全屏障,这也是宁夏自然资源厅贯彻总体国家安全观、落…

2025-10-28

106短信群发是否正规安全?一文带您全面了解其特性与选择要点
号码可溯:每一个106开头的号码都有其归属的发送主体,一旦出现问题,可以迅速追溯到发送企业,确保了责任的明确性。虽然通道是正规的,但市场上的服务商鱼龙混杂,安全性的核心就落在了您所选择的短信群发平台上。 …

2025-10-28

2025年图纸加密秘籍来袭!9款老板力荐软件,守护企业核心资产安全
它会对图纸的全生命周期操作进行毫秒级记录,涵盖文件外发、拷贝、编辑、删除等所有关键行为,详细留存操作人、操作时间、操作路径、设备信息等数据。管理员可通过后台生成可视化报表,实时查看图纸的流转轨迹 —— 谁…

2025-10-27

华为式突破:先默默耕耘占领市场,再轻声宣告成果而非实验室喧嚣
这在当时对于华为来说,绝对是件大事,是能拿出来好好说道说道的资本。直到后来,这种分布式基站彻底打破了爱立信和诺基亚的垄断,市场份额超过了三成,华为在欧洲的业务也坐上了第一把交椅。 看多了这样的新闻,老百姓心…

2025-10-27

安谋科技“山海”SPU安全IP家族,全场景布局守护AI时代安全
博通集成旗下的WiFi蓝牙双模芯片BK7236凭借该方案成功斩获PSA Certified Level 2认证;欧思微的UWB芯片U101A1C9在“山海”E20的技术支持下,顺利取得国家商密L1认证,为物联…

2025-10-27

“双十一”装机攻略来袭,大牌硬件搭配助你省钱又享高性能
为此,我们特别选择了专为游戏打造的处理器——锐龙7 7800X3D,同时搭配技嘉Radeon RX 9070 XT GAMING OC16G魔鹰显卡,二者的联合将游戏感拉满。 此外,我们还在配置中加入了高读…

2025-10-27

Anthropic选用百万谷歌TPU芯片训练Claude大模型 共拓生成式AI新篇
全齐顗网科技讯 北京时间10月24日,据路透社报道,AI创业公司Anthropic周四表示,其Claude大模型将使用多达100万个谷歌AI芯片进行训练,这些芯片价值数百亿美元。Anthropic希望借此…

2025-10-26

安徽电信eSIM业务正式上线!16地市用户畅享“无卡”便捷通信新体验
极简体验:告别卡槽,手机设计更轻薄;换号无需跑营业厅,线上操作秒完成! 在此之前,中国电信eSIM业务已支持智能手表、车载设备等多类终端,此次手机端eSIM业务的引入,将全面推动移动通信服务从传统的实体SI…

2025-10-25

东京与硅谷科技互联新路径:海底光缆、云网融合与安全防护的协同实践
为实现东京-硅谷最优路径,需选择直连或最短路由的光缆系统,例如利用横跨太平洋的北线光缆,避免经东南亚或夏威夷的迂回路径。此外,部署全球负载均衡(GLB)系统,根据用户地理位置、网络状态智能分配访问流量,确保东…

2025-10-25