中文科技资讯
业界资讯 互联网 手机资讯 电脑硬件 数码产品 家电产品 APP应用 手机游戏 美通快讯

微软清华北大联手,推出RRMs模型,让AI推理更智能高效!

2025-05-27来源:ITBEAR编辑:瑞雪

近日,科技界迎来了一项新的突破,微软研究院携手中国顶尖学府清华大学与北京大学,共同推出了一项名为奖励推理模型(RRMs)的创新技术。这项技术旨在通过动态的计算资源分配,优化复杂任务的评估效果,为人工智能领域带来了新的曙光。

强化学习(RL)作为当前大语言模型(LLM)后训练的关键方法,已经引起了广泛的关注。通过人类反馈(RLHF)或可验证奖励(RLVR)提供的监督信号,强化学习在模型训练中发挥着举足轻重的作用。然而,尽管RLVR在数学推理中展现出巨大潜力,但其对可验证答案训练查询的依赖,限制了其在通用领域的大规模应用。

现有的奖励模型主要分为标量型和生成型两大类,但它们在测试时计算资源的扩展上均存在不足。传统的做法是对所有输入一视同仁,统一分配计算资源,这种“一刀切”的方式缺乏对复杂查询的细致分析能力,导致评估结果不尽如人意。为了打破这一瓶颈,微软研究院、清华大学和北京大学的科研团队联手推出了RRMs。

RRMs的核心优势在于其显式推理过程。在给出最终奖励之前,RRMs会执行一系列复杂的推理步骤,根据任务的复杂性自适应地分配额外的计算资源。这一创新机制使得RRMs在面对奖励不明显的复杂查询时,能够投入更多的测试时计算资源,从而得到更准确的评估结果。

RRMs基于Qwen2模型,采用了Transformer-decoder架构,将奖励建模转化为文本补全任务。在生成推理过程后,RRMs会给出最终的判断。为了全面评估RRMs的性能,研究团队利用RewardBench库进行了系统分析,评估指标涵盖了指令遵循性、帮助性、准确性、无害性和细节水平等多个方面。

RRMs还支持多响应评估,通过ELO评分系统和淘汰赛机制,结合多数投票策略,进一步提升了计算资源的利用率。在RewardBench和PandaLM Test基准测试中,RRMs展现出了卓越的性能。特别是在推理类别中,RRM-32B的准确率高达98.6%,与使用相同数据训练的DirectJudge模型相比,RRMs展现出了显著的性能优势。

在奖励引导的最佳N推理(Best-of-N Inference)和后训练反馈中,RRMs同样超越了所有基线模型,并进一步提升了多数投票机制的效率。研究还发现,随着模型规模从7B、14B扩展到32B,更长的推理时间始终能够带来准确性的提升。RRMs通过并行和顺序扩展方法高效地利用了计算资源,为传统的标量奖励模型提供了强有力的替代方案。

这一创新成果不仅为人工智能领域带来了新的突破,也为未来的智能系统发展奠定了坚实的基础。RRMs的推出,标志着我们在复杂任务评估方面迈出了重要的一步,为人工智能的广泛应用开辟了新的道路。

随着技术的不断进步和创新,我们有理由相信,未来的智能系统将更加智能、高效和人性化。RRMs的成功推出,无疑为这一愿景的实现注入了新的活力和动力。

手机靓号选购指南:掌握核心秘诀,轻松避开套路选到心仪靓号
在手机靓号选号购买之前要了解掌握的几个秘密:其一,号码号段比数字更能影响价值,比如说那些老号段存量少、认可度高,同数字组合比177等新号段溢价30%-50%,商务场景更显靠谱;其二,数字组合稀缺性越高,定价…

2025-12-10

苹果谷歌携手新突破:跨平台数据迁移更便捷,全球用户将享便利
尽管欧盟委员会将此次苹果与谷歌的合作归功于 DMA 的推动,但相关功能将面向全球用户推出,而不仅限于欧盟地区。 IT之家注意到,欧盟委员会还强调,这些新功能也将惠及第三方应用开发者,因为开发者将“能够在用户…

2025-12-10

华为携手中国电信发布FTTR+X:家庭宽带升级智能体 开启AI生活新体验
快科技12月10日消息,日前,华为与中国电信天翼数生联合发布新一代智能FTTR产品——FTTR+X。 FTTR+X将传统家庭宽带升级为集连接、算力、智能应用于一体的家庭智能体,号称是“面向AI时代的革命性产品…

2025-12-10

科创50ETF富国(588940)微跌0.07% 最新规模4.83亿 流动性表现如何?
科创50ETF富国(588940)成立于2025年5月21日,基金全称为富国上证科创板50成份交易型开放式指数证券投资基金,基金简称为富国上证科创板50成份ETF。 规模方面,截止12月8日,科创50ETF…

2025-12-10

科技预见未来图景 共绘人类智能文明跃迁新篇章
报告洞悉人类十大科技愿景和技术趋势,描绘未来十大场景和产业变化,以鲜明的中国特色与全球视野,勾勒出未来智能社会的全景图。 量子通信、可控核聚变、太空旅行不再遥不可及,通用机器人进入千家万户,飞行汽车开启立体交…

2025-12-10

华为携手中国电信推出FTTR+X:家庭宽带升级智能体 开启AI新体验
快科技12月10日消息,日前,华为与中国电信天翼数生联合发布新一代智能FTTR产品——FTTR+X。 FTTR+X将传统家庭宽带升级为集连接、算力、智能应用于一体的家庭智能体,号称是“面向AI时代的革命性产品…

2025-12-10

三星首款三折叠屏新机Galaxy Z TriFold官宣,12月19日发售,配置亮点多
其中的折叠屏热度越来越高,前是华为新一代折叠屏,后是三星首款三折叠屏新机,均为旗舰级别。三星首款三折叠屏新机已官宣,将会在12月19日正式发售,现已支持预订,机型是Galaxy Z TriFold,定位在旗…

2025-12-10

荣耀GT2来袭:9900mAh超大电池搭配骁龙8 Elite,续航性能双怪兽
要知道,目前市面上大多数旗舰机的电池容量还在5000mAh左右徘徊,就连一加Ace6T,号称要打破纪录,也不过做到了8300mAh。当别人还在比谁充电快的时候,荣耀直接让你忘记充电器长什么样。接下来就看12…

2025-12-10

2025数智科技生态大会启幕 亚信科技携中国电信共绘数智发展新蓝图
中国电信集团主要领导,专业公司、省市分公司数十位领导莅临亚信科技展位参观交流,亚信科技高级副总裁陈武、欧阳晔,副总裁王祝勇、李云川等受邀出席主论坛等多项活动,向业界呈现亚信科技在“AI FIRST”背景下,与…

2025-12-10