中文科技资讯
业界资讯 互联网 手机资讯 电脑硬件 数码产品 家电产品 APP应用 手机游戏 美通快讯

DeepMind AI破解数学奥赛几何题,金牌水平不在话下?

2025-02-08来源:ITBEAR编辑:瑞雪

近期,科技界迎来了一项令人瞩目的成就:谷歌DeepMind实验室的人工智能系统AlphaGeometry2,在攻克国际数学奥林匹克竞赛(IMO)中的几何难题上,取得了前所未有的突破,其解题能力甚至超越了历年的金牌平均水平。

AlphaGeometry2是DeepMind在今年早些时候推出的AlphaGeometry系统的升级版。据DeepMind团队最新发布的论文显示,这一AI系统能够解答过去25年间国际数学奥林匹克竞赛中出现的84%的几何题目。国际数学奥林匹克竞赛作为面向全球高中生的顶级数学赛事,其难度与挑战性不言而喻。而DeepMind认为,探索解决复杂几何问题,尤其是欧几里得几何问题的新方法,或许能够为开发更强大的人工智能提供关键线索。

在数学领域,证明定理或解释定理为何成立,不仅需要严密的逻辑推理能力,还需要从众多可能的解题路径中做出正确选择。如果DeepMind的见解正确,那么这些解题技巧将是未来构建通用人工智能模型不可或缺的要素。

去年夏天,DeepMind曾展示过一个结合AlphaGeometry2与AlphaProof(一个专注于形式化数学推理的AI模型)的系统,该系统成功解答了2024年国际数学奥林匹克竞赛中的4道题目,占总数6题的2/3。这一成果预示着,类似的方法不仅限于几何问题,还有望拓展至数学乃至科学的其他领域,比如辅助复杂的工程计算。

AlphaGeometry2的核心组件包括谷歌Gemini系列AI模型中的语言模型,以及一个强大的“符号引擎”。Gemini模型与符号引擎协同工作,符号引擎利用数学规则推导出问题的解决方案,并为给定的几何定理提供有效的证明。

然而,将证明转化为AI可理解的格式并非易事,加之可用的几何训练数据稀缺,给研究带来了不小的挑战。为此,DeepMind为AlphaGeometry2的语言模型专门生成了合成数据,这些数据涵盖了超过3亿个不同复杂度的定理和证明,为AI的训练提供了坚实的基础。

为了验证AlphaGeometry2的解题能力,研究团队从过去25年的国际数学奥林匹克竞赛中精选了45道几何题目,这些题目涉及线性方程和需要在平面上操作的几何对象。随后,他们将这些题目“转化”为一个包含50道题目的更大集合(部分题目因技术原因被拆分为两题)。据论文所述,AlphaGeometry2成功解答了其中的42题,得分超过了平均金牌得主的40.9分。

尽管如此,AlphaGeometry2仍存在一定的局限性。例如,它无法处理涉及可变数量点、非线性方程和不等式的问题。尽管AlphaGeometry2并非首个达到几何问题金牌水平的AI系统,但它是首个在如此广泛的问题集上实现这一成就的系统。

在另一组更具挑战性的题目测试中,AlphaGeometry2的表现略显不足。DeepMind团队额外选取了29道由数学专家提名但尚未出现在竞赛中的题目,AlphaGeometry2仅成功解答了其中的20题。

技嘉B860M冰雕主板深度评测:千元价位与酷睿Ultra的完美搭档
XMP AI Boost的DDR5-8200 CL40挡位也能够顺利开启,再叠加上高带宽、低延迟功能的性能加成之后,内存性能继续得到提升,但写入性能基本上是到顶了,主要是受限于B860芯片组主板无法调整CP…

2025-11-14

杭州上城第三批50个“人工智能+”场景发布 涵盖多领域促发展
11月13日,杭州市上城区第三批“人工智能+”机会场景发布会暨场景供需对接会活动举行,推出50个高价值场景,涵盖社会治理、金融服务、民生服务、城市管理、智能建造、文化旅游、时尚消费等多个热门领域。如,由上城…

2025-11-14

高光谱探测器助力宽带叠层扫描成像 开启3D高光谱成像新篇
最近的研究表明,能量分辨或高光谱探测器可以在某种程度上取代单色器的作用来执行,例如,在单次采集中使用宽带辐射进行边缘减影叠层扫描成像。利用这样的探测器,时间相干性变得可调(在探测器的能量分辨率的限制内)并且在…

2025-11-12

乐鑫年会背后:17年创新坚守,从芯片到生态开启万物互联新征程
重要的是早在2024年,乐鑫科技就已成功突破Wi-Fi 6E技术,完成2.4GHz/5GHz/6GHz全频段技术布局,为Wi-Fi7产品研发奠定核心技术基础。 乐鑫从单枪匹马的上海浦东到登录科创板的行业排…

2025-11-12

中国电信携手多方完成2万公里中轨NTN在轨验证 助力6G天地一体组网
试验配置 Ka 频段 100MHz 带宽,基于自研的 NTN 终端样机,完成 FR2 频段 n510参数配置的透明转发模式在轨通信技术验证及海域宽带应用试点,实测下行峰值速率达 140Mbps(IT之家注…

2025-11-11

湖北Steam Deck下载遇阻?连接超时不用慌,这些方法助你畅享游戏
下载并安装UU加速器打开UU加速器,搜索并选择"Steam"在加速选项中,特别选择"下载异常专用"区服启动加速后再打开Steam Deck进行下载许多湖北用户反馈,使用这种方式后,原本停滞的下载进度条重新开…

2025-11-11

毕马威进博会聚焦运营服务:以智能驱动,助企业迈向可持续增长新路
毕马威运营服务四大核心价值运营重塑(Operational Reinvention)不只是把流程自动化,而是让智能成为业务的一部分。 在复杂监管中确保透明与合规在多业务场景中提升客户体验与决策质量在跨职能协作…

2025-11-11

解码细胞“对话”密码:单细胞转录组技术洞察疾病微环境奥秘
3. 通讯潜力: 如果细胞A表达配体,同时细胞B表达匹配的受体,那么A to B 的信号通路就被认为具有潜在的通讯活性。如果发现成纤维细胞通过TGF-β 信号轴强烈抑制 NK 细胞,那么 TGF-β 阻断…

2025-11-11

2025年AI智能鼠标深度体验:星火大模型赋能,它能替代哪些办公工具?
AI智能鼠标2025深度测评:星火大模型加持,AI问答、AI绘图能替代哪些工具?当一款鼠标,内嵌了如科大讯飞星火这般强大的认知大模型时,它所带来的,远不止是光标移动的流畅,更是一场关于效率与创造力的革命。我们…

2025-11-10