中文科技资讯
业界资讯 互联网 手机资讯 电脑硬件 数码产品 家电产品 APP应用 手机游戏 美通快讯

AI大考!七大模型挑战马斯克特斯拉入职数学题,谁能脱颖而出?

2025-04-27来源:ITBEAR编辑:瑞雪

近期,一道由特斯拉CEO马斯克在社交平台发布的数学题引发了广泛关注。这道看似简单的算式题“6÷2 (1+2)”却引发了网友们的热烈讨论,答案更是出现了“1”和“9”两种截然不同的声音。

为了解答这一疑惑,斯坦福大学的数学教授塔沃克早在8年前就通过视频进行了详细解释。他强调,按照现代的运算规则,即遵循从左至右的顺序,先进行括号内的运算,再执行乘除运算,最后得到的结果是9。然而,他也提到,在1917年的数学运算规则中,规定碰到除法时,应将左边整个算式除以右边整个算式,因此答案为1。

面对这一充满争议的数学题,人们不禁好奇,如果交给AI大模型来解答,它们能否给出正确答案,并识别出其中的争议点呢?为了验证这一点,多家知名厂商的最新AI大模型被用来进行对比测试。

在测试中,科大讯飞的讯飞星火X1大模型表现尤为突出。它不仅准确识别了图片中的数学题,还详细展示了推理过程。讯飞星火X1先按照现代运算规则得出了正确答案9,同时也考虑了将2 (1+2)视为一个整体的情况,并通过引用数学上的PEMDAS/BODMAS规则,解释了为何这种情况下需要额外的括号,再次确认了正确答案为9。讯飞星火X1还提到了网络上的争议,并指出需要明确题目的书写方式以避免歧义。

同样表现出色的还有OpenAI的o3模型。虽然它没有给出详细的推理过程,但在输出结果中,o3详细展示了计算步骤,并准确给出了答案9。对于争议点,o3的解释同样严谨,明确指出在没有括号的情况下自行施加额外的运算次序并不符合普遍的约定,并科普了旧式计算工具中隐式乘法的优先级情况。

其他模型如DeepSeek R1、字节豆包1.5、文心X1 Turbo、腾讯混元T1以及Grok 3等也进行了测试。这些模型在解答过程中大多能够按照现代运算规则得出正确答案,但在处理争议点时,有的模型解释较为含糊,有的则相对清晰。例如,豆包1.5在推理过程中简洁明了地指出了将2 (1+2)看作整体时应写作6÷[2 (1+2)],但在输出结果中反而没有详细解释这一点。

通过这次测试,我们可以看到AI大模型在深度推理能力方面已经有了显著提升。它们不仅能够按照规则准确计算,还能够识别并解释争议点,展现出类似人类的思考过程。随着技术的不断发展,AI将在未来为我们解决更多复杂问题,带来更加便捷的生活和工作体验。