AI推理模型受热捧，基准测试费用为何水涨船高？-手机资讯-中文科技资讯

随着人工智能技术日新月异的发展，推理AI模型逐渐成为了科研领域的热门焦点。这类模型能够模拟人类的思考过程，尤其在物理学等专业领域，展现出了超越非推理模型的卓越能力。然而，高昂的测试成本却成为了验证这些模型性能的一大障碍。

据第三方AI测试机构“人工智能分析”提供的数据，评估不同推理模型的费用差异显著。以OpenAI的o1推理模型为例，在七个主流的AI基准测试中的评估费用高达2767.05美元，折合人民币约20191元。相比之下，Anthropic的Claude 3.7 Sonnet混合推理模型的评估费用为1485.35美元，折合人民币约10839元。而OpenAI的o3-mini-high模型评估则仅需344.59美元，折合人民币约2514元。尽管存在费用较低的模型，如OpenAI的o1-mini评估费用仅为141.22美元，折合人民币约1030元，但整体来看，推理模型的测试成本依然偏高。

“人工智能分析”机构已投入约5200美元，折合人民币约37945元，用于评估十几种推理模型，这一投入几乎是非推理模型评估费用2400美元的两倍。OpenAI在2024年5月发布的非推理GPT-4o模型评估成本仅为108.85美元，而Claude 3.6 Sonnet的评估成本更是低至81.41美元。该机构的联合创始人乔治·卡梅伦表示，随着推理模型的开发日益增多，测试预算也将相应增加。

AI初创公司“通用推理”的首席执行官罗斯·泰勒也面临着测试成本上升的挑战。他透露，为评估Claude 3.7 Sonnet，使用了约3700个独特的提示词，费用高达580美元。泰勒估计，仅对MMLU Pro进行一次完整测试的成本就可能超过1800美元。他担忧地指出，随着资源投入的差异，学者可能无法复制实验室的报告结果。

推理模型测试成本高昂的主要原因在于其生成的token数量庞大。Token是原始文本的片段，如将单词“fantastic”拆分为多个音节。据“人工智能分析”称，在基准测试中，OpenAI的o1模型生成了超过4400万个token，是GPT-4o生成量的八倍。由于大多数AI公司按token收费，因此成本迅速累积。

现代基准测试包含复杂、多步骤任务的问题，导致模型生成大量token。Epoch AI的高级研究员让-斯坦尼斯拉斯·德内恩指出，尽管每个基准测试的问题数量总体减少，但问题本身更加复杂，旨在评估模型执行现实世界任务的能力，如编写和执行代码、浏览互联网等。最昂贵的模型每百万输出token的成本也在不断增加。例如，Anthropic发布的Claude 3 Opus模型每百万输出token的成本为75美元，而OpenAI的GPT-4.5和o1-pro模型的成本则分别为150美元和600美元。

德内恩表示，尽管随着技术进步，模型的性能提升且成本有所下降，但评估最大最好的模型仍需支付高昂费用。部分AI实验室，包括OpenAI，为测试目的向基准测试组织提供免费或补贴的模型访问权限，但一些专家担忧这可能影响测试结果的公正性。

恒为科技：从可视化到智算，让复杂算力“看得见、管得住”

这家公司从 2003 年起步，长期在“网络可视化”和“智能系统平台”两条看似技术化的赛道上耕耘，逐步在运营商、科研院所、大型行业客户中建立信任与交付能力。它不像爆款公司那样靠一款产品跑路，而是靠一条条项目、…

2025-11-15

蓝牙耳机被他人连接别慌！三招轻松夺回“控制权”

当发现耳机被别人连接时，最直接的解决方法是重置连接。操作很简单：先打开你的手机蓝牙设置，找到已配对的耳机名称，选择“忽略此设备”或“取消配对”。最后，在手机蓝牙列表中找到你的耳机并重新点击连接即可。这个操作…

2025-11-15

“祖冲之三号”同款芯片赋能！我国超导量子计算机“天衍-287”搭建完成并开放服务

据了解，该量子计算系统具备“量子计算优越性”能Q力，处理特定问题的速度比目前最快的超级计算机快4.5亿倍，未来将接入“天衍”量子计算云平台并首次面向全球开放应用服务，这也将是我国首个具备“量子计算优越性”的量…

2025-11-14

5.5G辐射危害健康？物理学者：比太阳光频率低，基站越密越安全

我当时听了都愣了，太阳光那不是好东西吗，怎么还跟信号辐射扯一块儿了？最有意思的是，他说大家都觉得基站多了辐射就大，这完全是搞反了。之前吵得最凶的那个阿姨，现在天天用5.5G跟外地的孙子视频，还跟邻居说这新基…

2025-11-14

谷歌AI新动作与苹果不谋而合，隐私赛道上苹果技术路线获印证

过去几个月里，我得出一个结论：苹果在AI方面的困境真正令人失望的地方，并不仅仅是人们普遍认为它在当前AI趋势中"落后"了。 A：苹果确实错过了ChatGPT发布引发的AI变革浪潮，在大语言模型产品方面相比其…

2025-11-13

昕锐CL系列激光测距模块：定制化驱动低空经济场景变革新引擎

结语：定制化，是技术普惠的终极路径当测距模块从“标准化商品”进化为“场景化服务”，昕锐CL系列不仅解决了无人机与吊舱的“精准降本”难题，更重新定义了技术与需求的关系：技术突破的价值，不在于参数的堆砌，而在于…

2025-11-13

上海电信“双万兆”护航进博会：数智赋能通信保障，服务跨越语言距离

浦东机场T1电信营业厅及T2一站式服务中心电信柜台是进博会观众和外宾抵沪的“入境第一站”，两处服务点均开设“进博专席”，为参展人员和往来旅客提供中英双语咨询、交通指引与爱心便民服务。未来，上海电信将持续夯…

2025-11-13

照片压缩至5M内超全指南！七大实用方法助你轻松搞定分享难题

具体的执行步骤是：将它们直接开启，随后去挑选照片，该应用会自动给出推荐的压缩级别，你能去预览最终结果，还能够对某些设置予以调整，比如把分辨率调低或者转换格式，借此令文件大小小于5MB，这对即时分享至社交媒体来…

2025-11-12

2025金砖大赛大数据分析赛项落幕多元力量共促数智化人才培养新篇章

新道科技助理总裁唐梦彬在致辞中表示，大赛把企业数智化转型过程中的业务模式、典型场景与大数据分析技术相结合，体现行业和企业对人员技能的最新标准，让师生深入了解当前数智化企业的运营和管理模式，提升大数据分析的理…

2025-11-12

等保2.0成企业必答题！网络合规差距与优化路径全解析

实践中发现，许多企业在宽带层面存在共性差距，亟需从专业角度优化改进。在网络核心节点部署流量探针，实现全量网络流量采集；建议搭建专用日志审计平台，统一存储日志并支持多维度分析，确保日志完整性与可追溯性。 1.…

2025-11-12