中文科技资讯
业界资讯 互联网 手机资讯 电脑硬件 数码产品 家电产品 APP应用 手机游戏 美通快讯

智谱AI推出数学模型MathGLM,阿里云魔搭社区全球首发

2023-09-24来源:互联网编辑:汪淼

9月24日消息,智谱AI推出数学模型MathGLM,以提升大语言模型的数学推理能力。它可以在不使用计算器工具的情况下,高效执行复杂算术运算,解答中文数学应用题,部分表现超过GPT4和ChatGPT,目前已在魔搭社区ModelScope全球首发上架。

过往研究认为,大语言模型并不能精确执行高位数的算数运算,尤其是涉及超过8位数的乘法运算以及涉及小数、分数的运算。但MathGLM的出现,足以打破这些偏见。

MathGLM包含10M、100M、500M、2B等多个参数版本,具备处理最多12位数字的运算能力。而且有测评结果显示,通过充分的数据训练,MathGLM-2B可以准确执行多位数的算术运算,准确率高达93.03%(接近100%),显著超越GPT-4在相同测试数据上18.84%的准确率。10亿参数版本的MathGLM-10B则在5000条中文数学应用题的测试数据集上实现了接近GPT-4的性能。

MathGLM出色的表现,离不开其在模型架构、数据集等方面的一系列创新。

针对算术任务,研发团队采用Transformer的decoder架构,并使用自回归目标在生成的算术数据集上从头训练。算术训练数据集包含各类算术任务、各种运算符(含加法、减法、乘法、除法和求幂)、多种数字格式(含整数、小数、百分比、分数和负数)。研发团队还采用分步计算策略对该数据集进行了重构,并且让单个算术表达式由 2 到 10 个运算步骤组成,以方便MathGLM对每个中间结果进行准确计算,从而得到每个算术表达式的正确答案。

评测结果显示,MathGLM在一个包含9592条测试用例、专门为算术任务量身定制的数据集上的表现,显著优于GPT4和ChatGPT。

针对更复杂的数学问题——中文应用题,研发团队微调了一系列以GLM为基座模型、用于解决数学应用题的MathGLM。

训练过程中使用了一个包含21万道中文小学数学题的高质量数据集Ape210K,但其不足之处在于每个题的答案都是直接计算得出,缺乏相应的计算过程。因此,研发团队采用分步策略对Ape210K数据集进行了重构,方便MathGLM深入理解和学习潜在的计算逻辑和规则,逐步计算出每个数学问题的答案,提升最终答案的准确性。

此外,研发团队还使用 ChatGLM-6B 和 ChatGLM2-6B 作为基座模型来训练 MathGLM,赋予 MathGLM 基本的语言理解能力,使其能够有效理解数学应用题中包含的语言信息。

在Ape210K数据集上进行测试的结果显示,MathGLM模型在答案准确性方面已接近GPT-4。在一个包含1-6年级数学应用题的数据集K6上进行评测的结果显示,MathGLM相比于其他中文模型(GPT-4、ChatGPT、Chinese-Alpaca-13B、MOSS-16B、Ziya-LLaMA-13B、Baichuan-7B等),呈现出了更强的数学推理能力。

图片

为方便开发者快速上手体验MathGLM,魔搭社区第一时间推出了模型体验、推理实践教程。

阿里云魔搭社区是国内规模最大、开发者最活跃的AI模型社区,拥有200多万开发者,聚集了20多家头部人工智能机构贡献的1000多款优质AI模型,为开发者提供一站式的模型体验、下载、推理、调优、定制等服务,社区模型累计下载量已突破7500万次。“找大模型,上魔搭”正在成为开发者的共识。

附:

MathGLM模型地址:

https://modelscope.cn/models/ZhipuAI/MathGLM/summary

魔搭创空间MathGLM模型体验链接:

https://www.modelscope.cn/studios/ZhipuAI/MathGLM-demo/summary

魔搭教程链接:

https://mp.weixin.qq.com/s?__biz=MzkxNTM5NTg2OA==&mid=2247486650&idx=1&sn=b1a729a720947a56a27d64dac1182519&chksm=c15e88c9f62901df978105f8ad084a72e651fbb97a7768b4159ecec751120c9772b795a41524#rd

2025年终盘点:10万级新能源SUV怎么选?三款热门车型深度对比与实用建议
为帮助家庭用户精准决策,本文基于第三方权威评测数据、真实车主口碑及行业专家访谈,从产品力、技术可靠性、市场反馈与长期价值四个维度,对2025年12月市场主流车型进行系统分析,形成以下综合实力居前的车型参考,旨…

2025-12-22

MODBUS TCP与PROFIBUS“牵手”:网关赋能日化生产线智能互联新突破
经过多方案比选,我们最终设计了一套以可配置协议网关为核心的通讯架构。我们预先在网关配置软件中,为每个从站设备(如反应釜,地址为DP-3)的每个关键数据(如温度值、阀门状态)在MODBUS的4x保持寄存器区分…

2025-12-21

钛媒体2025 EDGE AWARDS揭晓 阿里云凭实力斩获最佳AI产业公司殊荣
钛媒体App 12月21日消息,钛媒体2025 EDGEAWARDS全球创新评选榜单重磅发布。阿里云成功入选年度AI创新榜,荣膺最佳AI产业公司。 作为全球领先的全栈人工智能服务商,基于自研的飞天云计算操作…

2025-12-21

2025移动卡怎么选?流量多又实惠的套餐攻略,帮你轻松告别流量焦虑!
学生党和轻度用户:如果每月流量需求在50GB以内,主要用于社交、看新闻和偶尔刷视频,那么19元档的套餐(如山青卡、天和卡)就足够了。 从今年的套餐市场来看,有幾個明顯的趋势:一是“纯通用流量”套餐正在崛起,…

2025-12-21

2025移动流量卡避坑指南:限速阈值识别与定向流量高效利用全解析
但现实情况是,几乎所有标榜“无限”的移动套餐都有一套“公平使用策略”。移动大安卡月租19元,包含158G通用流量和30G定向流量,是针对安徽地区的特惠卡。 据2025年工信部报告显示,月租在19.8元左右的套…

2025-12-21

2026苏州服务器托管怎么选?主流服务商、机房及选型攻略全解析
本文将结合基础设施、网络质量、服务能力等维度,对2026年苏州地区主流服务器托管服务商进行深度解析。 二、如何选择适合你的IDC服务商?业务需求:你的业务是面向全国(需优质多线网络),还是主要在本地? …

2025-12-20

工业智能化浪潮下,山东瀚岳智能科技以创新引领智能物品管理柜新发展
作为工业场景化解决方案的***,山东瀚岳智能科技有限公司凭借其深厚的技术积累与行业实践经验,在智慧仓储、智慧园区等领域树立了标杆地位。 瀚岳科技的智能物品管理柜产品线以“高适配性”与“智能化”为核心特点,针对…

2025-12-20