深度思维正式推出“数学做题家AI”----中国科学院

深度思维正式推出“数学做题家AI”

其在奥赛中取得相当于银牌的成绩

2025-11-13 科技日报张梦然

【字体：大中小】

语音播报

《自然》杂志11月12日发表了一项重要成果：英国深度思维正式推出其开发的“数学做题家AI”AlphaProof，其成功证明了复杂的数学定理，并在2024年国际数学奥林匹克竞赛（IMO）中取得了相当于银牌的优异成绩。这项研究展示了AI在高难度数学推理领域的显著进步。

深度思维2004年曾透露其混合AI系统在同年的IMO竞赛中表现优异，仅差1分就能摘得金牌。而今正式发布论文推出并详解该AI系统。

这一突破被认为是AI研究领域的又一个里程碑。这是因为用高水平竞赛题目测试AI系统，已成为评估其逻辑推理、抽象思维和解决问题能力的重要标准。这类题目不仅要求严密的演绎推理，还涉及创造性策略和跨领域知识整合，远超普通问答或模式识别任务。因此，能否在IMO等权威竞赛中取得好成绩，被视为衡量AI是否具备“类人”深度推理能力的关键试金石。

目前，许多大型语言模型虽然具备强大的生成能力，却难以验证其推理是否正确，因为它们通常基于非正式的自然语言进行训练和输出，缺乏严格的逻辑结构。为应对这一挑战，深度思维团队将强化学习引入一个名为Lean的正式数学证明环境，在该系统中，所有推理步骤都必须符合形式化逻辑规则，从而能够被自动验证。

AlphaProof是专为证明数学命题而设计的系统。团队首先对约8000万个数学命题进行了自动形式化处理，随后利用强化学习让AlphaProof在这些命题中探索有效的证明路径。结果显示，该系统不仅超越了此前最先进的AI模型在历史IMO题目上的表现，还在今年的竞赛中联合另一款专攻几何的AI系统AlphaGeometry，共同解决了6道题中的4道，达到银牌水平。

尽管AlphaProof在竞赛级数学推理方面展现出惊人能力，但团队坦承其目前仍存在局限，例如在处理某些非标准或高度抽象的数学问题时表现不足。他们指出，未来的研究应聚焦于拓展系统的通用性和适应性。一旦这些障碍被克服，AlphaProof有望成为协助数学家攻克复杂数学难题的有力工具，推动形式化证明与AI的深度融合。

《自然》杂志11月12日发表了一项重要成果：英国深度思维正式推出其开发的“数学做题家AI”AlphaProof，其成功证明了复杂的数学定理，并在2024年国际数学奥林匹克竞赛（IMO）中取得了相当于银牌的优异成绩。这项研究展示了AI在高难度数学推理领域的显著进步。深度思维2004年曾透露其混合AI系统在同年的IMO竞赛中表现优异，仅差1分就能摘得金牌。而今正式发布论文推出并详解该AI系统。这一突破被认为是AI研究领域的又一个里程碑。这是因为用高水平竞赛题目测试AI系统，已成为评估其逻辑推理、抽象思维和解决问题能力的重要标准。这类题目不仅要求严密的演绎推理，还涉及创造性策略和跨领域知识整合，远超普通问答或模式识别任务。因此，能否在IMO等权威竞赛中取得好成绩，被视为衡量AI是否具备“类人”深度推理能力的关键试金石。目前，许多大型语言模型虽然具备强大的生成能力，却难以验证其推理是否正确，因为它们通常基于非正式的自然语言进行训练和输出，缺乏严格的逻辑结构。为应对这一挑战，深度思维团队将强化学习引入一个名为Lean的正式数学证明环境，在该系统中，所有推理步骤都必须符合形式化逻辑规则，从而能够被自动验证。AlphaProof是专为证明数学命题而设计的系统。团队首先对约8000万个数学命题进行了自动形式化处理，随后利用强化学习让AlphaProof在这些命题中探索有效的证明路径。结果显示，该系统不仅超越了此前最先进的AI模型在历史IMO题目上的表现，还在今年的竞赛中联合另一款专攻几何的AI系统AlphaGeometry，共同解决了6道题中的4道，达到银牌水平。尽管AlphaProof在竞赛级数学推理方面展现出惊人能力，但团队坦承其目前仍存在局限，例如在处理某些非标准或高度抽象的数学问题时表现不足。他们指出，未来的研究应聚焦于拓展系统的通用性和适应性。一旦这些障碍被克服，AlphaProof有望成为协助数学家攻克复杂数学难题的有力工具，推动形式化证明与AI的深度融合。

打印

责任编辑：范思璐

扫一扫在手机打开当前页

院机关

派驻机构

分院

院属机构

深度思维正式推出“数学做题家AI”

其在奥赛中取得相当于银牌的成绩