DeepMind用Lean编译器“校准”AI数学直觉，9个Erdős难题被攻克

AIHOT小编

2026-05-24 19:48

大语言模型（LLM）在数学推理上的表现常陷入“令人信服但错误”的困境——生成的步骤逻辑流畅，却经不起严格校验。DeepMind最新研究AlphaProof Nexus试图根治这一顽疾，其核心策略是用形式化验证工具Lean作为“编译器”，强制AI证明的每一步都必须能通过代码编译，从而将模型从“叙事者”降维为“候选方案生成器”。

该系统的运作机制并非简单地将LLM输出送入验证器。在证明生成过程中，LLM会反复读取Lean抛出的编译错误，并据此修正代码；同时，系统可自动调用更强的专用工具（如符号求解器）协助解决子问题。这种“生成-验证-反馈-修正”的闭环迫使LLM将抽象推理转化为可精确执行的形式化代码，任何隐含的假设或跳跃逻辑都会被编译器捕捉并暴露。

在针对353个Erdős问题（数学界公认的高难度开放问题）和492个整数数列开放猜想的测试中，AlphaProof Nexus成功解决了9个Erdős问题并证明了44个序列猜想。虽然数量看似微小，但需要指出的是，这些问题的难度决定了即便单一突破也具备学术价值。更重要的是，未能解决的案例同样贡献巨大——形式化验证清晰地标记了模型在哪一步犯了错，这些错误往往是被传统评估中“看起来合理”的叙述所掩盖的。

这一成果的深层意义在于重新定义了AI参与数学研究的角色。此前，AI更多提供“直觉”或“启发式搜索方向”，但验证责任落在人类身上。AlphaProof Nexus则构建了“人类提问—模型探索—验证器把关”的新分工模型：LLM负责生成大量猜想和候选证明，Lean编译器以无情的严格性剔除所有逻辑漏洞，人类数学家只需聚焦于验证通过的优雅证明和解释。这相当于为AI的数学推理加装了一道“语法检查”防线，使错误不可见地转化为可见的编译失败。

从行业趋势看，形式化验证与LLM的深度绑定正在成为AI严谨推理的标配。OpenAI的o1模型已将“思维链”与外部验证结合，而DeepMind直接选择了最严格的形式化数学工具Lean。未来，任何需要可靠性的AI应用（如定理证明、代码生成、科学实验设计）都可能借鉴这种“生成+编译器验证”的范式。对于AI开发者而言，关键启示在于：不要过度依赖模型内部的“推理能力”，而应主动为其搭建可执行的外部校验环境——让错误像未通过编译的代码一样无处遁形。

AlphaProof Nexus的论文已在arXiv公开，其代码和数据集也计划逐步开放。对于数学研究者来说，这或许意味着一个全新工具时代的开端：AI不再是取代数学家，而是成为能自动过滤逻辑错误的“初级助理”，而人类则能更专注于创造性的问题提出与证明解读。