DeepMind用Lean编译器“校准”AI数学直觉,9个Erdős难题被攻克

大语言模型(LLM)在数学推理上的表现常陷入“令人信服但错误”的困境——生成的步骤逻辑流畅,却经不起严格校验。DeepMind最新研究AlphaProof Nexus试图根治这一顽疾,其核心策略是用形式化验证工具Lean作为“编译器”,强制AI证明的每一步都必须能通过代码编译,从而将模型从“叙事者”降维为“候选方案生成器”。

该系统的运作机制并非简单地将LLM输出送入验证器。在证明生成过程中,LLM会反复读取Lean抛出的编译错误,并据此修正代码;同时,系统可自动调用更强的专用工具(如符号求解器)协助解决子问题。这种“生成-验证-反馈-修正”的闭环迫使LLM将抽象推理转化为可精确执行的形式化代码,任何隐含的假设或跳跃逻辑都会被编译器捕捉并暴露。

在针对353个Erdős问题(数学界公认的高难度开放问题)和492个整数数列开放猜想的测试中,AlphaProof Nexus成功解决了9个Erdős问题并证明了44个序列猜想。虽然数量看似微小,但需要指出的是,这些问题的难度决定了即便单一突破也具备学术价值。更重要的是,未能解决的案例同样贡献巨大——形式化验证清晰地标记了模型在哪一步犯了错,这些错误往往是被传统评估中“看起来合理”的叙述所掩盖的。

这一成果的深层意义在于重新定义了AI参与数学研究的角色。此前,AI更多提供“直觉”或“启发式搜索方向”,但验证责任落在人类身上。AlphaProof Nexus则构建了“人类提问—模型探索—验证器把关”的新分工模型:LLM负责生成大量猜想和候选证明,Lean编译器以无情的严格性剔除所有逻辑漏洞,人类数学家只需聚焦于验证通过的优雅证明和解释。这相当于为AI的数学推理加装了一道“语法检查”防线,使错误不可见地转化为可见的编译失败。

从行业趋势看,形式化验证与LLM的深度绑定正在成为AI严谨推理的标配。OpenAI的o1模型已将“思维链”与外部验证结合,而DeepMind直接选择了最严格的形式化数学工具Lean。未来,任何需要可靠性的AI应用(如定理证明、代码生成、科学实验设计)都可能借鉴这种“生成+编译器验证”的范式。对于AI开发者而言,关键启示在于:不要过度依赖模型内部的“推理能力”,而应主动为其搭建可执行的外部校验环境——让错误像未通过编译的代码一样无处遁形。

AlphaProof Nexus的论文已在arXiv公开,其代码和数据集也计划逐步开放。对于数学研究者来说,这或许意味着一个全新工具时代的开端:AI不再是取代数学家,而是成为能自动过滤逻辑错误的“初级助理”,而人类则能更专注于创造性的问题提出与证明解读。