当AI在数学证明中编造“看起来合理”的步骤时,人类审视者往往难以快速揪出错误。Google DeepMind最新提出的AlphaProof Nexus系统,试图用编译器这把“铁尺”彻底扭转这一局面。该系统并非简单地让大语言模型“头脑风暴”证明思路,而是将LLM与形式化验证工具Lean紧密耦合:模型每生成一个证明片段,就必须将其翻译成Lean能够编译的代码,若编译失败(即发现逻辑漏洞或形式错误),系统会读取错误信息并驱动模型自动修正,同时允许调用更强大的验证器(如SMT求解器)辅助解决子问题。
这种机制最直接的冲击是:AI的角色从“令人信服的叙述者”转变为“候选方案生成器”。在传统模式中,LLM倾向于流畅地罗列步骤,即使中间存在跳跃或隐含假设,也能凭借语言惯性取信于人。AlphaProof Nexus则通过编译时检查将每一步证明逻辑显式化、可计算化——如果一条推理无法通过Lean的类型检查或逻辑判定,它就压根不是有效的数学步骤。这相当于剥夺了模型“蒙混过关”的捷径,迫使其在严格的形式化框架内探索。
在评估中,DeepMind团队使用了包含353个Erdős问题(多为经典未解或已解难题)和492个开放猜想的测试集。结果AlphaProof Nexus成功解决了9个Erdős问题,并证明了44个序列猜想(来自OEIS)。更值得关注的是失败案例:系统在部分未解决的猜测中暴露了隐藏的逻辑缺陷,这些缺陷在纯文本推理阶段从未被LLM自身识别。这恰好验证了形式化验证的价值——它不仅帮助AI找到正确路径,还能帮助人类精确看到错误所在。
从行业视角看,AlphaProof Nexus并非第一个用形式化方法辅助AI证明的系统,但其“LLM+持续编译反馈+分层工具调用”的架构,将此前零散的尝试整合为一个可复用的工作流。此前OpenAI的Lean证明尝试更多依赖少量样本微调,而DeepMind的做法更强调在推理时动态纠错,让编译器充当实时的逻辑监护人。这种分工意味着:人类数学家可以更多专注于提出有意义的问题,AI负责在形式化空间中高速搜索候选证明,而验证器负责把关每一步的严谨性——三者形成高效闭环。
对于AI for math领域,这一进展的启示在于:形式化验证应被视为基础能力,而非事后验证工具。未来任何宣称“AI证明数学定理”的成果,都应当像AlphaProof Nexus一样,提供可编译、可重演的Lean代码,而非仅仅依赖人类的直觉判断。这不仅消除幻觉风险,也为数学知识的自动化累积铺平了道路——当证明变成可执行的程序,跨领域的复用与检查将不再依赖专家的心智负担。