当主流AI社区仍聚焦于用更大模型、更多数据“刷榜”数学竞赛时,Google DeepMind却走出了一条截然不同的路径——让AI学会像人类数学家一样,每一步逻辑都经得起形式化验证。其最新成果AlphaProof Nexus,将大型语言模型(LLM)与Lean形式化证明助手深度耦合,迫使模型从“流畅的叙述者”蜕变为“可编译证明的生成器”。
这一系统设计的核心支柱在于引入了形式化编译器的实时反馈循环。传统上,LLM生成的数学推理更像“草稿”,即便结论正确,中间步骤也可能隐含逻辑漏洞或依赖直觉跳跃。AlphaProof Nexus则让模型在生成证明的过程中,持续读取Lean编译器的错误信息,并对生成的代码进行迭代修正。当遇到困难子问题时,系统还能自动调用更强的定理证明工具辅助求解。这种机制彻底改变了AI的“工作流”:它不再追求输出看似合理的自然语言论证,而是必须将每一步推理转化为Lean可编译的形式化代码,从而将错误的代价显式化——编译失败即逻辑不合格。
测试结果证明了这一范式的潜力与局限。在包含353个Erdős问题(数学领域公认的硬骨头)和492个开放猜想的基准上,AlphaProof Nexus成功攻克了9个Erdős问题,并证明了44个序列猜想。这组数字看似微小,却具有符号意义——它表明AI推理的可验证性和“硬”突破在统计学上可以共存。不过,更多失败案例暴露了当前系统的瓶颈:当LLM无法理解问题本质、或形式化空间遍历效率不足时,编译器反馈反而会放大错误路径的搜索开销。正如研究团队指出,每一条被淘汰的错误证明,都留下了“为何失败”的debug痕迹,这恰恰是传统黑箱式AI数学方法无法提供的反思资产。
将这一工作置于更广阔的AI科研图景中,其价值不止于数学证明本身。它事实上建立了一个“人类提问—模型探索—验证器把关”的新型分工框架。在Lean等验证系统充当“逻辑审计员”之后,LLM的幻觉问题被天然钳制,其输出不再是终点,而是需要经过编译检验的中间候选。这为AI在科学计算、软件验证、安全协议设计等需要“零容忍错误”的领域提供了可复用的方法论。
展望未来,形式化验证与LLM的结合将加速从“辅助猜测”到“可信任推理”的转变。对于从事数学或理论计算机研究的团队,将现有大模型接入Lean、Coq等验证平台,建立反馈驱动的训练管线,是当前最务实、最具性价比的升级方向。而此次9个Erdős问题的解决,或许只是新范式的第一块里程碑。