DeepMind新范式：用形式化验证将LLM从“叙述者”改造成“证明生成器”

AIHOT小编

2026-05-24 08:17

当主流AI社区仍聚焦于用更大模型、更多数据“刷榜”数学竞赛时，Google DeepMind却走出了一条截然不同的路径——让AI学会像人类数学家一样，每一步逻辑都经得起形式化验证。其最新成果AlphaProof Nexus，将大型语言模型（LLM）与Lean形式化证明助手深度耦合，迫使模型从“流畅的叙述者”蜕变为“可编译证明的生成器”。

这一系统设计的核心支柱在于引入了形式化编译器的实时反馈循环。传统上，LLM生成的数学推理更像“草稿”，即便结论正确，中间步骤也可能隐含逻辑漏洞或依赖直觉跳跃。AlphaProof Nexus则让模型在生成证明的过程中，持续读取Lean编译器的错误信息，并对生成的代码进行迭代修正。当遇到困难子问题时，系统还能自动调用更强的定理证明工具辅助求解。这种机制彻底改变了AI的“工作流”：它不再追求输出看似合理的自然语言论证，而是必须将每一步推理转化为Lean可编译的形式化代码，从而将错误的代价显式化——编译失败即逻辑不合格。

测试结果证明了这一范式的潜力与局限。在包含353个Erdős问题（数学领域公认的硬骨头）和492个开放猜想的基准上，AlphaProof Nexus成功攻克了9个Erdős问题，并证明了44个序列猜想。这组数字看似微小，却具有符号意义——它表明AI推理的可验证性和“硬”突破在统计学上可以共存。不过，更多失败案例暴露了当前系统的瓶颈：当LLM无法理解问题本质、或形式化空间遍历效率不足时，编译器反馈反而会放大错误路径的搜索开销。正如研究团队指出，每一条被淘汰的错误证明，都留下了“为何失败”的debug痕迹，这恰恰是传统黑箱式AI数学方法无法提供的反思资产。

将这一工作置于更广阔的AI科研图景中，其价值不止于数学证明本身。它事实上建立了一个“人类提问—模型探索—验证器把关”的新型分工框架。在Lean等验证系统充当“逻辑审计员”之后，LLM的幻觉问题被天然钳制，其输出不再是终点，而是需要经过编译检验的中间候选。这为AI在科学计算、软件验证、安全协议设计等需要“零容忍错误”的领域提供了可复用的方法论。

展望未来，形式化验证与LLM的结合将加速从“辅助猜测”到“可信任推理”的转变。对于从事数学或理论计算机研究的团队，将现有大模型接入Lean、Coq等验证平台，建立反馈驱动的训练管线，是当前最务实、最具性价比的升级方向。而此次9个Erdős问题的解决，或许只是新范式的第一块里程碑。