当一家顶级AI实验室首次披露其内部开发数据,信息密度往往超出外界预期。Anthropic研究院发布的《The Institute》报告,首次系统揭示了AI如何加速自身开发——这不仅是技术迭代的注脚,更是一幅通向通用智能体临界点的路线图。
核心数据几乎重构了“开发效率”的定义:2021至2025年间,Anthropic工程师人均季度代码产量飙升8倍。截至2026年5月,超过80%的合并代码提交由Claude生成。更关键的是,AI生成的代码已进入自动审查阶段——AI正在审核AI编写的代码,形成闭环加速。这一模式与自动驾驶的“影子模式”异曲同工:系统在真实生产环境里持续自我训练,但安全监督层级仍由人类掌控。
软件任务能力的跃迁更为直观。Claude Opus 3(2024年3月)只能完成约4分钟的简单任务;Claude Sonnet 3.7(2025年3月)将时长扩展至1.5小时;而Claude Opus 4.6(2026年3月)可处理12小时的复杂工作流。METR测试中,Claude Mythos Preview甚至展现出连续工作16小时的能力——这已接近人类开发者的单日极限。与此同时,主流基准测试迅速饱和:SWE-bench在两年内从低个位数得分冲至天花板;CORE-Bench在15个月内达到约20%正确率后停滞。这暗示了一个信号:现有评测体系正在失效,未来需要更复杂的长期任务基准。
但“能工作”不等于“能自主”。报告明确指出,AI在自主设定目标、分解长期任务、处理未知环境变量等维度仍存在显著差距。完全自主的递归自我改进(即AI自行优化自身代码并部署,无需人类介入)尚未实现。这与OpenAI、DeepMind在智能体领域的观察一致:系统在明确指令下的执行能力突飞猛进,但“为何做”和“怎样才算完成”的决策权仍牢牢握在人类手中。
对开发者而言,这一趋势意味着“写代码”技能的溢价将迅速贬值,转向系统架构、目标定义和风险管控能力。对政策制定者而言,当AI能够连续执行12小时以上的任务,现有劳动法、安全审计和模型治理框架均需要重新设计——自律监管的窗口期正在收窄。