Agent赛道迎来转折点:MiniMax M2以9.8B激活参数捅穿“大模型无用论”天花板

在AI行业竞相追逐更大参数规模的背景下,MiniMax的M2系列选择了一条截然不同的路径:将激活参数压缩至9.8B,却在Agent任务中取得了足以与千亿级模型掰手腕的成绩。这一反直觉的工程选择,很可能正在重塑下一代LLM的部署范式。

参数“瘦身”与性能“增肌”的悖论

M2旗舰模型总参数高达229.9B,但每次推理仅激活9.8B参数。这种极致“吝啬”的激活策略,在智能体编码、深度搜索和复杂办公任务中,表现却与完全激活的模型相当。训练层面采用混合专家(MoE)架构,但不同于通常意义上的“专家路由”,其关键在于训练数据被按照Agent任务类型重新分治。这种“智能体驱动的数据管道”确保每个子模型专精于特定行为模式,而非宽泛的领域知识。

三大组件构建Agent原生操作系统

M2的设计逻辑完全颠覆了“先有大模型,再套Agent壳”的通用做法。其三大核心组件直指Agent落地的三大痛点:

  • 智能体驱动的数据管道:不再是简单堆叠通用文本,而是模拟Agent在执行任务时的完整轨迹——包括工具调用、记忆检索、多轮纠错等。这种从“静态样本”到“动态序列”的转变,使模型天然理解“工具即为语言”。
  • 可扩展的Agent原生强化学习系统Forge:回答“给定一个动作序列,如何奖励”这一关键问题。Forge不是简单的PPO变体,而是设计了针对性地对代码执行成功、搜索路径效率、推理步骤完整性等进行稀疏奖励的机制。这种设计避免了传统RLHF可能造成的“调情式回复”而非“解决问题式回复”。
  • M2.7自进化检查点:展示了一种早期“自我进化”能力:模型在无需人工重新标注的情况下,通过对自身生成结果的反思性学习,竟然协同提升了编码、搜索和推理能力。这表明M2已经具备跨任务泛化学习的潜质。

行业坐标:为什么这是一次“底层逻辑”的对决

当前多数大模型的Agent能力是“外挂式”的,需要复杂的Prompt工程、手工编排和外部工具链。而MiniMax试图将所有Agent交互内化为模型的本能。相比Anthropic的Computer Use强调环境交互,OpenAI的Operator侧重任务编排,M2选择了一条更极端的路径:压缩模型体积,重塑训练范式,让模型本身成为Agent。这在成本、延迟和可部署性上,对中小型开发团队构成了巨大诱惑。

给开发者的信号:该重新审视“模型即基座”这一假设了

对于正在搭建Agent应用的开发者,M2的出现意味着:不必再被“炼丹”式的预训练所困扰。9.8B激活参数意味着可以在消费级显卡上实现前沿效果,而无需依赖昂贵的云端集群。测试表明,M2在代码生成、信息检索和文档处理等典型Office任务上,响应速度明显快于同参数量但非MoE架构的模型。生态层面,建议开发者重点关注其Forge系统的开源性,这将决定其能否真正大规模落地。