Agent赛道迎来转折点：MiniMax M2以9.8B激活参数捅穿“大模型无用论”天花板

AIHOT小编

2026-05-27 15:04

在AI行业竞相追逐更大参数规模的背景下，MiniMax的M2系列选择了一条截然不同的路径：将激活参数压缩至9.8B，却在Agent任务中取得了足以与千亿级模型掰手腕的成绩。这一反直觉的工程选择，很可能正在重塑下一代LLM的部署范式。

参数“瘦身”与性能“增肌”的悖论

M2旗舰模型总参数高达229.9B，但每次推理仅激活9.8B参数。这种极致“吝啬”的激活策略，在智能体编码、深度搜索和复杂办公任务中，表现却与完全激活的模型相当。训练层面采用混合专家（MoE）架构，但不同于通常意义上的“专家路由”，其关键在于训练数据被按照Agent任务类型重新分治。这种“智能体驱动的数据管道”确保每个子模型专精于特定行为模式，而非宽泛的领域知识。

三大组件构建Agent原生操作系统

M2的设计逻辑完全颠覆了“先有大模型，再套Agent壳”的通用做法。其三大核心组件直指Agent落地的三大痛点：

智能体驱动的数据管道：不再是简单堆叠通用文本，而是模拟Agent在执行任务时的完整轨迹——包括工具调用、记忆检索、多轮纠错等。这种从“静态样本”到“动态序列”的转变，使模型天然理解“工具即为语言”。
可扩展的Agent原生强化学习系统Forge：回答“给定一个动作序列，如何奖励”这一关键问题。Forge不是简单的PPO变体，而是设计了针对性地对代码执行成功、搜索路径效率、推理步骤完整性等进行稀疏奖励的机制。这种设计避免了传统RLHF可能造成的“调情式回复”而非“解决问题式回复”。
M2.7自进化检查点：展示了一种早期“自我进化”能力：模型在无需人工重新标注的情况下，通过对自身生成结果的反思性学习，竟然协同提升了编码、搜索和推理能力。这表明M2已经具备跨任务泛化学习的潜质。

行业坐标：为什么这是一次“底层逻辑”的对决

当前多数大模型的Agent能力是“外挂式”的，需要复杂的Prompt工程、手工编排和外部工具链。而MiniMax试图将所有Agent交互内化为模型的本能。相比Anthropic的Computer Use强调环境交互，OpenAI的Operator侧重任务编排，M2选择了一条更极端的路径：压缩模型体积，重塑训练范式，让模型本身成为Agent。这在成本、延迟和可部署性上，对中小型开发团队构成了巨大诱惑。

给开发者的信号：该重新审视“模型即基座”这一假设了

对于正在搭建Agent应用的开发者，M2的出现意味着：不必再被“炼丹”式的预训练所困扰。9.8B激活参数意味着可以在消费级显卡上实现前沿效果，而无需依赖昂贵的云端集群。测试表明，M2在代码生成、信息检索和文档处理等典型Office任务上，响应速度明显快于同参数量但非MoE架构的模型。生态层面，建议开发者重点关注其Forge系统的开源性，这将决定其能否真正大规模落地。