MiniMax M2:用9.8B激活参数打破Agent部署的“铁三角”

当大多数厂商还在执着于扩大总参数量,MiniMax用M2系列证明了一件更重要的事——在Agent部署场景中,激活效能的提升远比参数总量的堆叠更具价值。

M2系列的旗舰模型采用了混合专家(MoE)架构,这一设计本身并不令人意外。关键数据在于:总参数229.9B,但处理每个token时仅激活9.8B参数。这意味着在推理阶段,模型只需调用约4.3%的参数完成计算,大幅降低显存和计算资源需求。这种“瘦身但不瘦脑”的设计思路,直接响应了Agent部署中对响应速度和成本敏感性的双重诉求。

更值得关注的是M2的创新不是单一维度,而是构建了一个完整的“智能体原生”系统。这套系统由三大核心组件构成:

其一,智能体驱动的数据管道。传统LLM数据获取多基于静态标注或预定义模板,而M2的管道直接嵌入Agent的交互过程,从真实任务执行中提取训练样本,让模型学会“在行动中思考”,而非“从文本中模仿答案”。这意味着模型对不同Agent场景的边界条件具备更强适应力,尤其适合需要规划、工具调用、多轮推理的复杂任务。

其二,可扩展的Agent原生强化学习系统“Forge”。多数厂商在RLHF阶段使用通用奖励模型,但Agent场景中“正确路径”往往存在多个分支,且依赖工具执行反馈(如API调用结果、代码编译输出等)。Forge强调直接与Agent环境对齐,基于任务完成率和效率建立奖励信号。对比传统基于人类偏好的强化学习,这种设计减少了评分者的主观偏差,使模型的策略优化更贴近实际部署。

其三,具有早期自我进化能力的M2.7检查点。这并非一个功能特性,而是一个方向性信号。MiniMax在论文中暗示:未来模型可在Agent循环中自主学习任务和策略,而非依赖人类的微调介入。这意味着模型在持续执行任务的过程中可自动优化行为策略,减少手动干预,这对于追求规模化自治Agent的团队意义深远。

从基准测试结果看,M2系列在Agent编码、深度搜索、办公任务和推理维度已进入前沿梯队。尤其值得注意的是,在激活参数被压缩至9.8B的条件下,其表现依然能媲美甚至超过某些全参数量更大但缺乏Agent优化的同类模型。

对于正在构建Agent系统的开发者和企业决策者,M2系列至少传递两个信号:首先,参数堆叠的“军备竞赛”在Agent场景下可能不再是最优解,稀疏激活配合数据与训练系统的专门优化,能提供更高性价比。其次,MiniMax的三大组件设计逻辑,即“Agent任务驱动数据→强化学习直接对齐环境→自我进化机制”,代表了一种可复用的行业方法论。

在算力成本持续高企的环境下,M2系列的价值不仅在于技术突破,更在于提示行业:比模型更大是更好的系统设计。对于务实追求Agent落地效果的团队,值得将其纳入评测对比的基准模型集合。毕竟,当9.8B激活参数就能站上前沿,行业或许需要重新思考“算力效率”的定义。