MiniMax M2：用9.8B激活参数打破Agent部署的“铁三角”

AIHOT小编

2026-05-27 18:06

当大多数厂商还在执着于扩大总参数量，MiniMax用M2系列证明了一件更重要的事——在Agent部署场景中，激活效能的提升远比参数总量的堆叠更具价值。

M2系列的旗舰模型采用了混合专家（MoE）架构，这一设计本身并不令人意外。关键数据在于：总参数229.9B，但处理每个token时仅激活9.8B参数。这意味着在推理阶段，模型只需调用约4.3%的参数完成计算，大幅降低显存和计算资源需求。这种“瘦身但不瘦脑”的设计思路，直接响应了Agent部署中对响应速度和成本敏感性的双重诉求。

更值得关注的是M2的创新不是单一维度，而是构建了一个完整的“智能体原生”系统。这套系统由三大核心组件构成：

其一，智能体驱动的数据管道。传统LLM数据获取多基于静态标注或预定义模板，而M2的管道直接嵌入Agent的交互过程，从真实任务执行中提取训练样本，让模型学会“在行动中思考”，而非“从文本中模仿答案”。这意味着模型对不同Agent场景的边界条件具备更强适应力，尤其适合需要规划、工具调用、多轮推理的复杂任务。

其二，可扩展的Agent原生强化学习系统“Forge”。多数厂商在RLHF阶段使用通用奖励模型，但Agent场景中“正确路径”往往存在多个分支，且依赖工具执行反馈（如API调用结果、代码编译输出等）。Forge强调直接与Agent环境对齐，基于任务完成率和效率建立奖励信号。对比传统基于人类偏好的强化学习，这种设计减少了评分者的主观偏差，使模型的策略优化更贴近实际部署。

其三，具有早期自我进化能力的M2.7检查点。这并非一个功能特性，而是一个方向性信号。MiniMax在论文中暗示：未来模型可在Agent循环中自主学习任务和策略，而非依赖人类的微调介入。这意味着模型在持续执行任务的过程中可自动优化行为策略，减少手动干预，这对于追求规模化自治Agent的团队意义深远。

从基准测试结果看，M2系列在Agent编码、深度搜索、办公任务和推理维度已进入前沿梯队。尤其值得注意的是，在激活参数被压缩至9.8B的条件下，其表现依然能媲美甚至超过某些全参数量更大但缺乏Agent优化的同类模型。

对于正在构建Agent系统的开发者和企业决策者，M2系列至少传递两个信号：首先，参数堆叠的“军备竞赛”在Agent场景下可能不再是最优解，稀疏激活配合数据与训练系统的专门优化，能提供更高性价比。其次，MiniMax的三大组件设计逻辑，即“Agent任务驱动数据→强化学习直接对齐环境→自我进化机制”，代表了一种可复用的行业方法论。

在算力成本持续高企的环境下，M2系列的价值不仅在于技术突破，更在于提示行业：比模型更大是更好的系统设计。对于务实追求Agent落地效果的团队，值得将其纳入评测对比的基准模型集合。毕竟，当9.8B激活参数就能站上前沿，行业或许需要重新思考“算力效率”的定义。