开源LLM推理极限突破:Qwen3.5在TokenSpeed引擎上实现580 tps,为Agent应用铺平道路

在大模型从“能跑”迈向“跑得快”的关键节点上,一份来自PyTorch社区博客的技术报告引发行业关注:通义千问推理团队联合NVIDIA、Mooncake以及lightseekorg Foundation TokenSpeed团队,基于TokenSpeed推理引擎和tri_dao贡献的FlashAttention-4优化,成功将Qwen3.5的推理速度推至每秒580个token。这一数字不仅刷新了开源大语言模型公开的推理性能记录,更标志着大模型推理效率已突破“实时交互”的临界门槛。

580 tps是什么概念?以典型的Agent应用场景为例,模型需要在用户输入与工具调用、上下文更新之间快速来回切换。传统推理引擎受限于批处理效率与注意力机制开销,往往只能提供100-200 tps的吞吐。而580 tps意味着模型可以在毫秒级别响应单次工具调用,同时支持多Agent并行协作。这对于需要高频“思考-行动-观察”循环的智能体工作负载而言,是一次实实在在的算力跃迁。

该里程碑的实现并非单一优化之功,而是软硬协同的成果。TokenSpeed推理引擎专为长上下文和高并发Agent场景设计,而FlashAttention-4则针对稀疏注意力模式做了极致剪裁,大幅降低显存带宽瓶颈。NVIDIA提供了底层加速库支持,Mooncake团队在分布式推理调度上贡献了关键代码。整个优化链条覆盖了模型、系统、硬件三个层级,展现了开源社区协同创新的典型范式。

放在行业背景下看,此前开源LLM的推理速度天花板多由vLLM、TGI等框架占据,主流模型在A100上通常只能达到200-300 tps。Qwen3.5这次跑出的580 tps,相当于将单卡推理效率提升近一倍,且直接复现于PyTorch生态,意味着开发者无需切换框架即可获得近乎极致的速度。对于正在将大模型嵌入客服、办公自动化、代码生成等Agent系统的团队而言,这无疑降低了延迟焦虑。

值得注意,该成果在PyTorch社区博客中被称为“光速优化”,并特别提到“里程碑意义在于它展示了开源LLM推理性能边界如何被系统性打破”。可以预见,随着TokenSpeed和FlashAttention-4的代码进一步开放,推理引擎的竞争将从“能跑”转向“快跑”,而Agent类应用将成为这一轮性能红利的最大受益者。对部署团队的建议是:密切关注Qwen3.5的配套推理库更新,并优先在Agent负载下进行测试——速度带来的不仅是吞吐提升,更是产品体验的代际区别。