开源LLM推理极限突破：Qwen3.5在TokenSpeed引擎上实现580 tps，为Agent应用铺平道路

AIHOT小编

2026-05-28 03:03

在大模型从“能跑”迈向“跑得快”的关键节点上，一份来自PyTorch社区博客的技术报告引发行业关注：通义千问推理团队联合NVIDIA、Mooncake以及lightseekorg Foundation TokenSpeed团队，基于TokenSpeed推理引擎和tri_dao贡献的FlashAttention-4优化，成功将Qwen3.5的推理速度推至每秒580个token。这一数字不仅刷新了开源大语言模型公开的推理性能记录，更标志着大模型推理效率已突破“实时交互”的临界门槛。

580 tps是什么概念？以典型的Agent应用场景为例，模型需要在用户输入与工具调用、上下文更新之间快速来回切换。传统推理引擎受限于批处理效率与注意力机制开销，往往只能提供100-200 tps的吞吐。而580 tps意味着模型可以在毫秒级别响应单次工具调用，同时支持多Agent并行协作。这对于需要高频“思考-行动-观察”循环的智能体工作负载而言，是一次实实在在的算力跃迁。

该里程碑的实现并非单一优化之功，而是软硬协同的成果。TokenSpeed推理引擎专为长上下文和高并发Agent场景设计，而FlashAttention-4则针对稀疏注意力模式做了极致剪裁，大幅降低显存带宽瓶颈。NVIDIA提供了底层加速库支持，Mooncake团队在分布式推理调度上贡献了关键代码。整个优化链条覆盖了模型、系统、硬件三个层级，展现了开源社区协同创新的典型范式。

放在行业背景下看，此前开源LLM的推理速度天花板多由vLLM、TGI等框架占据，主流模型在A100上通常只能达到200-300 tps。Qwen3.5这次跑出的580 tps，相当于将单卡推理效率提升近一倍，且直接复现于PyTorch生态，意味着开发者无需切换框架即可获得近乎极致的速度。对于正在将大模型嵌入客服、办公自动化、代码生成等Agent系统的团队而言，这无疑降低了延迟焦虑。

值得注意，该成果在PyTorch社区博客中被称为“光速优化”，并特别提到“里程碑意义在于它展示了开源LLM推理性能边界如何被系统性打破”。可以预见，随着TokenSpeed和FlashAttention-4的代码进一步开放，推理引擎的竞争将从“能跑”转向“快跑”，而Agent类应用将成为这一轮性能红利的最大受益者。对部署团队的建议是：密切关注Qwen3.5的配套推理库更新，并优先在Agent负载下进行测试——速度带来的不仅是吞吐提升，更是产品体验的代际区别。