智谱(02513)推出GLM-5.1高速版API 400 tokens/s刷新全球速度上限_港股频道

（原标题：智谱(02513)推出GLM-5.1高速版API 400 tokens/s刷新全球速度上限）

智通财经APP获悉， 5月22日，智谱(02513)宣布面向部分企业客户开放GLM-5.1高速版API(GLM-5.1-highspeed)，模型输出速度达400 tokens/s，刷新全球大模型厂商API速度上限，且首次在国产大模型中实现旗舰级能力与极致低延迟的双重突破。

此次发布的高速版打破行业 “快即小” 的固有认知，无需为响应速度牺牲模型质量。在Coding等速度敏感场景中，其优势尤为显著：Coding Agent任务常需数十轮模型调用，高速版可实现“即问即答”，彻底改变传统模型多轮调用耗时久的痛点，让模型开始真正成为实时协作伙伴。

实测数据显示，高速版能力突出：代码生成效率提升约10倍，可同步理解工程上下文并输出方案;3D场景建模可实现文字输入与场景实时联动;还能即时生成匹配需求的工具与交互，具备新型操作系统雏形。

该API由智谱GLM团队与TileRT团队联合打造，经推理引擎、调度系统、基础设施三层优化：重写核心推理路径提升单卡吞吐;动态批处理与 KV 缓存调度降低尾延迟;集群与网络协同优化，确保400 tokens/s稳定可用。其核心突破在于TileRT引擎，通过编译期静态编排与 Tile 级微任务调度，消除冗余开销，逼近硬件物理极限。

目前，GLM-5.1高速版已适配AI编程、实时交互、商业决策、实时语音等高敏感场景，在智谱MaaS平台定向开放。未来智谱将持续优化推理引擎，扩大高速服务覆盖，为企业提供低延迟、高智能的生产级 AI 能力，巩固国产大模型在全球技术前沿的领先地位。