(原标题:智谱(02513)推出GLM-5.1高速版API 400 tokens/s刷新全球速度上限)
智通财经APP获悉,
5月22日,智谱(02513)宣布面向部分企业客户开放GLM-5.1高速版API(GLM-5.1-highspeed),模型输出速度达400
tokens/s,刷新全球大模型厂商API速度上限,且首次在国产大模型中实现旗舰级能力与极致低延迟的双重突破。
此次发布的高速版打破行业 “快即小” 的固有认知,无需为响应速度牺牲模型质量。在Coding等速度敏感场景中,其优势尤为显著:Coding Agent任务常需数十轮模型调用,高速版可实现“即问即答”,彻底改变传统模型多轮调用耗时久的痛点,让模型开始真正成为实时协作伙伴。
实测数据显示,高速版能力突出:代码生成效率提升约10倍,可同步理解工程上下文并输出方案;3D场景建模可实现文字输入与场景实时联动;还能即时生成匹配需求的工具与交互,具备新型操作系统雏形。
该API由智谱GLM团队与TileRT团队联合打造,经推理引擎、调度系统、基础设施三层优化:重写核心推理路径提升单卡吞吐;动态批处理与 KV 缓存调度降低尾延迟;集群与网络协同优化,确保400 tokens/s稳定可用。其核心突破在于TileRT引擎,通过编译期静态编排与 Tile 级微任务调度,消除冗余开销,逼近硬件物理极限。
目前,GLM-5.1高速版已适配AI编程、实时交互、商业决策、实时语音等高敏感场景,在智谱MaaS平台定向开放。未来智谱将持续优化推理引擎,扩大高速服务覆盖,为企业提供低延迟、高智能的生产级 AI 能力,巩固国产大模型在全球技术前沿的领先地位。
