(原标题:腾讯混元AI Infra 新开源 实现推理全链路核心能力系统性升级)
智通财经APP获悉,6月11日,腾讯混元发文称,为了进一步满足推理系统对动态业务负载的适应性、核心模块对复杂精度和高性能融合算子的需求,HPC-Ops 推出全新更新开源升级,包含五大关键算子。本次升级在主流推理平台上,有效缓解了Attention长尾延迟、显存搬运开销、跨卡通信等实际工程瓶颈,多项性能指标显著优于现有的开源基线。
据介绍,HPC-Ops 是腾讯混元 AI Infra 团队开源并长期维护的一套工业级、高性能的大模型推理底层算子库。在首轮开源中,HPC-Ops 提供了 Attention、GroupGEMM等在内多个高性能算子,原生支持 BF16 与多种 FP8 量化方案,针对常见的主流推理硬件进行了深度优化。
本次升级的主要亮点包括:
Attention:针对真实负载下长短请求混排导致的计算不均、推理长尾问题,采用运行时动态负载调度方案,实测长文本最高加速2.95x,端到端QPM最高提升17%。
Router GEMM:以双BF16 GEMM组合实现FP32级高精度计算,兼顾推理精度与GPU算力利用率。精度显著优于常规BF16/TF32方案,对比CuBLAS FP32最高提速3.22x。
FusedMoE:构建MoE全模块流水线,整合多阶段流程、消除显存搬运与内核启动开销。相较vLLM、SGLang等主流框架,性能提升1.2x~1.6x。
Fused AllReduce+Norm:深度融合跨GPU通信、残差叠加与归一化计算。对比NCCL、FlashInfer主流方案,性能实现1.04x~1.68x提速。
Sampler:将解码阶段的采样计算(原本需要十多个操作算子)融合为2个CUDA Kernel,大幅减少调度、读写与同步冗余开销。相较vLLM提速4.0x~7.5x、较FlashInfer提速1.9x~4.7x,补齐推理末端短板。
腾讯混元团队表示,从首轮开源聚焦单点高性能算子能力,到本轮实现推理全链路核心能力的系统性升级,HPC-Ops 已从单一高性能算子库,全面迭代进化为覆盖大模型推理全流程、兼顾精度与速度、适配规模化生产落地的系统级推理优化能力集合。
