腾讯混元AI Infra 新开源实现推理全链路核心能力系统性升级_港股频道

（原标题：腾讯混元AI Infra 新开源实现推理全链路核心能力系统性升级）

智通财经APP获悉，6月11日，腾讯混元发文称，为了进一步满足推理系统对动态业务负载的适应性、核心模块对复杂精度和高性能融合算子的需求，HPC-Ops 推出全新更新开源升级，包含五大关键算子。本次升级在主流推理平台上，有效缓解了Attention长尾延迟、显存搬运开销、跨卡通信等实际工程瓶颈，多项性能指标显著优于现有的开源基线。

据介绍，HPC-Ops 是腾讯混元 AI Infra 团队开源并长期维护的一套工业级、高性能的大模型推理底层算子库。在首轮开源中，HPC-Ops 提供了 Attention、GroupGEMM等在内多个高性能算子，原生支持 BF16 与多种 FP8 量化方案，针对常见的主流推理硬件进行了深度优化。

本次升级的主要亮点包括：

Attention：针对真实负载下长短请求混排导致的计算不均、推理长尾问题，采用运行时动态负载调度方案，实测长文本最高加速2.95x，端到端QPM最高提升17%。

Router GEMM：以双BF16 GEMM组合实现FP32级高精度计算，兼顾推理精度与GPU算力利用率。精度显著优于常规BF16/TF32方案，对比CuBLAS FP32最高提速3.22x。

FusedMoE：构建MoE全模块流水线，整合多阶段流程、消除显存搬运与内核启动开销。相较vLLM、SGLang等主流框架，性能提升1.2x～1.6x。

Fused AllReduce+Norm：深度融合跨GPU通信、残差叠加与归一化计算。对比NCCL、FlashInfer主流方案，性能实现1.04x～1.68x提速。

Sampler：将解码阶段的采样计算(原本需要十多个操作算子)融合为2个CUDA Kernel，大幅减少调度、读写与同步冗余开销。相较vLLM提速4.0x～7.5x、较FlashInfer提速1.9x～4.7x，补齐推理末端短板。

腾讯混元团队表示，从首轮开源聚焦单点高性能算子能力，到本轮实现推理全链路核心能力的系统性升级，HPC-Ops 已从单一高性能算子库，全面迭代进化为覆盖大模型推理全流程、兼顾精度与速度、适配规模化生产落地的系统级推理优化能力集合。

腾讯混元AI Infra 新开源 实现推理全链路核心能力系统性升级

腾讯混元AI Infra 新开源实现推理全链路核心能力系统性升级