首页 - 港股 - 公司报道 - 正文

腾讯混元AI Infra 新开源 实现推理全链路核心能力系统性升级

(原标题:腾讯混元AI Infra 新开源 实现推理全链路核心能力系统性升级)

智通财经APP获悉,6月11日,腾讯混元发文称,为了进一步满足推理系统对动态业务负载的适应性、核心模块对复杂精度和高性能融合算子的需求,HPC-Ops 推出全新更新开源升级,包含五大关键算子。本次升级在主流推理平台上,有效缓解了Attention长尾延迟、显存搬运开销、跨卡通信等实际工程瓶颈,多项性能指标显著优于现有的开源基线。

据介绍,HPC-Ops 是腾讯混元 AI Infra 团队开源并长期维护的一套工业级、高性能的大模型推理底层算子库。在首轮开源中,HPC-Ops 提供了 Attention、GroupGEMM等在内多个高性能算子,原生支持 BF16 与多种 FP8 量化方案,针对常见的主流推理硬件进行了深度优化。

本次升级的主要亮点包括:

Attention:针对真实负载下长短请求混排导致的计算不均、推理长尾问题,采用运行时动态负载调度方案,实测长文本最高加速2.95x,端到端QPM最高提升17%。

Router GEMM:以双BF16 GEMM组合实现FP32级高精度计算,兼顾推理精度与GPU算力利用率。精度显著优于常规BF16/TF32方案,对比CuBLAS FP32最高提速3.22x。

FusedMoE:构建MoE全模块流水线,整合多阶段流程、消除显存搬运与内核启动开销。相较vLLM、SGLang等主流框架,性能提升1.2x~1.6x。

Fused AllReduce+Norm:深度融合跨GPU通信、残差叠加与归一化计算。对比NCCL、FlashInfer主流方案,性能实现1.04x~1.68x提速。

Sampler:将解码阶段的采样计算(原本需要十多个操作算子)融合为2个CUDA Kernel,大幅减少调度、读写与同步冗余开销。相较vLLM提速4.0x~7.5x、较FlashInfer提速1.9x~4.7x,补齐推理末端短板。

腾讯混元团队表示,从首轮开源聚焦单点高性能算子能力,到本轮实现推理全链路核心能力的系统性升级,HPC-Ops 已从单一高性能算子库,全面迭代进化为覆盖大模型推理全流程、兼顾精度与速度、适配规模化生产落地的系统级推理优化能力集合。

APP下载
广告
相关股票:
好投资评级:
好价格评级:
证券之星估值分析提示新开源行业内竞争力的护城河一般,盈利能力一般,营收成长性一般,综合基本面各维度看,估值合理。 更多>>
下载证券之星
郑重声明:以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至jubao@stockstar.com,我们将安排核实处理。如该文标记为算法生成,算法公示请见 网信算备310104345710301240019号。
网站导航 | 公司简介 | 法律声明 | 诚聘英才 | 征稿启事 | 联系我们 | 广告服务 | 举报专区
欢迎访问证券之星!请点此与我们联系 版权所有: Copyright © 1996-