每秒处理110万个token!微软与英伟达合作打破AI推理速度纪录

更新:2026-01-12 00:31:43

11月5日消息,微软于当地时间11月4日对外宣布,旗下Azure ND GB300 v6型号的虚拟机,在运行Meta公司的Llama2 70B模型过程中,推理速度成功实现每秒处理110万个token。

IT之家留意到,微软首席执行官萨提亚・纳德拉(Satya Nadella)在X平台(原Twitter)上称:“这一行业纪录的达成,离不开我们与英伟达长期的联合创新,以及我们在生产级规模运行人工智能领域的专业能力。”

Azure ND GB300 虚拟机的动力来源是英伟达 Blackwell Ultra GPU,其具体依托的是 NVIDIA GB300 NVL72 系统。这一系统在单一的机架级配置里,整合了 72 颗 NVIDIA Blackwell Ultra GPU 与 36 颗 NVIDIA Grace CPU。

该虚拟机专门针对推理工作负载进行了优化,GPU 内存容量提升了 50%,热设计功耗(TDP)提高了 16%。

为验证性能是否有所提升,微软选取单个 NVIDIA GB300 NVL72 域内的 18 个 ND GB300 v6 虚拟机作为测试环境,在这些虚拟机上分别运行 MLPerf Inference v5.1 基准测试中的 Llama2 70B 模型(采用 FP4 精度),且推理引擎选用的是 NVIDIA TensorRT-LLM。

微软称:“Azure ND GB300 v6 虚拟机在单个 NVL72 机架上达成了每秒 110 万个 token 的推理吞吐量总和。这一成绩打破了 AI 推理领域的纪录,此前在同款 NVIDIA GB200 NVL72 机架上采用 ND GB200 v6 虚拟机时,曾创下每秒 86.5 万个 token 的纪录,此次则超越了该数值。”

由于该系统包含 72 颗 Blackwell Ultra GPU,其性能大致相当于每颗 GPU 约 15,200 个 token / 秒。

微软已详细公开本次测试的完整数据,涵盖所有日志文件及详尽的测试结果。此性能结果已通过独立的性能验证与基准测试机构Signal65的认证。

Signal65实验室副总裁拉斯・费洛斯(Russ Fellows)在博客中表示:“这一里程碑的意义,不仅在于首次在行业内突破每秒百万token的关键节点,更重要的是,它是在一个为适配现代企业动态使用需求与数据治理标准而打造的平台上达成的。”

Signal65 还补充说明,相较于上一代 NVIDIA GB200,Azure ND GB300 的推理性能提升了 27%,但功耗仅增加了 17%。

该公司进一步表示:“相较于NVIDIA H100世代,GB300在机架级测试里达成了接近10倍的推理性能增长,与此同时能效比也提升了近2.5倍。”

最新游戏 更多
游戏攻略
热门游戏更多