开云「中国」kaiyun网页版登录入口-体育游戏app平台先容了华为 CloudMatrix-开云「中国」kaiyun网页版登录入口

体育游戏app平台先容了华为 CloudMatrix-开云「中国」kaiyun网页版登录入口

发布日期:2025-09-11 12:20  点击次数:138

体育游戏app平台先容了华为 CloudMatrix-开云「中国」kaiyun网页版登录入口

(原标题:华为CloudMatrix384超节点:官方撰文深度解读)体育游戏app平台

公众号铭记加星标??,第一时辰看推送不会错过。

在本年四月举办的的华为云生态大会2025上,华为秘书推出CloudMatrix 384超节点。据华为先容,面向AI期间的海量算力需求,华为云基于“一切可池化、一切皆平等、一切可组合”的新式高速互联总线推出CloudMatrix 384超节点,终了从处事器级到矩阵级的资源供给情势转变。

CloudMatrix 384具备“高密”“高速”“高效”的秉性,通过全面的架构转变,在算力、互联带宽、内存带宽等方面终了全面最初。

近日,华为团队和硅基流动合著了一篇题为《Serving Large Language Models on Huawei CloudMatrix384》的著述。先容了华为 CloudMatrix。(原文连气儿:https://arxiv.org/pdf/2506.12708)

按照他们在著述中所说,这是新一代 AI 数据中心架构,体现了华为重塑 AI 基础设施基础架构的愿景。华为 CloudMatrix384 代表了这一愿景的首个坐褥级终了。它将 384 个昇腾 910C NPU、192 个鲲鹏 CPU 以偏激他硬件组件集成到一个长入的超等节点中,并通过超高带宽、低蔓延的长入总线 (UB) 麇集互连。

与传统的分层设计不同,该架构通过 UB 终赫然径直的全节点通讯,从而允许接头、内存和麇集资源动态池化、长入打听和颓落扩张。这些架构秉性尤其有意于通讯密集型操作,举例大范围 MoE 人人并行和散布式键值 (KV) 缓存打听,从而使 CloudMatrix384 成为下一代 LLM 处事的可扩张高性能基础。

底下,咱们节选著述的重要内容翻译,以供民众参考。

华为CloudMatrix先容

为了搪塞 AI 职责负载中这些新兴挑战,华为建议了 CloudMatrix,这是新一代 AI 数据中心架构,旨在重塑 AI 基础设施的基础。该架构愿景的中枢在于构建一个长入、紧耦合的接头结构,以高效扶植当代 AI 应用的范围化、异构性和通讯需求。CloudMatrix384 代表了该愿景的首个坐褥级终了,提供了一个专为大范围 AI 职责负载优化的专用平台。

CloudMatrix的愿景

为搪塞当代大范围AI职责负载日益增长的需求,华为推出了CloudMatrix——一种始创性的下一代AI数据中心架构。该架构悉心设计,承袭实足点对点高带宽互联和细粒度资源明白的原则。如图1所示,CloudMatrix打破了传统的以CPU为中心的层级设计,扶植扫数异构系统组件(包括NPU、CPU、DRAM、SSD、NIC和特定领域加快器)之间的径直高性能通讯,尤其无需CPU中介。

该架构的中枢是超高带宽、低蔓延的长入总线 (UB) 麇集,它促进了高效的全系统数据传输和相助。基于此基础,CloudMatrix提供了四项基础功能,共同界说了AI原生基础设施的新范式:

(1) 面向TP/EP的可扩张通讯。 UB 互连扶植跨 NPU 的径直高蒙胧量点对点通讯,使 TP 和 EP 组约略超越单个节点的畛域进行扩张。这拆除了节点间的瓶颈,并允许大型模子在超等节点之间高效散布。

(2) 天竟然异构职责负载资源组合。CloudMatrix 将 CPU、NPU 和内存明白为颓落的池化资源,从而终了细粒度的、职责负载驱动的资源组合。这种天真性允许凭证职责负载需求(举例,内存丰富的缓存节点、CPU 密集型的预处理节点)进行细粒度的资源分拨,从而将部署从固定节点配置或基于 PCIe 的主机设备耦合中自若出来。

(3) 长入的交融职责负载基础架构。高带宽 UB 麇集在单一可扩张的基础架构中同期扶植 AI 和数据密集型应用。这使得LLM推理、锻真金不怕火、仿真和分析职责负载的交融推行成为可能,而这恰是夹杂AI活水线日益普遍的需求。

(4) 通过明白式内存池终了内存级存储。CloudMatrix将集群中谄谀到CPU的DRAM团聚到一个可通过UB打听的分享高性能内存池中。该底层扶植弹性内存处事 (EMS) 等处事,该处事通过拆除传统的I/O瓶颈,加快了诸如键值缓存重用、参数加载和模子查验点等蔓延重要型操作。

CloudMatrix384 详细:实足点对点硬件架构

CloudMatrix384 被设计为一个 AI 超等节点,集成了 384 个昇腾 910C 神经麇集处理单位 (NPU) 和 192 个鲲鹏中央处理器 (CPU),如图 2 所示。CloudMatrix384 的一个显耀秉性是其点对点、实足互联的超高带宽麇集,该麇集通过 UB 公约谄谀扫数 NPU 和 CPU。CloudMatrix384 的 UB 设计是UB-Mesh 的递归。384 个 NPU 和 192 个 CPU 均通过 UB 交换机谄谀,使节点间通讯性能接近节点内通讯性能。如表 1 所示,节点间带宽衰减低于 3%,节点间蔓延加多低于 1 μs。鉴于当代 AI 职责负载主要依赖带宽而非蔓延,这种边缘蔓延支拨对 AI 任务的端到端性能的影响聊胜于无。总体而言,这种设计使 CloudMatrix384 约略充任一个良好耦合的大范围逻辑节点,领有全局可寻址的接头和内存才能,从而促进长入的资源池化和高效的职责负载编排。

为了扶植各类化的流量情势并保抓与传统数据中心麇集的兼容性,CloudMatrix384 集成了三个非凡但互补的麇集平面:

(1)UB 平面:UB 平面组成超等节点内主要的超高带宽纵向扩张架构。它以无窒碍的全对全拓扑结构径直谄谀扫数 384 个 NPU 和 192 个 CPU。每台 Ascend 910C 提供杰出 392GB/s 的单向带宽。UB 约略:

高效终了细粒度并行战略,举例 TP 和 EP,不受节点畛域的甘休;

快速点对点打听池化内存(跳跃 CPU 和 NPU 内存),这关于高效缓存模子权重和键值缓存至关清贫。

(2)RDMA 平面:RDMA 平面扶植跨 CloudMatrix384 个超等节点和外部 RDMA 兼容系统的横向扩张通讯。它当今选拔交融以太网 RDMA (RoCE) 手艺,以确保与规范 RDMA 堆栈兼容。每个 NPU 孝敬高达 400Gbps 的单向 RDMA 带宽。NPU 是该平面的惟一参与者,将 RDMA 流量与限制和存储操作拒绝。重要功能包括:

在推理过程中,预填充息争码 NPU 之间高速传输步履键值缓存数据;

扶植使用适应 RDMA 规范的框架进行散布式锻真金不怕火和推理;

在多集群部署中终了跨超等节点的低蔓延互连

(3)VPC 平面:假造特有云 (VPC:virtual private cloud) 平面通过高速网卡(华为擎天卡)将 CloudMatrix384 超等节点谄谀到更普遍的数据中心麇集,每个节点可提供高达 400Gbps 的单向带宽。它基于规范以太网和 IP 公约运行,并可选配 UB-over-Ethernet (UBoE) 公约。VPC 平面崇拜处理:

经管和限制平面操作,举例部署、监控和调整;

打听抓久化存储,包括对象存储处事 (OBS)、弹性卷处事 (EVS) 和可扩张文献系统处事 (SFS);

来自 CPU 驻留职责负载(举例数据库和用户界面)的外部处事通讯。

尽管 CloudMatrix 的历久愿景是将 RDMA 和 VPC 平面交融为一个长入的平面(如图 1 所示),但刻下的 CloudMatrix384 将它们分开,以确保与传统数据中心基础设施的向后兼容性。

硬件组件

一、Ascend 910C 芯片

CloudMatrix 384 的中枢是海念念 Ascend 910C NPU,这是华为面2024 年推出的旗舰 AI 加快器,它将接替原版 Ascend 910B。910C 选拔双芯片封装:两个换取的接头芯片共封装,分享八个封装内存储器堆栈,并通过高带宽跨芯片结构谄谀,如图 3 所示。

接头:每个芯片可保管约 376 TFLOPS 的密集 BF16/FP16 蒙胧量,每个封装总蒙胧量可达 752 TFLOPS。每个芯片包含 24 个针对矩阵和卷积职责负载优化的 AI 立方体 (AIC:AI cube) 中枢,以及 48 个用于元素级运算的 AI 矢量 (AIV:AI vector) 中枢。扫数接头引擎均扶植 FP16/BF16 和 INT8 数据类型。 8 位量化不错以 INT8 精度终了,从而终了与原生 FP8 硬件特殊的接头恶果,而无需专用 FP8 扶植。两个芯片通过封装内互连进行通讯,总带宽高达 540 GB/s,单向带宽 270 GB/s。

内存:Ascend 910C 封装集成了八个内存堆栈(每个 16 GB),共提供 128GB 封装内内存(每个芯片 64GB)。该封装可提供高达 3.2 TB/s 的总内存带宽,每个芯片可用带宽为 1.6 TB/s。

麇集接口:每个 Ascend 910C 芯片与两个不同的麇集平面接口。

UB 平面:该芯片集成七个高速收发器,每个收发器的职责速度为 224Gbps,为横向扩张的 UB 平面提供共计 196GB/s 单向(或 392GB/s 双向)带宽。

RDMA 平面:每个芯片都包含一个专用接口,为横向扩张的 RDMA 平面提供高达 200Gbps 的单向带宽。

二、Ascend 910C 节点

CloudMatrix384 中的每个接头节点都集成了 8 个 Ascend 910C NPU、4 个鲲鹏 CPU 和 7 个板载 UB 交换芯片,如图 4 所示。12 个处理器(8 个 NPU 和 4 个 CPU)通过 UB 链路谄谀到这些板载交换机,在节点内创建单层 UB 平面。每个 NPU 都配置了高达 392GB/s 的单向 UB 带宽,而每个鲲鹏 CPU 插槽则获取约 160GB/s 的单向 UB 带宽。单个板载 UB 交换芯片为超等节点结构中的下一层交换层提供 448GB/s 的上行链路容量。

只好 NPU 参与辅助 RDMA 平面。每个 NPU 设备额外孝敬一条 400Gbps 单向链路,用于横向扩张 RDMA 流量,使每个节点的 RDMA 带宽共计达到 3.2 Tbps。

在 CPU 集群内,四个鲲鹏 CPU 插槽通过全网状 NUMA 拓扑互连,从而终了扫数谄谀 CPU 的 DRAM 的长入内存打听。其中一个 CPU 承载着节点的擎天卡,这是一个专用的数据处理单位 (DPU),不仅集成了高速麇集接口,还推行清贫的节点级资源经管功能。该擎天卡当作节点的主要南北向出口点,与第三个不同的麇集平面(数据中心的 VPC 平面)谄谀。

三、UB 交换机系统

CloudMatrix384 超等节点横跨 16 个机架:12 个接头机架,共承载 48 个 Ascend 910C 节点(共 384 个 NPU),以及 4 个通讯机架。这些通讯机架容纳第二层 (L2) UB 交换机,用于谄谀超等节点内的扫数节点。

图 5 展示了板载第一层 (L1) UB 交换机(位于每个 Ascend 910C 节点里面)和机架级 L2 UB 交换机之间的拓扑结构。该麇集设计为无窒碍,这意味着 L2 交换层不存在带宽逾额认购。L2 交换机被差异为 7 个颓落的子平面。每个子平面包含 16 个 L2 UB 交换芯片,每个 L2 交换芯片提供 48 个 28 GB/s 端口。

在每个节点里面,7 个板载 L1 UB 交换芯片与这 7 个 L2 子平面逐个双应。每个 L1 交换芯片扇出 16 条链路(每个链路与其对应子平面中的每个 L2 交换芯片相接)。此配置可确保节点到 L2 交换矩阵的团聚上行链路带宽与其里面 UB 容量精准匹配,从而在通盘超等节点中保抓无窒碍秉性。

软件栈

一、用于昇腾NPU的CANN

华为为昇腾NPU设备了全面的软件生态系统,称为神经麇集接头架构(CANN:compute architecture for neural networks)。CANN充任中间软件层,终了高档AI框架(如PyTorch 和TensorFlow )与昇腾NPU的初级硬件接口之间的高效集成。通过将这些框架生成的抽象接头图周折为优化的硬件可推行教唆,CANN简化了设备东谈主员与昇腾硬件的交互,促进了软硬件协同设计,并旨在最大礼貌地提高昇腾架构上应用才能的性能。

CANN架构。CANN软件堆栈(图6)由三个主要层组成:驱动才能、运行时和库,其架构近似于NVIDIA的CUDA生态系统。

(1)驱动层:Ascend NPU 驱动才能位于底层,由内核模块和固件组成,充任操作系统与 Ascend NPU 之间的初级接口。它经管必要的硬件交互,包括设备运转动、资源分拨(内存、数据流)、号召调整以及 NPU 间通讯成就。

(2)运行时层:CANN Runtime 是 Ascend NPU 上应用才能的中枢推行引擎。它崇拜监督应用才能的人命周期,相助模子接头,并为模子和算子提供全面的设备限制、内存经管和推行经管。这些功能主要通过 Ascend 接头言语 (ACL) API 打听。

(3)库层:该层提供一套高度优化的软件组件,用于加快各类 AI 职责负载。重要要素包括领域特定加快库 (AOL)、用于散布式任务的华为集体通讯库 (HCCL)、包含预优化内核的扩张算子包 (OPP),以及用于神经麇集加快 (NNAE) 和离线推理 (NNRT) 的引擎。扶植自界说算子设备(举例通过 Ascend C 言语设备)以及与第三方库集成,以进一步增强其功能。

除了中枢层除外,图引擎 (GE) 还能编译和优化来自 PyTorch、TensorFlow 和 MindSpore 28 等框架的接头图。它通过应用算子交融、内存策画、动态神气处理和调整等全图优化,谄谀高档模子和初级推行。这些优化缩短了支拨,并提高了 Ascend NPU 的推行恶果。

框架集成:CANN 普遍扶植主流 AI 框架,显耀缩短了现存和新 AI 名堂选拔昇腾 NPU 的门槛:

PyTorch:通过 PyTorch 昇腾 NPU 适配器 (torch_npu) ,设备者不错在现存的 PyTorch 职责经由中无缝诓骗昇腾 NPU 加快。华为提供预构建的 Python Wheel 包,装配肤浅,API 兼容性和最好施行镇静文档,以及简化的 CUDA 代码移动到 CANN 的器用或指南。

TensorFlow:CANN 的 TF_Adapter将昇腾 NPU 加快功能径直集成到 TensorFlow 框架中,使基于 TensorFlow 的 AI 名堂约略以少量的代码修改即可获取高性能和方便的部署。

ONNX:华为为 ONNX 运行时提供专用的 CANN 推行提供才能。这使得以怒放神经麇集交换 (ONNX) 神气 42 导出的模子约略高效推行,从而促进普遍的模子兼容性,并简化了在包含昇腾 NPU 的异构硬件环境中的部署。

MindSpore:MindSpore 由华为里面设备,提供与昇腾硬件的原生且高度优化的集成。该框架旨在在华为的 AI 生态系统中提供潜在的不凡性能和易用性,提供良好耦合的软硬件搞定有筹办。

一言以蔽之,CANN 提供了一个垂直集成的软件堆栈,包括驱动才能、运行时和库,可与 NVIDIA 的 CUDA 相忘形,同期针对昇腾 NPU 进行了定制。其 GE 将全图示意编译为高度优化的推行筹办,丰富的框架适配器使现存职责负载的移植实在无阻力。这些组件共同使设备东谈主员约略以最少的代码转变诓骗昇腾硬件,同期在普遍的 AI 应用中终了接近峰值的设备性能。

二、云部署基础设施软件

为了扶植 CloudMatrix384 在云环境中的部署,华为云提供了一套完善的基础设施软件,包括 MatrixResource、MatrixLink、MatrixCompute 和 MatrixContainer,旨在抽象硬件复杂性,并通过规范云 API 终了无缝的资源编排,如图 7 所示。

MatrixResource 经管超等节点内的物理资源配置,包括基于拓扑感知调整的接头实例分拨。实例配置任务由 CloudMatrix384 每个接头节点的擎天卡上运行的 MatrixResource 代理推行。

MatrixLink 为 UB 和 RDMA 麇集提供面向处事的麇集,扶植 QoS 保证和动态路由。它经管链路级配置,并扶植麇集感知的职责负载分拨,以终了最好通讯恶果。这些任务也由每个接头节点的擎天卡上的 MatrixLink 代理推行。

MatrixCompute 相助 CloudMatrix 实例的人命周期,从裸机配置到自动扩缩容和故障还原。它相助跨多个物理节点的资源组合,以创建良好耦合的逻辑超等节点实例。

MatrixContainer 提供基于 Kubernetes 的容器处事,并通过拓扑感知调整进行增强,以充分诓骗 CloudMatrix 的高性能互连。它使用户约略使用纯属的容器化职责流部署散布式 AI 职责负载。

ModelArts 位于基础设施堆栈的顶层,提供端到端 AI 平台处事。它包含:ModelArts Lite,可通过裸机和容器化环境径直打听 Ascend 硬件;ModelArts Standard,扶植完好的 AI 设备和 MLOps 活水线;

ModelArts Studio,提供模子即处事 (MaaS) 功能,可快速部署和定制 LLM 偏激他模子。

这些组件共同扶植用户在 CloudMatrix 384 上高效构建和部署大范围 AI 应用才能,在保抓性能的同期抽象底层复杂性

明天标的究诘

东谈主工智能模子的快速演进偏激普遍应用抓续对东谈主工智能基础设施建议日益严格的要求。尽管 CloudMatrix384 代表了紧耦合东谈主工智能接头扩张领域的一个清贫架构里程碑,但为了满足新兴职责负载的需求,仍需进一步发展。在本节中,咱们将究诘 CloudMatrix 架构偏激构建的 LLM 处事系统的潜在明天发展标的,旨在进一步提高可扩张性、天真性、恶果和性能。

CloudMatrix 的明天演进

CloudMatrix384 所体现的超等节点见地不错沿多个维度进行扩张,以适合明天的 AI 职责负载。

一、长入 VPC 和 RDMA 平面

如前文所述,CloudMatrix384 当今选拔单独的麇集平面来处理横向扩张 (RDMA) 和 VPC 流量。但是,CloudMatrix 不错将横向扩张通讯集成到 VPC 会聚会。在典型的 AI 锻真金不怕火和推理职责负载中,诸如张量、人人和序列并行 (TP/EP/SP) 等带宽密集型通讯阶段主要皆集在超等节点内。比拟之下,跨超等节点通讯(主要源于数据和活水线并行 (DP/PP))经常对带宽的需求要低得多。借助分层 DP 通讯和通讯遮蔽手艺,VPC 麇集不错充分满足大多数 AI 职责负载的超等节点间通讯需求。

基于此,基于 VPC 平面的长入麇集架构不错构建可用区 (AZ) 范围的大范围 AI 集群。它约略兼容异构多代AI硬件,以超节点为基本单位终了天真、模块化的扩张,并通过数据中心麇集(DCN)手艺扶植跨地域的无缝互联。

二、更大范围的超等节点

尽管 CloudMatrix384 领有 384 个 NPU,范围可不雅,但下一代 AI 模子和应用场景议论将需要更大范围的超等节点。以下几个重要身分鼓舞了这一范围增长轨迹:

(1)扩张以适合模子演进:跟着 LLM 在参数范围和架构复杂度方面的束缚扩张,为其提供处事所需的基础设施也必须随之发展。

明天的模子议论将具有显耀更大的参数数目、更长的输入序列以及越来越多的稀薄激活人人(sparsely activated experts),尤其是在 MoE 设计中。这些趋势对每个推答理话中的接头、内存和互连带宽建议了越来越高的要求。

此外,新兴的架构情势,举例用于挑升推理的模块化子麇集、检索增强生成或夹杂密集/稀薄接头,要求模子组件之间更良好的耦合,从而加多模子里面的通讯和同步。高效扶植这些职责负载需要将接头和内存共置在一个良好集成的超等节点内,以最大礼貌地减少通讯蔓延并保抓高蒙胧量。

因此,扩张超等节点容量至关清贫,这不仅是为了满足原始资源需求,亦然为了保管下一代LLM所需的细粒度局部性和性能秉性。

(2)提高资源分拨恶果:扩张超等节点范围还不错提高实质异构职责负载要求下系统范围的资源诓骗率。基于实质坐褥追踪,咱们将每个AI任务建模为一组良好耦合的块,模拟明天的NPU申请情势。每个块都是一组连气儿的NPU,必须在单个超等节点内进行配置,以满足功课里面的带宽和蔓延甘休。如图24所示,更大的超等节点在各类平均块大小范围内遥远约略终了更高的NPU分拨率。举例,当平均块大小为 10.08 时,384 个 NPU 超等节点的分拨率杰出 94%,而 224 个 NPU 超等节点的分拨率则降至 91% 以下。这一改良源于碎屑化的减少和更好的统计复用——更大的资源池不错为非均匀大小的功课提供更大的部署天真性。

相悖,关于固定的超等节点大小,加多块大小会导致分拨恶果缩短,因为打包(Packing)难度较大。当平均块大小达到 11.28 时,224 个 NPU 超等节点的分拨率降至 85% 以下。这些结果标明,在实质职责负载散布下,扩张超等节点范围可显耀提高系统蒙胧量和恶果。

(3)实在恒定的摊销麇集老本:扩大超等节点范围并不会势必导致每个 NPU 的麇集老本加多。假定麇集架构换取,举例双层 Clos 类交换拓扑,只须配置终赫然交换机端口的充分诓骗,每个 NPU 的麇集基础设施摊销老本在不同范围的超等节点之间实在保抓不变。

如表 11 所示,192、288 或 384 个 NPU 的配置均可终了 100% 的交换机诓骗率,且每个 NPU 的摊销交换机老本换取。中等配置(举例 256 或 352 个 NPU)的交换机诓骗率较低,会稍许加多每个节点的老本。这些结果标明,将超等节点范围扩张到给定交换层的上限不会带来额外的老本支拨,因此从麇集角度来看,这是一种经济高效的战略。

(4)适合日益增长的资源异构性:明天的东谈主工智能职责负载将需要在并吞推行环境中获取日益各类化的硬件扶植。除了 NPU 和 CPU 除外,下一代超等节点还可能集成专用加快器,用于推行物理模拟、及时视频处理、无损数据压缩和加密接头等任务。这些单位正在成为端到端东谈主工智能活水线的清贫组成部分,尤其适用于多模态或特定领域的应用。

为了高效诓骗这些异构资源,它们必须分享换取的高带宽、低蔓延互纠合构,并约略当作超等节点内的一流接头平等体进行打听。要大范围地扶植这种各类性,需要扩张超等节点的范围和更天竟然互连架构,这进一步强化了向更大、更异构的接头域发展的趋势,这些接头域不错处理良好耦合、跨功能的东谈主工智能职责负载。

三、CPU 的物理明白和池化

诚然刻下的 CloudMatrix384 超等节点还是通过从其接头节点(每个节点集成 4 个鲲鹏 CPU 和 8 个昇腾 NPU)池化 CPU 和 NPU 终赫然一定进度的资源天真性,但 CloudMatrix 架构明天的一个重要标的是更根柢的 CPU 和 NPU 资源的物理明白,如图 1 所示。这设计了一个由不同的专用节点类型组成的超等节点:以 NPU 为中心的节点,密集部署 AI 加快器;以及以 CPU 为中心的节点,提供稠密的通用接头、内存容量和 I/O 功能。这些异构节点类型将通过高带宽、低蔓延的 UB 麇集平面互连,从而在超等节点级别终了细粒度、天真且可扩张的资源池化。

物理明白的动机源于固定节点配置中传统 CPU-NPU 配对的僵化性,其中静态的 NPU 与 CPU 比率甘休了系统匹配职责负载需求的才能。举例,某些推理职责负载需要密集的 CPU 预处理/后处理或大量内存扶植的缓存,导致即使 NPU 安闲,也会出现 CPU 瓶颈。相悖,锻真金不怕火职责负载可能会使 NPU 富裕,而 CPU 资源却未得到充分诓骗。在这种情况下,良好耦合的 CPU-NPU 配置会导致硬件诓骗率不睬想,何况扩张不天真。

尽管 CloudMatrix384 的点对点 UB 拓扑还是将逻辑资源与分拨解耦,从而终赫然跨超等节点的天真 CPU-NPU 匹配,但将 CPU 和 NPU 资源物理地分离到专用资源池中不错开释更多上风:

(1)颓落且优化的扩张:不错设备物理上颓落的以 NPU 为中心的节点(举例,使用最小的腹地 CPU 进行基本经管,但最大化 NPU 密度)和以 CPU 为中心的节点(举例,领有多个 CPU 中枢、大容量 DRAM 和丰富的 I/O 选项,当作超等节点的主要 CPU 和内存资源池)。这使得 NPU 接头才能和超等节点的通用 CPU/内存容量约略颓落且更经济地扩张。数据中心运营商不错构建具有高度可变的 NPU、CPU 和内存比例的超等节点,并凭证主要职责负载进行精笃定制(举例,NPU 密集型用于锻真金不怕火,CPU/内存密集型用于数据密集型预处理或大范围 EMS 缓存)

(2)增强的资源诓骗率和专科化:专科化的节点设计允许针对主要资源类型进行硬件优化。 NPU 节点不错专注于加快器的供电和冷却,而 CPU/内存节点不错针对内存密度、I/O 带宽或特定的 CPU 教唆集进行优化。这不错提高合座恶果。

明天处事系统增强

跟着底层超等节点架构的束缚发展,LLM 处事系统必须协同演进,才能充分诓骗这些功能。一个重要标的是超越粗粒度明白(举例预填充-解码分离),转向更细粒度的组件级明白和智能自适合部署战略。这些按序旨在提高资源诓骗率、提高蒙胧量,并扶植日益异构的职责负载和硬件配置。

一、组件级明白

CloudMatrix384 选拔的预填充-解码-缓存明白的点对点处事架构已被诠释约略灵验地分离 LLM 推理的主要阶段。但是,通过将模子推行明白为更细粒度的组件,不错终了进一步的改良,这些组件不错颓落经管、部署和扩张。咱们要点先容两个新兴标的:

(1)解码-戒备力机制明白与卸载:诚然预填充实例受接头甘休,而解码实例经常受内存甘休,但 Adrenaline 系统 标明,通过将内存密集型戒备力接头从解码旅途均明白出来并将其卸载到未充分诓骗的预填充实例,不错终了额外的性能提高。这种按序提高了合座内存带宽诓骗率,并扶植更大的解码实例批处理大小,从而提高了接头恶果。它依赖于低蔓延同步、悉快慰排的卸载任务共置以及处事等第方针 (SLO) 感知的卸载战略。其结果是在不影响蔓延的情况下提高了蒙胧量,这体现了戒备力明白若何开释现存处事部署中的潜在容量。

(2)戒备力机制和 MoE 明白:大范围 MoE 模子由于稀薄的人人激活和顶点的内存需求,濒临着非凡的挑战。MegaScale-Infer 建议将戒备力机制和人人组件明白为颓落的推行处事,从而扶植不同的并行战略和硬件映射。处理每个 token 的戒备力层使用数据并行部署在内存优化的节点上,而人人 FFN 则通过人人并行散布在专用资源池中。这种明白推行减少了争用,提高了蒙胧量,并允许戒备力机制和人人资源的颓落扩张,这关于高效地处事于万亿参数的 MoE 模子至关清贫。

一言以蔽之,这些明白手艺代表着一种转变,行将 LLM 视为松耦合微处事的集结,每个微处事都有不同的性能配置文献。这种粒度不错更好地映射到异构硬件,并提精深等节点的负载平衡和可扩张性。

二、夹杂自适合部署

一朝将LLM推理明白为可视为细粒度微处事的组件,举例戒备力推行、FFN接头、KV缓存经管或MoE人人门控,处事系统将获取显耀的天真性,从而选拔更复杂的部署战略。这些夹杂自适合部署模子使系统约略凭证每个组件非凡的接头和内存需求定制资源分拨,从而提高合座诓骗率和可扩张性。

1) 硬件感知的微处事布局:每个微处事都不错凭证其性能状态映射到最合适的硬件类型。举例,经常受内存带宽甘休的戒备力层应优先在具有高内存蒙胧量的NPU上运行;接头密集型的FFN模块则受益于在具有稠密接头才能的NPU上分拨;而轻量级或蔓延容忍操作(举例KV缓存索引)不错卸载到池化CPU或低老本的通用加快器上。这种细粒度的匹配约略更高效地诓骗异构硬件,并在不影响性能的情况下缩短老本。

2) 夹杂微处事共置:明白后的微处事也不错动态地共置,以提高通盘超等节点的资源诓骗率。举例,不错将解码阶段中受内存甘休的戒备力操作卸载到内存诓骗率较低的预填充实例。

这种夹杂共置战略有助于缓解资源瓶颈,提高跨阶段的诓骗率,并加多灵验的系统蒙胧量,尤其是在多变或突发性职责负载下。

3) 微处事的自适合和颓落扩张:微处事明白的一个重要上风是约略凭证据时职责负载秉性独随即扩张每个组件。举例,在处理长高下文输入期间,戒备力微处事可能会承受更高的负载,并相应地进行扩张,而无需额外的 FFN 或人人资源。这种粒度可退避系统过度配置,并允许系统弹性地适合职责负载的动态变化。

为了充分诓骗这些功能,处事基础设施必须包含一个复杂的编排层,该层约略抓续分析系统负载、预测性能瓶颈,并作念出及时的、基于处事等第方针 (SLO) 的调整和扩张决策。该编排器充任夹杂部署模子的限制平面,确保即使职责负载和资源可用性发生波动,也能满足性能保证。

一言以蔽之,由组件级明白扶植的夹杂和自适合部署战略代表了 LLM 处事系统设计中一个充满但愿的前沿领域。它们约略终了更精准的资源诓骗、跨异构硬件的无缝负载平衡,并约略满足日益复杂和各类化的模子架构所带来的明天需求。

论断

本文先容了华为 CloudMatrix,这是新一代 AI 数据中心架构,体现了华为对先进 AI 基础设施的愿景。咱们极端推选华为 CloudMatrix384,它是这一转变架构理念的首个量产级终了。

CloudMatrix384 是一个 AI 超等节点,旨在高效扶植大范围 AI 职责负载,选拔实足平等互联的硬件设计。它集成了 384 个昇腾 910C NPU 和 192 个鲲鹏 CPU,并通过超高带宽、低蔓延的长入总线 (UB) 麇集互连。这种非凡的架构扶植动态资源池化、简化的内存经管和不凡的节点间通讯,灵验搞定了传统数据中心架构中常见的可扩张性和恶果挑战。

诓骗 CloudMatrix384,咱们建议了 CloudMatrix-Infer,这是一个全面的处事搞定有筹办,它选拔点对点处事架构,将推理职责流明白为不同的预填充、解码温煦存子系统。该架构通过在扫数 NPU 之间终了对分享的明白式内存池的长入打听,显耀简化了调整,增强了负载平衡,并优化了资源诓骗率。咱们进一步设计并终赫然先进的硬件感知手艺,包括大范围人人并行 (LEP)、优化的通讯和 MLA 算子、基于微批的活水线和 INT8 量化。这些手艺共同提高了 MoE 和 MLA 的接头蒙胧量,提高了缓存恶果,并显耀提高了合座推感性能。

咱们对 DeepSeek-R1 模子进行了普遍的评估,结果标明 CloudMatrix-Infer 终赫然不凡的蒙胧量,在预填充阶段每个 NPU 每秒处理 6,688 个tokens,在解码阶段每个 NPU 每秒处理 1,943 个tokens,同期遥远保抓每个输出tokens低于 50 毫秒的低蔓延。这些结果对应的接头恶果为预填充阶段 4.45 个tokens/秒/TFLOPS,解码阶段 1.29 个tokens/秒/TFLOPS,均杰出了 NVIDIA H100 上的 SGLang 和 H800 上的 DeepSeek 等最初框架的已公布恶果。

此外,CloudMatrix Infer 灵验地平衡了蒙胧量和蔓延,即使在更严格的 15 毫秒以下 TPOT 放辖下也能保抓 538 个tokens/秒的蒙胧量。INT8 量化战略在各类基准测试中进一步保抓了与 DeepSeek 官方 API 特殊的准确率。

预测明天,CloudMatrix384 的进一步增强呈现出几个令东谈主激昂的标的。明天的职责包括集成和长入 VPC 和 RDMA 麇集平面,以终了更精简的互联互通,扩张到更大的超等节点配置,以及追求更深档次的 CPU 资源明白和池化。此外,更细粒度的组件级明白和自适合部署战略,为在 AI 数据中心基础设施中终了更高的天真性、恶果和可扩张性提供了有但愿的阶梯。

一言以蔽之,咱们的连系结果标明,华为 CloudMatrix 是一个高效、可扩张且性能优化的平台,可用于部署大范围 AI 职责负载,为明天 AI 数据中心基础设施成就了标杆。

*免责声明:本文由作家原创。著述内容系作家个东谈主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或扶植,如若有任何异议,迎接相干半导体行业不雅察。

今天是《半导体行业不雅察》为您分享的第4068期内容,迎接关怀。

加星标??第一时辰看推送,小号防走丢

求推选



相关资讯
热点资讯
  • 友情链接:

Powered by 开云「中国」kaiyun网页版登录入口 @2013-2022 RSS地图 HTML地图