开云「中国」kaiyun网页版登录入口-开云体育(中国)官方网站Nvidia 的 B200 也使用了 HBM3E-开云「中国」kaiyun网页版登录入口

开云体育(中国)官方网站Nvidia 的 B200 也使用了 HBM3E-开云「中国」kaiyun网页版登录入口

发布日期:2025-09-11 12:09  点击次数:101

开云体育(中国)官方网站Nvidia 的 B200 也使用了 HBM3E-开云「中国」kaiyun网页版登录入口

(原标题:万字解读AMD的CDNA 4 架构)

公众号谨记加星标??,第一时期看推送不会错过。

起原:内容编译自AMD。

CDNA 4 是 AMD 最新的面向预备的 GPU 架构,在 CDNA 3 的基础上进行了限度更新。CDNA 4 主要戮力于进步 AMD 在低精度数据类型下的矩阵乘法性能。这些运算关于机器学习责任负载至关进军,因为机器学习责任负载通常不错在极低精度类型下保抓可接管的准确度。同期,CDNA 4 戮力于保抓 AMD 在更平方应用的矢量运算方面的最初地位。

为此,CDNA 4 在很猛进度上接管了与 CDNA 3 交流的系统级架构。它接管大范围芯片组成立,与 AMD 在 CPU 居品中收效独揽芯片组的作念法近似。加快器预备芯片(XCD)包含 CDNA 预备单位,其作用近似于 AMD CPU 居品上的中枢复合芯片 (CCD)。八个 XCD 位于四个基础芯片之上,这些基础芯片完结了 256 MB 的内存侧缓存。AMD 的 Infinity Fabric 技艺可在通盘系统中提供一致的内存看望,并可跨越多个芯片。

与基于 CDNA 3 的 MI300X 比较,搭载 CDNA 4 的 MI355X 稍微减少了每个 XCD 的 CU 数目,并禁用了更多 CU 以保管良率。由此产生的 GPU 宽度略小,但更高的时钟速率弥补了大部分差距。与 Nvidia 的 B200 比较,MI355X 和 MI300 王人是更大的 GPU,领有更多基本构建模块。Nvidia 的 B200 如实接管了多芯片策略,冲破了遥远以来使用单片联想的传统。可是,AMD 的 chiplet 成立愈加激进,并试图在具有大型预备 GPU 的 CPU 联想中复制其蔓延收效。

预备单位变化

CDNA 3 的矢量详细量上风远超 Nvidia 的 H100,但在机器学习责任负载方面则更为复杂。收获于熟练的软件生态系统以及对矩阵乘法详细量(张量中枢)的高度面目,Nvidia 通常能够接近口头上范围更大的 MI300X。天然,如果 H100 的显存破钞,AMD 仍然保抓着渊博的上风,但 AMD 确定还有检阅的空间。

CDNA 4 从头平衡了其扩充单位,使其更专注于低精度数据类型的矩阵乘法,而这恰是机器学习责任负载所需的。在许厚情况下,每 CU 的矩阵详细量翻倍,CDNA 4 CU 在 FP6 中与 Nvidia 的 B200 SM 匹敌。不外,在其他方面,Nvidia 仍然愈加谨防低精度矩阵详细量。在 16 位和 8 位数据类型范围内,B200 SM 的每时钟详细量是 CDNA 4 CU 的两倍。AMD 络续依靠领有更大、更高时钟频率的 GPU 来保抓全体详细量最初地位。

凭借矢量运算和更高精度的数据类型,AMD 延续了 MI300X 的渊博上风。每个 CDNA 4 CU 络续领有 128 条 FP32 通说念,预备 FMA 运算时每周期可提供 256 FLOPS 的预备智力。MI355X 较低的 CU 数目如实导致矢量性能与 MI300X 比较略有下跌。但与 Nvidia 的 Blackwell 比较,AMD 更高的中枢数目和更高的时钟速率使其在矢量详细量方面保抓了渊博的最初上风。因此,AMD 的 CDNA 居品线在高性能预备责任负载方面仍然默契不俗。

Nvidia 专注于机器学习和矩阵运算,尽管启动频率较低的 SM 数目较少,但 Nvidia 在该鸿沟仍保抓着极强的竞争力。AMD 的巨型 GPU MI355X 在许无数据类型上王人处于最初地位,但 AMD 与 Nvidia 最强 GPU 之间的差距远不足矢量预备那么大。

更大的 LDS

GPU 提供了一个软件料理的暂存器,用于土产货一组线程(通常是在归拢中枢上启动的线程)。AMD GPU 使用土产货数据分享 (LDS) 来完结此运筹帷幄。Nvidia 将其近似的结构称为分享内存。CDNA 3 领有一个 64 KB 的 LDS,延续了 AMD GCN GPU 早在 2012 年就接管的近似联想。该 LDS 领有 32 个 2 KB 的存储体,每个存储体宽度为 32 位,在莫得存储体冲突的情况下,每个周期最多可提供 128 个字节。

CDNA 4 将 LDS 容量进步至 160 KB,并将读取带宽翻倍至每时钟 256 字节。GPU 原生启动于 32 位元素,因此不错合理地假定 AMD 通过加多存储体数目来翻倍带宽。如果是这么,那么每个存储体当今可能领有 2.5 KB 的容量。另一种可能性是将存储体数目加多到 80 个,同期将存储体大小保抓在 2 KB,但这不太可能,因为这会使存储体选拔变得复杂。64 个存储体的 LDS 天然不错支抓 64 位宽的波前看望,每个存储体工作于一个通说念。此外,2 的幂次方个存储体数目允许通过地址位子集随意选拔存储体。

更大的 LDS 空间允许软件将更无数据保存在汇注扩充单位的位置。内核不错分拨更多 LDS 容量,而无谓驰念 LDS 容量限制导致占用率裁汰。举例,分拨 16 KB LDS 的内核不错在 CDNA 3 CU 上启动 4 个责任组。在 CDNA 4 CU 上,这个数字将加多到 10 个责任组。

软件必须显式地将数据移入 LDS 智力利用它,与使用硬件料理的缓存比较,这可能会加多支拨。CDNA 3 具有 GLOBAL_LOAD_LDS 指示,允许内核将数据复制到 LDS 中,而无需经过向量寄存器文献。CDNA 4 增强了 GLOBAL_LOAD_LDS 指示,使其支抓每通说念最多 128 位的出动,而 CDNA 3 上每通说念仅支抓 32 位。也便是说,GLOBAL_LOAD_LDS 指示不错接管 1、2、4、12 或 16 个 DWORDS(32 位元素)的大小,而 CDNA 3 上只可接管 1、2 或 4 个 DWORDS 。

CDNA 4 还引入了读取转置 LDS 指示。矩阵乘法波及将一个矩阵中某一溜的元素与另一个矩阵中相应列的元素相乘。这通常会对至少一个矩阵形成低效的内存看望模式,具体取决于数据是按行主序照旧列主序成列。转置矩阵不错将粗劣的行列操作转化为更天然的行行操作。关于 AMD 的架构来说,在 LDS 上处理转置也很天然,因为 LDS 也曾有一个交叉开关,不错将存储体输出映射到通说念(swizzle)。

即使 LDS 容量加多了,AMD 的 GPU 中枢中的数据存储空间仍然比 Nvidia 要小。Blackwell 的 SM 有一个 256 KB 的存储块,既可用作 L1 缓存,又可用作分享内存。最多可分拨 228 KB 用作分享内存。如果分拨 164 KB 分享内存,接近 AMD 的 160 KB LDS,Nvidia 仍有 92 KB 可用于 L1 缓存。CDNA 4 与 CDNA 3 一样,每个 CU 王人有 32 KB L1 矢量缓存。因此,Blackwell SM 不错领有更多的软件料理存储,同期仍具有比 CDNA 4 CU 更大的 L1 缓存。天然,AMD 更高的 CU 数目意味着通盘 GPU 有 40 MB 的 LDS 容量,而 Nvidia 在 B200 上只须约 33 MB 的分享内存,最大分享内存分拨为 228 KB。

系统架构

为了雕悍海量预备单位阵列的需求,MI355X 在很猛进度上接管了与 MI300X 交流的系统级架构。不外,MI355X 如实有一些增强功能。二级缓存不错“回写脏数据并保留行副本”。“脏”是指已在回写缓存中修改,但尚未传播到内存子系统较初级别的数据。当脏行被拆除以腾出空间容纳新数据时,其内容将被写回到下一级缓存;如果是临了一级缓存,则写回到 DRAM。

AMD 可能正在寻求在内存子系统负载较低时当令使用写入带宽,以平滑由缓存填充请乞降写回操作引起的带宽需求峰值。或者,如果写入的数据可能被系统中的其他线程读取,但展望短期内不会再次被修改,AMD 可能会选用一些特殊措施,让 L2 缓存将一条数据线转化为干净景况。

MI355X 的 DRAM 子系统已升级为使用 HBM3E,比较其前代居品,带宽和容量均有权贵进步。这也使 AMD 保抓了对 Nvidia 竞争敌手的最初上风。Nvidia 的 B200 也使用了 HBM3E,后者似乎也领有八个 HBM3E 堆栈。可是,B200 的最大容量为 180 GB,带宽为 7.7 TB/s,而 MI355X 的最大容量为 288 GB,带宽为 8 TB/s。当 H100 的 DRAM 容量破钞时,MI300X 可能比 Nvidia 的旧款 H100 领有权贵上风,而 AMD 很可能但愿保抓这一上风。

HBM3E 带来的更高带宽也有助于进步 MI355X 的预备带宽比。MI300X 每 FP32 FLOP 的 DRAM 带宽约为 0.03 字节,而 MI355X 则进步至 0.05 字节。比较之下,Blackwell 每 FP32 FLOP 的 DRAM 带宽约为 0.10 字节。固然 Nvidia 加多了 Blackwell 的末级缓存容量,但 AMD 仍然更依赖大缓存,而 Nvidia 则更依赖 DRAM 带宽。

临了的话

CDNA 2 和 CDNA 3 与前代居品比较进行了绝对的转换。CDNA 4 的变化则更为平方。与从 Zen 3 到 Zen 4 近似,MI355X 保留了近似的芯片组成列,但预备和 IO 芯片组被替换为检阅版块。AMD 并莫得转换其总体计策,而是专注于优化 CDNA 3。更少、更高时钟频率的预备单位更易于利用,而更高的内存带宽也有助于提高利用率。更高的矩阵乘法详细量也有助于 AMD 在机器学习责任负载方面与 Nvidia 张开竞争。

在某些方面,AMD 在这一代 GPU 上的作念法与 Nvidia 颇为相似。从矢量扩充的角度来看,Blackwell SM 与 Hopper 基本交流,检阅主要联合在矩阵方面。Nvidia 可能以为他们找到了制胜法宝,因为他们夙昔几代 GPU 无疑王人得到了收效。AMD 的 CDNA 3 约略也找到了制胜法宝。MI300A 是 MI300X 的 iGPU 手足,它为 TOP500 六月榜单中排行最高的超等预备机提供能源。4在收效的基础上络续发展可能是一种安全且报恩丰厚的策略,而 CDNA 4 约略恰是如斯。

AMD CDNA 4 架构深度解读

GPU 和加快预备绝对转换了数据中心的形式。加快预备最初在科学界被平方接管,用于补充现存的通用 CPU,以玩突然震分析和分子能源学等特定责任负载。在此基础上,加快器络续发展,支抓越来越通用的编程话语(举例 C++ 和 Python)以及更各种化的应用。机器学习(尤其是在预备机视觉鸿沟)很早就利用了新的加快器,并催生了深度学习鸿沟,该鸿沟明确依赖 GPU 等加快器来查验和部署神经汇注。

在经典科学预备和新兴机器学习及东说念主工智能责任负载之间,GPU 的联想日益谨防范围化启动,为各人最大的超等预备机提供能源。基于 Transformer 的神经汇注的发现拓展了 GPU 的视线,并最终股东了生成式东说念主工智能的爆炸式增长。生成式东说念主工智能是迄今为止要求最高的应用鸿沟之一,其应用范围远远超出了科学预备,涵盖了消费者和企业用户。

对预备智力和恶果的需求如斯渊博,以至于架构师不得握住尽全力,络续从头注视预备鸿沟的基本假定。最初,加快器接管了新的内存模子,但保留了熟悉的数据类型。当今,浮点数值示意法与新算法沿途络续发展,以裁汰精度,从而提高性能、内存占用和能效。与此同期,GPU 在集成度方面也络续突破极限——起始接管先进的封装技艺将 HBM 与加快器缜密耦合,当今则使用更先进的封装技艺,开脱单片硅片完结。

AMD 一直走在这场翻新的前沿,为 GPU 开发新颖的软件和系统架构,以完结更强劲的性能和功能。在软件方面,AMD CDNA 2 架构通过缓存一致性统一了 CPU 和 GPU 预备,为软件生态系统开释了新的应用和机遇。 AMD CDNA 3 架构绝对转换了加快器的构建方式,接管先进的封装技艺,完结了异构集成,并将处理器从头分袂到十几个不同的芯片组上。

如下图 1 所示,AMD CDNA 4 架构确立在先前 3D 封装技艺的基础上,并在异构封装中从头平衡了处理器的元素。每个 AMD Instinct MI350 系列 GPU 集成了 8 个垂直堆叠的加快器复合芯片 (XCD) 和 2 个包含系统基础架构的 I/O 芯片 (IOD),并与 AMD 的 AMD Infinity Fabric 封装技艺缜密联贯,并贯串到 8 个 12-Hi 高带宽内存堆栈 (HBM3E)。XCD 勾通了最新的制程技艺并支抓新的裁汰精度数据类型,从而进步了 AI 的详细量和恶果,而从头分袂的 IOD 则有助于改善通讯和内存流量的蔓延和恶果。外部方面,AMD Instinct MI350系列居品接管Infinity Fabric技艺,在单个节点上径直贯串8个GPU。

这种联想提供了多功能性,可快速开发和部署基于 AMD CDNA 4 架构的居品系列,以雕悍客户各种化的需求——兼顾易用性和极致性能。AMD Instinct MI350 系列包含风冷 (AC) Instinct MI350X GPU,其 1000W 功指示受 OCP UBB8 基板,该基板旨在与上一代 AMD Instinct™ MI325X 平台和系统径直兼容,从而快速部署到现存生态系统中并快速完结价值。为了在无与伦比的密度下完结更高的性能和恶果,AMD Instinct MI355X GPU (1400W) 提供径直液冷 (DLC) 平台,相似接管 UBB8 基板,适用于支抓更高功率和冷却智力的基础设施。

与上一代 AMD Instinct MI325X GPU 比较,AMD Instinct MI355X GPU 将现存机器学习专用 16 位和 8 位矩阵数据类型的峰值详细量险些提高了一倍,并引入了对其他低精度数值形势的支抓,将 FP6/FP4 的 10TFLOP/s 表面峰值与 MI325X 的 FP8 的 2.61 PFLOPS 表面峰值性能比较,性能提高了 3.85 倍。MI350-005 MI355X 还将内存容量进步至 288GB HBM3E,带宽高达 8TB/s,通讯带宽高出 1TB/s。 CDNA 4 架构旨在与开源驱动的 ROCm 软件生态系统协同责任,并通过 Kubernetes® 提供颠倒的开箱即用科学预备和企业编排功能,并支抓最初的 AI 查验和推理堆栈以及对流行生成式 AI 模子的 Day 0 支抓。

Chiplet架构

AMD CDNA 3 架构是一次范式滚动——它接管了基于芯片组(chiplet-based)的当代方法,充分利用了异构集成技艺,并将繁密专用芯片组与 Infinity Fabric 架构整合到一个高度优化的预备平台中。与夙昔几十年占据主导地位的单片架构比较,这是对芯片联想和架构的一次根人性反想,有望为改日数代居品带来性能和可蔓延性。

CDNA 4 架构承袭了这一翻新性基础,并通过全心优化每个组件来提供最好性能、恶果和可制造性,充分展现了这种纯真策略的上风。八个预备芯片组(XCD)受益于最新的制程工艺,并接管台积电 (TSMC) 顶端的 N3P 制程技艺完结,其芯片尺寸和占位面积与上一代居品相似,以完结最好性能和恶果。 IOD 中的内存和通讯功能主要由大型 AMD Infinity Cache和互连芯片承担,而这些芯片无法灵验蔓延,无法充分利用最新工艺技艺提供的性能。利用异构架构中的沉静蔓延功能,这些功能保留在台积电高效且经济实惠的 N6 工艺上,但从头平衡了两个大型 IOD(而非四个)的部署,从而优化了性能和能效,同期保抓了故意的可制造性。

AMD CDNA 4 预备

AMD CDNA 4 架构突显了基于 Chiplet 的异构预备平台构建方法的一大上风——每个 Chiplet 王人不错使用恰当的制程技艺,从而完结更高效的演进。加快器复合芯片 (XCD) 包含处理器的预备部分以及对性能最为明锐的缓存层级的最低层。AMD CDNA 4 XCD 接管台积电最新的 N3P 制程技艺,充分利用了比较上一代 N5 制程更高的逻辑密度和性能。

如图 2 所示,AMD CDNA 4 架构从头平衡了 XCD,通过进步每个预备单位 (CU) 的功能来进步性能,尤其适用于要求最尖刻的 AI 责任负载——完结对新数据类型的硬件支抓,并权贵提高矢量和矩阵责任负载的预备详细量和恶果,如下表 1 所示。

AMD CDNA 4 XCD 中的 CU 数目与上一代比较略有减少,但每个 CU 通过一系列新功能的组合变得愈加强劲。因此,调换设施、硬件队伍和将预备着色器责任组发送到预备单位 (CU) 的异步预备引擎 (ACE) 等全局资源仅需进行少许增强。

每个 XCD 包含 36 个 AMD CDNA 4 预备单位,这些预备单位被组织成四个阵列,每个阵列包含 9 个 CU,其中 32 个处于活动景况,剩下 4 个可能处于禁用景况,以完结高产量和高效的责任频率。与上一代居品一样,L2 缓存会将 XCD 中的整个流量合并,然后散布到贯串系统其余部分的 Infinity Fabric 架构。该处理器跨越 8 个 XCD,最多可支抓 256 个预备单位——略少于上一代居品,但在某些情况下,与 AMD Instinct MI300 系列 GPU 比较,预备详细量翻了一番。

AMD CNDA 4 预备单位架构

如下图 3 所示,AMD CDNA 4 架构预备单位 (CU) 实例化了圆善的处理器活水线,能够高度线程化地并行扩充标量、矢量和矩阵指示以及数据类型,并领有包含 L1 数据缓存和显式寻址土产货数据分享的内存活水线。AMD CDNA 4 CU 相较于上一代居品略有增强,增强了内归档次结构,并安靖于接管新的低精度数值形势,并进步了对机器学习应用至关进军的矢量和矩阵详细量,最高可达 3.9 倍 (FP4/FP8)。

由于大无数责任负载将跨越多个预备单位 (CU),因此两个相邻的预备单位分享 64KB、8 路组相联指示缓存,从而灵验利用缓存和区域。

AMD CDNA 4 CU 中,矩阵中枢是本世代性能进步中最进军的部分,这些中枢专注于 AI 和机器学习,不仅加多了对新圭臬化数值形势的硬件支抓,也加多了现存数据类型的原始预备资源。低精度数值形势是进步 AI 性能最灵验、最强劲的技艺之一。较小的数据类型不错提高预备详细量,从而更灵验地利用有限的数据旅途——内容上,在功耗略有进步的情况下,权贵进步了预备智力。此外,较小的数据也能更好地利用通盘处理器的宝贵资源,举例内存或缓存带宽和容量,通常能够权贵提高能效。

在机器学习的早期,单精度浮点 (FP32) 数据很常见,但在夙昔十年中,东说念主工智能社区接管了 FP16、BF16、INT8 和 FP8 形势来进步性能和恶果。这些更紧凑的浮点形势用更少的位数示意张量中的每个数据元素,并为每个张量添加了一个缩放因子,以拿获圆善的动态范围并幸免下溢和上溢。AMD CDNA 3 预备单位引入了对 OCP 8 位浮点治安中描述的两种 FP8 数据类型变体的支抓:一种是用于查验的 2 位余数和 5 位指数 (E5M2),另一种是用于推理的 3 位余数和 4 位指数 (E4M3)。

最近,业界围绕 OCP MX 圭臬中体现的微缩放办法张开了联合,将裁汰的精度进步到了一个新的水平。微缩放背后的中枢办法是让硬件支抓一个在张量内的数据元素块(通常为 32 个)之间分享的比例因子,而不是通盘张量只使用一个比例因子。与传统的 FP8 比较,微缩放的 MXFP8 形势具有更细的粒度,这使得在 AI 责任负载中,不错在更平方的张量上使用精度更低的形势。此外,微缩放还为更高的压缩率开辟了说念路,并引入了诸如 MXFP6(包含 E3M2 和 E2M3 变体)和 MXFP4(指定 E2M1)等形势。下图 4 表露了最新 AMD CDNA 4 架构支抓的部分数值数据形势。

AMD CDNA 4 架构最权贵的检阅之一在于矩阵中枢。顺应行业裁汰精度的趋势,AMD CDNA 4 预备单位 (CU) 引入了对行业圭臬微蔓延形势(包括 MXFP8、MXFP6 和 MXFP4)的指示和硬件支抓。

此外,N3P 工艺提供的额外资源用于将 16 位及更小紧充数据类型的扩充资源加多一倍,如下表 1 所示。这两项检阅的勾通意味着每个 CU 在单个周期内可扩充的运算数目险些加多了四倍,如下图所示,与上一代 (FP4/FP8) 比较,机器学习智力大幅进步。上一代居品十足硬件支抓私有的 TF32 数字形势。

经过与客户和生态系统的平方商议,该形势已从硬件中移除,并通过使用 BF16 数据类型的软件仿真来支抓。最终终结是,关于低精度 AI 数值数据形势,AMD CDNA 4 架构的预备详细量翻了一番,同期大无数模子的精度保抓不变。

矩阵中枢的增强功能进步了东说念主工智能责任负载中常见的矩阵运算的预备详细量——这关于组成当代大型话语模子 (LLM) 基础的 Transformer 尤为进军。东说念主工智能应用通常将矩阵运算的输出赠送到向量激活运算。关于卷积神经汇注,通常使用修正线性单位 (ReLU);而在基于 Transformer 的采麇集,softmax 是最常见的激活函数。为了与矩阵中枢的大幅进步保抓一致,超越率也进步了 2 倍,以提拔可贵力加快,从而确保平衡的性能弧线。临了,AMD CDNA 4 预备单位还引入了多种数据转化指示,以确保新形势的易用性。

固然矩阵中枢的联想备受面目,但 AMD CDNA 4 架构中的内归档次结构也得到了增强,尤其谨防土产货数据分享 (LDS) 以及针对基于 Transformer 的神经汇注的优化。 AMD CDNA 3 架构及前几代架构中的逻辑数据结构 (LDS) 接管径直寻址结构,包含 32 个存储体,每个存储体包含 512 个 32 位数据要求,合计 64KB 数据。每个存储体不错读写 32 位值,LDS 集成了冲突检测和调换逻辑、复杂的交叉开关和混杂单位以及原子扩充单位。AMD CDNA 4 架构中的 LDS 大小为 160KB,通过加多存储体数目,容量加多了一倍以上,读取带宽也翻倍至每时钟 256 字节。由于数据复用进度较高,额外的容量和带宽关于提高预备单位 (CU) 顶用于矩阵乘律例程的矢量和矩阵扩充资源的利用率至关进军。AMD CDNA 4 LDS 也比之前的联想更高效,支抓径直从一级数据缓存加载数据,从而减少矢量寄存器的使用和蔓延。这两项 LDS 优化关于矩阵乘法尤其进军,而矩阵乘法是当代基于 Transformer 的神经汇注的撑抓。

每个 AMD CDNA 4 预备单位 (CU) 中的 L1 矢量数据缓存与上一代基本交流,领有 128B 缓存行和 32KB 容量,并支抓 64 路组相联。此外,还有一个分享的 4MB、16 路组相联 L2 缓存,为 XCD 中的整个预备单位 (CU) 提供工作。L2 缓存领有 16 个并行通说念,每个通说念每个周期能够扩充圆善的 128B 缓存行读取和 64B 写入操作。十足一致的 L2 缓存旨在通过写回和写入分拨策略,减少从 XCD 溢出并跨越 Infinity Fabric 到达系统其他部分的流量。AMD CDNA 4 架构中的 L2 缓存还进行了一些额外的一致性优化。它当今不错缓存来自 DRAM 的非干统统据,况且不错写回脏数据并保留该行的副本。

AMD CDNA 4 架构内存

AMD CDNA 4 架构的内存层级始于预备单位 (CU),二级缓存 (L2) 充任通盘 XCD 通往贯串处理器的 AMD Infinity Fabric 汇注的网关。内存层级的分享部分(包括 AMD Infinity Cache™ 和内存贬抑器)位于垂直堆叠在 XCD 下方的 IOD 中。AMD CDNA 3 架构中引入的基于芯片组的异构方法使得每个芯片组的硅片完结能够沉静演进,从而最大限制地提高性能,同期提供颠倒的可制造性。在 AMD CDNA 4 架构中,XCD 利用最新制程技艺的密度来进步处理器的预备性能,这很容易讲授加多的资本是合理的。可是,IOD 主要包含诸如 SRAM 和 I/O 之类的组件,这些组件无法从更先进的制程中获益,也无法讲授其资本是合理的。

IOD 接管台积电 N6 工艺完结。如上图 5 所示,AMD CDNA 4 架构接管两个较大的 IOD 并径直贯串,而非上一代的四个较小的 IOD。这简化了封装内的 Infinity Fabric 汇注,从而裁汰了很多通讯模式的蔓延并裁汰了功耗,从而为处理器的其他部分开释了更多空间。IOD 之间更不详的径直贯串比 AMD CDNA 3 架构的速率提高了约 14%,从而进步了很多通讯模式的性能。

AMD CDNA 4 架构中的 Infinity Cache 在组织结构上基本保抓不变。它仍然充任一个分享的 256MB、16 路组相联内存端缓存,并扇出 8 个内存堆栈。关于每个堆栈,Infinity Cache 包含 16 个 64 字节宽的并行通说念,以完结高带宽,并与 2MB 的存储数据阵列绑定。AMD CDNA 4 架构中的两个 IOD 均包含四个权贵增强的内存贬抑器。HBM3E 内存接口的启动速率为 8 Gbps,比 AMD Instinct MI325X 快 33% 以上,并提供惊东说念主的 8TB/s 峰值表面内存带宽。MI350-002 相似至关进军的是,每个堆栈的内存容量已进步至 36GB,单个处理器最高可达 288GB,从而雕悍了 AI 查验和推理鸿沟日益增长的内存需求。

在夙昔几年中,顶端大型话语模子的参数数目呈爆炸式增长。 2020年年中,OpenAI 初次发布了 GPT3,其参数数目高达 1750 亿,可是到 2024 年底,连接东说念主员也曾在尝试使用一万亿致使更多的参数。在参数数目络续增长的期间,进步内存容量不错为查验高档模子的连接东说念主员开释更多创新和智力。内存容量关于推理也至关进军。LLM 的高下文窗口决定了模子不错处理的输入量,并径直影响用户体验。GPT3 的高下文窗口为 2048 个 token,精炼终点于 1500 个单词或几页文本。为了给用户提供更大的纯真性和智力,当代 LLM 提供高达 200 万个 token 的高下文窗口,比大无数册本的篇幅还要长。但这是有代价的,因为键值缓存的内存使用量会跟着高下文窗口的大小线性增长,这突显了内存容量在推理中的进军性。

AMD CDNA 4 预备和内存分区

与上一代 AMD Instinct MI300X GPU 一样,AMD Instinct MI350 系列 GPU 可在预备和内存两个维度上进行分区。在预备分区方面,AMD CDNA 4 架构系列与上一代近似,不错沿 XCD 线进行空间分区。关于 AI 查验等较大问题,整个 XCD 不错协同处理单个任务。如下图 6 所示,GPU 还不错分袂为两个、四个或八个预备分区,每个分区分别包含四个、两个和一个 XCD,从而为较小任务提供十足收场。举例,单个处理器不错分袂为多达八个实例,以同期为较小的推理模子提供工作。

AMD CDNA 4 架构的内存分区与上一代比较发生了权贵变化,这主若是由于转向了两个 IOD。AMD CDNA 4 架构不错将内存交错分散在整个八个 HBM 堆栈上,跨越两个 IOD,或者将 288GB 内存分袂为两个 144GB 的内存池,每个 IOD 一个。第一种设立称为 NPS1(每插槽数字内存),通常更易于应用设施移植,况且关于内存看望模式极其均匀的责任负载相配灵验。在 NPS2 模式下,整个内存流量王人停留在单个 IOD 偏执关联的 XCD 内,从而减少了在两个 IOD 之间跨越 AMD Infinity Fabric 汇注的支拨,并改善了蔓延、带宽和功耗,从而进步了全体性能和恶果。比较两代最高效启动模式下的性能,AMD CDNA 4 中的 DPX+NPS2 和 AMD CDNA 3 中的 QPX+NPS4,不错看出 IOD 从头分区带来的权贵越过。高效的 AMD CDNA 4 分区领有 7.7 倍的峰值预备详细量、2.25 倍的内存容量和 2.67 倍的内存带宽,能够以颠倒的恶果玩忽更具挑战性的问题。

通讯、蔓延和系统

AMD Instinct MI350 系列 GPU 旨在雕悍两类不同的需求。关于某些客户而言,上一代居品的径直兼容升级是梦想之选——它能够快速部署,并保留现存的基础设施和生态系统投资。但其他客户则专注于追求最好性能和恶果,并雅瞻念接管功耗和散热需求更高的处理器和系统。为了雕悍这双重需求,AMD CDNA 4 架构系列沿用了与上一代居品近似的通讯和蔓延方法,以完结径直兼容,同期进行渐进式检阅,以支抓最高性能的系统。

AMD CDNA 4 架构包含 8 条 AMD Infinity Fabric 链路,这些链路宽度为 16 位,十足双向,用于单个工作器节点内的设施包间通讯。在上一代居品中,这些链路分散在四个 IOD 上,并以 32Gbps 的速率启动。 AMD CDNA 4 架构中的 Infinity Fabric 链路启动速率比上一代进步高达 20%,达到 38.4Gbps,单向总链路带宽达到 76.8GB/s,每个从头分区的 IOD 包含四条链路。MI350-007 每个 GPU 可在节点内提供 >1TB/s 的通讯带宽,其中一条 Infinity Fabric 链路设立为 PCIe Gen 5,用于贯串存储和汇注等 I/O 开垦。

AMD Instinct MI350 系列平台:

8 OAM + AMD UBB 节点示例

如下图 7 所示,AMD Instinct MI350 系列的系统架构与上一代居品交流,接管全贯串 8 GPU 系统。每个 GPU 使用一条 PCIe®Gen 5 链路贯串到主机处理器和 I/O 开垦;这种拓扑结构不错纯真地处理工作器节点内的整个通讯模式。AMD Instinct MI350 系列沿用 OAM 外形规格,提供 1000W 和 1400W 两种功率版块。前者与之前部署的 AMD Instinct MI325X 代联想兼容,尔后者仍然兼容,但需要恰当更高的功率和散热要求*。

AMD Instinct MI350 系列 GPU 包含两款不同功率级别的居品。AMD Instinct MI350X 是一款 1000W 的风冷 GPU,通过 UBB8 基板部署,该基板与上一代 AMD Instinct MI325X GPU 系统联想兼容,接管 4 机架单位 (RU) 托盘高度。更高功率的 AMD Instinct MI355X GPU 接管 1400W DLC(径直液冷)处罚有运筹帷幄,接管 2RU 托盘高度,专为那些络续接管径直液冷技艺以完结更高密度和恶果的系统构建者和客户而联想。关于更高密度的处罚有运筹帷幄,MI355X 还将提供 1OU 处罚有运筹帷幄。

固然 AMD Instinct MI350 系列各成员在处理器和工作器层面的原始性能各异相对较小,但径直液冷在机架层面却有着渊博的影响,如上图 8 所示。关于现存的 120kW 或 130kW 54U 机架基础设施,AMD Instinct MI350X 平台 (AC) 可容纳多达 8 台工作器,并提供 0.6 EFLOP/s 的 FP8 疏淡预备智力。AMD Instinct MI355X 平台 (DLC) 在合理设立的 200kW 机架中可容纳 16 台工作器,并在同等占用空间内提供约 118% 的预备智力进步。

适用于 AMD INSTINCT GPU 的

AMD ROCm软件堆栈

软件关于加快预备的收效至关进军——它能够随意部署和料理,并充分利用底层硬件来启动要求最尖刻的应用设施。AMD 软件计策确立在开源基础之上——AMD ROCm 生态系统,它将开发者、客户和通盘社区凝华在沿途。这种开源方法让每个东说念主王人能知悉复杂精密的堆栈,并左证自己需求进行检察和调治。该计策已得到一些各人范围最大、要求最高的客户的招供和考据,举例百亿亿次级 El Capitan 和 Frontier 超等预备机。反过来,这种接管股东了良性轮回,使生态系统有契机快速熟练并扩大范围。

AMD Instinct MI350 系列和全体软件计策的指点原则是谨防易用性,同期提供定制化工作。从软件的角度来看,这意味着在编译器、数学库和调试器等基础元素之上构建,以提供高档功能并减少大范围摩擦。这使客户能够快速随意地料理、查验和部署AI系统,并纯真地玩忽快速变化的环境,同期还能为那些值得进行更大范围投资的企业提供深度优化。

AMD已接管Kubernetes来编排AI基础架构,使客户能够随意部署用于大范围查验和推理工作的容器,并以熟练的云或土产货企业环境中所盼望的安全功能和可靠性进行料理。手脚赋能生态系统的一部分,AMD创建了GPU Operator软件包,它通过一套用于节点发现、插件装配、健康检察、故障抹杀、可不雅察性等器具增强了Kubernetes。这种云原生方法使AMD能够与生态系统配合股伴联袂,创建一个丰富的容器库,造福通盘社区,尤其侧重于生成式AI。

在查验方面,AMD 与 JAX 和 PyTorch 等最初的框架配合,提供优化的 ROCm 支抓。ROCm 生态系统包含适用于分散式查验框架的容器,这些框架关于要求最严苛的生成式 AI 应用至关进军,举例 JAX 的 Maxtext,以及 PyTorch 的 Megatron LM 和 Torchtitan。关于开发经过的后期部分,举例微联合其他近似技艺,Torchtune 库也已针对 ROCm 进行了优化。这些框架和器具链已提前进行调治,以充分利用 AMD GPU 的架构特质,尤其是大内存容量或 Flash Attention v3 和滑动窗口可贵力等要津技艺。此外,AMD 还戮力于优化一些最平方使用的盛开模子,举例 Meta 的 Llama 系列。

在推理方面,AMD 与最初的工作框架 vLLM 和 SGLang 配合,创建了高度优化的容器,可随时部署生成式 AI 进行大范围推理,包括为最流行的生成式 AI 模子提供 Day 0 支抓。vLLM 被推选为一款出色的通用处罚有运筹帷幄,AMD 通过每两周发布一次安详版块和每周发布一次开发版原本支抓该框架。关于代理责任负载、Deepseek 和其他特定用例,SGLang 是首选有运筹帷幄,并每周发布一次安详版块。除了工作框架除外,AMD 还优化了 Llama 系列、Gemma 3、Deepseek 和 Qwen 系列等最初模子,并提供 Day 0 支抓,以便生态系统能够在络续变化的 AI 形式中随意接管最新模子。

关于追求颠倒性能的客户,ROCm 生态系统包含丰富的内核级优化器具,包括端到端分析器、预构建且高度优化的内核和运算符,以及对 Triton 话语的平方支抓。

下表 2 提供了 AMD Instinct MI350 系列 GPU 居品规格和特质。

论断

AMD CDNA 4 架构是第二代百亿亿次级架构,它充分利用了异构集成的上风,并将处理器部署在与 AMD Infinity Fabric 贯串的专用芯片组中,从而在 AMD Instinct MI350 系列 GPU 中提供突破性的性能和恶果,并具备颠倒的可制造性。AMD CDNA 4 架构在上一代架构的基础上,络续接管先进的 3D 封装技艺,将 XCD 预备芯片组垂直堆叠在专注于内存和通讯的 IOD 芯片组之上,并沉静调治每个组件。八个 AMD CDNA 4 XCD 预备芯片组接管最新的制程技艺,并添加了新的行业圭臬低精度数据类型、土产货数据分享容量和带宽以及扩充资源,从而权贵进步了预备详细量,尤其适用于生成式 AI。承载内存和通讯功能的 IOD 接管与上一代交流的工艺,但被整合为两个芯片组,从而裁汰了蔓延并进步了恶果,并通过接管 HBM3E 技艺完结了更大的内存容量和带宽。

AMD Instinct MI350 系列通过这些全心的架构优化,将性能和功能进步到了一个全新的水平。 AMD Instinct MI355X 型号可将现存低精度矩阵数据类型的预备详细量进步近一倍,并使用全新行业圭臬低精度 FP4 或 FP6 数据类型,将峰值性能进步 3.9 倍,为生成式 AI 应用完结高出 10TFLOP/s 的预备详细量。MI350-005 同期,这些 GPU 将内存容量进步至 288GB HBM3E,并将内存带宽进步 33% 至 8TB/s,并将通讯带宽进步至 1TB/s 以上,以玩忽范围最大、要求最高的科学或 AI 应用。MI350-002 GPU 的全心从头分区进一步进步了最高效分区模式的功能,峰值预备详细量进步 7.7 倍,内存容量进步 2.25 倍,内存带宽进步 2.67 倍。

从系统和软件角度来看,AMD Instinct MI350 系列不仅易于使用、部署浅易,还能提供最大化性能、恶果和密度的选项。基础 8 GPU 节点的系统架构在逻辑上与上一代交流,AMD Instinct MI350X UBB8 基板可与现存系统联想径直兼容,从而叠加利用现存生态系统投资,并尽可能简化部署。关于追求最高性能和密度的客户,AMD Instinct MI355X GPU 提供径直液冷规格,可在 200kW 机架中容纳多达 128 个 GPU,提供高出 2.5 ExaFLOP/s 的峰值 FP4 预备智力,并具备疏淡性能。

AMD 对开源 ROCm 生态系统的干涉体现了这一理念,在几代对科学预备的颠倒支抓基础上,为使用 Kubernetes 进行大范围编排提供平方的开箱即用支抓。关于顶端的生成式 AI 责任负载,ROCm 生态系统包含 PyTorch 和 JAX 等框架、Megatron 和 Maxtext 瓜分散式查验包,以及 vLLM 和 SGLang 等工作框架。AMD 还与最初的 AI 开发者配合,为该生态系统提供最热点的生成式 AI 模子的 Day 0 支抓。这些干涉共同为客户提供了颠倒的开箱即用体验,而丰富的器具链则闪开发者能够通过自界说内核和其他优化来追求更高性能。

AMD CDNA 4 架构的纯真性使 AMD 能够突破 AMD Instinct MI350 系列的性能、功能和恶果极限,同期提供浅易的部署和接管,匡助客户尽快开释后劲。这确保客户不错信托 AMD,以恰当的处罚有运筹帷幄匡助他们玩忽从科学预备到生成式 AI 等最严苛的责任负载。

https://chipsandcheese.com/p/amds-cdna-4-architecture-announcement

*免责声明:本文由作家原创。著作内容系作家个东说念主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或支抓,如果有任何异议,迎接关联半导体行业不雅察。

今天是《半导体行业不雅察》为您分享的第4068期内容,迎接面目。

加星标??第一时期看推送,小号防走丢

求推选



相关资讯
热点资讯
  • 友情链接:

Powered by 开云「中国」kaiyun网页版登录入口 @2013-2022 RSS地图 HTML地图