开云kaiyun但与 Nvidia 的 Blackwell 比较-反波胆·app

栏目分类
你的位置:反波胆·app > 新闻 > 开云kaiyun但与 Nvidia 的 Blackwell 比较-反波胆·app
开云kaiyun但与 Nvidia 的 Blackwell 比较-反波胆·app
发布日期:2026-06-15 07:45    点击次数:101

开云kaiyun但与 Nvidia 的 Blackwell 比较-反波胆·app

(原标题:万字解读AMD的CDNA 4 架构)开云kaiyun

公众号紧记加星标??,第一时刻看推送不会错过。

来源:内容编译自AMD。

CDNA 4 是 AMD 最新的面向策画的 GPU 架构,在 CDNA 3 的基础上进行了限度更新。CDNA 4 主要竭力于擢升 AMD 在低精度数据类型下的矩阵乘法性能。这些运算关于机器学习责任负载至关遑急,因为机器学习责任负载时常不错在极低精度类型下保抓可接管的准确度。同期,CDNA 4 竭力于保抓 AMD 在更平常应用的矢量运算方面的起头地位。

为此,CDNA 4 在很猛进程上接管了与 CDNA 3 相通的系统级架构。它接管大范围芯片组竖立,与 AMD 在 CPU 居品中奏效诓骗芯片组的作念法访佛。加快器策画芯片(XCD)包含 CDNA 策画单位,其作用访佛于 AMD CPU 居品上的中枢复合芯片 (CCD)。八个 XCD 位于四个基础芯片之上,这些基础芯片达成了 256 MB 的内存侧缓存。AMD 的 Infinity Fabric 本事可在扫数这个词系统中提供一致的内存拜访,并可跨越多个芯片。

与基于 CDNA 3 的 MI300X 比较,搭载 CDNA 4 的 MI355X 稍稍减少了每个 XCD 的 CU 数目,并禁用了更多 CU 以保管良率。由此产生的 GPU 宽度略小,但更高的时钟速率弥补了大部分差距。与 Nvidia 的 B200 比较,MI355X 和 MI300 齐是更大的 GPU,领有更多基本构建模块。Nvidia 的 B200 如实接管了多芯片策略,龙套了永恒以来使用单片瞎想的传统。然则,AMD 的 chiplet 竖立愈加激进,并试图在具有大型策画 GPU 的 CPU 瞎想中复制其扩张奏效。

策画单位变化

CDNA 3 的矢量微辞量上风远超 Nvidia 的 H100,但在机器学习责任负载方面则更为复杂。收获于老练的软件生态系统以及对矩阵乘法微辞量(张量中枢)的高度崇拜,Nvidia 时常能够接近口头上范围更大的 MI300X。天然,如果 H100 的显存浮滥,AMD 仍然保抓着广泛的上风,但 AMD 细目还有矫正的空间。

CDNA 4 重新平衡了其实践单位,使其更专注于低精度数据类型的矩阵乘法,而这恰是机器学习责任负载所需的。在许厚情况下,每 CU 的矩阵微辞量翻倍,CDNA 4 CU 在 FP6 中与 Nvidia 的 B200 SM 匹敌。不外,在其他方面,Nvidia 仍然愈加注重低精度矩阵微辞量。在 16 位和 8 位数据类型范围内,B200 SM 的每时钟微辞量是 CDNA 4 CU 的两倍。AMD 赓续依靠领有更大、更高时钟频率的 GPU 来保抓举座微辞量起头地位。

凭借矢量运算和更高精度的数据类型,AMD 延续了 MI300X 的广泛上风。每个 CDNA 4 CU 赓续领有 128 条 FP32 通说念,策画 FMA 运算时每周期可提供 256 FLOPS 的策画才智。MI355X 较低的 CU 数目如实导致矢量性能与 MI300X 比较略有下跌。但与 Nvidia 的 Blackwell 比较,AMD 更高的中枢数目和更高的时钟速率使其在矢量微辞量方面保抓了广泛的起头上风。因此,AMD 的 CDNA 居品线在高性能策画责任负载方面仍然施展不俗。

Nvidia 专注于机器学习和矩阵运算,尽管启动频率较低的 SM 数目较少,但 Nvidia 在该范围仍保抓着极强的竞争力。AMD 的巨型 GPU MI355X 在好多量据类型上齐处于起头地位,但 AMD 与 Nvidia 最强 GPU 之间的差距远不足矢量策画那么大。

更大的 LDS

GPU 提供了一个软件握住的暂存器,用于腹地一组线程(时常是在归并中枢上启动的线程)。AMD GPU 使用腹地数据分享 (LDS) 来达成此方向。Nvidia 将其访佛的结构称为分享内存。CDNA 3 领有一个 64 KB 的 LDS,延续了 AMD GCN GPU 早在 2012 年就接管的访佛瞎想。该 LDS 领有 32 个 2 KB 的存储体,每个存储体宽度为 32 位,在莫得存储体冲突的情况下,每个周期最多可提供 128 个字节。

CDNA 4 将 LDS 容量擢升至 160 KB,并将读取带宽翻倍至每时钟 256 字节。GPU 原生启动于 32 位元素,因此不错合理地假定 AMD 通过增多存储体数目来翻倍带宽。如果是这么,那么每个存储体当今可能领有 2.5 KB 的容量。另一种可能性是将存储体数目增多到 80 个,同期将存储体大小保抓在 2 KB,但这不太可能,因为这会使存储体聘用变得复杂。64 个存储体的 LDS 天然不错支抓 64 位宽的波前拜访,每个存储体办事于一个通说念。此外,2 的幂次方个存储体数目允许通过地址位子集间隙聘用存储体。

更大的 LDS 空间允许软件将更多量据保存在围聚实践单位的位置。内核不错分拨更多 LDS 容量,而不消转头 LDS 容量限度导致占用率裁汰。举例,分拨 16 KB LDS 的内核不错在 CDNA 3 CU 上启动 4 个责任组。在 CDNA 4 CU 上,这个数字将增多到 10 个责任组。

软件必须显式地将数据移入 LDS 才智利用它,与使用硬件握住的缓存比较,这可能会增多支出。CDNA 3 具有 GLOBAL_LOAD_LDS 辅导,允许内核将数据复制到 LDS 中,而无需经过向量寄存器文献。CDNA 4 增强了 GLOBAL_LOAD_LDS 辅导,使其支抓每通说念最多 128 位的迁徙,而 CDNA 3 上每通说念仅支抓 32 位。也等于说,GLOBAL_LOAD_LDS 辅导不错接管 1、2、4、12 或 16 个 DWORDS(32 位元素)的大小,而 CDNA 3 上只可接管 1、2 或 4 个 DWORDS 。

CDNA 4 还引入了读取转置 LDS 辅导。矩阵乘法波及将一个矩阵中某一瞥的元素与另一个矩阵中相应列的元素相乘。这时常会对至少一个矩阵形成低效的内存拜访模式,具体取决于数据是按行主序如故列主序陈列。转置矩阵不错将桀黠的行列操作革新为更天然的行行操作。关于 AMD 的架构来说,在 LDS 上处理转置也很天然,因为 LDS 一经有一个交叉开关,不错将存储体输出映射到通说念(swizzle)。

即使 LDS 容量增多了,AMD 的 GPU 中枢中的数据存储空间仍然比 Nvidia 要小。Blackwell 的 SM 有一个 256 KB 的存储块,既可用作 L1 缓存,又可用作分享内存。最多可分拨 228 KB 用作分享内存。如果分拨 164 KB 分享内存,接近 AMD 的 160 KB LDS,Nvidia 仍有 92 KB 可用于 L1 缓存。CDNA 4 与 CDNA 3 一样,每个 CU 齐有 32 KB L1 矢量缓存。因此,Blackwell SM 不错领有更多的软件握住存储,同期仍具有比 CDNA 4 CU 更大的 L1 缓存。天然,AMD 更高的 CU 数目意味着扫数这个词 GPU 有 40 MB 的 LDS 容量,而 Nvidia 在 B200 上独一约 33 MB 的分享内存,最大分享内存分拨为 228 KB。

系统架构

为了知足海量策画单位阵列的需求,MI355X 在很猛进程上接管了与 MI300X 相通的系统级架构。不外,MI355X 如实有一些增强功能。二级缓存不错“回写脏数据并保留行副本”。“脏”是指已在回写缓存中修改,但尚未传播到内存子系统较初级别的数据。当脏行被捣毁以腾出空间容纳新数据时,其内容将被写回到下一级缓存;如果是临了一级缓存,则写回到 DRAM。

AMD 可能正在寻求在内存子系统负载较低时应时使用写入带宽,以平滑由缓存填充请乞降写回操作引起的带宽需求峰值。或者,如果写入的数据可能被系统中的其他线程读取,但展望短期内不会再次被修改,AMD 可能会选定一些特殊措施,让 L2 缓存将一条数据线革新为干净现象。

MI355X 的 DRAM 子系统已升级为使用 HBM3E,比较其前代居品,带宽和容量均有权贵擢升。这也使 AMD 保抓了对 Nvidia 竞争敌手的起头上风。Nvidia 的 B200 也使用了 HBM3E,后者似乎也领有八个 HBM3E 堆栈。然则,B200 的最大容量为 180 GB,带宽为 7.7 TB/s,而 MI355X 的最大容量为 288 GB,带宽为 8 TB/s。当 H100 的 DRAM 容量浮滥时,MI300X 可能比 Nvidia 的旧款 H100 领有权贵上风,而 AMD 很可能但愿保抓这一上风。

HBM3E 带来的更高带宽也有助于擢升 MI355X 的策画带宽比。MI300X 每 FP32 FLOP 的 DRAM 带宽约为 0.03 字节,而 MI355X 则擢升至 0.05 字节。比较之下,Blackwell 每 FP32 FLOP 的 DRAM 带宽约为 0.10 字节。天然 Nvidia 增多了 Blackwell 的末级缓存容量,但 AMD 仍然更依赖大缓存,而 Nvidia 则更依赖 DRAM 带宽。

临了的话

CDNA 2 和 CDNA 3 与前代居品比较进行了透澈的调动。CDNA 4 的变化则更为无为。与从 Zen 3 到 Zen 4 访佛,MI355X 保留了访佛的芯片组陈列,但策画和 IO 芯片组被替换为矫正版块。AMD 并莫得调动其总体计策,而是专注于优化 CDNA 3。更少、更高时钟频率的策画单位更易于利用,而更高的内存带宽也有助于提高利用率。更高的矩阵乘法微辞量也有助于 AMD 在机器学习责任负载方面与 Nvidia 张开竞争。

在某些方面,AMD 在这一代 GPU 上的作念法与 Nvidia 颇为相似。从矢量实践的角度来看,Blackwell SM 与 Hopper 基本相通,矫正主要连结在矩阵方面。Nvidia 可能以为他们找到了制胜法宝,因为他们昔日几代 GPU 无疑齐获取了奏效。AMD 的 CDNA 3 大概也找到了制胜法宝。MI300A 是 MI300X 的 iGPU 昆季,它为 TOP500 六月榜单中排行最高的超等策画机提供能源。4在奏效的基础上赓续发展可能是一种安全且答复丰厚的策略,而 CDNA 4 大概恰是如斯。

AMD CDNA 4 架构深度解读

GPU 和加快策画透澈调动了数据中心的模式。加快策画最初在科学界被平常接管,用于补充现存的通用 CPU,以应付地震分析和分子能源学等特定责任负载。在此基础上,加快器不竭发展,支抓越来越通用的编程言语(举例 C++ 和 Python)以及更万般化的应用。机器学习(尤其是在策画机视觉范围)很早就利用了新的加快器,并催生了深度学习范围,该范围明确依赖 GPU 等加快器来试验和部署神经会聚。

在经典科学策画和新兴机器学习及东说念主工智能责任负载之间,GPU 的瞎想日益注重范围化启动,为内行最大的超等策画机提供能源。基于 Transformer 的神经会聚的发现拓展了 GPU 的视线,并最终激动了生成式东说念主工智能的爆炸式增长。生成式东说念主工智能是迄今为止要求最高的应用范围之一,其应用范围远远超出了科学策画,涵盖了消费者和企业用户。

对策画才智和恶果的需求如斯广泛,以至于架构师不得不逸以待劳,不竭重新注释策画范围的基本假定。最初,加快器接管了新的内存模子,但保留了熟悉的数据类型。当今,浮点数值暗示法与新算法一齐不竭发展,以裁汰精度,从而提高性能、内存占用和能效。与此同期,GPU 在集成度方面也不竭突破极限——起头接管先进的封装本事将 HBM 与加快器邃密耦合,当今则使用更先进的封装本事,开脱单片硅片达成。

AMD 一直走在这场创新的前沿,为 GPU 开发新颖的软件和系统架构,以达成更强盛的性能和功能。在软件方面,AMD CDNA 2 架构通过缓存一致性统一了 CPU 和 GPU 策画,为软件生态系统开释了新的应用和机遇。 AMD CDNA 3 架构透澈调动了加快器的构建方式,接管先进的封装本事,达成了异构集成,并将处理器重新鉴别到十几个不同的芯片组上。

如下图 1 所示,AMD CDNA 4 架构开拓在先前 3D 封装本事的基础上,并在异构封装中重新平衡了处理器的元素。每个 AMD Instinct MI350 系列 GPU 集成了 8 个垂直堆叠的加快器复合芯片 (XCD) 和 2 个包含系统基础架构的 I/O 芯片 (IOD),并与 AMD 的 AMD Infinity Fabric 封装本事邃密邻接,并贯串到 8 个 12-Hi 高带宽内存堆栈 (HBM3E)。XCD 伙同了最新的制程本事并支抓新的裁汰精度数据类型,从而擢升了 AI 的微辞量和恶果,而重新鉴别的 IOD 则有助于改善通讯和内存流量的蔓延和恶果。外部方面,AMD Instinct MI350系列居品接管Infinity Fabric本事,在单个节点上平直贯串8个GPU。

这种瞎想提供了多功能性,可快速开发和部署基于 AMD CDNA 4 架构的居品系列,以知足客户万般化的需求——兼顾易用性和极致性能。AMD Instinct MI350 系列包含风冷 (AC) Instinct MI350X GPU,其 1000W 功率接管 OCP UBB8 基板,该基板旨在与上一代 AMD Instinct™ MI325X 平台和系统平直兼容,从而快速部署到现存生态系统中并快速达成价值。为了在无与伦比的密度下达成更高的性能和恶果,AMD Instinct MI355X GPU (1400W) 提供平直液冷 (DLC) 平台,雷同接管 UBB8 基板,适用于支抓更高功率和冷却才智的基础设施。

与上一代 AMD Instinct MI325X GPU 比较,AMD Instinct MI355X GPU 将现存机器学习专用 16 位和 8 位矩阵数据类型的峰值微辞量果真提高了一倍,并引入了对其他低精度数值样式的支抓,将 FP6/FP4 的 10TFLOP/s 表面峰值与 MI325X 的 FP8 的 2.61 PFLOPS 表面峰值性能比较,性能提高了 3.85 倍。MI350-005 MI355X 还将内存容量擢升至 288GB HBM3E,带宽高达 8TB/s,通讯带宽突出 1TB/s。 CDNA 4 架构旨在与开源驱动的 ROCm 软件生态系统协同责任,并通过 Kubernetes® 提供不凡的开箱即用科学策画和企业编排功能,并支抓起头的 AI 试验和推理堆栈以及对流行生成式 AI 模子的 Day 0 支抓。

Chiplet架构

AMD CDNA 3 架构是一次范式迁徙——它接管了基于芯片组(chiplet-based)的当代方法,充分利用了异构集成本事,并将广宽专用芯片组与 Infinity Fabric 架构整合到一个高度优化的策画平台中。与昔日几十年占据主导地位的单片架构比较,这是对芯片瞎想和架构的一次根人道反想,有望为畴昔数代居品带来性能和可扩张性。

CDNA 4 架构承袭了这一创新性基础,并通过尽心优化每个组件来提供最好性能、恶果和可制造性,充分展现了这种天真策略的上风。八个策画芯片组(XCD)受益于最新的制程工艺,并接管台积电 (TSMC) 顶端的 N3P 制程本事达成,其芯片尺寸和占位面积与上一代居品相似,以达成最好性能和恶果。 IOD 中的内存和通讯功能主要由大型 AMD Infinity Cache和互连芯片承担,而这些芯片无法灵验扩张,无法充分利用最新工艺本事提供的性能。利用异构架构中的独处扩张功能,这些功能保留在台积电高效且经济实惠的 N6 工艺上,但重新平衡了两个大型 IOD(而非四个)的部署,从而优化了性能和能效,同期保抓了成心的可制造性。

AMD CDNA 4 策画

AMD CDNA 4 架构突显了基于 Chiplet 的异构策画平台构建方法的一大上风——每个 Chiplet 齐不错使用妥当的制程本事,从而达成更高效的演进。加快器复合芯片 (XCD) 包含处理器的策画部分以及对性能最为敏锐的缓存层级的最低层。AMD CDNA 4 XCD 接管台积电最新的 N3P 制程本事,充分利用了比较上一代 N5 制程更高的逻辑密度和性能。

如图 2 所示,AMD CDNA 4 架构重新平衡了 XCD,通过擢升每个策画单位 (CU) 的功能来擢升性能,尤其适用于要求最尖酸的 AI 责任负载——达成对新数据类型的硬件支抓,并权贵提高矢量和矩阵责任负载的策画微辞量和恶果,如下表 1 所示。

AMD CDNA 4 XCD 中的 CU 数目与上一代比较略有减少,但每个 CU 通过一系列新功能的组合变得愈加强盛。因此,退换要领、硬件部队和将策画着色器责任组发送到策画单位 (CU) 的异步策画引擎 (ACE) 等全局资源仅需进行小数增强。

每个 XCD 包含 36 个 AMD CDNA 4 策画单位,这些策画单位被组织成四个阵列,每个阵列包含 9 个 CU,其中 32 个处于行动现象,剩下 4 个可能处于禁用现象,以达成高产量和高效的责任频率。与上一代居品一样,L2 缓存会将 XCD 中的扫数流量合并,然后散布到贯串系统其余部分的 Infinity Fabric 架构。该处理器跨越 8 个 XCD,最多可支抓 256 个策画单位——略少于上一代居品,但在某些情况下,与 AMD Instinct MI300 系列 GPU 比较,策画微辞量翻了一番。

AMD CNDA 4 策画单位架构

如下图 3 所示,AMD CDNA 4 架构策画单位 (CU) 实例化了完满的处理器活水线,能够高度线程化地并行实践标量、矢量和矩阵辅导以及数据类型,并领有包含 L1 数据缓存和显式寻址腹地数据分享的内存活水线。AMD CDNA 4 CU 相较于上一代居品略有增强,增强了内存线索结构,并防范于接管新的低精度数值样式,并擢升了对机器学习应用至关遑急的矢量和矩阵微辞量,最高可达 3.9 倍 (FP4/FP8)。

由于大多量责任负载将跨越多个策画单位 (CU),因此两个相邻的策画单位分享 64KB、8 路组相联辅导缓存,从而灵验利用缓存和区域。

AMD CDNA 4 CU 中,矩阵中枢是本世代性能擢升中最遑急的部分,这些中枢专注于 AI 和机器学习,不仅增多了对新圭臬化数值样式的硬件支抓,也增多了现存数据类型的原始策画资源。低精度数值样式是擢升 AI 性能最灵验、最强盛的本事之一。较小的数据类型不错提高策画微辞量,从而更灵验地利用有限的数据旅途——推行上,在功耗略有擢升的情况下,权贵擢升了策画才智。此外,较小的数据也能更好地利用扫数这个词处理器的可贵资源,举例内存或缓存带宽和容量,时常能够权贵提高能效。

在机器学习的早期,单精度浮点 (FP32) 数据很常见,但在昔日十年中,东说念主工智能社区接管了 FP16、BF16、INT8 和 FP8 样式来擢升性能和恶果。这些更紧凑的浮点样式用更少的位数暗示张量中的每个数据元素,并为每个张量添加了一个缩放因子,以拿获完满的动态范围并幸免下溢和上溢。AMD CDNA 3 策画单位引入了对 OCP 8 位浮点要领中描述的两种 FP8 数据类型变体的支抓:一种是用于试验的 2 位余数和 5 位指数 (E5M2),另一种是用于推理的 3 位余数和 4 位指数 (E4M3)。

最近,业界围绕 OCP MX 圭臬中体现的微缩放想法张开了联合,将裁汰的精度擢升到了一个新的水平。微缩放背后的中枢想法是让硬件支抓一个在张量内的数据元素块(时常为 32 个)之间分享的比例因子,而不是扫数这个词张量只使用一个比例因子。与传统的 FP8 比较,微缩放的 MXFP8 样式具有更细的粒度,这使得在 AI 责任负载中,不错在更平常的张量上使用精度更低的样式。此外,微缩放还为更高的压缩率开辟了说念路,并引入了诸如 MXFP6(包含 E3M2 和 E2M3 变体)和 MXFP4(指定 E2M1)等样式。下图 4 泄漏了最新 AMD CDNA 4 架构支抓的部分数值数据样式。

AMD CDNA 4 架构最权贵的矫正之一在于矩阵中枢。顺应行业裁汰精度的趋势,AMD CDNA 4 策画单位 (CU) 引入了对行业圭臬微扩张样式(包括 MXFP8、MXFP6 和 MXFP4)的辅导和硬件支抓。

此外,N3P 工艺提供的迥殊资源用于将 16 位及更小紧充数据类型的实践资源增多一倍,如下表 1 所示。这两项矫正的伙开心味着每个 CU 在单个周期内可实践的运算数目果真增多了四倍,如下图所示,与上一代 (FP4/FP8) 比较,机器学习才智大幅擢升。上一代居品总共硬件支抓独有的 TF32 数字样式。

经过与客户和生态系统的平常接头,该样式已从硬件中移除,并通过使用 BF16 数据类型的软件仿真来支抓。最闭幕尾是,关于低精度 AI 数值数据样式,AMD CDNA 4 架构的策画微辞量翻了一番,同期大多量模子的精度保抓不变。

矩阵中枢的增强功能擢升了东说念主工智能责任负载中常见的矩阵运算的策画微辞量——这关于组成当代大型言语模子 (LLM) 基础的 Transformer 尤为遑急。东说念主工智能应用时常将矩阵运算的输出馈遗到向量激活运算。关于卷积神经会聚,时常使用修正线性单位 (ReLU);而在基于 Transformer 的会聚合,softmax 是最常见的激活函数。为了与矩阵中枢的大幅擢升保抓一致,超越率也擢升了 2 倍,以支持看重力加快,从而确保平衡的性能弧线。临了,AMD CDNA 4 策画单位还引入了多种数据革新辅导,以确保新样式的易用性。

天然矩阵中枢的瞎想备受崇拜,但 AMD CDNA 4 架构中的内存线索结构也得到了增强,尤其注重腹地数据分享 (LDS) 以及针对基于 Transformer 的神经会聚的优化。 AMD CDNA 3 架构及前几代架构中的逻辑数据结构 (LDS) 接管平直寻址结构,包含 32 个存储体,每个存储体包含 512 个 32 位数据要求,料想 64KB 数据。每个存储体不错读写 32 位值,LDS 集成了冲突检测和退换逻辑、复杂的交叉开关和搀杂单位以及原子实践单位。AMD CDNA 4 架构中的 LDS 大小为 160KB,通过增多存储体数目,容量增多了一倍以上,读取带宽也翻倍至每时钟 256 字节。由于数据复用进程较高,迥殊的容量和带宽关于提高策画单位 (CU) 顶用于矩阵乘法规程的矢量和矩阵实践资源的利用率至关遑急。AMD CDNA 4 LDS 也比之前的瞎想更高效,支抓平直从一级数据缓存加载数据,从而减少矢量寄存器的使用和蔓延。这两项 LDS 优化关于矩阵乘法尤其遑急,而矩阵乘法是当代基于 Transformer 的神经会聚的支抓。

每个 AMD CDNA 4 策画单位 (CU) 中的 L1 矢量数据缓存与上一代基本相通,领有 128B 缓存行和 32KB 容量,并支抓 64 路组相联。此外,还有一个分享的 4MB、16 路组相联 L2 缓存,为 XCD 中的扫数策画单位 (CU) 提供办事。L2 缓存领有 16 个并行通说念,每个通说念每个周期能够实践完满的 128B 缓存行读取和 64B 写入操作。总共一致的 L2 缓存旨在通过写回和写入分拨策略,减少从 XCD 溢出并跨越 Infinity Fabric 到达系统其他部分的流量。AMD CDNA 4 架构中的 L2 缓存还进行了一些迥殊的一致性优化。它当今不错缓存来自 DRAM 的非相关数据,而况不错写回脏数据并保留该行的副本。

AMD CDNA 4 架构内存

AMD CDNA 4 架构的内存层级始于策画单位 (CU),二级缓存 (L2) 充任扫数这个词 XCD 通往贯串处理器的 AMD Infinity Fabric 会聚的网关。内存层级的分享部分(包括 AMD Infinity Cache™ 和内存禁止器)位于垂直堆叠在 XCD 下方的 IOD 中。AMD CDNA 3 架构中引入的基于芯片组的异构方法使得每个芯片组的硅片达成能够独处演进,从而最大限制地提高性能,同期提供不凡的可制造性。在 AMD CDNA 4 架构中,XCD 利用最新制程本事的密度来擢升处理器的策画性能,这很容易诠释增多的本钱是合理的。然则,IOD 主要包含诸如 SRAM 和 I/O 之类的组件,这些组件无法从更先进的制程中获益,也无法诠释其本钱是合理的。

IOD 接管台积电 N6 工艺达成。如上图 5 所示,AMD CDNA 4 架构接管两个较大的 IOD 并平直贯串,而非上一代的四个较小的 IOD。这简化了封装内的 Infinity Fabric 会聚,从而裁汰了好多通讯模式的蔓延并裁汰了功耗,从而为处理器的其他部分开释了更多空间。IOD 之间更粗拙的平直贯串比 AMD CDNA 3 架构的速率提高了约 14%,从而擢升了好多通讯模式的性能。

AMD CDNA 4 架构中的 Infinity Cache 在组织结构上基本保抓不变。它仍然充任一个分享的 256MB、16 路组相联内存端缓存,并扇出 8 个内存堆栈。关于每个堆栈,Infinity Cache 包含 16 个 64 字节宽的并行通说念,以达成高带宽,并与 2MB 的存储数据阵列绑定。AMD CDNA 4 架构中的两个 IOD 均包含四个权贵增强的内存禁止器。HBM3E 内存接口的启动速率为 8 Gbps,比 AMD Instinct MI325X 快 33% 以上,并提供惊东说念主的 8TB/s 峰值表面内存带宽。MI350-002 雷同至关遑急的是,每个堆栈的内存容量已擢升至 36GB,单个处理器最高可达 288GB,从而知足了 AI 试验和推理范围日益增长的内存需求。

在昔日几年中,顶端大型言语模子的参数数目呈爆炸式增长。 2020年年中,OpenAI 初次发布了 GPT3,其参数数目高达 1750 亿,然则到 2024 年底,研讨东说念主员一经在尝试使用一万亿致使更多的参数。在参数数目不竭增长的时间,擢升内存容量不错为试验高等模子的研讨东说念主员开释更多创新和才智。内存容量关于推理也至关遑急。LLM 的荆棘文窗口决定了模子不错处理的输入量,并平直影响用户体验。GPT3 的荆棘文窗口为 2048 个 token,简单相当于 1500 个单词或几页文本。为了给用户提供更大的天真性和才智,当代 LLM 提供高达 200 万个 token 的荆棘文窗口,比大多量竹素的篇幅还要长。但这是有代价的,因为键值缓存的内存使用量会跟着荆棘文窗口的大小线性增长,这突显了内存容量在推理中的遑急性。

AMD CDNA 4 策画和内存分区

与上一代 AMD Instinct MI300X GPU 一样,AMD Instinct MI350 系列 GPU 可在策画和内存两个维度上进行分区。在策画分区方面,AMD CDNA 4 架构系列与上一代访佛,不错沿 XCD 线进行空间分区。关于 AI 试验等较大问题,扫数 XCD 不错协同处理单个任务。如下图 6 所示,GPU 还不错鉴别为两个、四个或八个策画分区,每个分区分别包含四个、两个和一个 XCD,从而为较小任务提供总共膺惩。举例,单个处理器不错鉴别为多达八个实例,以同期为较小的推理模子提供办事。

AMD CDNA 4 架构的内存分区与上一代比较发生了权贵变化,这主如果由于转向了两个 IOD。AMD CDNA 4 架构不错将内存交错散布在扫数八个 HBM 堆栈上,跨越两个 IOD,或者将 288GB 内存鉴别为两个 144GB 的内存池,每个 IOD 一个。第一种成就称为 NPS1(每插槽数字内存),时常更易于应用要领移植,而况关于内存拜访模式极其均匀的责任负载相称灵验。在 NPS2 模式下,扫数内存流量齐停留在单个 IOD 过头关联的 XCD 内,从而减少了在两个 IOD 之间跨越 AMD Infinity Fabric 会聚的支出,并改善了蔓延、带宽和功耗,从而擢升了举座性能和恶果。比较两代最高效启动模式下的性能,AMD CDNA 4 中的 DPX+NPS2 和 AMD CDNA 3 中的 QPX+NPS4,不错看出 IOD 重新分区带来的权贵突出。高效的 AMD CDNA 4 分区领有 7.7 倍的峰值策画微辞量、2.25 倍的内存容量和 2.67 倍的内存带宽,能够以不凡的恶果应付更具挑战性的问题。

通讯、扩张和系统

AMD Instinct MI350 系列 GPU 旨在知足两类不同的需求。关于某些客户而言,上一代居品的平直兼容升级是渴望之选——它能够快速部署,并保留现存的基础设施和生态系统投资。但其他客户则专注于追求最好性能和恶果,并振作接管功耗和散热需求更高的处理器和系统。为了知足这双重需求,AMD CDNA 4 架构系列沿用了与上一代居品访佛的通讯和扩张方法,以达成平直兼容,同期进行渐进式矫正,以支抓最高性能的系统。

AMD CDNA 4 架构包含 8 条 AMD Infinity Fabric 链路,这些链路宽度为 16 位,总共双向,用于单个办事器节点内的要领包间通讯。在上一代居品中,这些链路散布在四个 IOD 上,并以 32Gbps 的速率启动。 AMD CDNA 4 架构中的 Infinity Fabric 链路启动速率比上一代擢升高达 20%,达到 38.4Gbps,单向总链路带宽达到 76.8GB/s,每个重新分区的 IOD 包含四条链路。MI350-007 每个 GPU 可在节点内提供 >1TB/s 的通讯带宽,其中一条 Infinity Fabric 链路成就为 PCIe Gen 5,用于贯串存储领略聚等 I/O 开拓。

AMD Instinct MI350 系列平台:

8 OAM + AMD UBB 节点示例

如下图 7 所示,AMD Instinct MI350 系列的系统架构与上一代居品相通,接管全贯串 8 GPU 系统。每个 GPU 使用一条 PCIe®Gen 5 链路贯串到主机处理器和 I/O 开拓;这种拓扑结构不错天真地处理办事器节点内的扫数通讯模式。AMD Instinct MI350 系列沿用 OAM 外形规格,提供 1000W 和 1400W 两种功率版块。前者与之前部署的 AMD Instinct MI325X 代瞎想兼容,尔后者仍然兼容,但需要适合更高的功率和散热要求*。

AMD Instinct MI350 系列 GPU 包含两款不同功率级别的居品。AMD Instinct MI350X 是一款 1000W 的风冷 GPU,通过 UBB8 基板部署,该基板与上一代 AMD Instinct MI325X GPU 系统瞎想兼容,接管 4 机架单位 (RU) 托盘高度。更高功率的 AMD Instinct MI355X GPU 接管 1400W DLC(平直液冷)处理决议,接管 2RU 托盘高度,专为那些赓续接管平直液冷本事以达成更高密度和恶果的系统构建者和客户而瞎想。关于更高密度的处理决议,MI355X 还将提供 1OU 处理决议。

天然 AMD Instinct MI350 系列各成员在处理器和办事器层面的原始性能互异相对较小,但平直液冷在机架层面却有着广泛的影响,如上图 8 所示。关于现存的 120kW 或 130kW 54U 机架基础设施,AMD Instinct MI350X 平台 (AC) 可容纳多达 8 台办事器,并提供 0.6 EFLOP/s 的 FP8 荒芜策画才智。AMD Instinct MI355X 平台 (DLC) 在合理成就的 200kW 机架中可容纳 16 台办事器,并在同等占用空间内提供约 118% 的策画才智擢升。

适用于 AMD INSTINCT GPU 的

AMD ROCm软件堆栈

软件关于加快策画的奏效至关遑急——它能够间隙部署和握住,并充分利用底层硬件来启动要求最尖酸的应用要领。AMD 软件计策开拓在开源基础之上——AMD ROCm 生态系统,它将开发者、客户和扫数这个词社区凝华在一齐。这种开源方法让每个东说念主齐能洞悉复杂精密的堆栈,并左证本人需求进行查验和调治。该计策已得到一些内行范围最大、要求最高的客户的认同和考据,举例百亿亿次级 El Capitan 和 Frontier 超等策画机。反过来,这种接管激动了良性轮回,使生态系统有契机快速老练并扩大范围。

AMD Instinct MI350 系列和举座软件计策的指导原则是注重易用性,同期提供定制化办事。从软件的角度来看,这意味着在编译器、数学库和调试器等基础元素之上构建,以提供高等功能并减少大范围摩擦。这使客户能够快速间隙地握住、试验和部署AI系统,并天真地应付快速变化的环境,同期还能为那些值得进行更大范围投资的企业提供深度优化。

AMD已接管Kubernetes来编排AI基础架构,使客户能够间隙部署用于大范围试验和推理办事的容器,并以老练的云或腹地企业环境中所期望的安全功能和可靠性进行握住。行为赋能生态系统的一部分,AMD创建了GPU Operator软件包,它通过一套用于节点发现、插件装置、健康查验、故障搁置、可不雅察性等器用增强了Kubernetes。这种云原生方法使AMD能够与生态系统配搭伙伴联袂,创建一个丰富的容器库,造福扫数这个词社区,尤其侧重于生成式AI。

在试验方面,AMD 与 JAX 和 PyTorch 等起头的框架配合,提供优化的 ROCm 支抓。ROCm 生态系统包含适用于散布式试验框架的容器,这些框架关于要求最严苛的生成式 AI 应用至关遑急,举例 JAX 的 Maxtext,以及 PyTorch 的 Megatron LM 和 Torchtitan。关于开发历程的后期部分,举例微调处其他访佛本事,Torchtune 库也已针对 ROCm 进行了优化。这些框架和器用链已提前进行调治,以充分利用 AMD GPU 的架构特质,尤其是大内存容量或 Flash Attention v3 和滑动窗口看重力等关节本事。此外,AMD 还竭力于优化一些最平常使用的绽开模子,举例 Meta 的 Llama 系列。

在推理方面,AMD 与起头的办事框架 vLLM 和 SGLang 配合,创建了高度优化的容器,可随时部署生成式 AI 进行大范围推理,包括为最流行的生成式 AI 模子提供 Day 0 支抓。vLLM 被保举为一款出色的通用处理决议,AMD 通过每两周发布一次沉稳版块和每周发布一次开发版蓝本支抓该框架。关于代理责任负载、Deepseek 和其他特定用例,SGLang 是首选决议,并每周发布一次沉稳版块。除了办事框架除外,AMD 还优化了 Llama 系列、Gemma 3、Deepseek 和 Qwen 系列等起头模子,并提供 Day 0 支抓,以便生态系统能够在不竭变化的 AI 模式中间隙接管最新模子。

关于追求不凡性能的客户,ROCm 生态系统包含丰富的内核级优化器用,包括端到端分析器、预构建且高度优化的内核和运算符,以及对 Triton 言语的平常支抓。

下表 2 提供了 AMD Instinct MI350 系列 GPU 居品规格和特质。

论断

AMD CDNA 4 架构是第二代百亿亿次级架构,它充分利用了异构集成的上风,并将处理器部署在与 AMD Infinity Fabric 贯串的专用芯片组中,从而在 AMD Instinct MI350 系列 GPU 中提供突破性的性能和恶果,并具备不凡的可制造性。AMD CDNA 4 架构在上一代架构的基础上,赓续接管先进的 3D 封装本事,将 XCD 策画芯片组垂直堆叠在专注于内存和通讯的 IOD 芯片组之上,并独处调治每个组件。八个 AMD CDNA 4 XCD 策画芯片组接管最新的制程本事,并添加了新的行业圭臬低精度数据类型、腹地数据分享容量和带宽以及实践资源,从而权贵擢升了策画微辞量,尤其适用于生成式 AI。承载内存和通讯功能的 IOD 接管与上一代相通的工艺,但被整合为两个芯片组,从而裁汰了蔓延并擢升了恶果,并通过接管 HBM3E 本事达成了更大的内存容量和带宽。

AMD Instinct MI350 系列通过这些尽心的架构优化,将性能和功能擢升到了一个全新的水平。 AMD Instinct MI355X 型号可将现存低精度矩阵数据类型的策画微辞量擢升近一倍,并使用全新行业圭臬低精度 FP4 或 FP6 数据类型,将峰值性能擢升 3.9 倍,为生成式 AI 应用达成突出 10TFLOP/s 的策画微辞量。MI350-005 同期,这些 GPU 将内存容量擢升至 288GB HBM3E,并将内存带宽擢升 33% 至 8TB/s,并将通讯带宽擢升至 1TB/s 以上,以应付范围最大、要求最高的科学或 AI 应用。MI350-002 GPU 的尽心重新分区进一步擢升了最高效分区模式的功能,峰值策画微辞量擢升 7.7 倍,内存容量擢升 2.25 倍,内存带宽擢升 2.67 倍。

从系统和软件角度来看,AMD Instinct MI350 系列不仅易于使用、部署肤浅,还能提供最大化性能、恶果和密度的选项。基础 8 GPU 节点的系统架构在逻辑上与上一代相通,AMD Instinct MI350X UBB8 基板可与现存系统瞎想平直兼容,从而重迭利用现存生态系统投资,并尽可能简化部署。关于追求最高性能和密度的客户,AMD Instinct MI355X GPU 提供平直液冷规格,可在 200kW 机架中容纳多达 128 个 GPU,提供突出 2.5 ExaFLOP/s 的峰值 FP4 策画才智,并具备荒芜性能。

AMD 对开源 ROCm 生态系统的干预体现了这一理念,在几代对科学策画的不凡支抓基础上,为使用 Kubernetes 进行大范围编排提供平常的开箱即用支抓。关于顶端的生成式 AI 责任负载,ROCm 生态系统包含 PyTorch 和 JAX 等框架、Megatron 和 Maxtext 等散布式试验包,以及 vLLM 和 SGLang 等办事框架。AMD 还与起头的 AI 开发者配合,为该生态系统提供最热点的生成式 AI 模子的 Day 0 支抓。这些干预共同为客户提供了不凡的开箱即用体验,而丰富的器用链则让路发者能够通过自界说内核和其他优化来追求更高性能。

AMD CDNA 4 架构的天真性使 AMD 能够突破 AMD Instinct MI350 系列的性能、功能和恶果极限,同期提供肤浅的部署和接管,匡助客户尽快开释后劲。这确保客户不错信托 AMD,以妥当的处理决议匡助他们应付从科学策画到生成式 AI 等最严苛的责任负载。

https://chipsandcheese.com/p/amds-cdna-4-architecture-announcement

*免责声明:本文由作家原创。著述内容系作家个东说念主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或支抓,如果有任何异议,宽贷关系半导体行业不雅察。

今天是《半导体行业不雅察》为您分享的第4068期内容,宽贷崇拜。

加星标??第一时刻看推送,小号防走丢

求保举