1. 首页>>分享

如何突破 HBM 瓶颈,扩展计算引擎内存容量和带宽?

我们可以通过多种方式扩展计算引擎的内存容量和内存带宽,以更好地驱动AI和HPC工作负载,但目前我们能做的还远远不够。然而,我们可能做的任何事情(目前有许多有趣的光学 I/O 选项可用)必须是可制造的并且具有成本效益,才能采用新的内存方法。

否则的话,就不会被采纳,也不可能被采纳。

这就是我们现在遇到的HBM瓶颈的原因。由于将大型并行 HBM 内存堆栈放置在非常靠近计算引擎的位置,一小部分非常昂贵的 HPC 和 AI 工作负载的内存带宽受到限制。 HBM 无法同时增加内存容量和内存带宽 - 它只能具有其中之一。

HBM很好,但还有不足

HBM 内存比使用常规 DRAM 好得多,对于带宽至关重要的计算引擎来说,它也比 GDDR 更好,但即使美光加入 SK Hynix 和三星的 HBM 阵营,世界也无法生产足够的 HBM 内存。产品以满足需求。这反过来导致了高端计算引擎(以及 HBM 所需的中介层封装)的短缺,进而使市场向不自然的方向扭曲,导致原始计算与内存容量和带宽之间的低效率和不平衡。

这个问题之前已经在很多文章中详细讨论过,所以我们不再重复冗长的内容,只是说,在我们的想法中,现在和不久的将来推出的 GPU 和定制 AI 处理器可以轻松拥有 2 倍、3 倍甚至4倍于HBM的内存容量和带宽,更好地平衡其庞大的计算工作量。当在同一个 GPU 上将内存加倍时,AI 工作负载的性能几乎增加了 2 倍,内存就是问题,也许你不需要更快的 GPU,而是更多的内存来满足其需求。

正是考虑到这一点,我们回顾了 SK 海力士最近发布的两项公告。SK 海力士是 HBM 出货量的全球领导者,也是 Nvidia 和 AMD 数据中心计算引擎的主要供应商。本周,SK 海力士首席执行官 Kwak Noh-Jung 在韩国首尔举行的 SK AI 峰会上展示了即将推出的 HBM3E 存储器的一个版本,该存储器在过去的一年中已在各种产品中实现量产。

但这款新型 HBM3E 内存有一个令人兴奋的事情 - 内存堆栈有 16 个芯片高。这意味着每个存储体的 DRAM 芯片堆栈高度是许多设备中当前使用的 HBM3E 堆栈的两倍,其中 24 Gbit 内存芯片可提供每个堆栈 48 GB 的容量。

与使用 16 Gbit 内存芯片的 8 高 HBM3 和 HBM3E 堆栈(每个堆栈最大容量为 24 GB)和使用 24 Gbit 内存芯片的 12 高堆栈(每个堆栈最大容量为 24 GB)相比,容量显着增加。 36 GB)。大改进。

别太兴奋了,16 位高堆栈正在使用 HBM3E 内存进行采样,但 Kwak 表示 16 位高内存将“从 HBM 第四代开始可用”,并且正在创建更高的 HBM3E 堆栈“以确保技术稳定。” ,并将于明年初向客户提供样品。

可以肯定的是,Nvidia、AMD 和其他加速器制造商都希望尽快将这项技术添加到他们的路线图中。我们拭目以待。

SK海力士表示,它正在使用相同的先进大规模回流成型底部填充(MR-MUF)技术,该技术可以熔化DRAM芯片之间的凸块,并用粘性物质填充它们之间的空间,以更好地将它们连接在一起,从而散发芯片的热量堆。

自 2019 年推出 HBM2E 以来,MR-MUF 一直是 SK 海力士 HBM 设计的标志。2013 年的 HBM1 内存和 2016 年的 HBM2 内存使用了一种称为非导电膜热压缩(TC-NCF)的技术,三星也在时间并仍然是其首选的堆叠胶水。三星认为,TC-NCF 混合键合对于 16 层堆叠来说是必要的。

HBM 路线图回顾与展望

考虑到所有这些,以及几周前 SK 海力士在 OCP 峰会上的演讲,我们认为现在是了解 HBM 存储器路线图以及 SK 海力士及其竞争对手在尝试中所处位置的好时机。将技术推向极限。面临的挑战是,计算引擎制造商可以避免使用光学 I/O 将 HBM​​ 连接到电机,就像我们十年来一直在做的那样。

目前有一系列SK海力士HBM路线图在流传,每张路线图都有不同的内容。这是其中之一:

图片

这是另一个:

图片

我们来回顾一下。 HBM1 于 2014 年推出,并于 2015 年小批量生产,大概是小批量生产,因为它是一项用于增加计算引擎主内存带宽的非常新技术。 SK海力士最初的HBM1内存基于四层堆叠的2 Gb内存芯片,内存容量为1 GB,带宽为128 GB/秒,并使用1 Gb/秒I/O通道。

HBM2于2016年推出,并于2018年实现商业化。此时,该设备的线速度提升至2.4 Gb/秒,是HBM1的2.4倍,每个堆栈可提供307 GB/秒的带宽。 HBM2 堆栈最初为四个 DRAM 芯片高,但后来增加到八个芯片堆栈。 HBM2 中使用的 DRAM 芯片容量为 8 Gb,因此四层堆栈的容量可达 4 GB,八层堆栈的容量是 8 GB 的两倍。

这就是事情开始变得有趣的地方,当 HBM2E 发布时,事情在 2020 年变得更加有趣。 DRAM 芯片密度加倍至 16 Gbit,主内存容量加倍至 4 层塔式机箱中的 8 GB,以及 8 层塔式机箱中的 16 GB。 DRAM 线速度提高了 50%,达到 3.6 Gb/秒,每个堆栈的带宽高达 460 GB/秒。通过四个堆栈,设备的总内存带宽现在可以达到 1.8 TB/秒,这明显高于传统 CPU 的四或六个 DDR4 通道所能提供的带宽。

随着 2022 年 HBM3E 的发布、Nvidia“Hopper”H100 GPU 加速器的推出以及商业 GenAI 热潮的开始,事情正在变得疯狂。将 DRAM 连接到 CPU 或 GPU 的线路速度提高了 1.8 倍,达到 6.4 Gb/秒,每个堆栈提供 819 GB/秒的带宽,堆栈基于使用 16 Gbit DRAM 的八高和十二高选项。八高堆栈为 16 GB,十二高堆栈为 24 GB。令人深感不满的是HBM3没有实现十六高堆栈。但每个新级别不仅仅是难度的增加。

这就是我们今天推出 HBM3E 的原因:

图片

SK 海力士于 2023 年 5 月推出的 HBM3E 将 DRAM 的引脚速度提高至 8 Gb/s,比 HBM3 内存提高了 25%,每个堆栈的速度高达 1 TB/s。 HBM3E的DRAM芯片为24Gbit,八高堆栈容量为24GB,十二高堆栈容量为36GB。美光科技的 HBM3E 因其更快的 9.2 Gb/秒信号传输速率(每堆栈 1.2 TB/秒)而被选为 Hopper H200 GPU 加速器,而速度较慢的 SK Hynix 芯片被选为 Grace-Hopper 超级芯片 H100 的第二次更新以及 Nvidia 的 H100-NVL2 推理引擎。

“Rubin”首次在具有八高堆栈的 R100 和 R200 GPU 中首次亮相,并于 2027 年在具有十二高堆栈的 R300 中首次亮相。

“Blackwell”B100 和 B200 GPU 预计将采用 8 层 HBM3E 高堆栈,最大容量为 192 GB,而明年的后继产品“Blackwell Ultra”(如果传言属实,很可能被称为 B300)将采用12层HBM3E High堆栈,最大容量288GB。 (据我们所知,Nvidia 一直在尝试产品名称。)

我们一直猜测 HBM4 将具有 16 个高堆栈,令人惊讶的是 SK 海力士实际上正在为 HBM3E 构建如此高的 DRAM 堆栈进行测试。只要良率可以,AI计算引擎绝对可以提前利用内存容量和带宽的提升。

理想是美好的,现实是残酷的

正如 Kim 在 OCP 演讲中解释的那样,在实现这一目标之前,我们还有很多问题需要解决。一方面,Compute Engine 制造商敦促所有三个 HBM 内存制造商将带宽提高到高于他们最初同意的规格,同时还要求降低功耗:

图片

我们还想要一辆红色小马车、一艘帆船、一只小狗和一匹小马作为圣诞节礼物,但仅仅因为你把一些东西放在清单上并不意味着你会得到它。

随着计算引擎制造商打开设备的外壳并让它们升温的速度快于为了实现更高性能而提高性能的速度,对低功耗的需求变得更加困难。这就是我们如何将 Nvidia 2013 年底推出的“Kepler”K40 GPU 加速器的功耗从 240 瓦提高到全口径 Blackwell B200 加速器预期的 1,200 瓦。 B100 和 B200 由两个 Blackwell 芯片组成,每个芯片都有四个 HBM3E 堆栈,总共有 8 个堆栈,每个堆栈有 8 个存储芯片高。 192 GB 内存提供 8 TB/秒的总带宽。我们还记得,具有数千个节点的整个超级计算机集群的总内存带宽达到惊人的 8 TB/秒。

顺便说一句,我们相信,如果实施的话,在 B300 中使用美光的 HBM3E 内存可以将带宽增加到 9.6 TB/秒。

不幸的是,HBM4 内存密度在 2026 年不会增加,因为内存堆栈也将增长到 16 层高。也许内存制造商会用更大的 32 Gbit HBM4E 内存给我们带来惊喜,而不是坚持使用 Kim 演示中的图表中所示的 24 Gbit 芯片:

图片

HBM 存储器中使用的薄晶圆的处理会影响良率,将 DRAM 粘合成堆栈的 MR-MUF 工艺也会影响良率。 (稍后会详细介绍。)

散热也是一个挑战。内存对热非常敏感,尤其是当你有一堆内存像摩天大楼一样堆叠在一起,旁边是又大又胖又热的GPU计算引擎时,距离内存必须小于2毫米,只有这样才能正常工作。保证信号传输。

图片

因此,这些都是在计算引擎中推进 HBM 内存的挑战。 SK海力士能做些什么来应对这一切呢?做我们一直在做的事情:让事情变得更广泛并更好地将它们结合在一起。

HBM3 E 具有 1,024 位宽通道,而 HBM4 则将其加倍至 2,048 位。看起来 24 Gbit 和 32 Gbit DRAM 芯片都将支持 HBM4(可能后者支持 HBM4E,但我们不确定)。具有 32 Gbit 芯片的 16 高堆栈将产生每个堆栈 64 GB 的内存,这将是 Blackwell 封装中每个 Nvidia 芯片 256 GB 的内存,或每个插槽 512 GB 的内存。如果鲁宾保留这两个芯片并且只是进行架构增强,那就太酷了。但 Rubin 可能是三个甚至四个 GPU 互连,HBM 沿两侧运行。

图片

想象一下,Nvidia R300 套件包含四个 GPU 和 16 个堆栈,每个堆栈包含 16 个高 32 Gbit 内存,每个计算引擎总共有 1 TB 内存。在其上添加一些 RISC-V 内核来运行 Linux,添加 NVLink 端口和以 1.6 Tb/秒运行的 UEC 以太网端口,将其称为服务器,就完成了。 ...

除了更宽的总线之外,Kim 还建议将内存寻址逻辑集成到 HBM 堆栈的基础芯片中,而不是集成到 HBM 控制器内插器中的单独芯片中,作为一种可能性,从而降低内存所需的功耗控制计算和内存之间的链接。

图片

这种方法还可以独立于完整的 AI 计算引擎对 HBM 堆栈进行完整的测试。您可以在识别出一个已知良好的堆叠芯片后将其焊接到计算引擎插槽上,而不是之前。

HBM 4 的展望

总而言之,HBM 4 预计将提供超过 1.4 倍的带宽、每个内存芯片的 1.3 倍的容量、1.3 倍更高的堆栈容量(16 比 12,下图中未显示,因为它可能会为 HBM4E 保存,除非 Nvidia 和 AMD 能够说服 SK Hynix 放弃这笔交易,并且产量足够好,不会因为使用最先进的更密集、更快的内存而损失惨重),并且功耗仅为 HBM3/HBM3E 70% 。

图片

虽然这一切都很好,但对我们来说很明显,我们现在需要承诺 2026 年和 2027 年的内存。由于内存计算不平衡,客户在无法接近其峰值的设备上花了一大笔钱由于 HBM 内存的带宽和容量瓶颈,性能受到影响。我们要么尽早需要 HBM4E 内存,要么,正如我们在 3 月份介绍 Eliyan 的同步双向 NuLink PHY 时所写的那样,我们需要一种将更多 HBM3E 内存连接到当前设备的方法。

更好的是,让我们将堆栈数量加倍并获得适用于 Nvidia Blackwell 和 AMD Antares GPU 的 HBM4E。

请注意,我们并没有要求 24 个高筹码……那样就太贪婪了。

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/270846.html

联系我们

在线咨询:点击这里给我发消息

微信号:13588888888

工作日:9:30-18:30,节假日休息