每当一家公司收购另一家公司时,每一条产品线、每一个研究项目和每一位员工最终都会发挥作用。但当惠普企业在 2019 年 5 月以 13 亿美元收购超级计算机制造商 Cray 时,它确实想要所有的 Cray。HPE 绝对打算对支撑 Cray 多代产品线的关键技术进行投资,包括 Slingshot 互连,该互连使 Cray 在中断数年之后将其先前的互连出售给英特尔后重新进入高端网络。
尽管有一些关键员工离职——值得注意的是,前 Cray 首席执行官Pete Ungaro 去年退休,前 Cray 首席技术官 Steve Scott 和高级技术架构师 Dan Ernst 都在 Microsoft Azure 担任了重要的架构工作——Scott 是技术研究员和公司硬件架构副总裁,Ernst 是致力于未来 Azure 云系统的首席架构师 - 设计当前“Shasta” Cray EX 系统的团队,该系统统治了百亿亿次计算时代的早期,并且 Slingshot 互连已部署在每个迄今为止,Cray 和 HPE 已售出的单台 pre-exascale 和 exascale 机器。
过去,HPE机架式服务器过去常常制造很多自己的 CPU、交换机 ASIC 和大量其他芯片,多年来,它已经放弃了使用英特尔、AMD、Mellanox 和许多其他人。因此,我们很自然地在去年 10 月对 HPE 进行了抨击,并建议——一半是开玩笑,一半是恐惧,一半是严肃,总共三半——也许 HPE 会将 Slingshot 产品线出售给英特尔,而英特尔在需要自己的 HPC 互连。
英特尔已将其专注于 Omni-Path HPC 和 InfiniBand 变体互连线出售给 Cornelis Networks。当然,Omni-Path 是基于英特尔在 2012 年 1 月以 1.25 亿美元从 QLogic 收购该产品线获得的 TrueScale InfiniBand 以及英特尔Cray XC 超级计算机线核心的“Aries”互连。2012 年 4 月以 1.4 亿美元收购。虽然英特尔在 2019 年 6 月收购了可编程以太网交换机 ASIC 制造商 Barefoot Networks ,但在Nvidia 收购以太网和 InfiniBand 供应商 Mellanox Technologies之后,仅仅几个月后就封存了 Omni-Path,它对专门为 HPC 集体操作调整 Barefoot 的“Tofino”系列 ASIC 并不特别感兴趣,尽管已经对 AI 工作负载进行了一些调整。在经历了“Knights Landing”多核 CPU 和与之相关的 Omni-Path 互连的糟糕经历之后,英特尔不再有兴趣成为 HPC 的主要承包商。所以也许英特尔不需要像过去那样控制互连。
HPE 和 Nvidia 确实希望成为主要承包商,Atos 也希望成为主要承包商,Atos 控制着源自桑迪亚国家实验室的 BXI 互连。富士通也是其 A64FX Arm 处理器和共同设计的Tofu D 互连的主要承包商。这一切都不是巧合,最终,这就是为什么慧与不仅保持对 Slingshot 互连的控制,而且现在正在投资多代产品,并拥有可以与任何竞争对手抗衡的强大路线图在高性能计算中。
请注意,它不会向公众展示此路线图。(尽管我们认为应该这样做。)但是,HPE 高性能网络、HPC 和 AI 业务组产品管理高级总监 Marten Terpstra 想要明确表示,系统 OEM 长期参与其中弹弓互连。
“我们非常清楚地将 Slingshot 视为我们 HPC 和 AI 环境的基础性、差异化功能之一,”Terpstra 告诉The Next Platform。“Rosetta 交换机 ASIC 已经推出了一年半,而 Cassini 网络接口卡现在正在经历它的第一次大规模部署。这些最终是齐头并进的,还有我们还不能谈论的后代,但我们已经投资并正在积极发展两者的下一代。”
具体来说,Terpstra 表示,HPE 正在开发下一代 Slingshot,HPC 和 AI 业务组系统和平台总裁 Gerald Kleyn 补充说,大约一半的工程团队正在开发下一代 Slingshot ASIC用于交换机和网络适配器,以及充实低级软件开发工具包,这将使 Slingshot 在更多场景中更具可塑性和有用性。我们认为最终可能包括在超大规模和云构建商处的部署。Microsoft Azure 似乎是 Slingshot 的替代品,Scott 和 Ernst 在那里设计下一代系统。(正如 Kleyn 所说,“从某种意义上说,SDK 意味着开放性”,但也警告说,向超大规模企业和云建设者销售并不是当务之急,而是一个长期的优先事项。)
最初的 Slingshot 堆栈仍有一些调整工作要做,这就是为什么我们认为我们没有看到1.5 exaflops “Frontier”超级计算机,由定制的 AMD “Trento” Epyc CPU 和 AMD Instinct “Aldebaran” MI200 GPU 组成,在橡树岭国家实验室出现在2021 年 11 月的 Top500 超级计算机排名中。
我们的猜测是,在 9,000 多个节点和 36,000 多个 GPU 之间进行扩展,这些节点直接连接到 Slingshot 网络,而不是将网络接口塔式服务器主机上,在同时运行拥塞控制和自适应路由时会有点棘手。橡树岭之前的“Summit”超级计算机,基于 Mellanox 的 100 Gb/秒 InfiniBand,只有 4,608 个节点。Frontier 中的每个 GPU 实际上都是它自己的节点,而 Epyc CPU 更像是这些 GPU 的内存和串行处理加速器,Frontier 上的规模比 Summit 上的规模要大得多。我们做超级计算是为了找到极限并突破极限,有理由期待 HPE 的 Cray 团队会解决这个问题。(毕竟,他们已经解决了之前的“SeaStar”XT3、“Gemini”XT4 和“Aries”XC 互连的棘手网络问题。)
在我们进入 HPE 为这种互连考虑的可能未来之前,需要对当前的 Slingshot 硬件进行一些审查。
早在 2018 年 10 月, Cray就公布了它在 Slingshot 互连上所做的工作,但多年前就开始了这项工作,有趣的是,早在 2016 年初,当我们与 Scott 就 Cray 的 HPC 互连的演变进行交谈时,它就开始了这项工作. 在那年晚些时候,我们在 SC18 的一次采访中与Scott 就如何通过互连弥合 HPC 和超大规模鸿沟进行了交谈,当 Scott 在 2019 年 8 月的 Hot Interconnects 会议上发表主题演讲时,我们深入研究了“Rosetta”ASIC 架构,谈到了 Cray 如何在 SeaStar、Gemini 和 Aries 互连中采用自适应路由,将其与 2013 年收购 Gnodal 获得的拥塞控制合并,并创建了将 HPC 功能带入标准以太网的以太网交换芯片。
Rosetta 芯片有 64 个端口,以 200 Gb/秒的速度运行,并使用台湾半导体制造公司的 16 纳米工艺进行蚀刻。ASIC 上的 SerDes 具有 25 Gb/秒的信号,并且 PAM4 编码提供每通道 50 Gb/秒的有效速度. 每个 SerDes 的四个通道构成一个 200 Gb/秒的端口。(我们忽略了用于覆盖编码的信号中的增量带宽。信号实际上以 28 Gb/秒的速度运行,每个通道的有效速度为 56 Gb/秒。)
Rosetta ASIC 可以通过三层网络总共支持多达 279,000 个端点,而 Cray 在 Shasta 系统中使用蜻蜓拓扑,它可以设置为支持胖树、环面、扁平蝴蝶和其他拓扑。早在 2019 年的早期性能结果显示,Slingshot 在网络拥塞极少的情况下以 200 Gb/秒的 HDR InfiniBand 保持领先。自 2020 年夏天以来,Cray 和 HPE 一直试图让 HPC 行业围绕其 GPCNet 网络基准测试,对所有 HPC 互连进行压力测试,以展示它们之间的比较,但到目前为止,Nvidia 并没有特别感兴趣。
Cassini 网络接口卡在 2020 年还没有完成,因此早期的 Slingshot 客户将 Slingshot 交换机与 100 Gb/秒 NIC 配对,这些 NIC 实际上是 PCI-Express 卡版本或嵌入式版本的 Mellanox ConnectX-5 NIC系统板。这被称为 Slingshot 10。使用 Slingshot 11,Rosetta 交换机 ASIC 保持不变,但端口速度提高到 200 Gb/秒,网络的注入速度提高了一倍,达到 28 TB/秒左右。Slingshot 11 设置还具有一系列特定的 MPI 加速,如上图所示。
最近的重大新闻是,HPE 将其高密度 Apollo 2000 和 Apollo 6500 系统与 Slingshot 互连、ClusterStor E1000 存储阵列和 Cray 编程环境(针对 HPC 工作负载的完整 Linux 和编译器堆栈)相结合,以创建克雷 XD 系列。这些机器可以配备使用 PCI-Express NIC 的 Slingshot 10 或 Slingshot 11 互连,还可以使用风冷式 Slingshot 开关。HPE 的 ProLiant DL 服务器也正在获得运行 Cassini Slingshot 11 NIC 风冷版本的资格。
一般来说,将交换机 ASIC 和匹配的 NIC 从概念推向市场需要三到四年的时间,没有理由相信 HPE 与 Broadcom、Cisco Systems、Nvidia、Intel、Marvell、和少数其他人保持稳定的带宽扩展步伐,并在其交换机和适配器芯片中进行功能改进。将延迟降低很多几乎是不可能的,供应商正在做一些事情来提高网络效率,例如 Cray 已经开发了几十年的拥塞控制和自适应路由,并且在 Slingshot 中已经达到了成熟的水平。
慧与在整合下一代 Slingshot 并考虑第三代和第四代时,有许多不同的杠杆可以拉动。
有工艺节点缩小到 7 纳米、5 纳米和 3 纳米,无法为未来的 Slingshot 开关 ASIC 奠定基础,因此可以合理地假设 Cray 和其他公司一样,将提供使 SerDes 保持更高、更成熟的小芯片架构更适用于信令的过程——我们认为 7 纳米的 SerDes 将持续一段时间——同时将免费的数据包处理引擎和其他网络功能分解为可以缩小、制造成本更低、运行效率更高的小芯片。同样的事情也发生在 CPU 包上,内存和 I/O 控制器保留在进程节点上,而内核不断缩小。在较小的晶体管上运行 I/O 会导致各种问题,这就是为什么我们认为网络引擎和计算引擎插槽会不断变大,最终,更高。还有其他编码技巧——PAM8 和 PAM16 是可能的——以配合更快的原始信号,从 25 Gb/秒到 50 Gb/秒再到 100 Gb/秒。与其他以太网和 InfiniBand 互连一样,HPE 的 Slingshot 有几种不同的路径可实现 400 Gb/秒、800 Gb/秒甚至 1.6 Tb/秒的端口速度。
HPE 在 Slingshot 路线图上所做的工作取决于很多事情,但它不仅仅是原始带宽的驱动,例如 Broadcom 的“Trident”和“Tomahawk”交换机 ASIC 每两年追逐一次。
“Broadcom 的市场是数据中心网络,而且仅限于网络,”Kleyn 解释道。“而对我们来说,我们正在建立一个系统。因此,我们采取的步骤和时间,与您在计算平台上可以做什么以及您进出该平台的速度有关。因此,我们与 PCI-Express 5.0 和 PCI-Express 6.0 紧密相连,何时转向这些是有意义的——我们必须在这些之上考虑 CXL。”
“当 Broadcom 构建其真正的高端系统时,它们是聚合设备,由网络中两层或三层的加速器馈送,”Terpstra 进一步阐述道。“但 Slingshot 更接近于实际的计算端点,而且我们与您可以进出端点的内容密切相关。这确实决定了我们的边缘速度,从而决定了它背后的 ASIC 的速度。所以你必须小心,不要根据 Broadcom 和其他公司的路线图对 Slingshot 进行速度假设。”
但是,出于同样的原因,当您为 HPC 和 AI 应用程序提供更多带宽时,它们通常可以利用它——这与超大规模分析和基础设施应用程序不同,后者不需要超过 25 Gb/秒或 50 Gb/秒的端口。在他们的服务器之外,更不用说 100 Gb/秒的端口了。随着超大规模和云构建者的出现,每一代以太网 ASIC 的带宽飞跃允许数据中心互连的管道更宽,基数更高的交换机可以降低 100,000 个节点的数据中心 Clos 网络的每端口成本,因为每翻一番就会消除大量的 ASIC的带宽。在某些情况下,对于 HPC 工作负载,让更多端口进入系统比拥有一个更粗的管道更好。
我们很好奇 HPE 将如何使用 Slingshot 20 和 Slingshot 30 以及 Slingshot 40 和 Slingshot 50 来平衡所有这些对立力量。
【公司名称】四川旭辉星创科技有限公司
【代理级别】成都惠普HPE服务器工作站总代理
【销售经理】熊经理
【联系方式】座机:028-85596747 手机:18244236404
【公司地址】成都市人民南路4段 桐梓林 商鼎国际2号楼1单元1913
请用微信扫描二维码