并非每个工作负载都可以分块并分布在相对松散耦合的廉价 X86 服务器节点集群中。有些确实在一个大的、神奇的、共享内存系统上运行得更好。在 IBM三周前宣布基于 Power10 的“Denali”Power E1080 之后,我们一直在深入研究其架构,并讨论具有四个或更多处理器插槽的机器市场。
虽然四路机器很有趣,并且可以满足当今许多中型和大型企业的许多 CPU 内核和内存带宽和容量需求,这些企业需要数十个内核甚至数百 GB 来支持其核心数据库和应用程序,总是有些人需要比这更多的魅力。对于现在的多代处理器,英特尔和 IBM 都提供了集成的 NUMA 电子设备来将四个或八个插槽的主内存捆绑在一起,IBM 甚至将这种所谓的无胶互连方法推到了 16 个插槽,其最大的 Power8, Power9,现在是 Power10 服务器。
英特尔本身提供了 UltraPath 互连 (UPI) 链接,可以为多达八个插槽执行无缝 NUMA,坦率地说,凭借去年宣布的高端“Cooper Lake”至强 SP 处理器,它可能会进一步推动这一点。由于 10 纳米“冰湖”至强产品一次又一次地被推迟,英特尔的路线图变得一团糟。所以当Ice Lake Xeon SP 终于在今年春天推出时, 英特尔拥有比“Skylake”或“Cascade Lake”芯片更好的内核,在这方面也比 Cooper Lake 内核更好,但决定不让服务器制造商因插槽变化而发疯,并制造了 Ice Lake Xeon SP仅适用于带有一个或两个插槽的机器。而 Cooper Lake 芯片与 Skylake Xeon SP 并没有什么不同,仅在具有四或八个插槽的机器上可用。与 Cooper Lake Xeon SP 的最大区别在于 Skylake 和 Cascade Lake Xeon SP 的每个插槽有 3 个 UPI 链接,运行速度为 9.6 GT/秒,但 Cooper Lake Xeon SP 的每个插槽有 6 个 UPI 链接,运行速度为 10.4 GT/秒秒。
这意味着需要更多带宽来互连套接字,从而获得更好的 NUMA 可扩展性。四路 Cooper Lake 服务器具有全能配置,就像基于 Skylake 和 Cascade Lake 的四路服务器一样,但 UPI 链接数量是其两倍,因此带宽更大,启动延迟略低。并使用扭曲的超立方体连接,它基本上创建了一个由使用环形互连的四插槽主板组成的虚拟插槽,然后将这些主板与额外的 UPI 链接粘合在一起,这些链接过去用于指向四个插槽的内部,并将它们指向外部以绑在一起四插槽对的时尚让人想起过去的两插槽 NUMA 机器。像这样:
成都服务器总代理_大多数情况下,每个 CPU 都链接到其他每个 CPU,但在某些情况下,CPU 之间需要两跳,这会增加某些内存访问和处理的延迟。
尽管如此,使用 Cooper Lake 的 8 插槽机器的效率提高仍然至关重要,因为英特尔的核心数被限制在每个芯片的最大 28 个,并且其时钟速度被限制在 3 GHz 以下范围内,因为它仍在使用其 14 纳米制作库珀湖的过程。英特尔在 2020 年夏天 Cooper Lake 推出时就知道,在“Sapphire Rapids”于 2021 年开始发货之前,它不会在其四路和八路机器中安装新内核和具有更多内核的新芯片— 而现在,Sapphire Rapids 已经下滑,要到 2022 年第二季度才会批量发货。
对于英特尔或其来自戴尔、惠普企业、浪潮、思科系统和其他公司的大铁客户来说,这可能是也可能不是太大的差距。大铁的事情是它行动缓慢,特别是在中型和大型企业中,机器的征用和融资过程需要委员会的批准和大量的时间。公司倾向于在现场为这些机器过度配置或增加容量,并且他们使用它们五年、六年甚至七年。当然,如果他们能得到它,他们会喜欢更快的一切,但是拥有数十或数百个内核和数十 TB 的主内存,这是他们许多工作负载所必需的,除非容量需求突然激增,否则一个新的核心并不足以完成征用周期——比如一家公司转向 SAP HANA 内存数据库和应用程序,并且没有购买足够大的盒子来开始。您知道 IBM 和 HPE 喜欢那些时刻,因为他们出售市场上唯一不是 IBM 大型机的大型机以及这意味着的高价。(但公平地说,System z15 大型机的 LinuxOne 实现并没有懈怠,可以很好地运行 Linux 和 HANA。)
鉴于 IBM 在该领域拥有新的大铁,英特尔及其 OEM 合作伙伴(甚至可能为希望在其基础架构上运行大 Spark 或 HANA 工作负载的云构建者提供一些 ODM)将于明年推出新的大铁,我们认为现在是了解 HPE Superdome Flex 系列机器的好时机。自从 Superdome 系列在 2017 年 11 月进行了 SGI NUMALink 改造后,我们就没有真正了解过 Superdome Flex。
在去年春天推出 Cooper Lake Xeon SP 之后,HPE 推出了 Superdome Flex 280 系统,该系统没有使用 NUMALink 8 互连,HPE 在 2016 年 11 月以 2.75 亿美元收购超级计算机制造商 SGI 后继承了该互连。有趣的是,这台 Superdome Flex 280 机器实际上是HPE 于 2016 年 2 月通过与 SGI 合作推出的 Integrity MC990X 机器的后续产品,HPE曾让 HPE 转售基于 SGI NUMALink 7 互连的八插槽 SGI UV 300 系统,因为英特尔自己的至强 E7 处理器的 8 插槽实现有点长,相比之下并不是特别有效。
英特尔肯定已经将其 NUMA 行为与四路和八路 Cooper Lake Xeon SP 机器结合在一起,这将对 HPE 和 IBM 的大铁销售造成压力。可以使用“标准”英特尔实施的客户会这样做,而那些担心在这些机器上达到性能或内存上限的客户将从较小版本的 HPE Superdome 或 IBM Power E1080 开始。(极少数会使用 IBM 的 LinuxOne 大型机,但请记住,在那里运行的许多大型机都有一个 Windows Server 堆栈,而 IBM 的大型机和 Power Systems 则无法运行 Windows。)
这是 Superdome Flex 280 的框图,它有一个错误,我们将在稍后更正:
如您所见,HPE 文档中显示的这两个系统板并没有以扭曲的超立方体方式互连;这真的是两块主板根本没有连接。我们向您展示了上图,以便您了解 HPE 如何在 Superdome Flex 280 系统中拥有上下主板,该系统在上部和下部具有不同的 PCI-Express 3.0 组合(具有不同的高度、长度和通道数)四插槽部分。顶部机箱有 16 个插槽,底部机箱有 12 个插槽。
以下是外壳的背面:
实际的 HPE Superdome Flex 280 拓扑如下所示:Superdome Flex 系列具有 Power Systems 系列中 IBM 的 Power8、Power9 和 Power10 服务器系列所没有的一件事,那就是多种处理器选项,满足许多不同的性能和价格点。
在 Superdome Flex 280 系列中,在单个机箱上有两个或四个活动插槽的机器上,客户可以选择 Cooper Lake Xeon SP 的 Gold 或 Platinum 版本,但如果您想使用六个或八个插槽运行,那么您有选择处理器的 Platinum 变体。下面是 Flex 280 节点的样子:更准确地说,您可以拥有一个 Cooper Lake H 型号,它支持每个插槽 1.1 TB 的 DDR4 内存,或者一个 HL 型号,它可以拥有 Optane 200 系列持久内存和 DRAM,并且每个插槽最多支持 4.5 TB。(您开始看到处理器路线图的延迟,这也延迟了向每个插槽 8 个内存控制器的迁移,将 Optane 持久内存推到了最前沿,以及为什么英特尔不急于让其他芯片制造商支持 Optane PMEM。)Superdome Flex 280 支持以 2.5 GHz 至 3.9 GHz、8 核至 28 核以及每插槽 150 瓦至 250 瓦的任意频率运行的 Cooper Lake 铂金变体。该机器支持的 Gold Cooper Lake 处理器运行频率从 2 GHz 到 2.8 GHz,从 16 到 24 个内核,从 150 瓦到 165 瓦。
系统中的所有处理器都必须匹配,坦率地说,甚至提供 Gold 处理器很奇怪,因为您不能在具有四个以上插槽的机器中使用它们。如果您只想要 HPE 的四路机器,那么选择 ProLiant DL580 就可以了。否则,购买 Superdome Flex 280 并使用 Platinum 芯片,即使您只购买了初始的四节点机箱,因此您将来必须选择扩展到六个或八个插槽。
Superdome Flex 280 拥有多达 96 个内存插槽(每个插槽 12 个),并支持 32 GB、64 GB、128 GB 和 256 GB 容量的 DDR4 内存。您必须有充分的理由在任何机器上购买 128 GB 和 256 GB 记忆棒,因为它们的单位容量价格是 32 GB 和 64 GB 记忆棒的两倍。在 NUMA 服务器中,大内存是重点。但有时它与内存带宽有关,因此您必须平衡当前和未来的容量需求与填充每个内存插槽以获得最大内存带宽的愿望。这总是一个棘手的容量规划。
理论上,96个插槽和256GB的胖内存条,这台机器应该支持24TB的内存。但由于 Lake 系列处理器受限于内存控制器,系统的最高容量为 9 TB DDR4 DRAM,您可以通过多种不同的方式实现。理论上,每插槽 4.5 TB DRAM 加上 Optane 最大值,这台机器应该支持 36 TB 持久内存,但机器本身最高可达 24 TB 的寻址能力。所以忘记了。无论哪种方式,这里都有大量的内存扩展。但请记住,其他处理器支持高达 2 TB 或 4 TB 每个插槽的 DDR4 DRAM。
Superdome Flex 280 跨越多达 224 个内核,而主内存可能只有 6 TB 或 12 TB,因为主内存和至强 SP 白金处理器的价格很高。
Superdome Flex 280 中的节点与全功能 Superdome Flex 机器中使用的节点大不相同,后者采用 SGI 的 NUMALink 8 互连,不支持 Cooper Lake Xeon SP,但仅限于 Skylake 和 Cascade Lake此时的变体。相比之下,IBM Power E1080 中使用的四路节点几乎与 2022 年第二季度推出的未来独立四路节点 Power E1050 几乎相同。这使 IBM 的制造工作更轻松,客户的升级路径也更轻松。HPE 无疑希望它可以有一条线,而解决此问题的最简单方法是让英特尔在其处理器中使用 SGI NUMALink。(哦,我们可以听到你在笑......) 英特尔似乎更有可能对未来的至强 SP 进行无缝 16 插槽配置。在未来的 Sapphire Rapids Platinum Xeon SP 中可能有足够的 UPI 插槽来实现这一点。
基于 NUMALink 8 互连的 Superdome Flex 从 4 个插槽扩展到 32 个插槽、从 768 GB 到 48 TB 的主内存以及从 256 个内核到 896 个内核,所有这些都在一个系统映像中。考虑使用运行频率为 3.8 GHz 的 4 核 Xeon SP 8256 Platinum 处理器和 12 TB 或 24 TB 的主内存等疯狂的东西来设置 32 插槽的机器确实非常有趣。是的,这只是 128 个内核,但与最便宜的 28 核 Xeon SP 8276 Platinum 芯片的 2.3 GHz 跛行相比,它们正在尖叫。但是对于大型 NUMA 服务器支持的工作负载类型,数百个线程比千兆赫兹单位更重要,具有更多内核和更少时钟的更便宜的芯片将完成更多工作。
Superdome Flex 机器上使用的 Skylake Xeon SP 不支持 Optane PMEM,但 Cascade Lake 芯片支持。有一些方法可以使 48 TB 的最大可寻址内存更便宜,并且不会过多地牺牲性能。
完整的 32 插槽 Superdome Flex 可装入一个带有八个四插槽机箱的机架中。下面是节点和机箱的样子:
Superdome Flex 机器的不同之处在于 NUMALink 8 互连,HPE 在谈论芯片时将其称为 Flex ASIC,而在谈论将 8 个插槽连接到 32 个插槽的最终互连结构时将其称为 Flex Grid。(Flex ASIC 路由器板显示在本故事顶部的功能图像中。)
Superdome Flex 上的每个四插槽主板使用两个 UPI 链路连接到三个相邻处理器中的两个,这意味着当一个插槽需要访问节点内的远程内存时,三分之二的时间与它相距一跳,并且三分之一的时间是远程内存在两跳之外。多使用一个 UPI 链接,一切都可以在一跳之外,并且仍然为每个套接字保留一个 UPI 链接以链接到 Flex ASIC。每个处理器共有五个 UPI 链路,每个插槽可以有一对通向 Flex ASIC 的通道以及完全互连。我们将不得不看看会发生什么。但英特尔有可能选择更快的通道,而不是更多。
下面是 Flex Grid 互连的样子:
每对 Flex ASIC 都位于一个系统板上,为 Superdome Flex 系统中每个节点的每个处理复合体提供两条路径。未来的至强 SP 处理器可能会带来更多进出路径以及更多计算元素。
Superdome Flex 在互连带宽方面确实受到来自 Intel 的 Skylake 和 Cascade Lake Xeon SP 处理器的 UPI 链路数量的限制。无论出于何种原因,HPE 尚未提供 Cooper Lake Xeon SP,我们怀疑主板和互连必须完全重新布线以利用双倍的 UPI 端口并进行调整以适应 Cooper 带来的更快的 UPI 速度湖。毫无疑问,HPE 和英特尔将使用即将推出的 Sapphire Rapids Xeon SP 来完成这项工作,我们不会惊讶地看到一台 64 插槽的机器在单个内存占用空间中拥有 3,584 个处理器内核,达到数百 TB。
问题是,市场是否需要这样一个野兽,它无疑是世界上最快的服务器,比如在 2.5 GHz 左右运行的 7,168 个线程?IBM 的 Power E1080 提供 1,920 个线程,最高运行频率为 4.15 GHz。如果 HPE 将 Superdome Flex 转移到 Sapphire Rapids Xeon SP,并且 Sapphire Rapids 有四个 tile,每个 14 个内核,总共 56 个内核(如传言),如果这些内核运行在 2.5 GHz 左右,并且如果 HPE 推动Superdome Flex 可扩展到 64 个插槽(因为 NUMALink 8 可以在 Xeon SP 处理器上使用更多的 UPI 链接),那么这样的野兽可以拥有两倍于 Power E1080 的魅力。如果 HPE 保持 32 个插槽的规模,那么 Superdome Flex 和 Power E1080 将并驾齐驱,很可能在 IBM box 的内核之间具有更好的线性扩展。
我们会看到的。2022 年的夏天对于大铁来说将是有趣的。我们肯定知道。
【公司名称】四川旭辉星创科技有限公司
【代理级别】成都惠普服务器工作站总代理
【销售经理】熊经理
【联系方式】座机:028-85596747 手机:18244236404
【公司地址】成都市人民南路4段 桐梓林 商鼎国际2号楼1单元1913
请用微信扫描二维码