18244236404

AIST 与 HPE 和 NVIDIA 合作开发下一代 AI 云机器

Admin 82 2024-07-15 13:21

日本产业技术综合研究所 (AIST) 将安装第三代 AI Bridging Cloud Infrastructure 3.0 超级计算机。该机器将由数千个 Nvidia 当前的“Hopper”H200 代 GPU 加速器组成,这并不令人意外。


但有趣的是,赢得 ABCI 3.0 系统交易的是惠普企业,而不是富士通,这具有重要意义,因为自 2018 年 ABCI 生产线首次安装以来,NEC 和富士通一直是 AIST 高端系统的现任和本土机械供应商。


2017 年 3 月,日本服务器制造商 NEC 制造了第一台 ABCI 原型机,其理念是 AIST 将为人工智能和数据分析工作负载提供云访问计算和存储容量,以解决整个云中 AI 大规模应用的难题。这台机器相当普通,只有 50 台双插槽“Broadwell”Xeon E5 服务器和 8 个“Pascal”P100 GPU 加速器连接到每个服务器。该原型机拥有来自 DataDirect Networks 的 4 PB 集群磁盘存储,运行 IBM 的 GPFS 文件系统,并使用 100 Gb/秒 EDR InfiniBand 导向器交换机将它们连接在一起。


2017 年秋季,富士通赢得了生产级 ABCI 1.0 系统订单,其中包括 1,088 个富士通 Primergy CX2570 服务器节点,这些节点是半宽服务器托架,可滑入 Primergy CX400 2U 机箱。每个托架可容纳两个英特尔“Skylake”Xeon SP 处理器和四个 Nvidia 更强大的“Volta”GPU 加速器。


这台 ABCI 1.0 机器拥有 2,176 个 CPU 插槽和 4,352 个 GPU 插槽,总共拥有 476 TB 的内存和 4.19 PB/秒的带宽,可提供 37.2 千万亿次浮点运算的 64 位双精度浮点 (FP64) 性能和 550 千万亿次浮点运算的 16 位 FP16 半精度性能。节点具有内部闪存驱动器,还可以访问 20 PB 的 GPFS 文件系统。整个系统通过 InfiniBand 连接。


原型机和 ABCI 1.0 生产系统的成本为 1.72 亿美元,其中还包括建造一个数据中心来容纳这些机器的成本。数据中心设施约占其中的 1000 万美元,包括 72 个计算机架和 18 个存储架。该数据中心配备了温水冷却系统,可容纳高达 3.25 兆瓦的功耗和 3.2 兆瓦的冷却能力。


ABCI 机器的全部目的是将 Linux、Kubernetes 容器、AI 框架以及可能对 AI 研究人员有用的任何 HPC 和 AI 库加载到集群中,然后让他们自由地使用应用程序容器。AIST 选择了 Singularity 容器系统来管理容器及其软件映像。


2021 年 5 月,ABCI 2.0 机器诞生,增加了 120 个基于富士通 Primergy GX2570-M6 服务器的服务器节点。这些服务器节点基于英特尔的“Icelake”Xeon SP 处理器,并使用 200 Gb/秒 HDR InfiniBand 互连将节点和每个节点中的八个“Ampere”A100 GPU 相互连接。这仅仅 120 个节点在 Ampere GPU 的张量核心上提供了 19.3 petaflops 的 FP64 性能和 151 petaflops 的 FP16 性能;该切片的内存容量为 97.5 TB,带宽为 1.54 PB/秒。ABCI 1.0 和 ABCI 2.0 并排并链接在一台机器中,如下所示:


ABCI 1.0 和 ABCI 2.0 扩展(通常称为 ABCI 2.0)合在一起最多消耗 2.3 兆瓦。整个系统在 FP64 精度下可实现 56.6 千万亿次浮点运算,在 FP16 精度下可实现 851.5 千万亿次浮点运算。


随着 HPE 打造的 ABCI 3.0 机器,AIST 的性能似乎将大幅提升,AI 性能将超过 6 百亿亿次浮点运算。您可能会认为该性能数据包括 Nvidia GPU 中的 2:1 稀疏压缩,因为供应商总是报出他们能报出的最大数字。HPE在宣布 ABCI 机器的新闻稿中表示,“约 6.2 百亿亿次浮点运算”的性能是 FP16 精度,而不是 H100 和 H200 也支持的 FP8 精度。Nvidia在其关于该交易的声明中表示,该机器在没有稀疏性的情况下具有“6 百亿亿次 AI 浮点运算”,并补充说它具有“410 千万亿次双精度浮点运算”。


基于这一点以及 H100 和 H200 GPU 具有相同的理论峰值性能这一事实,我们认为 ABCI 3.0 机器将拥有 6,144 个 GPU,分布在 768 个节点上,每个节点有 8 个 GPU。如果在这样的配置上进行计算,您会在无稀疏性的 FP16 精度下获得 6.08 exaflops 峰值,在张量核心上获得 FP64 精度下 411.6 petaflops 峰值。(H100 和 H200 在 FP64 模式下不支持稀疏性。)Nvidia 表示,这些节点具有 200 GB/秒的双向 InfiniBand 带宽,这意味着每个节点有八张卡(每张 GPU 一张)。


2022 年 3 月推出的 H100 GPU 拥有 80 GB 的 HBM3 内存和 3.35 TB/秒的带宽,后来升级为 96 GB 的 HBM3,带宽为 3.9 TB/秒,但 2023 年 11 月发布并批量出货的 H200 现在拥有 141 GB 的 HBM3E 内存容量和 4.8 TB/秒的带宽。如果你计算一下,ABCI 3.0 机器将拥有 846 TB 的 HBM3E 内存和 28.8 PB/秒的总带宽。


因此,与集群在一起的 ABCI 1.0 和 ABCI 2.0 机器相比,ABCI 3.0 的 FP64 性能是 7.3 倍,FP16 性能是 7.1 倍,内存带宽是 5 倍,GPU 内存容量是 1.5 倍。再次,性能增益超过了内存和内存带宽增益。这是现代系统架构的问题。


【公司名称】四川旭辉星创科技有限公司

【代理级别】成都惠普HPE服务器工作站总代理

【销售经理】熊经理

【联系方式】座机:028-85596747    手机:18244236404

【公司地址】成都市人民南路 科华路口 群益商务大厦403

联系我们
您好,咨询客服了解更多促销产品
售前优惠在线咨询
QQ咨询
微信咨询
售前优惠电话咨询专线:
18244236404
售后电话咨询专线:
028-85596747

请用微信扫描二维码

3.312921s