18244236404

成都HPE服务器总代理_HPE 为大型企业创建自己的 AI 堆栈

Admin 367 2022-04-28 17:50

尽管超大规模企业已经针对生产中的大量数据集运行 AI 工作负载已有 15 年之久,但许多大型企业拥有大量他们认为相关的数据,但他们对 AI 及其系统要求完全没有经验。


这就是像惠普企业这样的公司可以介入并提供帮助的地方,也可以赚一点钱。


过去几年,HPE 一直在宣传其“人人享有人工智能”的信息,呼应了主要 OEM 几十年来一直在吹捧的“HPC 民主化”计划。但对于慧与而言,这不仅仅是空谈。去年,HPE 收购了初创公司 Determined AI 及其用于大规模训练机器学习模型的软件平台,该平台利用了 HPE 在其武器库中的 HPC 级功能。两个月后,该公司推出了机器学习开发环境——它自己的机器学习培训平台——以及其Ezmeral 软件组合中的配套统一分析产品。


本周,HPE 正在扩大其 AI 软件产品组合,但也依靠其HPC 硬件背景——在 2019 年以14 亿美元收购超级计算机制造商 Cray后得到了极大的支持——旨在从根本上将其排除在企业计算的等式之外。运行此类工作负载。


HPE 执行副总裁兼 HPC 和 AI 业务总经理 Justin Hotard 在最近的一次虚拟会议上告诉记者:“我们通过收购确定的 AI 和许多客户的工作发现,许多工程师将时间花在管理基础设施上。” . “他们正在处理基础设施的许多技术复杂性,而不是专注于优化他们的模型和大规模改进它们。当你进入大规模模型时,另一件关键的事情是在传统和 HPC 以及现在的人工智能中交付大规模模型,这实际上是 HPC 和 AI 业务部门的核心。就像我们在 HPC 中看到的一样,客户需要专门的基础设施。更远,


Hotard 说,市场上充斥着昂贵且难以扩展的“特定且严格”的产品,这增加了复杂性以及从数据中获取洞察所需的时间。慧与正在尝试简化硬件情况并更轻松地跨组织协作以训练他们的模型。


HPE-AI-steps.png

该供应商的机器学习开发系统将加速的硬件和软件结合在一起,可以实现大规模的模型训练。该硬件可以从 32 个 GPU 加速器扩展到 256 个 GPU,并利用 HPE 的高密度 Apollo 系统,其中包括 8 个 80 GB Nvidia A100 GPU和 ProLiant DL325 Gen10+ 节点,这些节点由AMD “Milan Epyc 7763 或 7543 芯片提供支持。它还包括来自 Aruba Networks(HPE 拥有)的 6300M 1 Gb/秒交换机、200 Gb/秒 InfiniBand HDR 交换机和可选的 HPE 并行文件系统。还有 NVM-Express 暂存存储器选项。


如下所示,32 个 GPU 的小型配置为自然语言处理 (NLP) 和计算机视觉等工作负载提供了 90% 的扩展效率,并且为 NLP 应用程序提供了五倍以上的吞吐量。


“这个平台的真正独特之处在于,我们在解决方案中添加了一个软件层,而机器学习开发系统提供了一个完整的堆栈,使我们的客户能够拥有核心的预配置硬件和机器学习平台、网络和服务这使我们的客户能够开发原型,然后将这些原型产品化为真正的解决方案,”Hotard 说。“这是一个非常简单和基本的产品,任何人都可以开始使用。”


它包括去年推出的机器学习开发环境软件以及容器运行时、集群管理和培训计划等工具。软件堆栈包括用于容器的 Docker、作为基础操作系统的 Red Hat Enterprise Linux、HPE 的 Performance Cluster Manager;该设置还包括 HPE服务器和对 PyTorch 和 TensorFlow 等 AI 框架以及常用的基于 Keras Python 的深度学习 API 的支持。


德国人工智能初创公司 Aleph Alpha 正在使用 HPE 的系统来训练其多模式人工智能,其中包括 NLP 和计算机视觉。该公司还采用了在惠普实验室开发的群体学习技术,以创建一种软件产品,组织可以使用该产品对医疗保健研究和欺诈检测等领域的数据进行分析。目标是分析数据——这些数据通常位于边缘,同时保护数据的隐私。


HPE-ML-dev-system.png

“在很大程度上,我们的工作方式——不仅在模型开发和模型训练方面,而且在操作方面——是我们倾向于将收集到的所有数据集中到一个核心位置进行模型训练和模型开发,”Hotard 说。“在许多情况下,这些数据是在边缘收集和收集的,并且……在某些情况下,将这些数据从边缘转移到法院会对遵守 GDPR [欧盟通用数据保护条例] 和其他法规产生影响。将所有东西简单地移动到一个中心位置并非易事。数据移动的复杂性以及处理联合数据,特别是联合数据时的数据移动成本不仅在地理上是联合的,而且是跨云、公共和私有云联合的。数据和数据移动的成本和复杂性相当高。我们试图消除的是对集中和整合数据的依赖。这会在企业内部甚至不同集团的企业之间产生影响。”


通过群体学习,数据分析和模型训练不是将数据移动到中心位置,而是在数据所在的位置进行,从而保护数据隐私和所有权问题。然后,来自模型的学习通过许可的区块链在节点之间共享,该区块链仅允许具有权限的用户访问。模型已优化,但数据未共享。


作为一个例子,Hotard 指出不同的医院正在使用需要保护隐私的个人健康数据进行研究。数据永远不会离开各个医院;基于医院数据的模型训练结果集中汇总。“这是一个非常重要的原则,因为它不仅可以让您从常见的聚合较大数据集中受益,就企业而言,您可以消除数据集之间的移动,从而显着降低成本和复杂性,”他说。


HPE-ML-infrastructure.png

借助 HPE 的产品,组织可以使用通过供应商的 swarm API 与 AI 模型集成的容器。根据需要在组织内部和外部共享 AI 建模的结果。该软件与平台无关,因此它可以在慧与(包括机器学习开发系统)或其他供应商的系统上运行,并且可以在虚拟机、裸机或容器中运行。它具有高度可调的超参数和控制集群网络的管理命令。


合并模型参数为网络提供弹性和安全性。


在医疗保健和银行等无法共享数据的行业中,群体学习允许去中心化模型训练。在其他行业,如制造业,这不是数据隐私的问题,而是更多地为管理员提供一种方法,通过将来自多个传感器和设备的数据汇总在一起来改进预测性维护。德国亚琛大学正在将 HPE 的技术用于结肠癌研究项目,图形数据库制造商 TigerGraph 正在使用它和自己的数据分析技术来检测信用卡交易中的异常活动。


【公司名称】四川旭辉星创科技有限公司

【代理级别】成都惠普HPE服务器工作站总代理

【销售经理】熊经理

【联系方式】座机:028-85596747    手机:18244236404

【公司地址】成都市人民南路4段 桐梓林 商鼎国际2号楼1单元1913

联系我们
您好,咨询客服了解更多促销产品
售前优惠在线咨询
QQ咨询
微信咨询
售前优惠电话咨询专线:
18244236404
售后电话咨询专线:
028-85596747

请用微信扫描二维码

4.109861s