性价比超越H100，跑大模型何必是GPU？| 果壳科技有意思

果壳说

2421字
需用时 04:50

性价比超越H100，跑大模型何必是GPU？

果壳说

生成式AI的声势远超我们的想象，伴随大模型而来的，是GPU市场的再次繁荣。与之相悖的是，虽然国内大模型发展之速预示着巨大市场即将来临，但关键的算力器件却可能不再那样容易购入。

电子行业一直讲求多元化供应，AI也不例外，它也需要更多专用处理器，完成计算的使命。

2023年7月11日，英特尔正式于中国市场推出第二代Gaudi深度学习加速器—Habana Gaudi2。作为英特尔从云到端产品组合的重要组成，Gaudi2致力于以领先的性价比优势，为中国用户提供更高的深度学习性能和效率。

针对中国市场的处理器

事实上，Gaudi2在去年就已发布，那么针对中国市场的产品又有何不同？

根据英特尔公司执行副总裁数据中心与人工智能事业部总经理Sandra Rivera的介绍，针对中国市场发布的Gaudi2是经过几个月打磨的新产品，包含大量软件模型优化，是可以大规模部署训练及推理的整体解决方案。此外，这张卡也是中国定制版的产品，对于出口或是支持中国客户是没有任何问题的。

迄今为止，还没有其他半导体供应商能够在GPT-3上建立、扩展和实现符合基准标准的性能，Gaudi2是迄今唯二能够跑MLPerf GPT 3.0模型的产品，而它的强悍性价比也将会分为大模型掀起一阵风。

通过最受欢迎的AI开源模型提供商Hugging Face分享性能结果显示，在多种训练和推理基准测试中，Gaudi2的表现出都超过了Nvidia A100 GPU的性能。1760亿个参数的BLOOMZ模型中，Gaudi2展现出高达40%的推理性能提升。而AI基准测试组织MLCommons最近发布了最新的MLPerf训练结果，也显示Gaudi2在训练LLMs方面提供了领先的性能和最佳的成本节约效果。

在能效方面，Gaudi2的每瓦性能是A100的2倍，对于176B参数的BLOOMZ推理，其每瓦能耗是A100的60%。

除了在性能表现上超过A100之外，Gaudi2在各种最先进的模型上相对于A100提供了约2倍的性价比。

对于包含整个GPT-3语料库的代表性切片的GPT-3训练评估，Gaudi2在384个加速器上训练GPT-3的时间为311分钟，Nvidia在512个H100 GPU上的训练时间则为64分钟。这意味着，基于GPT-3模型，每个H100的性能领先于Gaudi2 3.6倍。

相比H100，Gaudi2服务器的成本要低得多，可以说，这样的性价比会彻底颠覆市场。

英特尔正在加大投资力度，以进一步扩展对大规模语言模型的AI软件开发支持。目前，英特尔已在世界其它地区建立类似基于Gaudi2的集群，并实现了97%的规模效率，这意味着从1个节点到512个节点的性能扩展几乎没有对性能产生影响。

这些集群将作为英特尔开发者云的一部分向中国客户提供，并为开发人员提供一个地方，在这里可以分析和优化从小型到大型的新兴AI工作负载，而无需昂贵的硬件成本。

搭配干活才不累

AI数据流广泛而复杂，尤其在多模态大模型愈发主流的现如今，AI计算需求也需要更为通用的方案，在第四代至强可扩展处理器中，便藏着许多应对通用负载的加速器。

英特尔致力于让客户更易于在计算发生的任何地方部署AI。第四代英特尔至强可扩展处理器最重要的特性之一，是新的AMX人工智能加速引擎，与上一代相比，它可以提供高达10倍的人工智能推理和训练性能提升。AMX扩大了能够在至强上运行的人工智能工作负载范围，而无需额外的离散加速器。

第四代至强能够支持大多数大型AI模型，包括实时、中等吞吐量、低延迟稀疏推理以及中、小型规模的训练和边缘推理。

此外，通过广泛生态系统、专用于简化流程的软件工具以及优化的编译器，让客户能够更轻松地部署我们的解决方案。

借助oneAPI和OpenVINO，通过提供易于编程，且在英特尔硬件上扩展的上游优化库，为开发人员提供了使用硬件架构的开放性和可选择性，即可在多种架构上使用一个代码库。

与竞争对手的GPU和CPU相比，第四代英特尔至强可扩展处理器具备卓越的AI训练和推理性能。

在AI推理工作负载中，与英伟达A100 GPU相比，至强的推理性能可超5倍；与AMD的64核EPYC CPU相比，至强推理性能可超2倍。就AMD EPYC而言，英特尔可以更少的内核，提供更高的AI性能，因为每个至强处理器都拥有专用的AMX内置加速器。

在AI训练工作负载中，与英伟达A100 GPU相比，至强拥有近3倍的性能提升，这意味着用户能够在降低成本的同时，提高生产力，并且无需GPU卸载。

AI并非一个单一的基准可衡量，性能固然重要，而客户通过英特尔至强可扩展处理器成功部署AI的真实案例更能证明产品的价值。

那么，既然第四代至强的AI能力如此强劲，为什么英特尔还要做Gaudi2呢？

实际上，大模型领域参数量参差不齐，有些达到百亿级，有些达到千亿级，但是参数量越大，就需要更大算力。此时类似Gaudi这样的产品，可以更加有效的帮助大模型进行训练，在性能、性价比或者是在供电上都是有一个平衡的考量。

英特尔在不同的场景下，希望可以提供不同的产品以满足不同的客户需求。而英特尔，也有独立GPU。比如之前的GPU Max，在很多的科学计算上面，可能会跑出更好的性能，不只是性能，还有性价比。未来，英特尔也会在2025年把两条产品线做整合，推出更加完整的下一代GPU产品。

此外，企业希望通过灵活、开放的解决方案，支持不同的应用和环境，实现 "一次构建，随处部署"。通过英特尔对流行开源框架、库和工具的优化，开发人员可以开发并在任何地方部署AI。在多架构系统上使用统一的可移植代码库，这有助于降低软件开发和维护成本，最大限度地提高多架构系统的生产力，并优化开发资源。

走在变革的最前线

“一直以来英特尔始终处于每一次重大技术变革的前沿。” Sandra Rivera表示, 如今，我们正处于智能时代，AI正在被广泛应用，从手机到个人电脑，再到汽车、家庭、办公室和工厂，所有人的生活都被AI所改变。

近期火爆的生成式AI和LLM（大规模语言模型）极大地加速了AI发展，并衍生出了诸多计算需求。生成式AI和LLMs使机器能够通过跟踪顺序数据（如句子中的单词）中的关系来学习上下文及其含义。

所以，为了抓住浪潮的机遇，企业也需要更多产品来武装自己的产品。

能让更多人用才是关键。在人工智能或是AI运算时，很多人在用CUDA，但是英特尔在最近在看到的大模型当中，大部分的开发者是不会做底层开发，会在诸如PyTorch、TensorFlow上创新。

任何人，都希望大幅提高生产力。对于半导体公司而言，就是在多种语言环境中，能够让用户更简便应用。通过软件、库和工具提供一种模块化的方法，来优化并加速跨多种架构的异构负载。

在第一代产品应用落地之后，英特尔拥有了更多成熟的经验。现在，开发者可以非常简单地进行自己的开发。

目前，Gaudi2首先将通过合作伙伴浪潮信息向中国客户提供并发售基于Gaudi2深度学习加速器的浪潮信息AI服务器NF5698G7。该服务器集成了8颗Gaudi2加速卡HL-225B，还包含双路第四代英特尔至强可扩展处理器。

Sandra Rivera强调，中国市场对AI解决方案的需求非常强劲，英特尔正在与几乎所有传统客户洽谈。对英特尔而言，云服务提供商、通信服务提供商都是企业客户，因此对AI解决方案有着强烈的需求。多年来，英特尔与所有这些客户都有着深入的合作，希望这些合作关系能够随着计算需求的增长而继续发展，以满足人工智能工作负载需求。

“中国是非常重要的市场，在这样的情况下，我们一定会继续一如既往的跟我们中国的一些伙伴，刚刚我们讲到了很多不同的OEM，或者是一些最终用户、互联网厂商，一起在人工智能创新的路上继续助力，帮助大家能够在这上面走得更快一些。”Sandra Rivera如是说。

文/付斌

The End

举报这篇文章

果壳说

果壳作者