• 果壳说
2421
需用时 04:50
性价比超越H100,跑大模型何必是GPU?

生成式AI的声势远超我们的想象,伴随大模型而来的,是GPU市场的再次繁荣。与之相悖的是,虽然国内大模型发展之速预示着巨大市场即将来临,但关键的算力器件却可能不再那样容易购入。

电子行业一直讲求多元化供应,AI也不例外,它也需要更多专用处理器,完成计算的使命。

2023年7月11日,英特尔正式于中国市场推出第二代Gaudi深度学习加速器—Habana  Gaudi2。作为英特尔从云到端产品组合的重要组成,Gaudi2致力于以领先的性价比优势,为中国用户提供更高的深度学习性能和效率。

针对中国市场的处理器

事实上,Gaudi2在去年就已发布,那么针对中国市场的产品又有何不同?

根据英特尔公司执行副总裁数据中心与人工智能事业部总经理Sandra Rivera的介绍,针对中国市场发布的Gaudi2是经过几个月打磨的新产品,包含大量软件模型优化,是可以大规模部署训练及推理的整体解决方案。此外,这张卡也是中国定制版的产品,对于出口或是支持中国客户是没有任何问题的。

迄今为止,还没有其他半导体供应商能够在GPT-3上建立、扩展和实现符合基准标准的性能,Gaudi2是迄今唯二能够跑MLPerf GPT 3.0模型的产品,而它的强悍性价比也将会分为大模型掀起一阵风。

通过最受欢迎的AI开源模型提供商Hugging Face分享性能结果显示,在多种训练和推理基准测试中,Gaudi2的表现出都超过了Nvidia A100 GPU的性能。1760亿个参数的BLOOMZ模型中,Gaudi2展现出高达40%的推理性能提升。而AI基准测试组织MLCommons最近发布了最新的MLPerf训练结果,也显示Gaudi2在训练LLMs方面提供了领先的性能和最佳的成本节约效果。

在能效方面,Gaudi2的每瓦性能是A100的2倍,对于176B参数的BLOOMZ推理,其每瓦能耗是A100的60%。

除了在性能表现上超过A100之外,Gaudi2在各种最先进的模型上相对于A100提供了约2倍的性价比。

对于包含整个GPT-3语料库的代表性切片的GPT-3训练评估,Gaudi2在384个加速器上训练GPT-3的时间为311分钟,Nvidia在512个H100 GPU上的训练时间则为64分钟。这意味着,基于GPT-3模型,每个H100的性能领先于Gaudi2 3.6倍。

相比H100,Gaudi2服务器的成本要低得多,可以说,这样的性价比会彻底颠覆市场。

英特尔正在加大投资力度,以进一步扩展对大规模语言模型的AI软件开发支持。目前,英特尔已在世界其它地区建立类似基于Gaudi2的集群,并实现了97%的规模效率,这意味着从1个节点到512个节点的性能扩展几乎没有对性能产生影响。

这些集群将作为英特尔开发者云的一部分向中国客户提供,并为开发人员提供一个地方,在这里可以分析和优化从小型到大型的新兴AI工作负载,而无需昂贵的硬件成本。

搭配干活才不累

AI数据流广泛而复杂,尤其在多模态大模型愈发主流的现如今,AI计算需求也需要更为通用的方案,在第四代至强可扩展处理器中,便藏着许多应对通用负载的加速器。

英特尔致力于让客户更易于在计算发生的任何地方部署AI。第四代英特尔至强可扩展处理器最重要的特性之一,是新的AMX人工智能加速引擎,与上一代相比,它可以提供高达10倍的人工智能推理和训练性能提升。AMX扩大了能够在至强上运行的人工智能工作负载范围,而无需额外的离散加速器。

第四代至强能够支持大多数大型AI模型,包括实时、中等吞吐量、低延迟稀疏推理以及中、小型规模的训练和边缘推理。

此外,通过广泛生态系统、专用于简化流程的软件工具以及优化的编译器,让客户能够更轻松地部署我们的解决方案。

借助oneAPI和OpenVINO,通过提供易于编程,且在英特尔硬件上扩展的上游优化库,为开发人员提供了使用硬件架构的开放性和可选择性,即可在多种架构上使用一个代码库。

与竞争对手的GPU和CPU相比,第四代英特尔至强可扩展处理器具备卓越的AI训练和推理性能。

在AI推理工作负载中,与英伟达A100 GPU相比,至强的推理性能可超5倍;与AMD的64核EPYC CPU相比,至强推理性能可超2倍。就AMD EPYC而言,英特尔可以更少的内核,提供更高的AI性能,因为每个至强处理器都拥有专用的AMX内置加速器。

在AI训练工作负载中,与英伟达A100 GPU相比,至强拥有近3倍的性能提升,这意味着用户能够在降低成本的同时,提高生产力,并且无需GPU卸载。

AI并非一个单一的基准可衡量,性能固然重要,而客户通过英特尔至强可扩展处理器成功部署AI的真实案例更能证明产品的价值。

那么,既然第四代至强的AI能力如此强劲,为什么英特尔还要做Gaudi2呢?

实际上,大模型领域参数量参差不齐,有些达到百亿级,有些达到千亿级,但是参数量越大,就需要更大算力。此时类似Gaudi这样的产品,可以更加有效的帮助大模型进行训练,在性能、性价比或者是在供电上都是有一个平衡的考量。

英特尔在不同的场景下,希望可以提供不同的产品以满足不同的客户需求。而英特尔,也有独立GPU。比如之前的GPU Max,在很多的科学计算上面,可能会跑出更好的性能,不只是性能,还有性价比。未来,英特尔也会在2025年把两条产品线做整合,推出更加完整的下一代GPU产品。

此外,企业希望通过灵活、开放的解决方案,支持不同的应用和环境,实现 "一次构建,随处部署"。通过英特尔对流行开源框架、库和工具的优化,开发人员可以开发并在任何地方部署AI。在多架构系统上使用统一的可移植代码库,这有助于降低软件开发和维护成本,最大限度地提高多架构系统的生产力,并优化开发资源。

走在变革的最前线

“一直以来英特尔始终处于每一次重大技术变革的前沿。” Sandra Rivera表示, 如今,我们正处于智能时代,AI正在被广泛应用,从手机到个人电脑,再到汽车、家庭、办公室和工厂,所有人的生活都被AI所改变。

近期火爆的生成式AI和LLM(大规模语言模型)极大地加速了AI发展,并衍生出了诸多计算需求。生成式AI和LLMs使机器能够通过跟踪顺序数据(如句子中的单词)中的关系来学习上下文及其含义。

所以,为了抓住浪潮的机遇,企业也需要更多产品来武装自己的产品。

能让更多人用才是关键。在人工智能或是AI运算时,很多人在用CUDA,但是英特尔在最近在看到的大模型当中,大部分的开发者是不会做底层开发,会在诸如PyTorch、TensorFlow上创新。

任何人,都希望大幅提高生产力。对于半导体公司而言,就是在多种语言环境中,能够让用户更简便应用。通过软件、库和工具提供一种模块化的方法,来优化并加速跨多种架构的异构负载。

在第一代产品应用落地之后,英特尔拥有了更多成熟的经验。现在,开发者可以非常简单地进行自己的开发。

目前,Gaudi2首先将通过合作伙伴浪潮信息向中国客户提供并发售基于Gaudi2深度学习加速器的浪潮信息AI服务器NF5698G7。该服务器集成了8颗Gaudi2加速卡HL-225B,还包含双路第四代英特尔至强可扩展处理器。

Sandra Rivera强调,中国市场对AI解决方案的需求非常强劲,英特尔正在与几乎所有传统客户洽谈。对英特尔而言,云服务提供商、通信服务提供商都是企业客户,因此对AI解决方案有着强烈的需求。多年来,英特尔与所有这些客户都有着深入的合作,希望这些合作关系能够随着计算需求的增长而继续发展,以满足人工智能工作负载需求。

“中国是非常重要的市场,在这样的情况下,我们一定会继续一如既往的跟我们中国的一些伙伴,刚刚我们讲到了很多不同的OEM,或者是一些最终用户、互联网厂商,一起在人工智能创新的路上继续助力,帮助大家能够在这上面走得更快一些。”Sandra Rivera如是说。

文/付斌

The End

举报这篇文章

果壳说

果壳作者

pic