• 果壳说
1212
需用时 02:25
面向万卡集群的算力释放,谁能做好AI时代的基础设施?

Meta 训练Llama1时用了2028张卡,到了Llama3.1,这个数字变成了1.6万。

9月,马斯克宣布xAI打造的超级训练集群 Colossus 上线,由10万块H100组成,并称在未来几个月,还要增加10万块GPU。

随着大模型的的代,其GPU用量也在不断增长。十万卡,甚至数十万卡集群的建设也成为新的竞争高地。一方面,模型训练需求猛增,需要的集群规模越来越大;另一方面,也期待推理成本的持续下降。这些对GPU管理的稳定性和有效性提出了更高要求。

在2024百度云智大会上,百度升级了百舸4.0计算平台,同时发布了千帆大模型平台3.0。为大模型的算力管理,模型和应用开发上,搭建好更完善的基础设施。

 

升级百舸4.0,万卡任务上有效训练时长占比99.5%

从2021年开始,百度就意识到打造AI基础设施的重要性,发布了百舸 AI 异构计算平台。在内部,支持了例如搜索,自动驾驶等业务的发展,在百舸3.0上训练出了文心系列大模型,对外,帮助客户训练了很多行业和多模态模型。三年间,百舸围绕提升GPU集群的整体算力利用率不断做优化。

如何应对“算力供应短缺的问题”,以及如何“在短缺且高昂的计算成本下,高效地利用算力”,是云厂商需要帮助AI企业解决的问题。

对此,百舸4.0在整体架构上做了升级,从下到上分为四层结构,资源层,组件层,加速层,和工具层。进一步解释,资源层提供了支持异构芯片、高速互联、高效存储的算力资源;组件层解决的是大规模集群稳定和性能的问题;加速层,是面向客户大模型训练、推理的需求而专门设计;工具层,是一套管理界面,让用户操作更直观、更便捷。

百舸4.0帮助企业将集群部署最快1小时就能跑起来。在训练阶段,在万卡任务上,百舸4.0可以保障有效训练时长占比达到99.5%。在模型推理阶段,通过架构分离、KV Cache、负载分配等一系列加速工作,提高了推理效率,降低了成本,让长文本推理效率提升了1倍以上。

比如,百舸帮助中国邮储完成了不同型号的GPU资源部署,完成了300多个大小模型,6000多次训练任务,模型迭代从一个半月一次到半天。诸如此类,百舸在众多真实的业务场景中实现一次次升级。

 

千帆3.0发布,让大模型落地

去年三月,百度发布了千帆1.0,包括模型微调的工具链和大模型调用接口,模型调用开始起量。九月,发布了千帆2.0,主要提供了RAG、Agent等应用框架,支撑大家在应用开发层面的各种需求。3.0则是更为系统性支持在应用开发、模型调用、模型开发,这三个层面的大量需求。

千帆3.0为模型开发提供了完善的工具链。上线了DPO、KTO等模型训练算法和PTQ等模型量化算法,能够更高效地支持超大参数模型的定制。不仅是大模型开发,升级后的千帆3.0还支持CV、NLP、语音等传统模型的开发,并实现数据、模型、算力资源的统一纳管和调度,为企业提供一站式的大、小模型开发体验。

在模型调用方面,百度在过去一年将文心大模型升级到了4.0,又发布了文心4.0Turbo,不仅效果超越4.0,而且推理速度更快、成本更低。并陆续推出ERNIE Speed、ERNIE Lite、ERNIE Tiny等不同大小的多个模型。在扩展模型种类的同时,也在降低模型调用成本,比如ERNIE 3.5已经降价了92%,两款主力模型ERNIE Speed、ERNIE Lite甚至免费。客户可以根据场景,合理搭配大小模型,降低模型推理成本,提高了业务效率。

在上层的应用开发上,升级了企业级RAG、企业级Agent开发,发布了“AI速搭”低代码应用开发平台——一句话完成企业级应用创建。

在千帆平台上,文心大模型日均调用量超过7亿次,千帆平台累计帮助用户精调了3万个大模型,开发出70多万个企业级应用。

百舸提供了持续升级的AI基础设施,千帆帮企业实现“最后一公里”的交付,这些指向百度希望加速AI创新和普惠的愿景,以及“大模型正在加速深入生产力场景”的确定性未来。

The End

举报这篇文章

果壳说

果壳作者

pic