科学人

2333字
需用时 04:39

地表最强AI大会上，我看到自己就能训练一个GPT的日子即将到来

果壳

地表最强AI大会上，我看到自己就能训练一个GPT的日子即将到来

原创见文末果壳

北京时间3月19日凌晨四点，英伟达GTC 2024主题演讲如期开幕：这不仅五年以来的第一场线下举办的GTC，也是 2024 年重要的一场 AI 峰会。

2024GTC丨英伟达

当穿着黑色皮夹克的黄仁勋上台的那一刻，在场所有人都松了一口气：似乎英伟达又回到那个“领先对手的同时也一刻不停奔跑”的时代。

开场keynot丨英伟达

今年黄仁勋演讲的主题为“AI 的进步正在塑造人类的未来”，实际上，这场演讲的主题更像是在讲述“人如何与机器共同相处来改变生活”：在英伟达展示的未来中，包括比亚迪、日产、西门子在内的业内巨头都参与其中。

但黄仁勋还是在演讲中处处提醒观众：这不是幻想，而是即将到来的近未来：一个 AI 改变所有事物所有人的未来。

“工业革命新引擎”Blackwell

2018 年，同样是在GTC大会期间，黄仁勋讲出了著名的“黄氏定律” Huang's law：表示为了满足深度学习的计算需求， GPU 效能将会每两年提升一倍以上。

这一定律随着英伟达在生成式 AI 时代的无可撼动的行业地位，也随之广为流传：但实际上，GPU 硬件的性能往往只需要六个月就被翻了一倍 —— 但这更像是属于英伟达的独角戏，每次有资格站在擂台上挑战英伟达的，往往都只有英伟达自己，这也是黄教主敢在演讲中将英伟达与台积电相提并论，称英伟达实际上是一家“人工智能晶圆厂” 的底气所在。

Blackwell 平台架构推理卡：这一平台以“二十世纪最杰出数学家之一”的 David Blackwell 的名字命名。搭载了 2080 亿颗晶体管，同时也是英伟达首个采用多芯片封装技术的 GPU。

Blackwell对比Hopper丨英伟达

这一技术能将两颗 GPU 高速串联起来，将其视为一颗 GPU 来分配处理计算任务，同时提供完整的缓存一致性，还具有192GB高带宽内存 (HBM3E)，速度为 8 Gbps，每个芯片的带宽为 1.8TB/秒。

老黄还现场对比了 Blackwell 架构 GPU（左）和此前 Hopper 架构 GPU（右）的体积丨英伟达

但更大的体积还不足以完全展示出先进制程所带来的更强性能，更直观的例子是：OpenAI 最新的 GPT-4-1.8T 的参数规模，2000 台 Blackwell 只需要 90 天就可以完成训练。同样的工作量放在 Hopper GPU 上则需要 8000 张才能完成。无论是电力还是生成 token 成本都能被降低至原本的四分之一，能耗与训练效率更是提升了 25 倍。

黄仁勋有一句经典的口号“即使竞争对手的 GPU 是免费送的，也没有我们的更便宜”：这句话的语境，是指英伟达并非单独售卖 GPU，而是为客户提供了一整套的解决方案：例如在 Blackwell GPU 之上，还有用 72 块 Blackwell GPU 及 36 颗 Grace GPU 组合而成的超级计算机 DGX GB200。

算力需求增长丨英伟达

在 GB200 之上，英伟达还提供了通过 NVIDIA Quantum InfiniBand 网络技术，将数万台 GB200 并联成为真正的超级计算机的解决方案，这套系统能将数以十万计的 Blackwell GPU 串联成为一个整体，用于训练地球上最顶级的生成式 AI 大模型。

更形象一点，这就是能够孕育出下一代聪慧如人的生成式多模态对话 AI 的产房。

随着新品的发布，老黄也在演讲中回忆起了自己亲自送货上门的第一台 DGX —— 彼时这台具有划时代意义的训练设备被送给了 OpenAI，当时只有 0.17 Petaflops 的算力，而如 GB200 的算力，相比八年前的“初号机”已经提升了八千倍。

老黄送货上门丨英伟达

现在，除了 OpenAI 之外，包括亚马逊、Google、微软一集以及甲骨文也都是 GB200 的首批用户；此外随着模型参数体积越来越小，而用于训练的英伟达 GPU 性能越来越强，老黄还提醒大家：或许每个人都能训练出自己的 ChatGPT 的时刻，已经用不了多长时间了。

AI从只能识别“猫咪”开始到今天丨英伟达

除了硬件，英伟达很早就意识到，想将自己的硬件卖的更好，优秀的软件不可或缺，颠覆时代的潜力往往也最早出现在软件之中，因此早在三十年之前，英伟达就在卖硬件的同时重金投资软件生态。

英伟达显卡技术的进步推动了游戏产业的发展，也完全可以说枝繁叶茂的 CUDA (Compute Unified Device Architecture，统一计算架构）开发生态，或许也让人类迈入 AI 时代的脚步提前了几年。

时至今日，软件已经是英伟达能够成为 AI 时代卖铲人最重要的实力之一，这次在生成式 AI 的软件平台上，英伟达还展示了用于企业用户开发展示工业数字孪生的工具 Omniverse Cloud，同时还宣布了对 Vision Pro 的支持。

英伟达现场展示了一段宣传片，展示了英伟达预想中的场景：通过 Vision Pro，用户可以直接用 Vision Pro 体验到汽车的虚拟驾驶舱内容，进入其中沉浸式体验各种元宇宙内容。

英伟达同时还公布了此前预热过的、名为 NIM 的软件服务：它由预构建的 Kubernetes 容器、模型、API 和推理引擎（例如 Triton）组成，这可以被看作是英伟达硬件与软件结合而来的订阅内容，方便开发者将自己的模型打包放进去，提供给所有用户，其中面对不同硬件、不同配置设备的兼容性问题，就不用开发者自己担心了。

除了可以每颗 GPU 每年 4500 美元的订阅费用，NIM 服务还支持在本地的高性能笔记本电脑上运行开发者自己的模型，你甚至可以将已经上传至 NIM 的其他大模型下载到本地，在自己的设备上端侧运行。

未来一切移动的东西都是机器人

“我想我们迎来了一些特别的客人。”无论身高，走路形态都像蹒跚学步的小孩的小型机器人晃晃悠悠走到台前，操着一口人类听不懂的“机器人语言”，时不时打断黄讲话，十分讨喜。这些机器人由Jetson提供“动力”。

可爱的机器人丨英伟达

请出这些机器人之前，黄刚刚总结完，英伟达在人形机器人上的进展。英伟达推出人形机器人通用基础模型 Project GR00T。

发布基于Thor SoC的新型计算机 Jetson Thor，该平台能够执行复杂的任务，并安全、自然地与人和机器进行交互。它采用模块化架构，在性能、功耗和尺寸方面进行了优化。

以及Isaac机器人平台的重大升级，Isaac Manipulator 是一系列专为机械臂设计的基础模型。Issac Perceptor 则旨在为机器人提供 "多摄像头、3D 环视功能”，此前世界上大多数机器人都是预先编程的，得益于此，未来机器人将有感知力，你只需要告诉它从A点走到B点，它自己就能找到一条通过的路。

“下一代机器人可能是人形机器人。”黄说。达成人形机器人可能更容易，原因是能为机器人提供更多符合人类习惯的“模拟训练数据”。基础模型通过不断观看，学习人类示例，模仿人类运动，再将其部署到物理机器人上。

机器人模仿人丨英伟达

演讲开场时，黄曾问，知不知道各行各业的我们，是怎么聚集到一起的？从梳理英伟达历程开始，到讲完人形机器人，“计算机图形学，物理，人工智能的交叉点，在这一刻发生了变化。”黄说。这既是黄的“使命必达”，也是英伟达仍在奔赴的未来。

与人形机器人亮相并谢幕丨英伟达

最后，黄用简单的五句话，总结了今天的开场演讲：一场新的“工业革命”到来；这场革命的“生产力”，Blackwell，英伟达对此全力以赴；新计算机创造了新类型的软件，应该以新的方式分发，既可以部署在云端，也可以成为你随身携带的“智能”；英伟达创造了大量 AI foundation，DGX云，软件工具，AI 技术，让开发者不必从头开始写软件；机器人系统需要数字孪生平台。

“今天的发布，对我来说，就是我心目中GPU的样子。”

作者：阿兰锕镧、沈知涵、翻翻

编辑：沈知涵

本文来自果壳，未经授权不得转载.

如有需要请联系sns@guokr.com

The End

发布于2024-03-19，本文版权属于果壳网（guokr.com），禁止转载。如有需要，请联系果壳。

举报这篇文章

果壳

果壳网官方帐号