黄仁勋:从芯片到AI工厂,NVIDIA的极限协同设计哲学
黄仁勋:从芯片到AI工厂,NVIDIA的极限协同设计哲学
Jensen Huang on the Lex Fridman Podcast
编者按
黄仁勋(Jensen Huang),NVIDIA 创始人兼 CEO。在他的领导下,NVIDIA 从一家显卡公司变成了 AI 革命的引擎,市值一度超过 3 万亿美元。Lex Fridman 的这期播客超过三小时,从极端协同设计(Extreme Co-design)聊到 scaling laws 的四个阶段,从供应链焦虑聊到领导力哲学,从 CUDA 生态聊到 AI 工厂,再到”编程的未来”和”How hard can it be?”的创业心态。
黄仁勋的回答一如既往地清晰、具象、充满工程直觉——他能从数据中心的布线细节跳到万亿美元市场的战略判断,这种从微观到宏观的自如切换,是这期访谈最大的看点。
极端协同设计:问题已经装不进一台电脑了
Lex 开场就问了 NVIDIA 最核心的转变——从芯片设计(chip scale design)到机架设计(rack scale design)。过去 NVIDIA 的胜利是造出最好的 GPU,但现在要极端协同设计 GPU、CPU、内存、网络、存储、供电、散热、软件、机架、Pod,甚至整个数据中心。
黄仁勋解释说,极端协同设计之所以必要,是因为问题已经装不进一台电脑了。
你加了一万台电脑,但你希望速度快一百万倍。这时你得把算法拆开,重构管线,把数据、模型、管线都分片。当你这样分布问题时,所有东西都会成为瓶颈。
这就是阿姆达尔定律(Amdahl’s Law)的问题:如果计算只占问题的 50%,即使你把计算加速到无穷大,整体也只快一倍。所以你必须加速所有东西——内存、网络、存储、散热、软件——而这些东西全部互相耦合。
这就是极端协同设计的本质:不是优化单个组件,而是把整个系统当作一个整体来设计和优化。
四种 Scaling Laws:AI 还远没有到顶
Lex 问黄仁勋是否还相信 scaling laws。他的回答是:我们现在有更多的 scaling laws。
他列出了四种:
1. 预训练(Pre-training)Scaling——模型越大、数据越多,AI 越聪明。这是最早被发现的 scaling law。当 Ilya Sutskever 说”我们没数据了”的时候,很多人以为 scaling 到头了。
2. 后训练(Post-training)Scaling——通过 RLHF、强化学习等方式继续提升模型能力。数据不够?合成数据。预训练到顶?后训练接力。
3. 推理时计算(Test-time Compute)Scaling——模型在回答问题时花更多时间”思考”,效果就更好。这是最新的前沿——让 AI 在推理时也能 scale。
4. 智能体(Agentic)Scaling——多个 AI 协作完成复杂任务,每个环节都可以独立 scale。
黄仁勋的核心观点是:每次一种 scaling 似乎到顶了,就会发现新的 scaling 维度。AI 还远没有触及天花板。
摩尔定律已死,NVIDIA 万岁
黄仁勋给出了一个惊人的数据:
过去十年,摩尔定律让计算进步了大约 100 倍。而我们在同样的十年里,把计算扩展了一百万倍。
他们是怎么做到的?就是极端协同设计——在每一个层面(芯片架构、封装、内存、网络、软件编译器)上同时优化,让每瓦的 token 生成效率每年提升一个数量级。
所以虽然 NVIDIA 的计算机价格在上升,但 token 成本在急剧下降——每年下降一个数量级。这是他反复强调的核心论点:AI 计算的经济性在以远超摩尔定律的速度改善。
AI 工厂:我的心智模型变了
黄仁勋描述了一个心智模型的根本转变。
过去,他在发布新产品时会举起一块芯片——“女士们先生们,今天我们发布 Ampere”——芯片就是他对 NVIDIA 产品的心智模型。
今天,举起芯片仍然挺可爱的。但那不再是我的心智模型了。我的心智模型是一个巨大的、吉瓦级的东西,连接着电网,有冷却系统,有规模惊人的网络。一万人在里面安装设备,数百个网络工程师,数千个工程师在后面试图把它启动。启动一个这样的工厂,不是有人按一下开关说”开了”——需要数千人来完成。
这就是 NVIDIA 从”芯片公司”到”AI 工厂公司”的转变。NVIDIA 的计算单元,从 GPU 变成了一台计算机,变成了一个集群,现在变成了整个 AI 工厂。
供应链:没有公司在这个规模上增长过
Lex 问供应链瓶颈是否让他焦虑——ASML 的 EUV 光刻机、台积电的先进封装、SK 海力士的高带宽内存。
一直在焦虑,一直在想办法。历史上没有任何公司在我们这个规模上增长,而且还在加速增长。这太不可思议了。
他说自己花大量时间和上下游 CEO 交流,告诉他们增长会继续甚至加速的逻辑。他提到 GTC 大会的一个核心功能:
我们其实不造电脑,不造云。我们是一个计算平台公司。所以没有人能直接从我们这里买东西——这很奇怪。我们垂直设计、垂直整合来优化,但然后我们把整个平台在每一层都开放出来,集成到其他公司的产品、服务、云和超级计算机里。所以 GTC 大会的本质是”制造一个未来”——等到我们的产品准备好时,他们会说”你怎么这么慢?“
CUDA 生态:史上最宽的护城河
被问到 NVIDIA 的竞争优势时,黄仁勋提到两点:
第一是极端协同设计的系统能力本身。
第二是生态系统。NVIDIA 的架构已经深入到了几乎所有行业——Google Cloud、AWS、Azure、CoreWeave、Nscale、药厂的超级计算机、车辆、机器人、卫星。
一个架构在所有这些不同的系统里。我们的生态系统覆盖了世界上每一个行业。
这就是 CUDA 生态的力量——不是某一个产品的优势,而是一整个计算平台标准的网络效应。
领导力:“How hard can it be?”
Lex 提到黄仁勋那句著名的话——如果他知道建 NVIDIA 会有多难(比预想的难一百万倍),他不会去做。
黄仁勋的回应非常精彩。他说这句话其实适用于所有值得做的事情:
有一种不可思议的超能力,就是拥有一颗孩子般的心。我经常看着一件事情——没人做过,看起来巨大,要花几千亿美元——然后跟自己说:“能有多难?“(How hard can it be?)
他的哲学是:不要过度模拟所有的挫折、困难和羞辱。你应该带着”这会很完美、很有趣”的心态进入新体验。然后当挫折真正来临时——那些挫折会让你意外——你需要的是另一种能力:忘掉它,继续前进。
你不想提前知道会有多惨。你想带着”How hard can it be?”的心态冲进去。然后在里面靠韧性(grit)和耐力(endurance)扛过去。
Elon 与黄仁勋的工程哲学
话题转向 Elon Musk,黄仁勋对 Musk 的工程方法论表达了深深的敬佩。他描述了自己亲眼见过 Musk 如何工作:
他在审查数据中心里每一根线缆怎么插进机架的过程。他跟地面上实际执行任务的工程师一起,试图理解每个步骤是什么样的、怎样减少出错。从每一个微观任务中建立直觉——不管是细节层面还是宏观系统层面——他立刻就能发现哪里有低效。
他说 Musk 的一个核心方法是:永远有一把大锤——“让我们用完全不同的方式做,把所有障碍都移除。”
黄仁勋用自己的一个类似概念来回应——“光速”(speed of light)。这不只是关于速度,而是关于理论上限。他在 30 年前就开始用这个方法:对于任何问题,先计算理论上的最优解是什么,然后看现实离理论极限有多远,差距就是优化空间。
编程的未来:规约即代码
谈到 AI 对编程的影响,黄仁勋的观点出人意料地细致。他不是简单地说”AI 会取代程序员”,而是描述了一个光谱:
写规约(specification)就是编程。你可能选择非常精确地描述你想要的东西,因为你有一个非常具体的结果。你也可能选择更开放地探索,用不那么精确的描述和 AI 来回碰撞,推动你自己创造力的边界。在这个光谱上你选择在哪里——这就是编程的未来。
然后话题转向 AI 对白领工作的冲击。Lex 表达了他的忧虑:每当变革性技术到来,总会有很多痛苦。
黄仁勋的回应温和但坦诚:
我们需要对那些失去工作的人和家庭的实际痛苦有同理心。有变革性技术的时候,会有很多痛苦,我不知道怎么解决那些痛苦。希望它能为那些人创造更多机会。
他补充说他自己最近编程比以往任何时候都有趣——AI 自动化了无聊的部分,让创造性的部分变得更有乐趣。
未来:理解生物机器和物理学
访谈的最后,话题回到了更宏大的问题。
黄仁勋说,理解生物机器(人体)“不是十年后,大概五年”。他对用 AI 理解人脑、攻克理论物理、甚至解释意识,都充满兴奋。
这一切都在我们触手可及的范围内。
Lex 引用了 Alan Kay 的名言作为结尾:
“预测未来的最好方式就是发明它。“
核心观点速览
- 极端协同设计:问题已经装不进一台电脑了。必须把 GPU、CPU、内存、网络、软件、机架、数据中心当作一个整体来设计。
- 四种 Scaling Laws:预训练、后训练、推理时计算、智能体——每种到顶都会有新的维度出现。AI 远没有到极限。
- 超越摩尔定律:十年 100 倍 vs 十年 100 万倍。Token 成本每年下降一个数量级。
- AI 工厂:NVIDIA 的心智模型从芯片变成了吉瓦级的工厂。启动一个 AI 工厂需要数千人。
- CUDA 生态:一个架构覆盖所有行业,从云到车到卫星。这是网络效应最强的护城河。
- “How hard can it be?”:不要过度模拟困难。带着孩子般的心态冲进去,然后靠韧性扛过去。
- 光速方法:对任何问题先算理论上限,现实和上限的差距就是优化空间。
- 编程的未来:写规约就是编程。在精确控制和开放探索之间选择你的位置。
快问快答
Q:NVIDIA 最重要的竞争优势是什么? A:极端协同设计的系统能力,加上 CUDA 生态系统覆盖每一个行业。
Q:Scaling laws 到顶了吗? A:没有。我们现在有四种 scaling laws。每次一种看起来到顶,就会发现新的维度。
Q:如果知道会有多难,还会创建 NVIDIA 吗? A:不会——但这就是”How hard can it be?”心态的超能力。你不想提前知道会有多惨。
Q:AI 会取代程序员吗? A:写规约就是编程。编程不会消失,但它会变成一个光谱——从精确控制到开放探索。
Q:什么让你最兴奋? A:理解生物机器——大概五年内。还有解释意识。这一切都在触手可及的范围内。
📖 本文由 AI 基于播客逐字稿深度改写,仅供学习参考
来源:Lex Fridman Podcast · 原始视频