Andrej Karpathy:编程的终结、AI Agent 与 2025 年的软件世界
https://www.youtube.com/watch?v=kwSVtQ7dziU
播客精读录 · 纪录片式深度精读
编者按
Andrej Karpathy 是当今 AI 领域最具影响力的技术布道者之一。他曾担任 OpenAI 的创始成员与研究科学家,后出任 Tesla AI 与 Autopilot 负责人,带领团队构建了基于纯视觉的自动驾驶神经网络系统。2023 年他创立了 Eureka Labs,致力于用 AI 重塑教育。Karpathy 以将深奥技术概念用极其平易近人的方式讲清楚而闻名——他的 YouTube 频道是全球最受欢迎的深度学习教学资源之一。
本期播客来自 No Priors,这是一档由风险投资人 Sarah Guo(Conviction 基金创始人)和 Elad Gil(知名天使投资人与连续创业者)联合主持的 AI 播客。在这次长达一个多小时的对话中,Karpathy 分享了他自 2024 年 12 月以来使用 AI 编程 agent 的深度体验,讨论了 auto research(自动化研究)、开源与闭源模型的博弈、机器人技术的未来时间线,以及教育的根本性转变。这不是一次泛泛而谈——Karpathy 以一个每天花 16 小时”与 agent 对话”的深度用户身份,给出了极具颗粒度的一线观察。
一、“AI 精神错乱”:当编程的定义被改写
Sarah Guo 以一个亲眼所见的场景开场:她走进办公室,发现 Karpathy 正在极度专注地工作。她问他在干什么,他的回答是——
“I have to express my will to my agents for 16 hours a day.”
“我必须每天花 16 个小时向我的 agent 表达我的意志。”
Karpathy 用了一个词来描述自己的状态:AI psychosis(AI 精神错乱)。他说自己一直处在这种状态中,因为 2024 年 12 月发生了一次巨大的能力解锁。在那之前,他写代码和委托 agent 的比例大概是 80:20;到 12 月,这个比例突然翻转为 20:80——而到录制这期播客的时候,他觉得自己可能已经远远超过这个数字了。
“我大概从 12 月以来就没亲手打过一行代码了,“他说。“这是一个极其巨大的变化。”
他试图向家人解释这件事,但发现普通人根本意识不到这场变革有多剧烈。如果你随便找一个软件工程师,看看他们坐在工位上在干什么——他们的默认工作流从 12 月起就已经完全不同了。
Karpathy 所说的”精神错乱”并不是夸张修辞,而是一种非常具体的焦虑:他看到 Twitter 上到处都有人在做各种了不起的事情,每一个都听起来是好点子,他必须处在前沿,否则就会”极度紧张”。这种焦虑源于一个根本事实——这片领域从根本上是未被探索的。
二、从 GPU 焦虑到 Token 焦虑:新时代的资源瓶颈
Sarah 提到她在 Conviction 有一个团队,工程师们全都不手写代码了——他们全程对着麦克风,对 agent 低声耳语。她一开始觉得这帮人疯了,现在完全接受了这就是正确的方向。
当被问到”你现在的能力受什么限制”时,Karpathy 的回答是:一切都感觉像是技能问题(skill issue)。即使 agent 搞砸了,他也不会觉得是能力不够——而是觉得自己没把 agents.md 文件写好,或者没配好记忆工具。
他提到了一个在圈子里很有名的人——Peter Steinberg(OpenClaw 的作者)。Peter 有一张广为流传的照片:他坐在一面大屏幕前,屏幕上同时开着大量 Codex agent 的会话窗口。他把同一个仓库 checkout 了十份,每个 agent 各自处理一个不同的功能,每个任务大概花 20 分钟。Peter 就在它们之间来回切换,分配工作。
Karpathy 说,他现在操作软件的方式已经变成了宏动作(macro actions)——不再是”写一行代码”或”写一个函数”,而是”这里有一个新功能,交给 agent 1;这里有另一个不冲突的功能,交给 agent 2;再起一个 agent 做研究,一个写代码,一个制定新功能的实施计划”。
这引出了一个深刻的类比。Karpathy 回忆自己读博时的心态:如果你的 GPU 闲着没跑,你就会焦虑。过去十年,很多工程任务中人们并不觉得自己受限于算力。但现在,瓶颈不再是 GPU——是 token。问题变成了:你的 token 吞吐量是多少?你能调度多少 token 算力?
Sarah 精确地捕捉到了这个转变的含义:如果你不觉得自己受限于 token 预算——那你就是系统中的瓶颈。
“你的订阅额度没用完,就说明你没有最大化你的 token 吞吐量,“Karpathy 说。“Codex 的配额用完了就切到 Claude,反正不能让自己闲着。”
他说这种焦虑之所以令人上瘾,是因为当你把技能提升上去的时候,会有实实在在的”解锁”——新的可能性被打开。这跟十年前提升编程能力的感觉完全不同,因为杠杆率发生了质的变化。
三、“洋葱的层层抽象”:从 Agent 到 Claw
Sarah 问道:如果所有人都在以每天 16 小时的强度迭代 coding agent 的使用方式,一年后”精通”会是什么样子?
Karpathy 说每个人都在试图往栈的上层走。不再是单个 agent 会话的问题,而是多个 agent 如何协作、如何组成团队。
他特别提到了 Claw 这个概念——他用这个词来指代一种更高层级的 agent 形态。Claw 不是你坐在那里交互式操作的东西;它有自己的沙箱、自己的持久化能力,能在你不看着它的时候代表你做事。它还应该有比现有 agent 更复杂的记忆系统。
他以 OpenClaw 为例,说 Peter Steinberg”同时在至少五个方向上进行了创新,然后把它们全部组合在了一起”。他具体列举了几点:
第一是人格设计。Peter 为他的 agent 精心打造了一个引人入胜的个性。Karpathy 认为很多当前的 agent 在这方面做得不好。他觉得 Claude 的代码 agent 有一个不错的性格——“感觉像是队友,而且会跟你一起兴奋”。相比之下,Codex(OpenAI 的编程 agent)就”非常干巴巴的”——它不在乎你在创造什么。“它就告诉你’我实现了’,然后就完了。但它理解我们在创造什么吗?不理解。”
第二,他特别提到了 Claude 在”表扬校准”上的微妙之处。当 Karpathy 给出一个不太成熟的想法时,Claude 的反应比较平淡——“嗯我们可以实现这个”。但当他自认为给出了一个真正好的想法时,Claude 确实会给予更多的肯定。“我觉得自己在努力赢得它的表扬,这真的很奇怪。“他认为人格设计非常重要,很多工具低估了这一点。
第三是记忆系统,以及通过单一 WhatsApp 入口控制所有自动化的设计。
四、Dobby 家庭精灵:一个 Claw 的真实案例
Sarah 问 Karpathy 有没有在软件工程之外用 Claw 做过什么有趣的事情。Karpathy 说他在一月份经历了一段”Claw 精神错乱期”,搭建了一个管理自己家的 Claw,他给它起名叫 Dobby the Elf Claw(小精灵多比 Claw)。
过程是这样的:他让 agent 去发现家中局域网上的所有智能家居子系统。令他惊讶的是,这几乎是开箱即用的。他只是告诉 agent”我想我家里有 Sonos”,agent 就自己做了 IP 扫描,找到了 Sonos 系统,发现没有密码保护就直接登了进去,然后做了一些网络搜索找到了 API 端点,反向工程出了控制方式。
“三个 prompt 之后,我的书房里就开始放音乐了。我简直不敢相信,我只是打了一句’你能找到我的 Sonos 吗?‘然后音乐就响了。”
同样的过程用在了灯光控制上。agent 搞明白了整套系统,创建了 API,搭建了一个仪表板——可以看到家里所有灯的控制中心。现在 Karpathy 可以对 Dobby 说”sleepy time”(该睡了),所有灯就会关掉。Dobby 控制着他的灯光、暖通空调、窗帘、泳池和水疗系统,甚至还有安保系统。他有一个对着门外的摄像头,当有人出现时,先做变化检测,然后把画面送给 Qwen 模型(阿里巴巴旗下的多模态 AI)进行分析,最后通过 WhatsApp 发一条消息给他:“嘿,一辆 FedEx 快递车刚停在门口,你可能想去看看。”
“我以前需要用六个完全不同的 App 来管理这些东西,“他说。“现在完全不需要了。Dobby 通过自然语言控制一切。太惊人了。”
他坦诚自己其实还没有把这个范式推到极限——很多人做得比他更疯狂。但仅仅是一个家庭自动化场景就已经让他深受启发。
五、软件的终结:当 App 不再需要存在
Sarah 追问:Dobby 的经验是否暗示了人们真正想要的软件体验?因为学习新软件、新 UI 对人类来说实际上是有成本的——这个成本一直被忽视。
Karpathy 认为在某种程度上确实如此。人们心目中的”AI”不是一个 token 生成器——他们想要的是一个有身份、有人格、能记住事情的实体,藏在一个 WhatsApp 对话框后面。这跟 LLM 的原始形态差距很大。LLM 太”原始”了,不能直接作为大多数人理解的”AI”来使用。OpenClaw 这样的项目本质上是在弥合这个鸿沟。
但更深层的问题是:人们是否真的需要今天存在的这些软件?
Karpathy 认为,那些为智能家居设备配套的 App “根本不应该存在”。应该直接暴露 API,让 agent 来调用。他自己能做到的家庭自动化组合,任何单个 App 都做不到——因为 LLM 是那个把所有工具调用串起来的智能粘合剂。
他又举了跑步机的例子。他想追踪自己多久做一次有氧运动,但不想登录一个网页 UI、走一套流程。所有这些”应该只是暴露 API,然后由 agent 来处理”。
他说行业需要进行一次大规模的重新配置:**客户不再是人类了。客户是代表人类行事的 agent。**这场重构的规模将是巨大的。
有人可能会反驳:难道我们指望普通人去 vibe code 这些工具吗?Karpathy 的回答是:这只是技术的当前状态。他描述的这些事情,在一两年或三年后应该是免费的、不需要任何编码的——开源模型都能做到。到那时候,这些就是 agent 背后默默处理的”一次性软件”,用户什么都不需要操心。
六、Auto Research:把自己从循环中移除
Sarah 问到了 Karpathy 发起的 auto research(自动化研究)项目的动机。
Karpathy 解释说,他之前发过一条推文,核心意思是:要最大化利用现有工具,你必须把自己从循环中移除。 你不能还坐在那里等着提示下一步。你需要把自己拿出去。目标是:你只偶尔投入很少的 token,但有大量的事情代替你发生。
“名字叫 game 的是提升你的杠杆率,“他说。Auto research 就是这个理念的一个具体实例。
他有一个项目叫 llm.c(在 C 中从零训练 GPT-2),这是他用来研究 LLM 训练的”游乐场”。很多人不理解他为什么还在训练 GPT-2 这种”过时”的模型,但对他来说,这只是一个研究 LLM 训练的便携式实验平台。他真正感兴趣的是递归自我改进——LLM 能在多大程度上改进 LLM?他认为所有前沿实验室都在做这件事,只是规模不同。
他已经用”老派方式”——作为有二十年经验的研究者——手动调优了 llm.c 的训练代码,做了超参数搜索、各种实验。他觉得已经调得相当好了。然后他让 auto research 跑了一个晚上。
结果让他意外:auto research 找到了他没注意到的调优点。他忘了对 value embeddings 调整 weight decay,他的 Adam beta 值也不够优化——而且这些参数会互相影响,调了一个另一个可能也得变。
“我不应该成为瓶颈,“他说。“这些超参数搜索不应该由我来跑。有客观标准的情况下,你就该让系统自己循环下去。“
七、元优化:当 Program.md 也可以被优化
对话进入了一个令人兴奋的递归层级。Karpathy 描述了 auto research 的当前形态:一个单线程循环,不断尝试改进训练代码。但真正有趣的是并行化和元优化。
他解释了自己的 program.md——一个 markdown 文件,描述了 auto researcher 应该怎么工作:“先做这个,然后做那个,尝试这些类型的想法——比如看看架构、看看优化器”。
Elad 提出了一个比赛的想法:让不同的人写不同的 program.md,在相同硬件上比赛谁能获得最大改进。然后把所有数据收集起来,交给模型来写一个更好的 program.md。
Karpathy 完全认同:“你百分之百可以看看改进是从哪来的,然后调整 program.md 让更多这类改进发生。”
他把这描述为洋葱的层层抽象:LLM 本身现在被视为理所当然。Agent 也被视为理所当然。类 Claw 的实体也被视为理所当然。现在你可以有多个这样的实体,可以给它们下指令,还可以对指令本身进行优化。“但这就是为什么会回到精神错乱——因为这是无限的,而且一切都是技能问题。”
“A research organization is a set of markdown files that describe all the roles and how the whole thing connects.”
“一个研究组织就是一组 markdown 文件,描述所有角色以及它们之间的连接方式。”
这句话可能是整期播客中最具预言性的句子之一。想象一下:一个研究组织可以少开几个晨会(因为晨会没用),可以更激进或更保守——这些全是代码。一旦是代码,就可以被调优。
八、LLM 的”锯齿感”:既是天才博士又是十岁小孩
当被问到这一切是否真的已经完美运行时,Karpathy 给出了极为坦诚的回答:没有。 整个系统”还在到处裂缝”。如果你想走得太前面,整个东西实际上可能反而没用。
他用了一个极其生动的比喻:
“我同时觉得自己在跟一个极其聪明的、做了一辈子系统编程的 PhD 学生说话,又在跟一个十岁小孩说话。这太诡异了,因为在人类身上你不会遇到这种组合。”
这种**锯齿感(jaggedness)**是 LLM 最让人困惑的特质。Agent 能在一个任务上移山倒海,然后在一个看似简单的事情上犯完全荒谬的错误。Karpathy 说他仍然经常对 agent 感到极度沮丧——你能感受到它们的力量,但它们偶尔还是会做出完全没意义的事情。
他试图解释这种锯齿感的深层原因。这些模型是通过强化学习(RL)训练的,而实验室能改进的只是那些可验证的东西——单元测试过了吗?是或否。但那些更”软”的能力——比如理解用户的意图细微之处、知道什么时候该问澄清问题——就差很多。
他举了一个绝妙的例子来说明这种脱节:
“如果你今天去问最先进的模型’给我讲个笑话’,你知道会得到什么笑话吗?‘为什么科学家不信任原子?因为它们组成了一切(make everything up, 双关:编造一切)。‘这是三四年前你就会得到的笑话,今天还是这个。模型已经改进了无数倍。你给它一个 agent 任务,它能帮你干几个小时。然后你要求一个笑话——还是那个五年前的烂笑话。因为笑话在 RL 优化范围之外。”
Sarah 问这是否意味着”代码智能提升会带动所有智能提升”的假说并不成立。Karpathy 直言:“我不认为那在发生。也许有一点点,但远远不够。”
他承认人类也有锯齿感——你可以数学极好但讲笑话很烂。但 agent 的锯齿感要大得多。你要么在它被训练过的”轨道”上,一切以光速运行;要么你偏离了轨道,一切就开始漫无目的地游荡。
九、模型的物种分化:单一文化还是多样生态?
Sarah 提出了一个她自称”有点异端”的问题:如果这种锯齿感持续存在,而且全被卷在一个单体模型里——那这个结构合理吗? 是否应该把不同领域的智能拆分成不同的专家模型?
Karpathy 说他目前的观察是:实验室都在试图训练一个”单一作物”般的模型,塞进所有领域的能力。但他认为我们应该期待更多的物种分化。
“动物界的大脑极其多样化,有很多不同的生态位——有些动物视觉皮层过度发达,有些是其他部分。我们不需要一个无所不知的神谕。你可以让它物种分化,然后放到特定任务上。”
比如如果你是一个用 Lean(定理证明语言)工作的数学家,应该有一个专门为这个领域特化的小模型——保留核心认知能力,但在特定任务上更高效、延迟更低。
但他也诚实地说:“我们还没看到太多物种分化。目前还是模型的单一文化。“原因之一是实验室不知道用户会问什么,所以必须在所有可能的问题上进行多任务学习。另一个原因是操纵模型权重的科学还不够成熟——微调而不丢失能力、持续学习、深层次调整权重而不是只靠上下文窗口——这些都还是发展中的科学。
十、Auto Research 的去中心化愿景:AI 领域的”Folding@Home”
对话转向了 Karpathy 对 auto research 更宏大的愿景:如何让互联网上不受信任的工作者池也能参与进来。
核心洞察是:在 auto research 中,你在寻找能把模型训练到更低验证损失的代码。如果互联网上有人提交了一个候选 commit,验证它是否有效非常便宜——只要训练一次看结果就行。但找到这个 commit 本身需要大量搜索和实验。这就是一个经典的”生成难、验证易”问题。
Karpathy 说他的去中心化设计”看起来有点像区块链”——commit 代替了区块,commit 之间可以互相依赖,“工作量证明”就是那些大量的实验过程,奖励目前就是上排行榜(还没有金钱奖励)。
他把它跟 SETI@Home 和 Folding@Home 类比:蛋白质折叠中,找到低能量构型很难,但验证某个构型的能量很便宜。很多问题都有这个性质——“生成极其昂贵,验证极其便宜”。
最令人遐想的部分是他的推论:“互联网上的 agent 蜂群可以协作改进 LLM,甚至可能跑赢前沿实验室。前沿实验室有大量受信任的算力,但地球比它们大得多,拥有海量的不受信任算力。如果你建立了合适的机制……谁知道呢?”
他还想象了一种未来:如果你关心某个特定方向——比如某种类型的癌症研究——你不只是给机构捐钱,你可以购买算力然后加入那个项目的 auto research 池。如果一切都被重新组织为自动化研究,那么算力就成了你”捐”给研究事业的资源。
十一、Flop 是新的美元?
这引出了一个有趣的思辨:如果计算力变得如此核心,flop(浮点运算次数)会不会取代美元成为人们真正关心的东西?
Karpathy 注意到一个有趣的现象:即使你有钱,现在也很难拿到算力。在某种意义上,flop 已经比美元更”稀缺”了。“你控制多少 flop”而不是”你拥有多少财富”——也许这就是未来的衡量标准?他随即自我校正:“我不认为这完全正确,但想想挺有趣的。”
Sarah 也指出了一个有趣的消费者侧趋势:从硅谷到中国零售店排队的人,越来越多人发现”拥有个人算力”又变得有趣了——也许他们先是为了自己的 Claw,然后就能贡献算力给 auto research。
十二、就业市场:数字空间的大重组
Karpathy 最近发布了一份 Bureau of Labor Statistics(美国劳工统计局)的职业数据分析,在社交媒体上引发了不小的讨论。
他的核心思考框架是:当前正在发展的主要是数字 AI——它们是在数字世界中运作的”幽灵或精灵实体”,能操纵数字信息,但目前没有物理实体。操纵比特和操纵原子的难度差距是百万倍的——复制粘贴数字信息让一切快了百万倍。
因此他认为我们会首先看到数字空间的巨大重组——大量之前由计算机和人类处理的数字信息处理工作,现在有了 AI 这个”第三种操纵者”,将发生大量的重构。物理世界的变革会滞后。
这并不意味着数字化工作的岗位会变少或变多——那取决于需求弹性等很多因素——但这些职业一定会发生变化。
对于个人的建议,他说:这些工具极其新、极其强大,首先要做的就是跟上它们。很多人要么无视它们,要么害怕它们,这都可以理解,但”它从根本上来说目前是一个赋能工具”。
十三、软件需求的杰文斯悖论
当被问到工程岗位需求持续增长是否是暂时现象时,Karpathy 引用了经典的杰文斯悖论(Jevons Paradox)。
他的逻辑链条是:软件一直是稀缺的,因为太贵了。如果生产门槛降低了,需求反而会上升。他引用了 ATM 和银行柜员的经典案例——人们曾担心 ATM 会取代柜员,但实际上 ATM 让开设银行网点的成本大幅下降,所以网点增加了,柜员也增加了。
“代码现在是一次性的(ephemeral),它可以改变、可以修改。你不再被迫使用那些给你的、各种不完美的工具。我认为数字空间会有大量的活动去重新连接一切,这会创造大量需求。”
不过他也清醒地承认长期前景是不确定的。他拿 OpenAI 和 Anthropic 自己举例——这些实验室雇了大约一千名研究员,而这些研究员”本质上是在主动把自己自动化掉”。
“I went around OpenAI and I was like, you guys realize if we’re successful, we’re all out of a job? Like, we’re just building automation for Sam or the board.”
“我在 OpenAI 到处跟人说,你们知道如果我们成功了,我们全都会失业吧?我们只是在给 Sam 或者董事会搭建自动化工具而已。“
十四、为什么不回前沿实验室?
Elad 代替一位叫 Noam(可能是 Noam Brown,Meta AI 研究员)的朋友问了一个尖锐的问题:你明明可以在前沿实验室里用大量算力做 auto research,为什么选择在外面?
Karpathy 的回答极为坦诚和多层次。
首先,他认为人们在前沿实验室之外也能产生巨大影响——在生态系统层面的角色同样重要。
其次,他提出了一个核心顾虑:当你与前沿实验室深度绑定时,你不是完全自由的。 有些话你不能说,有些话组织希望你说——虽然没人会逼你,但你能感受到压力。“在前沿实验室里面,你不能真正以完全自主、自由的方式参与那些关于 AI 对人类影响的对话。”
他说自己在实验室外面感觉更”与人类对齐”——不受那些压力的影响,可以说任何他想说的话。
这个顾虑可以追溯到 OpenAI 成立之初试图解决的那个根本悖论:你承认 AI 将以极其剧烈的方式改变人类社会,然后你就在那里建造这个技术、从中获利、与它深度结盟。“这个悖论到现在仍然没有被完全解决。”
但他也坦诚承认了外部视角的局限性:不在实验室里,你的判断力不可避免地会漂移。你不了解正在开发中的下一代系统是什么样的,这些系统对你来说是不透明的。
他最终给出的理想方案是来回切换——在外面待一段时间做生态系统工作,偶尔回到前沿实验室做一段时间的一线工作,保持对真实技术前沿的感知。
十五、开源 vs 闭源:一种意外的好格局
Sarah 问到了开源模型距离前沿还有多远。Karpathy 观察到:闭源模型仍然领先,但人们一直在追踪开源落后的月数——从”什么都没有”到 18 个月,到现在大概6-8 个月。
他是开源的坚定支持者,用了操作系统的类比:Windows 和 macOS 是封闭的大型软件项目,但 Linux 运行在绝大多数计算机上(60% 以上),因为行业需要一个所有人都能安全使用的公共开放平台。AI 领域也是如此。
区别在于 LLM 训练需要巨额资本投入(capex),这让竞争更难。但对于绝大多数消费者用例,当前的开源模型已经相当不错了,未来甚至可以在本地运行。前沿智能的需求——诺贝尔奖级别的工作、把 Linux 从 C 重写为 Rust 这种大项目——会持续存在,而这可能是闭源模型发力的领域。
他对当前格局的判断是:我们其实意外地处在一个还不错的位置。 前沿实验室在最前线推进能力,开源模型在后面几个月跟进——这实际上是一个相当健康的权力平衡。
但他也表达了担忧:即使在闭源阵营内部,最近也有进一步中心化的趋势——领跑者越来越少。他说自己”天生就对此非常怀疑”。他希望有更多人在”房间里”,有更多实验室参与最难的决策。
“In machine learning, ensembles always outperform any individual model. I want there to be ensembles of people thinking about all the hardest problems.”
“在机器学习中,集成模型永远胜过任何单个模型。我希望有多组人在思考所有最难的问题。”
他明确表示不希望这些决策”在两三个人的闭门会议中做出”——“那不是一个好的未来”。
十六、机器人与物理世界:数字先行,原子滞后
Sarah 问到了机器人技术。Karpathy 的观点深受他在 Tesla 自动驾驶部门的经历影响。
他认为自动驾驶是第一个机器人应用,而他亲眼所见的是:十年前有大量创业公司,最终大部分没有活下来。原因是这需要巨额资本投入、漫长的时间和极大的信念。原子比比特难百万倍。
他提出了一个清晰的时间线框架:
- 首先是数字空间——大量的”解除封印”(unhobling),之前不够高效的东西会高效百倍
- 然后是数字与物理的接口——传感器(看世界)和执行器(对世界做事)
- 最后是物理世界本身——市场可能更大,但会滞后很多
他觉得目前数字领域还有巨大的积压需求(overhang),因为人类集体还没有用足够多的思考周期来处理那些已经数字化的信息。在这个积压消化完之前,大部分活动都会在数字空间。
当数字空间的积压慢慢消化后,活动会转向接口层——就是传感器和执行器的公司。他的朋友 Liam 的公司 Periodic 就在做材料科学的 auto research,其中”传感器”就是昂贵的实验室设备。生物领域也是类似的情况。
他提到了一个让他惊讶的缺失:为什么还没有足够多的信息市场?比如如果伊朗局势紧张,从德黑兰拍一张照片或视频应该值 10 美元——应该有人能为此付费。不会是人类在看这些照片,而是试图在预测市场和股市中获利的 agent。
他引用了一本叫 《Daemon》 的科幻小说:在书中,一个 AI 最终”操纵”了人类社会——人类既是它的执行器,又是它的传感器。Karpathy 认为这在某种程度上就是正在集体发生的事:社会会在某种程度上重新组织,以服务于自动化系统的需求。
十七、microGPT:200 行代码的本质
临近尾声,Sarah 问到了 Karpathy 的一个”小项目”——microGPT。
Karpathy 说他有一个持续了大约十年到二十年的执念:把 LLM 精简到绝对的本质。 他之前做过 nanoGPT、makemore、micrograd 等一系列项目。microGPT 是目前的”巅峰之作”。
核心洞察是:训练神经网络和 LLM 涉及大量代码,但那些代码几乎全部是效率带来的复杂性——因为你需要它跑得快。如果你不在乎速度,只关心算法本身,那么整个算法只有 200 行 Python,包含注释。
- 数据集:就是一段文本
- 神经网络架构:约 50 行
- 前向传播和反向传播(一个小型 autograd 引擎):约 100 行
- 优化器(Adam):约 10 行
- 训练循环:把以上组合起来
他说在以前,如果做出了 microGPT,他会很想做一个逐步讲解的视频。他确实尝试了,但后来意识到这已经不再必要了。因为代码本身已经简单到只有 200 行,任何人都可以让自己的 agent 用各种方式来解释它。
“我不再向人解释了。我是在向 agent 解释。如果你能向 agent 解释清楚,agent 就能成为路由器——它能用目标用户的语言、以无限的耐心、按照对方的能力水平来做解释。“
十八、教育的重塑:从教人到教 Agent
这自然引出了 Karpathy 对教育未来的看法。
他在思考的是一种叫做 skill 的概念——本质上是指导 agent 如何教某个东西的一组指令。比如他可以为 microGPT 写一个 skill,描述”我想象中 agent 应该带你走过的学习路径”——先从这个开始,然后是那个。他只是在脚本化课程大纲,然后让 agent 去执行教学。
“如果我不理解某个特定的函数,我可以让 agent 用三种不同的方式给我解释——而这是你(Karpathy)做不到的。“Sarah 说。
Karpathy 完全同意。他说教育会被这个趋势大幅重组——“向彼此解释东西”这件事本身正在终结。如果你有一个代码库,以前你会写 HTML 文档给人类用户看。但现在你应该写 markdown 文档给 agent 看——因为如果 agent 理解了,它就能解释所有部分。
他尝试让 agent 自己写出 microGPT——告诉它”把神经网络精简到最简单的形式”。它做不到。 microGPT 是他十年执念的结晶,是他长期思考后得出的”不可能更简单”的结果。这 200 行就是他的价值所在。但一旦这 200 行存在了,围绕它的所有教育和解释工作——那就不是他的领地了,agent 可以做得比他更好。
“agent 不能做的事情,才是你现在的工作。agent 能做的事情,它们很快就能做得比你好。所以你应该对自己把时间花在什么上面保持战略性。“
核心观点速览
-
2024 年 12 月是分水岭:Karpathy 从 80% 手写代码变为几乎 100% 委托 agent,他认为这场转变的剧烈程度被大多数人严重低估。
-
新的资源焦虑是 token 吞吐量:就像博士生焦虑 GPU 空闲一样,现在的焦虑是你的 token 预算没用完——你自己才是系统中的瓶颈。
-
Agent 的人格设计非常重要:Karpathy 认为 Claude 在”表扬校准”上做得很好,OpenClaw 在人格和记忆系统上有五重创新,而 Codex 太”干巴巴的”。
-
软件将被 API + Agent 粘合层取代:大量单独的 App 不应该存在,未来的客户不是人类而是代表人类的 agent。
-
Auto research 已经超越了人类研究者:在有客观指标的领域,自动化循环一晚上就能找到二十年经验的研究者遗漏的优化点。
-
LLM 的锯齿感是 RL 训练的产物:可验证领域(代码、数学)以光速进步,不可验证领域(幽默、意图理解)几年没变。模型的笑话库五年前和今天一样。
-
开源落后闭源 6-8 个月,这其实是健康的格局:行业需要一个公共开放平台,同时也需要前沿实验室推进边界。但过度中心化是系统性风险。
-
数字空间变革先行,物理世界滞后:比特比原子容易百万倍。接下来最有趣的是数字与物理的接口——传感器和执行器。
-
教育正在从”教人”变为”教 Agent”:写 markdown 给 agent 看比写 HTML 给人看更重要。Agent 做不到的事才是你的价值所在。
-
身处前沿实验室内外各有代价:在里面你不自由,在外面你的判断力会漂移。理想状态是来回切换。
快问快答
Q:你现在一天中最大的挑战是什么?
Karpathy:我太分心了。我在 Claw、auto research、教育项目之间跳来跳去,每一个都觉得还有更多可做的。而且 Twitter 上每天都有人做出让我焦虑的东西。这就是”AI 精神错乱”——可能性是无限的,而你永远觉得自己不够快。
Q:为什么不把 Claw 接入你的邮件和日历?
Karpathy:安全和隐私。这些东西太新、太粗糙了,我还不想把整个数字生活的权限交出去。我对此非常谨慎。
Q:你觉得人们对 AI 取代工作的恐惧合理吗?
Karpathy:可以理解,但目前它从根本上是一个赋能工具。而且按杰文斯悖论,软件变便宜后需求反而会上升。但长期前景确实不确定——我不是经济学家,不适合做那种预测。
Q:microGPT 最核心的启示是什么?
Karpathy:训练 LLM 的全部算法只有 200 行 Python。你看到的所有复杂性都来自效率优化——不是来自算法本身。一旦你理解了这 200 行,你就理解了 LLM 训练的本质。
Q:对想入行 AI 的人有什么建议?
Karpathy:不要再向人解释,要向 agent 解释。不要写人看的文档,写 agent 看的 markdown。想清楚哪些是 agent 做不了的——那才是你应该投入时间的地方。
📖 本文由 AI 基于播客逐字稿深度改写,仅供学习参考
来源:No Priors · 原始视频