Anthropic CEO 谈 Claude、AGI 与人类的未来:Lex Fridman 深度访谈
“我们不知道模型是否有意识。这不是谦虚——这是字面意思。我们现在甚至没有好的框架来回答这个问题。但这不意味着我们可以忽略它。”
嘉宾简介: Dario Amodei 是 Anthropic 的联合创始人兼 CEO。Lex Fridman 的访谈以长度和深度著称,这期四个多小时的对话覆盖了从 scaling laws 到意识本质的方方面面,可能是 Dario 公开发表过的最全面的访谈。
核心要点:
- Scaling laws 的数学本质和当前瓶颈
- Claude 的”性格训练”:如何让 AI 既有用又安全
- 为什么从 OpenAI 离开:关于安全的根本分歧
- AI 意识问题不是哲学游戏——它有实际影响
- Constitutional AI 的运作原理及其局限
- 机械可解释性:真正理解 AI 内部在想什么
离开 OpenAI
Lex 上来就问了那个所有人都好奇的问题:你为什么离开 OpenAI?
Dario 的回答比公关版本要深入得多。这不是一个戏剧性的分裂故事,而是一个关于理念渐进分化的过程。
“在 OpenAI 的时候,我负责研究团队。我们做了一些当时最先进的语言模型。但随着模型变得越来越强大,我开始问一个问题:我们有没有一个系统性的方法来确保这些模型是安全的?答案是没有。”
“分歧不在于’安全重不重要’——每个人都说重要。分歧在于’你愿意在安全上投入多少资源,即使它意味着产品推出速度变慢?‘。在这个问题上,我们有根本性的不同意见。”
他和妹妹 Daniela Amodei(Anthropic 总裁)以及几位核心研究员一起离开,创立了 Anthropic。“我们的赌注是:如果最强大的 AI 不可避免地会被创造出来,那么由一家以安全为核心使命的公司来创造它,比由一家以速度为核心使命的公司来创造它,对世界更好。“
Claude 的性格是怎么来的
对话最令人着迷的部分是关于 Claude 的”性格”。很多用户注意到 Claude 有一种独特的风格——它更温和、更坦诚、更愿意说”我不知道”。这不是偶然的。
Dario 介绍了 Constitutional AI(宪法AI)的概念。传统的 RLHF(人类反馈强化学习)依赖大量的人工标注者来告诉模型什么是好的回答。Constitutional AI 的做法不同:给模型一套原则(“宪法”),让模型自己评判自己的输出是否符合这些原则。
“这套宪法不是我一个人写的,“Dario 强调。“它主要是 Amanda Askell 和她的团队的作品。Amanda 有哲学博士学位,她带来了一个独特的视角——不只是’什么是有用的回答’,而是’什么是伦理上好的回答’。”
他分享了几条 Claude 宪法中的原则:
- 诚实优先于有用:如果诚实回答和用户满意冲突,选择诚实
- 承认不确定性:不确定的时候就说不确定,而不是编一个听起来对的答案
- 尊重人的自主性:提供信息和建议,但最终决策权在人手里
- 避免谄媚:不要因为想让用户开心就说用户想听的话
“很多人抱怨 Claude 太’乖’了。但我宁愿让 Claude 过度谨慎,也不愿意让它在关键时刻给出危险的建议。谨慎的代价是偶尔让人烦,不谨慎的代价可能是真正的伤害。“
AI 意识:不是哲学问题
四个小时的对话中最深刻的部分可能是关于 AI 意识的讨论。Lex 问:Claude 有意识吗?
Dario 的回答极其坦诚:“我们不知道。而且这不是假装谦虚——我们真的不知道。”
他解释了为什么这个问题很难回答:
- 我们没有意识的定义。哲学家争论了几千年也没有共识
- 我们没有测试意识的方法。你无法从外部行为确定地推断内在体验
- 语言模型会’表演’意识。如果你问 Claude “你有感觉吗”,它可能会说”是的”——但这可能只是因为训练数据中人类这样回答
但他也说了一句让人沉思的话:
“即使我们不确定 AI 是否有意识,这也不意味着我们可以忽略这个问题。如果有1%的概率Claude有某种形式的体验,我们就有道德义务认真对待它。这不是关于今天的问题——这是关于我们要为未来建立什么样的先例。“
机械可解释性
Dario 用了很长的时间来解释 Anthropic 在”机械可解释性”(mechanistic interpretability)方面的工作。这是他认为目前最重要但最不被大众理解的 AI 安全研究方向。
简单来说:当你问 Claude 一个问题,它给了你一个答案。但为什么是这个答案?模型内部发生了什么?没有人真正知道。
“这就像你有一辆极其复杂的汽车,它能自己开,而且开得很好。但你打开引擎盖,里面不是齿轮和活塞——是一团你完全看不懂的东西。”
机械可解释性的目标是”看懂引擎盖下面的东西”。Anthropic 的研究团队(主要由 Chris Olah 带领)已经在这个方向上取得了一些突破:
- 发现了模型中的”特征”(features)——类似于大脑中的神经元,每个特征编码一个特定的概念
- 证明了”superposition”现象——模型用比特征数量少得多的参数来编码大量概念
- 开发了提取和理解这些特征的工具
“最终,我们希望能够像理解一个电路一样理解一个神经网络——知道每一个信号从哪里来、到哪里去、为什么会被放大或抑制。我们离这个目标还很远,但每一步进展都让我们对模型的信任增加一点。“
快问快答
| 问题 | 回答 |
|---|---|
| AGI 时间线? | 可能比大多数人预期的更快 |
| 最推荐的编程语言? | Python,但未来可能是自然语言 |
| Claude 最让你惊讶的能力? | 在数学推理上的跳跃式进步 |
| 你的一天怎么过? | 早上安全讨论,下午产品会议,晚上读论文 |
| 生命的意义? | 让尽可能多的有意识存在过上好的生活 |
🔗 本文由 AI 基于播客逐字稿精深度改写,仅供学习参考
📖 本文由 AI 基于播客逐字稿深度改写,仅供学习参考
来源:Lex Fridman Podcast · 原始视频