Anthropic CEO 谈 Claude、AGI 与人类的未来：Lex Fridman 深度访谈

“我们不知道模型是否有意识。这不是谦虚——这是字面意思。我们现在甚至没有好的框架来回答这个问题。但这不意味着我们可以忽略它。”

嘉宾简介： Dario Amodei 是 Anthropic 的联合创始人兼 CEO。Lex Fridman 的访谈以长度和深度著称，这期四个多小时的对话覆盖了从 scaling laws 到意识本质的方方面面，可能是 Dario 公开发表过的最全面的访谈。

核心要点：

离开 OpenAI

Lex 上来就问了那个所有人都好奇的问题：你为什么离开 OpenAI？

Dario 的回答比公关版本要深入得多。这不是一个戏剧性的分裂故事，而是一个关于理念渐进分化的过程。

“在 OpenAI 的时候，我负责研究团队。我们做了一些当时最先进的语言模型。但随着模型变得越来越强大，我开始问一个问题：我们有没有一个系统性的方法来确保这些模型是安全的？答案是没有。”

“分歧不在于’安全重不重要’——每个人都说重要。分歧在于’你愿意在安全上投入多少资源，即使它意味着产品推出速度变慢？‘。在这个问题上，我们有根本性的不同意见。”

他和妹妹 Daniela Amodei（Anthropic 总裁）以及几位核心研究员一起离开，创立了 Anthropic。“我们的赌注是：如果最强大的 AI 不可避免地会被创造出来，那么由一家以安全为核心使命的公司来创造它，比由一家以速度为核心使命的公司来创造它，对世界更好。“

对话最令人着迷的部分是关于 Claude 的”性格”。很多用户注意到 Claude 有一种独特的风格——它更温和、更坦诚、更愿意说”我不知道”。这不是偶然的。

Dario 介绍了 Constitutional AI（宪法AI）的概念。传统的 RLHF（人类反馈强化学习）依赖大量的人工标注者来告诉模型什么是好的回答。Constitutional AI 的做法不同：给模型一套原则（“宪法”），让模型自己评判自己的输出是否符合这些原则。

“这套宪法不是我一个人写的，“Dario 强调。“它主要是 Amanda Askell 和她的团队的作品。Amanda 有哲学博士学位，她带来了一个独特的视角——不只是’什么是有用的回答’，而是’什么是伦理上好的回答’。”

他分享了几条 Claude 宪法中的原则：

“很多人抱怨 Claude 太’乖’了。但我宁愿让 Claude 过度谨慎，也不愿意让它在关键时刻给出危险的建议。谨慎的代价是偶尔让人烦，不谨慎的代价可能是真正的伤害。“

四个小时的对话中最深刻的部分可能是关于 AI 意识的讨论。Lex 问：Claude 有意识吗？

Dario 的回答极其坦诚：“我们不知道。而且这不是假装谦虚——我们真的不知道。”

他解释了为什么这个问题很难回答：

但他也说了一句让人沉思的话：

“即使我们不确定 AI 是否有意识，这也不意味着我们可以忽略这个问题。如果有1%的概率Claude有某种形式的体验，我们就有道德义务认真对待它。这不是关于今天的问题——这是关于我们要为未来建立什么样的先例。“

Dario 用了很长的时间来解释 Anthropic 在”机械可解释性”（mechanistic interpretability）方面的工作。这是他认为目前最重要但最不被大众理解的 AI 安全研究方向。

简单来说：当你问 Claude 一个问题，它给了你一个答案。但为什么是这个答案？模型内部发生了什么？没有人真正知道。

“这就像你有一辆极其复杂的汽车，它能自己开，而且开得很好。但你打开引擎盖，里面不是齿轮和活塞——是一团你完全看不懂的东西。”

机械可解释性的目标是”看懂引擎盖下面的东西”。Anthropic 的研究团队（主要由 Chris Olah 带领）已经在这个方向上取得了一些突破：

“最终，我们希望能够像理解一个电路一样理解一个神经网络——知道每一个信号从哪里来、到哪里去、为什么会被放大或抑制。我们离这个目标还很远，但每一步进展都让我们对模型的信任增加一点。“

🔗 本文由 AI 基于播客逐字稿精深度改写，仅供学习参考