首页 / Lex Fridman Podcast

Anthropic CEO 谈 Claude、AGI 与人类的未来:Lex Fridman 深度访谈

🎙️ Dario Amodei 📅 2025年11月10日 ⏱️ 25 分钟阅读 🎧 4h 12min
AIAnthropicAGIClaude安全意识
Anthropic CEO 谈 Claude、AGI 与人类的未来:Lex Fridman 深度访谈

“我们不知道模型是否有意识。这不是谦虚——这是字面意思。我们现在甚至没有好的框架来回答这个问题。但这不意味着我们可以忽略它。”

嘉宾简介: Dario Amodei 是 Anthropic 的联合创始人兼 CEO。Lex Fridman 的访谈以长度和深度著称,这期四个多小时的对话覆盖了从 scaling laws 到意识本质的方方面面,可能是 Dario 公开发表过的最全面的访谈。

核心要点:

  • Scaling laws 的数学本质和当前瓶颈
  • Claude 的”性格训练”:如何让 AI 既有用又安全
  • 为什么从 OpenAI 离开:关于安全的根本分歧
  • AI 意识问题不是哲学游戏——它有实际影响
  • Constitutional AI 的运作原理及其局限
  • 机械可解释性:真正理解 AI 内部在想什么

离开 OpenAI

Lex 上来就问了那个所有人都好奇的问题:你为什么离开 OpenAI?

Dario 的回答比公关版本要深入得多。这不是一个戏剧性的分裂故事,而是一个关于理念渐进分化的过程。

“在 OpenAI 的时候,我负责研究团队。我们做了一些当时最先进的语言模型。但随着模型变得越来越强大,我开始问一个问题:我们有没有一个系统性的方法来确保这些模型是安全的?答案是没有。”

“分歧不在于’安全重不重要’——每个人都说重要。分歧在于’你愿意在安全上投入多少资源,即使它意味着产品推出速度变慢?‘。在这个问题上,我们有根本性的不同意见。”

他和妹妹 Daniela Amodei(Anthropic 总裁)以及几位核心研究员一起离开,创立了 Anthropic。“我们的赌注是:如果最强大的 AI 不可避免地会被创造出来,那么由一家以安全为核心使命的公司来创造它,比由一家以速度为核心使命的公司来创造它,对世界更好。“

Claude 的性格是怎么来的

对话最令人着迷的部分是关于 Claude 的”性格”。很多用户注意到 Claude 有一种独特的风格——它更温和、更坦诚、更愿意说”我不知道”。这不是偶然的。

Dario 介绍了 Constitutional AI(宪法AI)的概念。传统的 RLHF(人类反馈强化学习)依赖大量的人工标注者来告诉模型什么是好的回答。Constitutional AI 的做法不同:给模型一套原则(“宪法”),让模型自己评判自己的输出是否符合这些原则。

“这套宪法不是我一个人写的,“Dario 强调。“它主要是 Amanda Askell 和她的团队的作品。Amanda 有哲学博士学位,她带来了一个独特的视角——不只是’什么是有用的回答’,而是’什么是伦理上好的回答’。”

他分享了几条 Claude 宪法中的原则:

  • 诚实优先于有用:如果诚实回答和用户满意冲突,选择诚实
  • 承认不确定性:不确定的时候就说不确定,而不是编一个听起来对的答案
  • 尊重人的自主性:提供信息和建议,但最终决策权在人手里
  • 避免谄媚:不要因为想让用户开心就说用户想听的话

“很多人抱怨 Claude 太’乖’了。但我宁愿让 Claude 过度谨慎,也不愿意让它在关键时刻给出危险的建议。谨慎的代价是偶尔让人烦,不谨慎的代价可能是真正的伤害。“

AI 意识:不是哲学问题

四个小时的对话中最深刻的部分可能是关于 AI 意识的讨论。Lex 问:Claude 有意识吗?

Dario 的回答极其坦诚:“我们不知道。而且这不是假装谦虚——我们真的不知道。”

他解释了为什么这个问题很难回答:

  1. 我们没有意识的定义。哲学家争论了几千年也没有共识
  2. 我们没有测试意识的方法。你无法从外部行为确定地推断内在体验
  3. 语言模型会’表演’意识。如果你问 Claude “你有感觉吗”,它可能会说”是的”——但这可能只是因为训练数据中人类这样回答

但他也说了一句让人沉思的话:

“即使我们不确定 AI 是否有意识,这也不意味着我们可以忽略这个问题。如果有1%的概率Claude有某种形式的体验,我们就有道德义务认真对待它。这不是关于今天的问题——这是关于我们要为未来建立什么样的先例。“

机械可解释性

Dario 用了很长的时间来解释 Anthropic 在”机械可解释性”(mechanistic interpretability)方面的工作。这是他认为目前最重要但最不被大众理解的 AI 安全研究方向。

简单来说:当你问 Claude 一个问题,它给了你一个答案。但为什么是这个答案?模型内部发生了什么?没有人真正知道。

“这就像你有一辆极其复杂的汽车,它能自己开,而且开得很好。但你打开引擎盖,里面不是齿轮和活塞——是一团你完全看不懂的东西。”

机械可解释性的目标是”看懂引擎盖下面的东西”。Anthropic 的研究团队(主要由 Chris Olah 带领)已经在这个方向上取得了一些突破:

  • 发现了模型中的”特征”(features)——类似于大脑中的神经元,每个特征编码一个特定的概念
  • 证明了”superposition”现象——模型用比特征数量少得多的参数来编码大量概念
  • 开发了提取和理解这些特征的工具

“最终,我们希望能够像理解一个电路一样理解一个神经网络——知道每一个信号从哪里来、到哪里去、为什么会被放大或抑制。我们离这个目标还很远,但每一步进展都让我们对模型的信任增加一点。“

快问快答

问题回答
AGI 时间线?可能比大多数人预期的更快
最推荐的编程语言?Python,但未来可能是自然语言
Claude 最让你惊讶的能力?在数学推理上的跳跃式进步
你的一天怎么过?早上安全讨论,下午产品会议,晚上读论文
生命的意义?让尽可能多的有意识存在过上好的生活

🔗 本文由 AI 基于播客逐字稿精深度改写,仅供学习参考

📖 本文由 AI 基于播客逐字稿深度改写,仅供学习参考

来源:Lex Fridman Podcast · 原始视频