首页 / Anthropic

Building Anthropic:七位联合创始人的圆桌对话

🎙️ Dario Amanei, Daniela Amanei, Chris Olah, Jared Kaplan, Sam McCandlish, Tom Brown, Jack Clark 📅 2024年12月20日 ⏱️ 18 分钟阅读 🎧 60min
AIAnthropicAI安全创业scaling lawsinterpretability
Building Anthropic:七位联合创始人的圆桌对话

Building Anthropic:七位联合创始人的圆桌对话

A conversation with Anthropic’s co-founders

编者按

Anthropic 是当下最受关注的 AI 公司之一,Claude 的缔造者。这场对话罕见地把公司全部七位联合创始人聚在一起:CEO Dario Amanei,总裁 Daniela Amanei,首席科学家 Chris Olah(以神经网络可解释性研究闻名),理论物理学家出身的 Jared Kaplan(scaling laws 论文核心作者),Sam McCandlish,Tom Brown(GPT-3 一作),以及前 AI 记者 Jack Clark。

他们聊了怎么认识的、为什么离开 OpenAI、Anthropic 的安全理念从何而来、Constitutional AI 的诞生、RSP(负责任扩展政策)的制定过程,以及对 AI 未来的期待。对话氛围轻松坦诚,但每一段闲聊背后都是这个行业最核心的问题。


一群认识了十多年的人

对话从一个简单的问题开始:你们为什么做 AI?

Jared 的回答出人意料地随意——“我在物理学待了很久,觉得无聊了,想跟朋友们多待在一起。” Dario 笑着说,自己其实从来没正式 pitch 过 Jared,只是不断给他看 AI 模型的结果,反复强调这些模型的通用性,直到有一天 Jared 说:“哦,确实,你说的好像是对的。”

Chris Olah 19 岁第一次去湾区时就认识了 Dario 和 Jared——那时他们还是博士后。后来他在 Google Brain 工作,和 Dario 坐在隔壁桌。再后来,他们在 OpenAI 重聚。

我认识你们很多人已经超过十年了,这件事本身就挺疯狂的。

Jack Clark 的经历最戏剧化。他是记者出身,2014 年就在画 ImageNet 的进步曲线图,试图说服编辑部关注 AI——别人觉得他疯了。2015 年他想写 NVIDIA 和 GPU 的故事,编辑说这完全是胡扯。2016 年他辞职投身 AI 行业,收到邮件说”你在犯人生最大的错误”。

我当时的策略是提出一个我知道他们不会答应的条件——让我当全职 AI 记者,薪水翻倍。果然被拒了,然后我睡了一觉,醒来就辞职了。

Sam 就没那么果断,花了六个月反复纠结要不要加入。他提到那个时代一个重要的背景:当时没有人觉得工程师能对 AI 产生影响,只有研究员才算 AI 领域的人。


Scaling Laws:那个诡异地一直在 work 的东西

Tom Brown 回忆在 OpenAI 的日子——当 scaling laws 的研究开始,把模型做大开始 work 的时候,有一种诡异的感觉:它在一个项目上 work 了,然后在另一个项目上也 work 了,而且一直在 work。

我们就是那一小撮让东西 work 起来的人。先是 GPT-2,然后是 scaling laws,然后是 GPT-3——我们最终因为这些工作走到了一起。

Dario 补充了一个更深层的感悟。他说这十年来最深刻的一课是:

有些看起来像是”共识”的东西,看起来成熟、看起来是常识,其实只是羊群效应伪装成了成熟和老练。当你见过几次共识一夜之间翻转,你就会开始说——“不管了,这是我们要下的注。我不确定我们是对的,但忽略那些噪音吧。即使只有 50% 的概率是对的,50% 的概率对也比 100% 的概率跟风要好。“


AI 安全:从”不许说”到”不得不说”

Chris Olah 描述了一个今天的人很难想象的心理背景:AI 冬天对研究者的心理创伤。

在 2014 年前后,AI 研究者被 AI 冬天深深伤害过,他们对”有野心的想法”有一种本能的抵触。要关心 AI 安全,前提是你得相信 AI 系统真的会变得强大而有用——但当时的氛围里,这种信念是被禁止的。

物理学家的好处是他们非常傲慢,所以总是在做非常有野心的事情。

Dario 在 Google 时写了 “Concrete Problems in AI Safety” 那篇论文。他回忆自己花了很长时间跟 Google Brain 的 20 多个研究员逐一交流,为这篇论文争取支持。从技术角度看,这篇论文讨论的具体问题可能已经过时了,但它真正的价值是一次共识构建——让人们承认,AI 安全是真实的、值得认真对待的。

Chris 进一步区分了两种”保守”:一种是认真对待你正在做的事情的风险和潜在危害;另一种是觉得”太认真地对待一个想法,相信它可能成功,是一种科学上的傲慢”。他用 1939 年核物理学家之间的讨论做了类比——费米抵制核弹的想法,因为它看起来太疯狂了;而齐拉特和泰勒之所以认真对待这个想法,恰恰是因为他们担心风险。


Constitutional AI:给语言模型写宪法

Jared 回忆说,在 Anthropic 早期,他提出了 Constitutional AI 的想法——给语言模型写一部宪法,用它来改变模型的行为。

当时这听起来极其疯狂。

但它为什么 work 了?Jared 说,AI 领域一个重要的规律是:简单的东西往往效果惊人地好。最初的版本很复杂,但他们不断简化,最后发现只需要利用一个事实——AI 系统擅长做选择题——给它一个 prompt 告诉它在找什么,这就够了。

Dario 把这归结为一个更基本的原理:如果你能找到一个清晰的目标,并且能为 AI 提供相关数据,它就能做到。这就是 scaling hypothesis 的核心——“那团巨大的算力”(the big blob of compute)或者说 bitter lesson。


离开 OpenAI:不想走,但不得不走

Chris 坦言,离开 OpenAI 是一个他相当抗拒的决定。

我去 OpenAI 是因为它是一个非营利组织,我可以专注于安全研究。但随着时间推移,那里可能不再那么合适了。我很信任 Dario 和 Daniela 的判断,但我其实不想离开。一方面,我不确定世界上多一个 AI 实验室是不是好事;另一方面,我一直主张我们应该做一个非营利组织,只专注于安全研究。

最终是实用主义——面对现实约束,诚实地评估这些约束对使命意味着什么——促成了 Anthropic 的诞生。

Daniela 总结了一个重要的早期教训:

少许诺,多兑现。


RSP:Anthropic 的”宪法”

RSP(Responsible Scaling Policy,负责任扩展政策)是 Anthropic 最核心的安全框架。Dario 解释了它的起源:

最初的想法很简单——既然模型能力在不断增长,是否应该在某个点设一个上限?但问题是,在一个地方设限然后又取消,这很奇怪。所以他们设计了多个阈值,每个阈值都需要通过特定测试来评估模型的能力,并且需要采取越来越严格的安全和安保措施。

他们本来觉得这应该由第三方来做——如果只是一家公司提出的,其他公司不太可能采纳。所以 Paul(Paul Christiano)独立去设计了他的版本,而 Anthropic 内部也在同时推进自己的版本。

有人把 RSP 比作美国宪法——它是 Anthropic 的”神圣文件”。

就像每个美国人都觉得宪法是大事,如果你践踏它,我会愤怒。RSP 对 Anthropic 来说就是这样的东西。所以花大量时间迭代、把它做对,是值得的。

但实施比预想的困难得多。灰色地带无处不在——直到你真正去实施所有东西,你才知道会出什么问题。所以他们的策略是尽早把所有东西实施起来,这样就能尽早发现问题。

你得经过三四轮迭代才能真正做对。如果风险在增加,你希望早点开始迭代,而不是晚。


文化:低政治、低自负、高信任

Daniela 被认为是 Anthropic 文化的守护者。有人开玩笑说她的职位是”首席小丑管理员”(Chief Clown Wrangler)——负责把不合适的人挡在门外。

Dario 说 Anthropic 的政治氛围非常低:

人们说这里的人很 nice。这其实是一件极其重要的事情。

他认为这源于低自负(low ego)和面试流程中对”政治过敏”的人的筛选。

但更重要的是团结(unity)。产品团队、研究团队、信任与安全团队、市场团队、政策团队、安全团队——所有人都在为同一个目标工作。他说一个公司最大的功能障碍,就是不同部门觉得公司在做不同的事情,或者觉得其他部门在破坏自己的工作。

最重要的不是公司的某些部门在制造伤害而另一些部门在修复伤害,而是不同部门在做不同的功能,但所有人都在同一个理论框架下运作。


可解释性:神经网络里的人造生物学

Chris Olah 谈起可解释性时,眼里有光。

神经网络是美丽的。里面有大量我们看不到的美。我们把它们当作黑箱,对内部结构不感兴趣,但当你开始往里看的时候,里面全是令人惊叹的、美丽的结构。

他用进化做类比:如果人们看着生物学说”进化很无聊,就是一个简单的东西运行了很久然后造出了动物”——那他们就错过了。每一种进化产生的动物都充满了不可思议的复杂性和结构。神经网络也是如此——里面有一整套”人造生物学”。

我有时会想象,十年后走进一家书店,买一本《神经网络可解释性》的教科书——或者说,一本关于神经网络生物学的教科书——里面会有多么疯狂的内容。

Dario 接着说了一句让 Chris 有点不好意思的话:

我是认真的——Chris Olah 将来会获得诺贝尔医学奖。因为很多精神疾病——精神分裂症、情绪障碍——我怀疑背后有某种更高层次的系统性问题。用大脑来研究很难,因为大脑是黏糊糊的、难以打开和交互的。但神经网络不是这样,虽然现在还不是完美的类比,但随着时间推移,它会成为更好的类比。


未来:生物学、民主,和政府的能力

Dario 列出了他最兴奋的三个方向:

  1. 用 AI 理解生物学。生物学是一个极其困难的问题,AlphaFold 获得诺贝尔化学奖已经证明了这条路的可行性。Anthropic 应该试图打造能帮助创造一百个 AlphaFold 的东西。

  2. 用 AI 增强民主。如果 AI 被错误地构建,它可以成为威权主义的工具。那么,AI 如何成为自由和自决的工具?

  3. 可解释性对神经科学的贡献——也就是 Chris 可能获得诺贝尔奖的那个方向。

Jack Clark 提到了一个让他兴奋的趋势:几年前如果有人说”政府会建立新的机构来测试和评估 AI 系统,而且这些机构真的会有能力”,没人会相信。但这已经发生了——政府建立了新的”大使馆”来应对这种新技术。这意味着社会有能力应对这场转型,不只是靠公司。

Chris 最后说:

我们在 AI 安全方面做了很多工作,但我觉得我们现在真的开始看到,非常先进的系统可能带来什么样的风险。我们可以用可解释性和其他安全机制去直接研究这些风险。这将让我们以一种真正科学的、实证的方式推进使命。


核心观点速览

  1. Scaling 不是信仰,是下注:当你见过几次共识一夜翻转,你就学会了——忽略噪音,用信念下注。即使只对 50% 也比 100% 跟风要好。
  2. AI 冬天的心理创伤:研究者对”有野心的想法”有本能抵触,安全研究的前提——相信 AI 会变得强大——在当时是被禁止的。
  3. Constitutional AI 的简单之美:给 AI 一套原则,利用它擅长做选择题的能力,就足以改变它的行为。
  4. RSP 是 Anthropic 的宪法:多阈值、递进式安全措施、大量迭代。灰色地带比预想的多得多,所以要尽早实施、尽早发现问题。
  5. 文化即命运:低政治、低自负、高信任。最重要的是所有团队在同一个理论框架下工作,而不是一些人制造问题另一些人修复问题。
  6. 神经网络里有人造生物学:可解释性不只是安全工具,它揭示的是一个全新的科学领域——神经网络内部的美丽结构。
  7. 用 AI 增强民主:如果 AI 能成为威权工具,那它也应该成为自由和自决的工具。

快问快答

Q:为什么做 AI? A(Jared):在物理学待够了,想跟朋友玩。

Q:Anthropic 为什么离开 OpenAI? A(Chris):不想走,但实用主义逼着我们面对现实——非营利路线走不通,必须成立公司才能完成使命。

Q:RSP 是什么? A:Anthropic 的”宪法”——随着模型能力增长,在每个阈值进行评估,采取递进式安全措施。

Q:什么最让你兴奋? A(Chris):神经网络是美丽的。十年后你会在书店买到一本关于它们内部结构的教科书,里面的内容会让你震惊。

Q:Anthropic 文化的秘诀? A(Daniela):把小丑挡在门外。(笑)——其实是低自负、低政治、所有人为同一个目标工作。

📖 本文由 AI 基于播客逐字稿深度改写,仅供学习参考

来源:Anthropic · 原始视频