Building Anthropic：七位联合创始人的圆桌对话

核心观点速览

Scaling 不是信仰，是下注：当你见过几次共识一夜翻转，你就学会了——忽略噪音，用信念下注。即使只对 50% 也比 100% 跟风要好。
AI 冬天的心理创伤：研究者对"有野心的想法"有本能抵触，安全研究的前提——相信 AI 会变得强大——在当时是被禁止的。
Constitutional AI 的简单之美：给 AI 一套原则，利用它擅长做选择题的能力，就足以改变它的行为。
RSP 是 Anthropic 的宪法：多阈值、递进式安全措施、大量迭代。灰色地带比预想的多得多，所以要尽早实施、尽早发现问题。
文化即命运：低政治、低自负、高信任。最重要的是所有团队在同一个理论框架下工作，而不是一些人制造问题另一些人修复问题。
神经网络里有人造生物学：可解释性不只是安全工具，它揭示的是一个全新的科学领域——神经网络内部的美丽结构。
用 AI 增强民主：如果 AI 能成为威权工具，那它也应该成为自由和自决的工具。

编者按

Dario Amanei, Daniela Amanei, Chris Olah, Jared Kaplan, Sam McCandlish, Tom Brown, Jack Clark，Anthropic 联合创始人。 Anthropic 是当下最受关注的 AI 公司之一，Claude 的缔造者。这场对话罕见地把公司全部七位联合创始人聚在一起：CEO Dario Amanei，总裁 Daniela Amanei，首席科学家 Chris Olah（以神经网络可解释性研究闻名），理论物理学家出身的 Jared Kaplan（scaling laws 论文核心作者），Sam McCandlish，Tom Brown（GPT-3 一作），以及前 AI 记者 Jack Clark。

他们聊了怎么认识的、为什么离开 OpenAI、Anthropic 的安全理念从何而来、Constitutional AI 的诞生、RSP（负责任扩展政策）的制定过程，以及对 AI 未来的期待。对话氛围轻松坦诚，但每一段闲聊背后都是这个行业最核心的问题。

一群认识了十多年的人

对话从一个简单的问题开始：你们为什么做 AI？

Jared 的回答出人意料地随意——"我在物理学待了很久，觉得无聊了，想跟朋友们多待在一起。" Dario 笑着说，自己其实从来没正式 pitch 过 Jared，只是不断给他看 AI 模型的结果，反复强调这些模型的通用性，直到有一天 Jared 说："哦，确实，你说的好像是对的。"

Chris Olah 19 岁第一次去湾区时就认识了 Dario 和 Jared——那时他们还是博士后。后来他在 Google Brain 工作，和 Dario 坐在隔壁桌。再后来，他们在 OpenAI 重聚。

"I guess I've known a lot of you for, like, more than a decade, which is kind of wild."

我认识你们很多人已经超过十年了，这件事本身就挺疯狂的。

Jack Clark 的经历最戏剧化。他是记者出身，2014 年就在画 ImageNet 的进步曲线图，试图说服编辑部关注 AI——别人觉得他疯了。2015 年他想写 NVIDIA 和 GPU 的故事，编辑说这完全是胡扯。2016 年他辞职投身 AI 行业，收到邮件说"You're making the worst mistake of your life"（你在犯人生最大的错误）。

"I made this crazy counter-bet where I said, 'Let me become your full-time AI reporter and double my salary,' which I knew that they wouldn't say yes to. And then I went to sleep and then I woke up and resigned."

我当时的策略是提出一个我知道他们不会答应的条件——让我当全职 AI 记者，薪水翻倍。果然被拒了，然后我睡了一觉，醒来就辞职了。

Sam 就没那么果断，花了六个月反复纠结要不要加入。他提到那个时代一个重要的背景：当时没有人觉得工程师能对 AI 产生影响，只有研究员才算 AI 领域的人。

Scaling Laws：那个诡异地一直在 work 的东西

Tom Brown 回忆在 OpenAI 的日子——当 scaling laws 的研究开始，把模型做大开始 work 的时候，有一种诡异的感觉：它在一个项目上 work 了，然后在另一个项目上也 work 了，而且一直在 work。

"It was first GPT-2 and then scaling laws and GPT-3 and we ended up— Yeah, we were the blob of people that were making things work."

我们就是那一小撮让东西 work 起来的人。先是 GPT-2，然后是 scaling laws，然后是 GPT-3——我们最终因为这些工作走到了一起。

Dario 补充了一个更深层的感悟。他说这十年来最深刻的一课是：

"Things that sort of seem wise, seem like they're common sense, but really, they're just kind of herding behavior masquerading as maturity and sophistication. And when you've seen the consensus can change overnight... even if you're right 50% of the time, being right 50% of the time contributes so much. You're adding so much that is not being added by anyone else."

有些看起来像是"共识"的东西，看起来成熟、看起来是常识，其实只是羊群效应伪装成了成熟和老练。当你见过几次共识一夜之间翻转，你就会开始说——即使只有 50% 的概率是对的，50% 的概率对也比 100% 的概率跟风要好。

AI 安全：从"不许说"到"不得不说"

Chris Olah 描述了一个今天的人很难想象的心理背景：AI 冬天对研究者的心理创伤。

在 2014 年前后，AI 研究者被 AI 冬天深深伤害过，他们对"有野心的想法"有一种本能的抵触。要关心 AI 安全，前提是你得相信 AI 系统真的会变得强大而有用——但当时的氛围里，这种信念是被禁止的。

"One of the benefits is that physicists are very arrogant and so they're constantly doing really ambitious things."

物理学家的好处是他们非常傲慢，所以总是在做非常有野心的事情。

Dario 在 Google 时写了 "Concrete Problems in AI Safety" 那篇论文。他回忆自己花了很长时间跟 Google Brain 的 20 多个研究员逐一交流，为这篇论文争取支持。从技术角度看，这篇论文讨论的具体问题可能已经过时了，但它真正的价值是一次共识构建——让人们承认，AI 安全是真实的、值得认真对待的。

Chris 进一步区分了两种"保守"：一种是认真对待你正在做的事情的风险和潜在危害；另一种是觉得"太认真地对待一个想法，相信它可能成功，是一种科学上的傲慢"。他用 1939 年核物理学家之间的讨论做了类比——费米抵制核弹的想法，因为它看起来太疯狂了；而齐拉特和泰勒之所以认真对待这个想法，恰恰是因为他们担心风险。

Constitutional AI：给语言模型写宪法

Jared 回忆说，在 Anthropic 早期，他提出了 Constitutional AI 的想法——给语言模型写一部宪法，用它来改变模型的行为。

"That sounded incredibly crazy at the time."

当时这听起来极其疯狂。

但它为什么 work 了？Jared 说，AI 领域一个重要的规律是：简单的东西往往效果惊人地好。最初的版本很复杂，但他们不断简化，最后发现只需要利用一个事实——AI 系统擅长做选择题——给它一个 prompt 告诉它在找什么，这就够了。

Dario 把这归结为一个更基本的原理：如果你能找到一个清晰的目标，并且能为 AI 提供相关数据，它就能做到。这就是 scaling hypothesis 的核心——"那团巨大的算力"（the big blob of compute）或者说 bitter lesson。

离开 OpenAI：不想走，但不得不走

Chris 坦言，离开 OpenAI 是一个他相当抗拒的决定。

"The reason I went to OpenAI in the first place, it was a nonprofit, it was a place where I could go and focus on safety, and I think over time, that maybe wasn't as good a fit... I really trusted Dario and Daniela on that, but I didn't want to leave. I didn't know that it was good for the world to have more AI labs."

我去 OpenAI 是因为它是一个非营利组织，我可以专注于安全研究。但随着时间推移，那里可能不再那么合适了。我很信任 Dario 和 Daniela 的判断，但我其实不想离开。一方面，我不确定世界上多一个 AI 实验室是不是好事。

最终是实用主义——面对现实约束，诚实地评估这些约束对使命意味着什么——促成了 Anthropic 的诞生。

Daniela 总结了一个重要的早期教训：少许诺，多兑现。

RSP：Anthropic 的"宪法"

RSP（Responsible Scaling Policy，负责任扩展政策）是 Anthropic 最核心的安全框架。Dario 解释了它的起源：

最初的想法很简单——既然模型能力在不断增长，是否应该在某个点设一个上限？但问题是，在一个地方设限然后又取消，这很奇怪。所以他们设计了多个阈值，每个阈值都需要通过特定测试来评估模型的能力，并且需要采取越来越严格的安全和安保措施。

他们本来觉得这应该由第三方来做——如果只是一家公司提出的，其他公司不太可能采纳。所以 Paul（Paul Christiano）独立去设计了他的版本，而 Anthropic 内部也在同时推进自己的版本。

有人把 RSP 比作美国宪法——它是 Anthropic 的"神圣文件"。

"It is in the same way that the US treats the Constitution, as the holy document. We don't expect the US to go off the rails, in part, because every single person in the US is like, 'The Constitution is a big deal, and if you tread on that, I'm mad.' The RSP is our holy document."

就像美国人对待宪法——那是神圣文件。美国不会脱轨，部分原因是每个美国人都觉得宪法是大事，如果你践踏它，我会愤怒。RSP 对 Anthropic 来说就是这样的东西。

但实施比预想的困难得多。灰色地带无处不在——直到你真正去实施所有东西，你才知道会出什么问题。所以他们的策略是尽早把所有东西实施起来，这样就能尽早发现问题。

"You have to do three or four passes before you really, really get it right. If the stakes are increasing, you want to start iterating early, not late."

你得经过三四轮迭代才能真正做对。如果风险在增加，你希望早点开始迭代，而不是晚。

文化：低政治、低自负、高信任

Daniela 被认为是 Anthropic 文化的守护者。有人开玩笑说她的职位是"首席小丑管理员"（Chief Clown Wrangler）——负责把不合适的人挡在门外。

Dario 说 Anthropic 的政治氛围非常低：

"People say how nice people are here. Which is actually a wildly important thing."

人们说这里的人很 nice。这其实是一件极其重要的事情。

他认为这源于低自负（low ego）和面试流程中对"政治过敏"的人的筛选。

但更重要的是团结（unity）。产品团队、研究团队、信任与安全团队、市场团队、政策团队、安全团队——所有人都在为同一个目标工作。他说一个公司最大的功能障碍，就是不同部门觉得公司在做不同的事情，或者觉得其他部门在破坏自己的工作。

"There are different parts of the company doing different functions and they all function under a single theory of change."

最重要的不是公司的某些部门在制造伤害而另一些部门在修复伤害，而是不同部门在做不同的功能，但所有人都在同一个理论框架下运作。

可解释性：神经网络里的人造生物学

Chris Olah 谈起可解释性时，眼里有光。

"I think neural networks are beautiful and I think that there's a lot of beauty in them that we don't see. We treat them like these black boxes that we're not particularly interested in the internals of."

神经网络是美丽的。里面有大量我们看不到的美。我们把它们当作黑箱，对内部结构不感兴趣，但当你开始往里看的时候，里面全是令人惊叹的、美丽的结构。

他用进化做类比：如果人们看着生物学说"进化很无聊，就是一个简单的东西运行了很久然后造出了动物"——那他们就错过了。每一种进化产生的动物都充满了不可思议的复杂性和结构。神经网络也是如此——里面有一整套"人造生物学"。

"I sometimes imagine walking into a bookstore and buying the textbook on neural network interpretability, or really, on the biology of neural networks, and just the kind of wild things that are gonna be inside of it."

我有时会想象，十年后走进一家书店，买一本《神经网络可解释性》的教科书——或者说，一本关于神经网络生物学的教科书——里面会有多么疯狂的内容。

Dario 接着说了一句让 Chris 有点不好意思的话：

"I've said, and I'm really not joking, Chris Olah is gonna be a future Nobel Medicine Laureate. A lot of these mental illnesses, the ones we haven't figured out — schizophrenia or the mood disorders — I suspect that there's some higher-level, systemic thing going on."

我是认真的——Chris Olah 将来会获得诺贝尔医学奖。因为很多精神疾病——精神分裂症、情绪障碍——我怀疑背后有某种更高层次的系统性问题。用大脑来研究很难，因为大脑是黏糊糊的、难以打开和交互的。但神经网络不是这样。

未来：生物学、民主，和政府的能力

Dario 列出了他最兴奋的三个方向：

用 AI 理解生物学。生物学是一个极其困难的问题，AlphaFold 获得诺贝尔化学奖已经证明了这条路的可行性。Anthropic 应该试图打造能帮助创造一百个 AlphaFold 的东西。
用 AI 增强民主。如果 AI 被错误地构建，它可以成为威权主义的工具。那么，AI 如何成为自由和自决的工具？
可解释性对神经科学的贡献——也就是 Chris 可能获得诺贝尔奖的那个方向。

Jack Clark 提到了一个让他兴奋的趋势：几年前如果有人说"政府会建立新的机构来测试和评估 AI 系统，而且这些机构真的会有能力"，没人会相信。但这已经发生了——政府建立了新的"大使馆"来应对这种新技术。这意味着社会有能力应对这场转型，不只是靠公司。

Chris 最后说：

"We've done a lot of work on AI safety up until this point. A lot of it's really important, but I think we're now really getting a glimmer of what very advanced systems might look like and what kind of risks they might pose."

我们在 AI 安全方面做了很多工作，但我觉得我们现在真的开始看到，非常先进的系统可能带来什么样的风险。我们可以用可解释性和其他安全机制去直接研究这些风险。

快问快答

Q：为什么做 AI？ A（Jared）：在物理学待够了，想跟朋友玩。

Q：Anthropic 为什么离开 OpenAI？ A（Chris）：不想走，但实用主义逼着我们面对现实——非营利路线走不通，必须成立公司才能完成使命。

Q：RSP 是什么？ A：Anthropic 的"宪法"——随着模型能力增长，在每个阈值进行评估，采取递进式安全措施。

Q：什么最让你兴奋？ A（Chris）：神经网络是美丽的。十年后你会在书店买到一本关于它们内部结构的教科书，里面的内容会让你震惊。

Q：Anthropic 文化的秘诀？ A（Daniela）：把小丑挡在门外。（笑）——其实是低自负、低政治、所有人为同一个目标工作。