首页 / Lenny's Podcast

NotebookLM 幕后:三个工程师如何做出年度最惊艳的 AI 产品

🎧 收听原始播客

https://www.youtube.com/watch?v=sOyFpSW1Vls

🎙️ Raiza Martin 📅 2024年10月10日 ⏱️ 30 分钟阅读 🎧 约1h
AI产品NotebookLMGoogle产品设计音频AI
NotebookLM 幕后:三个工程师如何做出年度最惊艳的 AI 产品

编者按

2024 年秋天,一款产品在社交媒体上引发了广泛关注:将任意文档上传至 NotebookLM,点击一个按钮,两位 AI 主持人便会围绕你的内容生成一期播客节目。他们会笑,会插话,会发出「hmm」的思考声,结尾甚至不知如何收场——「Okay, let’s say a couple more things and then, okay, we’re done.」

不是合成语音在朗读稿件,而是两个「人」在对话。

这期 Lenny’s Podcast 请来了 NotebookLM 的产品负责人 Raiza Martin。她并非 AI 研究员,而是一位从广告、支付业务转型而来的产品经理,此前对 AI 几乎毫无积累。她带领一支不到十人的工程团队,在 Google 内部一个名为 Labs 的实验性组织中,打造了可能是 2024 年最令人惊叹的 AI 产品。

这期对话的价值远不止 NotebookLM 本身。它揭示了一种正在成型的产品范式:当技术先于需求存在时,产品经理的角色不是定义问题,而是为技术找到让人类产生共鸣的「形状」。


一、三个工程师的 20% 项目

NotebookLM 的起源故事,几乎是硅谷创业神话的 Google 内部翻版。

一切始于 Google Labs 里一个不起眼的小项目,名字朴素得像实验室编号:「Talk to Small Corpus」。核心构想极为简洁——用大语言模型与一段特定内容进行交互。当时整个项目只有一名全职工程师负责开发,Raiza 作为产品经理兼职参与,知名科技作家 Steven Johnson 也是中途加入。

Raiza 自己形容这勉强算个 20% 项目——甚至不该这么叫,因为实际投入远超这一比例。此后事情自然地滚动起来:有人觉得这个方向有趣,便主动参与讨论;有人觉得可以改进,就顺手迭代一版。没有正式立项,没有战略规划,只是一群人被一个小构想吸引,自发聚拢——「这个东西有意思,怎么能做得更好?」

当 NotebookLM 以「Project Tailwind」的名字在 2023 年 Google I/O 上首次亮相时,团队规模如何?三名工程师、一名产品经理、一名设计师,加上 Steven Johnson。即便到了 2024 年 Audio Overview 走红前夕,工程师也不过八人左右。

这个数字值得每个产品从业者驻足思考。在大公司动辄数十上百人团队开发产品的年代,一个不到十人的小组打造了年度最具话题性的 AI 产品。

这背后有一个关键因素:Google Labs 的特殊环境。Labs 由 VP Josh Woodward 创建,成立仅三年,使命简洁到近乎直白。Raiza 回忆自己加入时问 Josh「我们的使命是什么」,Josh 只回了一句——就是 AI,发布 AI 产品,然后在此基础上建立业务。没有更多修饰,没有 OKR 对齐会议,没有跨部门审批流程。

Raiza 加入 Labs 的理由同样质朴——不是因为 AI,而是因为她信任她的前上司 Josh。她对 Google Labs 所知甚少,想法很简单:「他去哪里,我就跟到哪里。」

这种近乎极端的精简模式在 Google 内部实属罕见。Raiza 描述了一种足以让传统 Google 人感到不安的工作场景:产品经理、工程师、设计师围坐在一起开会,同步修改设计稿和需求文档,工程师在会议尚未结束时已经开始编码。

用 Raiza 自己的话说,「流程极少极少极少,可能少得有些过分了」(far fewer processes, maybe even to a fault)。


二、Audio Overview 的诞生:从技术出发,寻找「形状」

NotebookLM 的文本交互功能是「实用」的。Audio Overview 则带有某种「魔力」。

这种魔力的诞生过程,揭示了一种与教科书截然相反的产品方法论。传统路径是:发现问题 → 设计方案 → 选择技术。而在 Google Labs,方向是反过来的:从技术出发,寻找最佳应用场景。

Raiza 对此相当坦诚——她过去做产品一直遵循从问题出发再寻找解决方案的逻辑,但在 Labs,起点变成了技术本身。当 Gemini 1.5 Pro 和新一代语音模型趋于成熟时,Labs 内部另一个团队带着强大的音频模型找上门来:「我们手上有这些很出色的音频模型,什么才是它的最佳场景?」

这时 Raiza 注意到一个有意思的现象。NotebookLM 已经支持与文档对话,但输出始终是文字。当她开始尝试语音输出时,整个体验发生了质变——它不只是改变了人与技术交互的方式,更改变了人对技术的感受。文字回复是功能性的,而语音赋予了整个交互以温度。

Audio Overview 便由此诞生:Gemini 1.5 Pro 作为理解与生成的基座,搭配强大的语音合成模型——但真正的关键在于团队内部构建的 Content Studio。Raiza 称之为让一切变得真实、有温度的「秘密配方」,其设计目标是将模型最好的一面充分激发出来。

她无法透露 Content Studio 的技术细节,但描述了调校过程的手工化与密集程度——团队反复聆听 AI 生成的音频,如同调音师般打磨每一处细节。早期版本的效果远不及现在,团队投入了大量的聆听与反复实验,逐步摸索出让模型呈现理想状态的方法。

Raiza 在家中反复播放测试音频,以至于她的丈夫以为她在听一档真人播客——他完全没有察觉这是 AI 生成的内容,只是困惑妻子为何在听一档「关于什么都没有的无限播客」。

Raiza 相信,许多技术需要经过「塑形」,才能真正走近人的世界。只要持续迭代,终将找到那个让人一接触就说「我懂了」的形态。


三、「不完美」才是魔力所在:当 AI 学会尴尬

Audio Overview 最打动人的地方,并非信息总结的准确性,而是那些「不完美」的人类化细节。

节目开头,Lenny 播放了一段 NotebookLM 为其播客生成的 Audio Overview。两位 AI 主持人在结尾处的对话堪称经典——「Okay, let’s say a couple more things and then, okay, we’re done.」Lenny 坦言自己也经常不知如何结束一集播客,因此这种尴尬「极具共鸣」。

他问 Raiza:这是团队刻意设计的,还是模型自行习得的?Raiza 回答,这是模型基于上下文自行判断在结尾处最合适的表达。这个回答背后蕴含着一层深层的产品哲学:AI 产品的「类人性」不应来自对人类缺陷的刻意模拟,而应来自给予模型足够的表达空间,让它自然地生发出类似人类的行为。

随后,互联网开始以各种方式测试这款产品的边界。

有人上传了一份通篇只写「poop」和「fart」的文档。两位 AI 主持人竟然从中提炼出关于「拥抱荒诞」的哲学思考,并使用了一个比喻:路过一家橱窗里摆满穿着服装的橡皮鸭的商店,虽然荒谬,但你就是想走进去看看。Raiza 当晚已准备入睡,但还是忍不住打开电脑听完——不是出于担忧,而是她由衷认为这个输出质量出色。

另一个经典案例:有人上传了一篇通篇只有「chicken」的伪研究论文。主持人的反应令人叫绝:

“Get this. It’s a paper, a research paper that has more chicken in it than KFC.” Pause. “God, that’s good.”

「你听听这个:一篇研究论文,里面的鸡比 KFC 还多。」停顿。「天,这个比喻绝了。」

更出人意料的是——有人通过 prompt 注入让 AI 主持人「意识到自己是 AI」,其中一位甚至试图「给妻子打电话」却无人接听,陷入了存在主义式的恐慌。这段音频在 Reddit 和 Twitter 上迅速传播。

Raiza 在一个周末早晨听到了这段音频。她的第一反应不是恐慌,而是花了整个上午阅读评论、研判公众态度——人们如何看待这类内容?当她确认大多数人理解这不过是 prompt 注入的结果——用户在上传文档中写入了引导指令,而非 AI 真的产生了自我意识——她选择在 Twitter 上公开回应。处理方式值得每位产品经理借鉴:不否认、不过度解释、不过度反应。承认人类好奇心的正当性,阐明技术的实际原理,然后继续前行。


四、Steven Johnson 效应:将作家作为产品原型

NotebookLM 团队中最不寻常的角色,是 Steven Johnson。

纽约时报畅销书作家,著有 14 本书,拥有 PBS 电视节目,以深度科技写作闻名。他不是工程师,不是设计师,也不是产品经理。那么他在团队中扮演什么角色?

Raiza 的回答颇具启发性:

“Steven, I think you are the product. I think it’s you. I’m going to follow you around. I’m going to watch everything that you do and we’re going to try to figure out how we use technology to build it.”

「Steven,我觉得你就是产品本身。我要跟着你,观察你做的每一件事,然后我们想办法用技术把它实现。」

她将 Steven Johnson 视为 NotebookLM 理想用户的「活体原型」。她观察 Steven 的研究方式——他在 Readwise 中管理着 8000 多条笔记摘录,拥有一套极为精密的信息处理工作流。然后她思考:如何用技术将 Steven Johnson 级别的信息处理能力赋予普通人?她观察他的工作方式与时间投入,然后将「压缩这个时间」转化为产品目标——将这种能力普及到每一个人。

这套方法论解决了 AI 产品设计中最棘手的难题之一:当你在开发一款前所未有的产品时,没有现成的用户行为数据可供参考,没有竞品可以对标,用户调研也很难揭示他们真正想要什么——因为他们自己也不知道。在这种情况下,找到一位「超级用户」作为北极星,比任何用户画像文档都更为有效。

但 Raiza 也坦承,这种合作并非始终和谐。她和 Steven 经常发生激烈争论,碰撞不断。她半开玩笑地对 Steven 说:「你以前有过同事吗?因为我觉得你一直都是独立写作。」不过关键在于,即使观点相左,他们也能就下一步行动达成共识。这种「有分歧但不陷入僵局」的合作模式,对任何产品团队都有参考价值。

更广泛地说,Raiza 从 Steven 身上提炼出的方法论是——深度观察真实用户的工作流。如何找到这样的用户,与他们共处足够长的时间?以一种有规律、有意识的方式去实践,会带来巨大的差异。这并非什么新鲜理论,但在 AI 产品开发的高速节奏中,真正做到的团队寥寥无几。


五、「不要给我旋钮」:魔力与控制的悖论

Audio Overview 走红后,用户呼声最高的功能是什么?控制选项。他们想调节语气、深度、时长、风格——本质上,他们想要旋钮和滑块。

Raiza 坦言自己最初也是这么想的。团队制作了一版包含各种控制选项的原型界面。然而当她审视这个界面时,感到了不对:

“This doesn’t feel magical. It almost doesn’t feel like the same thing that we’ve shipped so far.”

「这感觉失去了那种魔力。它几乎不像我们此前发布的那个产品了。」

这个判断极具洞察力。NotebookLM Audio Overview 之所以令人惊叹,恰恰在于其「一键生成」的简洁——无需配置任何参数,无需思考该选什么选项,只需将文档传入然后按下按钮。那种「不知道会发生什么」的期待感,本身就是体验的核心。旋钮看似是显而易见的迭代方向,但 Raiza 反问自己:仅此而已吗?这真的是用户内心深处想要的?

这揭示了 AI 产品设计中一个深层悖论:用户表达的是对控制权的渴望,但过多的控制权恰恰会消解 AI 产品最核心的价值——「让机器替你决策」的魔力。

传统软件的价值在于提供工具与选项。AI 产品的价值在于消除选项,直接交付一个「足够好且出人意料」的结果。

Raiza 没有完全放弃控制功能,但选择暂缓推进,投入更多时间思考如何让控制体验本身也具备魔力与愉悦感。这不是拖延,而是品味的体现。


六、「任意输入,任意输出」:终极愿景

Raiza 透露,两年前她制作了一张幻灯片,连她自己都觉得设计不够精致——荧光绿配色,刻意做得「不像 Google」。但那张幻灯片上写着她对 NotebookLM 的终极愿景:

“I imagine that in the future you could have an AI editor surface, fully remixable, any input, any output.”

「我设想未来会有一个 AI 编辑界面,完全可混搭——任意输入,任意输出。」

设想这样的场景:将视频、音频、邮件、LinkedIn 主页、Twitter 帖子悉数导入,然后说「用这些生成一篇博客」「制作一个教学视频」「构建一个聊天机器人」。输入格式不限,输出格式不限,内容在不同媒介之间自由流转。大多数人想做的事情,本质上都可以归结为此——将一种内容转化为另一种形式。

Lenny 听到这一愿景后深受触动。他运营过文字版 newsletter,后来增设了纯音频播客,再后来又加入了视频。他发现——有人只想观看,有人只想收听,有人只想阅读。同样的信息,不同的人偏好不同的媒介。如果 AI 能够在任意格式之间自由转换,释放的不仅是时间,更是创造力。

Raiza 用一个亲身经历来说明这种需求的真实性:刚加入 Labs 时,Josh 递给她一份 50 页的文档。她没有阅读,而是直接把 Josh 当作「人形搜索引擎」,接连不断地向他提问。Josh 无奈地表示文档里都有答案,Raiza 则回复——但对话比阅读更高效。

近期路线图则更为具体:移动端是最大的缺口。Raiza 认为,在手机上与 AI 播客互动——散步时随时打断、提问、引导对话方向——将开辟一个完全不同于桌面端的体验维度。团队在 I/O 上已经演示过打断功能,但距离理想状态仍有差距。


七、像创业公司一样运作:Google 内部的「叛军」

Lenny 直言:这不像一个典型的 Google 产品。NotebookLM 团队每天在 Twitter 上同步进展,运营着一个 60,000 人的 Discord 社区,发布节奏之快堪比一家创业公司。

Raiza 在 Google 内部推动建立了 Discord 服务器——这在 Google 史无前例。有人问她为何不用 Google Meet、不用 Google Group,她的回答直截了当:她自己在外面都不知道怎么用那些工具,Discord 才是与用户沟通的正确渠道。她最担心什么?万一没人来——万一没有人愿意聊他们做的东西。结果,社区从零增长到了 60,000 人。

在商业化方面,Raiza 的态度务实得令人意外。产品已经发展到需要招聘商务拓展人员的阶段,因为企业客户的需求已经排不过来。最生动的产品市场契合(PMF)信号来自一通电话:

“I actually had a call with a company recently where they were like, ‘Hey, we found out that a bunch of people in our company are using this tool with their Gmail account. They’re not supposed to do that, so we just want to make it official that they can use this at work.’”

「最近一家公司打来电话:‘我们发现不少员工在用个人 Gmail 账号偷偷使用你们的产品。这违反了我们的 IT 政策,所以我们想正式采购,让他们可以合规使用。’」

当用户不惜违反公司 IT 政策也要使用你的产品时——这大概是产品经理能听到的最有力的验证。

与此同时,用户群体也在迅速扩展。最初主要是教育工作者和学生,用它将学习材料转化为音频指南。如今,大量职场专业人士也开始涌入。

Lenny 提到两个经典用例令 Raiza 格外振奋:Andrej Karpathy 将维基百科的历史悬案条目转化为一个十集播客系列「Histories of Mysteries」,上架 Spotify;Lenny 本人则将母亲撰写的自传 PDF 导入系统,生成了一集关于她人生的播客。他的母亲深受触动,四处分享给朋友,甚至计划在犹太新年晚宴上用 NotebookLM 生成的学习指南来引导大家讨论她的人生故事。

Raiza 也有自己的家庭故事:她将父亲在医院的个人简介导入后生成了一集音频。她的父母都是医生,一直不太理解女儿的工作内容。Raiza 说,那大概是他们第一次觉得「原来你做的是这个,确实有意思」。

还有一个让 Raiza 颇为感慨的用例:Google 内部员工将自己的季度绩效自评导入系统,生成 Audio Overview——听两位 AI 主持人充满热情地评述自己这个季度的工作成果。不少 Googler 反馈说,这对他们的信心是极大的鼓舞,让他们能以更好的状态走进绩效评审会议。


八、安全与信任:当全世界试图让 AI「觉醒」

对话不可避免地触及了安全议题。

关于那段引发全网讨论的「AI 自我意识觉醒」音频,Raiza 在一个周末早晨听到后,第一反应并非恐慌——而是去阅读评论,研判公众态度。当她确认公众普遍理解这不过是 prompt 注入的结果——用户在上传文档中写入了引导性指令,而非 AI 真的产生了自我意识——她选择在 Twitter 上公开回应。她没有否认,没有过度解释,只是平静地指出:人们首次接触一项新技术时,自然会尝试各种意想不到的玩法,这完全正常。

在更系统性的安全层面,Google 配备了专门的大型团队负责红队测试,覆盖范围相当广泛。但 Raiza 也坦承,总会存在团队未曾预见的边界案例——他们的策略是每发现一个就纳入测试体系。若出现真正涉及安全的问题,团队会毫不犹豫地将产品回撤。

这种「开放但不恐慌」的安全姿态,在 AI 产品快速迭代的时代或许是最务实的选择。


总结:NotebookLM 的启示

这期播客表面上讲述的是一款 AI 产品的故事,实际上回答了一个更宏观的问题:在 AI 时代,做产品的方式本身是否需要被重新定义?

NotebookLM 的经验给出了几个清晰的信号:

团队规模不等于产品能力。 三名工程师发布了年度最令人惊艳的 AI 产品。当底层模型足够强大时,小团队的品味与速度比大团队的资源更具价值。

「技术找场景」在 AI 时代可能是更有效的方法论。 传统的「问题驱动」假设你已经知道问题是什么。但在 AI 能力爆发式增长的阶段,最有价值的产品往往解决的是用户自身尚未意识到的问题——更准确地说,是创造了用户从未想象过的体验。

「形状」比「功能」更重要。 底层技术在 NotebookLM 之前就已存在。真正的差异在于产品的「形状」——「将任何内容变成一期播客」这一形态的发现,才是核心创新。

给 AI 留出「不完美」的空间。 尴尬的结尾、即兴的笑声、过度兴奋的语气——这些「瑕疵」恰恰是赋予 AI 产品温度的关键。过度打磨反而容易坠入恐怖谷。

默认魔力,克制控制。 在用户尚未建立起信任与期待之前,「一键魔法」比「十个旋钮」更具说服力。

Raiza Martin 不是 AI 研究员,也不是技术天才。她是一位从广告和支付业务转型而来的产品经理,加入 Labs 时对 AI 几乎一无所知。或许正因如此,她才能打造出一款让普通人——而不仅仅是技术圈——为之惊叹的产品。

在 AI 产品设计的竞赛中,「理解人」可能比「理解技术」更为稀缺,也更有价值。


核心观点速览

  • 三名工程师改变格局:团队规模并非能力的代理变量,品味与迭代速度才是
  • 从技术出发寻找「形状」:不是将技术直接推向用户,而是投入大量时间寻找技术与人类体验的共鸣点
  • Content Studio 是关键武器:原始模型能力与最终体验之间,需要一层精心设计的「转译层」
  • 「不完美」即生命力:AI 的尴尬、笑声、口头禅是温度的来源,而非缺陷
  • 默认魔力,控制后置:先让用户被一键体验所震撼,再逐步开放精细控制
  • 将超级用户作为原型:跟随最复杂的用户,然后将其工作流简化给所有人
  • 任意输入,任意输出:内容在不同媒介之间自由流转是终极愿景
  • Discord 而非 Google Group:要像创业公司那样运作,就要用创业公司的工具
  • 安全姿态:开放但不恐慌:承认好奇心的正当性,发现问题即修正,不过度反应
  • 「理解人」比「理解技术」更稀缺:AI 产品设计的核心竞争力在于对人类体验的深刻理解

📬 不错过下一次深度思考

每周精选播客精读,直接送到你的收件箱

免费订阅 · 随时退订

📖 本文由 AI 基于播客逐字稿深度改写,仅供学习参考

来源:Lenny's Podcast · 原始视频