首页 / 张小珺播客

谢赛宁七小时马拉松访谈:从表征学习到世界模型,一位非典型AI科学家的思考

🎧 收听原始播客

https://www.youtube.com/watch?v=rIwgZWzUKm8

🎙️ 谢赛宁 📅 2026年3月15日 ⏱️ 30 分钟阅读 🎧 约420min
AI世界模型JEPA创业Yann LeCun
谢赛宁七小时马拉松访谈:从表征学习到世界模型,一位非典型AI科学家的思考

编者按

七个小时的马拉松对话,在播客界几乎闻所未闻。张小珺与谢赛宁的这场访谈,从上海交大的本科岁月一路聊到刚刚创立的世界模型公司,覆盖了一位计算机视觉研究者十五年的学术生涯与思想演进。谢赛宁不是那种擅长制造金句的明星科学家,他更像一个执着于底层逻辑的工匠——从博士阶段的边缘检测到何恺明合作的残差网络,从自监督学习的潮起潮落到 DiT 架构对视频生成的深远影响,再到与 Yann LeCun 联手创业,试图构建真正理解物理世界的"预测大脑"。这篇文章试图忠实地还原这场超长对话中最有价值的思想脉络,帮助读者在信息洪流中抓住那些真正重要的判断。

从上海交大 ACM 班到加州:一个非典型 AI 研究者的起点

谢赛宁的学术起点是上海交通大学 ACM 班。这个以计算机竞赛闻名的精英班级,培养出了一批日后活跃在硅谷和学术界的华人技术人才。在本科时期,班里的同学们一起研读 Douglas Hofstadter 的《哥德尔、艾舍尔、巴赫》,那本关于数学、音乐与绘画之间深层联系的厚书,虽然当时没人真正读懂,但它种下了跨学科思考的种子。谢赛宁后来推荐的另一本书《禅与摩托车维修艺术》,也透露出他对"本质追问"的偏好——这本书让他感到被"掏空",促使他思考什么才是真正重要的东西。他说有些书和电影会把你填满,有些会把你掏空,而后者往往才是真正触动你的。

来到美国后,谢赛宁在加州大学圣地亚哥分校(UCSD)攻读博士,师从 Zhuowen Tu。他的研究主线从一开始就锚定在表征学习上。博士阶段的第一篇重要工作是 DSN(Deeply-Supervised Nets)和 HED(Holistically-Nested Edge Detection),一个关于边缘检测的深度监督网络。这篇工作的核心思想看似简单:在网络的中间层也施加监督信号,让每一层都学到有意义的表征。这个"深度监督"的直觉后来反复出现在他的研究中——从 DSN 到十年后的 REPA,同一个思想以不同形式贯穿始终。谢赛宁自己也感叹,学术生涯走了一个巨大的螺旋,最终回到了起点的那个直觉。

谢赛宁在访谈中多次强调一个信念:表征是智能最重要的组成部分。无论是做边缘检测还是后来的图像分类、自监督学习、扩散模型,他始终在追问同一个问题——如何学到一个好的、层级化的表征。他认为层级化的表征是一个抽象过程,而抽象过程本身就是泛化的过程,这与语言模型在纯语义空间中操作是截然不同的范式。他甚至将计算机视觉重新定义为一种"视角"(perspective),而非一个具体的领域或任务。Vision 这个词的双重含义——既是视力,也是远见——恰好概括了他对这个学科的理解:计算机视觉关心的是连续空间中高维、有噪声信号的建模,是智能必须解决的一组根本性问题。

何恺明与 ResNeXt:FAIR 黄金年代的合作样本

谢赛宁职业生涯中最重要的合作者之一是何恺明(Kaiming He)。两人在 Facebook AI Research(FAIR)共事期间产出了一系列高影响力的工作,其中 ResNeXt 是对卷积网络架构的一次重要探索。ResNeXt 的核心思想是用分组卷积的方式来增加网络的"基数"(cardinality),在保持计算量大致相同的前提下提升模型性能。

谢赛宁谈到何恺明时充满敬意。他说何恺明具有一种"反脆弱"的特质——这个源自 Nassim Taleb 的概念意味着,当遇到意外或挫折时,获得的收益大于损失。何恺明在研究中的表现正是如此:当某个方向不奏效时,他不会气馁,只是换个方向继续尝试。谢赛宁认为这种心态对研究者极其重要。何恺明还告诉他,真正投入的研究者应该醒来在想问题、吃饭在想问题、洗澡在想问题——也许睡觉可以暂停一下——但你是否真正对一个问题有这种程度的热情,是区分人与人的标尺。

谢赛宁从何恺明身上学到的另一个重要理念是对大规模模型的信念。何恺明很早就开始思考如何让模型更大、更强,这种对 scaling 的直觉在后来的 AI 发展中被反复验证。

FAIR 黄金年代与自由探索的研究文化

谢赛宁在 FAIR 度过了他研究生涯中最高产的阶段。他描述的那个时代的 FAIR,是一个研究者的天堂:自下而上的研究方向选择,充分的自由度,优秀的同事,以及来自公司的充足资源支持。在这种文化下,研究者可以凭自己的判断选择方向,不需要经历冗长的"对齐会议"来决定下一步做什么。

谢赛宁将这种研究模式与后来的变化做了鲜明对比。好的研究文化应该是自下而上的:每个研究者根据自己的判断和品味选择方向,然后通过成果来验证判断。这种模式孕育了 ResNeXt、MoCo、MAE 等一系列有影响力的工作。FAIR 的黄金年代证明了一个道理:给最优秀的人足够的自由和资源,他们自然能产出最好的工作。

但这种文化的基础是脆弱的。它依赖于组织对长期研究价值的信念,一旦外部竞争格局发生剧变,这种信念就会动摇。

自监督学习的起落:从 MoCo 到 MAE 的探索

自监督学习是谢赛宁研究生涯中的一条重要主线。MoCo(Momentum Contrast)和 MAE(Masked Autoencoders)都是他参与的里程碑式工作。这些工作的核心追问是:能否不依赖人工标注,仅从数据本身学到好的视觉表征?

谢赛宁坦诚地回顾了这段历程的起伏。早期的自监督学习方法确实展现了巨大潜力,MoCo 通过对比学习的方式在不使用标签的情况下学到了强大的视觉表征。MAE 则走了一条不同的路——通过遮盖图像的大部分区域,让模型学会重建被遮盖的内容,从而学到有意义的表征。

但谢赛宁也诚实地承认,自监督学习在视觉领域并没有像语言模型那样实现 scaling law 式的突破。他后来在做 DiT 的前期探索时发现,扩散模型学到的表征虽然不错,但与自监督学习模型学到的表征相比,差距仍然很大,"完全没有竞争力"。这个发现让他们放弃了原来的方向,但也意外地开启了 DiT 的故事。

谢赛宁对自监督学习的思考后来汇入了更大的框架。他开始认为,自监督学习不应该被视为一种孤立的技术路线,而是通向世界模型的必经之路。JEPA——Yann LeCun 提出的联合嵌入预测架构——正是这种思考的延伸:在抽象的表征空间中做预测,而不是在像素空间中做重建。

DiT 的诞生:一篇被拒稿改变视频生成未来的论文

DiT(Diffusion Transformer)的诞生故事是这场访谈中最引人入胜的段落之一。它展示了好的研究往往不是按计划产生的,而是在探索过程中意外发现的。

故事要从谢赛宁在 FAIR 的最后阶段说起。当时他招了一个实习生 Bill Peebles——后来成为 Sora 的负责人。两人最初的目标并不是做扩散模型或 DiT,而是想研究扩散模型学到的表征与自监督学习模型学到的表征有何不同。为了在表征层面进行公平比较,他们用 ViT(Vision Transformer)替代了当时扩散模型普遍使用的 U-Net 架构。

"In the process, in the final month, we discovered, hey, by the way, this thing — from the representation angle, this doesn't seem to add much value, but it seems like our new architecture is indeed more efficient, and indeed more scalable, more stable than U-Net."

"在这个过程中,最后一个月我们发现,从表征角度看这东西没什么附加值,但我们的新架构确实更高效,确实比 U-Net 更可扩展、更稳定。"

谢赛宁特别强调了他对代码简洁性的执念。他引用了"最小描述长度"(Minimal Description Length)的概念:如果你的代码更短,却能达到同样的目的,那你的方法通常会比那些需要几千行代码的复杂系统更好。DiT 的代码极其简洁,这本身就是一种研究品味的体现。

然而这篇论文的命运颇为曲折。首次投稿 CVPR 被拒,理由是"创新不足"——因为方法太简单,没有大段的数学推导,没有复杂的结构设计。LeCun 还为此发了推特吐槽审稿人。但他们没有修改任何内容,原封不动地投到另一个会议,结果被接收为 Oral Paper。谢赛宁感慨,这再次证明了学术论文的审稿是一个"完全随机的过程"。

更有趣的是论文发表后的遭遇。尽管 DiT 在推特上引发了大量讨论,但一开始没有人真正在产品中使用它。谢赛宁主动联系了 Stable Diffusion 的团队和其他大公司,试图推广这一架构。直到 Sora 的技术博客明确提到了 DiT 作为骨干架构,这篇工作才获得了真正的行业认可。如今,几乎所有主流的视频生成模型都使用 DiT 作为基础架构。

值得一提的是,这篇论文的署名只有 NYU 和 Berkeley,因为 FAIR 认为这只是一篇普通论文,而且谢赛宁已经离开,所以不让挂名。讽刺的是,这篇"普通论文"后来成为了视频生成领域最有影响力的架构工作之一。

FAIR 的衰落与 ChatGPT 的冲击

ChatGPT 的横空出世对 FAIR 产生了深远的影响。谢赛宁详细描述了这种文化转变:当 OpenAI 和 DeepMind 取得了 FAIR 内部"没人敢想"的成就后,整个组织开始反思自己的研究模式。

变化是剧烈的。原本自下而上、自由探索的研究文化,被替换成了持续数周的"对齐会议"——所有人坐在一起讨论未来一两年应该做什么研究项目。但这些会议开了好几个星期也得不出结论,因为没有人真正知道该做什么。在谢赛宁看来,这种自上而下的研究组织方式是"完全反研究的"。

"Now it had become, let's all sit together and discuss what research project we should do over the next one or two years. In my view, or in Kaiming's view, or in the minds of many researchers, this looks completely anti-research."

"现在变成了所有人坐在一起讨论未来一两年该做什么研究项目。在我看来,在何恺明看来,在很多研究者看来,这完全是反研究的。"

就在这种环境中,谢赛宁坚持推进 DiT 的工作,面临了不小的阻力。同事们认为应该集中资源做"更有意义的大项目",扩散模型不在优先路径上。但谢赛宁凭借自己多年做架构工作的直觉,坚信这是扩散模型架构的未来。

这段经历也让谢赛宁对学术界与工业界的关系有了更深的思考。他注意到一个令人担忧的趋势:工业研究实验室变得越来越封闭。从早期的发表论文,到后来只能写博客,再到博客上也不能列作者名字,只能写"OpenAI Team"或"Gemini Team"。这种趋势正在侵蚀学术界几十年来赖以运转的信用分配机制。做研究从根本上是一种爱的劳动——研究者探索这些问题不是因为能交付产品或赚多少钱,而某种信用分配(让每个人知道谁做了什么)是支撑学术前进的核心机制。现在这个机制正在被这一代模型及其背后的组织结构逐渐侵蚀。整个 AI 产业存在一条巨大的价值链,顶端是 AGI、Scaling Law、LLM 的叙事,这些叙事定义了一系列 benchmark,benchmark 定义了资源分配,而资源分配已经偏离了研究者认为对或错的方向。

NYU 学术生涯:资源匮乏中的创造力

从 FAIR 转到 NYU 做助理教授,谢赛宁面临的最大挑战是资源的急剧缩减。他坦诚地描述了美国青年教授的困境:NSF 的资助平均每年只有十万美元,企业赞助也因为 LLM 时代的到来而大幅缩水,一百个教授竞争十万美元的资助,这些钱只够支付一个学生一年的学费,或者买半台 H100。

但谢赛宁把这种困境转化为动力。他像创业者一样四处筹集资源——飞到湾区,在 Google 园区旁的小径上和合作者一边徒步一边"募资",说服对方在 TPU 上建立长期合作关系。他把这个过程自嘲为"化缘",但正是这种化缘精神,让他的学生们(Peter Tong、Boyang Zheng、Shusheng Yang 等)在 TPU 上做出了一系列重要贡献。

在 NYU 期间,谢赛宁推出了 Cambrian 项目,继续他对多模态视觉表征的探索。后续的 Cambrian-S 将研究扩展到视频理解领域。他从贾樟柯和毕赣两位中国导演的电影中获得灵感——毕赣《路边野餐》中的长镜头让他思考视频作为视觉理解媒介的本质意义,而贾樟柯关于电影时间线的观点更让他醍醐灌顶:在时间序列的每一个点上,你需要一个空间来延展它的时间;每一帧画面背后代表的是整个空间的全局信息,这完全超越了单个镜头所编码的孤立信息。

他还在 NYU 期间完成了 V* 的工作——在多模态系统中构建"系统二"思维,实现测试时的计算扩展。这个工作比 OpenAI 的 o1 还早几个月,但后来 OpenAI 的两位研究者(SAM 作者 Alex Kirillov 和 Bowen Cheng)在内部推动了类似的项目"Think with Image",其中大量使用了 V* 论文中的 benchmark。这让谢赛宁感到既欣慰——学术工作能启发工业实验室改进产品,又苦涩——因为在日益封闭的环境中,这种学术贡献越来越难被公开承认。

视觉 vs 语言的 Scaling Law 差异:为什么视觉可能不需要 Scaling Law

这是访谈中最具思辨性的段落之一。谢赛宁提出了一个看似激进实则深刻的观点:视觉可能根本不需要像语言模型那样的 Scaling Law。

他的论证逻辑如下:语言模型的 Scaling Law 本质上是建立在知识表示之上的。语言本身是人类几千年文明演化的产物,是对世界知识的一种高度压缩的、符号化的存储形式。互联网让这些知识变得免费可得,但"免费不代表没有标签"。语言模型的训练实际上是一个强监督过程——每一句话、每一个词都是人类写的,天然携带了人类的认知结构。

"Language is what humans over the past few thousand years of civilization, through continuous evolution... processed everything about this world and stored it in a tokenized form."

"语言是人类过去几千年文明中,通过持续演化……将关于这个世界的一切处理并以符号化的形式存储下来。"

因此语言模型需要足够多的参数来"记住"这些知识,数据量和参数量需要大致 1:1 的比例。但视觉世界模型的需求完全不同——它不需要记住世界上每一个细微的视觉细节,不需要在极高维空间中求解某个确定性方程来判断苹果是否会掉落。它需要的是好的理解能力、信息过滤能力,因为最终真正重要的是决策本身。

他引用了一个惊人的对比:人类所有感官系统(视觉、听觉、嗅觉、触觉)的带宽加起来可能达到每秒十亿比特,但我们说话时的带宽只有每秒十到一百比特。人脑在二十瓦功率下,将十亿比特每秒的输入转化为十比特每秒的行为输出——这个巨大的压缩比就是世界模型在做的事情:过滤大量无用信息和噪声,知道什么重要、什么不重要。

世界模型哲学:从 1943 年到 JEPA 的认知架构

谢赛宁用了大量篇幅阐述世界模型的定义、历史和哲学基础。他追溯到 1943 年苏格兰心理学家 Kenneth Craik 首次提出的概念:人类脑中存在一个世界模型,它能告诉我们当采取某个行动时会有什么后果,因此能指导我们做出正确的决策。

从控制论到强化学习,世界模型的思想一脉相承。经典的模型预测控制(MPC)算法就是一种世界模型的应用:在当前时刻,通过模型向前展开,预测接下来 k 步的状态,然后选择成本最低的动作序列执行第一步,再反复迭代。Richard Sutton 在经典论文 Dyna 中也区分了"反应式策略"和"基于模型的策略",对应人类认知中的系统一和系统二。

谢赛宁给出了世界模型的严格定义:给定系统状态 S_t 和动作 a_t,学习一个转移函数 F 来预测下一个状态。但他更关心的是这个定义背后的哲学含义——表征(representation)与状态(state)之间的深层联系。

状态是能描述系统所有信息的最小信息单元。以一个房间为例,你不需要精确刻画桌子的纹理、灯光的每一个细节——你只需要知道对决策有用的基本事实。这种信息过滤和抽象的过程,正是层级化表征学习在做的事情。他以飞机建模为例:你不会从分子碰撞的层面去模拟飞机的动力系统,而是通过流体力学等越来越抽象的方式来刻画系统——世界因此变得可建模。

谢赛宁将当前 AI 领域的各方力量都解读为通向世界模型的不同路径:视频生成公司(Sora、Runway、Luma)在构建"世界模拟器";李飞飞的 World Labs 在构建 3D 资产的强表征前端;而他和 LeCun 要做的,是构建"预测大脑"——一个真正能增强智能本身的系统。他反复强调,世界模型是一个目标,不是一个具体的算法或技术路线。

AMI Labs 创业:与 LeCun 联手构建预测大脑

创业的决定带有谢赛宁自称的"玄学"色彩。一位投资人朋友建议他去找 Yann LeCun 聊聊。两周后的一对一会议上,不等谢赛宁开口,LeCun 就说:"先别告诉任何人,但我已经决定了——我现在想做的事,应该在外面做。"

两人对世界模型的愿景高度一致。谢赛宁意识到,他想做的事情在全世界任何现有组织中都无法完成——不是纯学术的自由探索,不是老 FAIR 式的工业研究,也不是湾区大公司那种完全封闭的模式。它需要足够的研究深度,又需要超越学术的资源和执行力。

公司有六位联合创始人,团队初始规模约 25 人。为了加入这家公司,有同事放弃了数千万美元的 OpenAI 未兑现股票,也有人放弃了 Meta 一千五百万到两千万美元的 offer。谢赛宁认为这是使命驱动的力量——每个人都相信这是唯一能做这件事的地方。

"I also want to say to them, when you finish building that model, come check us out."

"我也想对他们说,当你们把那个模型建完了,来看看我们在做什么。"

公司选址纽约而非硅谷,这是一个刻意的选择。谢赛宁认为硅谷已经被大语言模型"催眠"了——那里的文化就是产品、产品、产品,所有人都在竞速,研究探索的氧气已经被挤干。而纽约是一个"更真实的世界",它的多样性——金融、媒体、时尚、医疗——能激发跨学科的思考。谢赛宁每天步行穿过华盛顿广场公园去上班,看到街头弹钢琴的艺人、推婴儿车的母亲、下棋的老人和发呆的年轻人,这些场景让他意识到:世界比我们想象的大得多,不是所有人都关心 AI 是什么,但 AI 终将影响他们的生活。

关于融资目标,谢赛宁半开玩笑地说"大概十亿美元左右",估值 30 亿美元 pre-money。但他强调这些钱仍然非常珍贵,不能像在 Meta 或 Google 那样挥霍。公司最终会面向消费级产品,但前期不会给自己施加产品压力——先把世界模型做出来。路线图能清晰规划到一年就已经很好了,"伟大不可被规划"。

谢赛宁描述了他为公司设想的两个产品出口。第一个是 AI 眼镜类的个人助手——一种始终在线、持续摄入视觉流的可穿戴设备。他以智能手表为例:它始终在线,监测心率等体征信号,但这些原始信息本身对用户毫无意义,需要智能决策来告诉你"你最近压力太大了"或"你的睡眠质量在下降"。这就是最基础的世界模型雏形,只是它能获取的信息太狭窄了。如果未来有设备能以完全实时的方式看到我们所能看到的一切——无限 token 流入系统——那将产生巨大的应用价值。第二个出口是 Robotics,但不是自己做硬件,而是为机器人提供大脑。

大语言模型是反 Bitter Lesson 的:一个反直觉的论断

在 AI 领域,Rich Sutton 的"The Bitter Lesson"(苦涩的教训)被广泛引用:应该尽可能减少人类知识的注入,而是通过搜索和学习来寻找答案。很多人将大语言模型的成功视为 Bitter Lesson 的终极证明。但谢赛宁的观点恰恰相反——他认为大语言模型实际上是反 Bitter Lesson 的。

他的论证令人耳目一新:语言本身就是一个极其精巧的人类产物。它不是"多一点或少一点"人类知识的问题,它全部是人类知识。语言有精细的设计,有语法、有逻辑、有约定俗成的表达方式。当你用语言训练模型时,你实际上在注入人类几千年积累的认知结构。这与 Bitter Lesson 所倡导的"最小化人类先验"背道而驰。

真正符合 Bitter Lesson 的,应该是在连续空间中直接学习——从像素到表征,从感知到决策,尽可能少地依赖人类定义的离散符号系统。视频生成模型比语言模型更 Bitter Lesson,因为它开始直接建模像素而非语义标签。但即使像素本身,也是人类定义的规则网格(每个格子 8 位信息)——这也是为人类观看而设计的界面,而非为智能系统设计的。真正的 Bitter Lesson 应该是:我甚至不需要为人类生成好看的视频,世界模型本身只需要自发地学习更好的表征、做更好的预测。

谢赛宁还指出了一个重要的推论:当前对 LLM 的安全对齐方式(通过微调来告诉模型什么能做什么不能做)是根本有缺陷的,因为它缺乏真正的世界模型。一个真正的世界模型不需要这种事后微调,因为它能预测行为的后果——比如一个拿刀切菜的机器人,不需要被喂入大量数据来学习"不要转身砍人",它只需要能预见这个动作的后果就够了。

机器人大脑与 Robotics:解决大脑问题,而非硬件问题

谢赛宁对机器人领域有着独特的定位:他最想实现的目标是"不做 Robotics 来解决 Robotics 问题"。这不是回避,而是认为当前机器人领域最大的瓶颈不在硬件——春晚上宇树科技的展示已经证明了硬件的进步——而在"大脑"。

他把 AI 领域描绘为两个极端之间的光谱:左端是 LLM,擅长在数字空间中运作;右端是真正通用的 Robotics,必须在物理世界中实现泛化。如何从 LLM 一步步延伸到 Robotics,是视觉智能需要解决的核心问题。

谢赛宁指出了一个令人清醒的现实:在网上看机器人演示和私下与机器人产业研究者交谈,感受完全不同。后者愿意告诉他现有系统的真正短板在哪里。他认为几乎所有的机器人创业公司和大公司的机器人部门,都还没有解决"大脑"问题——它们要么基于 LLM 的 VLA 框架,要么在做硬件层面的 scaling,但没有人在做真正的"预训练第二半场"。

在 REPA(Representation Alignment)和 RAE(Representation Autoencoder)等工作中,谢赛宁展示了表征学习如何连接生成模型与理解模型。他引用马毅教授在香港访问时的一段话来阐释高维表征的重要性:"你绝不要害怕高维度。高维空间中,很多低维空间无法解决的问题现在可以解决了。"

Rich Sutton 的松鼠智能论与 AGI 伪命题

访谈中最发人深省的段落之一,是谢赛宁引述强化学习之父 Rich Sutton 在一个播客中的观点。当人们称赞 LLM 能写代码、能拿 IMO 金牌、能帮人类上火星时,Sutton 的回答出人意料:

"You think these things are great and impressive? That they're hard? Well, feel free to think that. Because I don't think so. I think building the intelligence of a squirrel is the hard problem."

"你觉得这些事情很厉害、很难?随便你这么想。因为我不这么认为。我认为构建一只松鼠的智能才是真正的难题。"

Sutton 认为,一旦你能构建出松鼠的智能——让它在真实世界中生存,有自己的目标,自己的内在奖励,知道饥饿,有情感,能进行社交——之后写代码、上火星这些事情反而是简单的。

谢赛宁说他"越来越强烈地同意这个观点"。他推荐了 Frans de Waal 的《我们是否聪明到能知道动物有多聪明》一书,来放下人类的傲慢。书中展示了动物智能的丰富性:黑猩猩能进行类似《纸牌屋》的权力斗争,能通过推理判断实验者吃了哪个盒子里的水果然后去拿另一个;某种鸟类(灌丛鸦)如果发现同伴看到自己藏食物,会等同伴离开后把食物挖出来重新藏到别处。

关于 AGI 是伪命题的论证,谢赛宁引用了 LeCun 在与 Demis Hassabis 辩论中的数学化论证:人类有两百万根视觉神经纤维,所有可能的视觉函数数量高达 2 的 2 的 200 次方次方,但人类实际能处理和感知的只是趋近于零的一小部分。人类智能是一种高度专化的智能,它只能感知它能看到的东西。所谓"通用智能"在数学意义上可能根本不存在。

维特根斯坦与费曼名言批判:反对引用滥用

谢赛宁在访谈末尾毫不客气地批评了 AI 论文中常见的名言滥用现象,这段吐槽充满了学者的较真与幽默。

第一个目标是维特根斯坦。很多人引用"语言的边界就是我的世界的边界"来为大语言模型或语言决定论背书。谢赛宁指出这完全是曲解:维特根斯坦在《逻辑哲学论》中讨论的"语言"指的是命题所能捕获的东西,这与今天 LLM 中的"语言"完全不同。更重要的是,维特根斯坦后期已经彻底推翻了自己早期的哲学体系,转而提出了"语言游戏"的概念——语言符号本身没有内在意义,它们之所以有意义,是因为与现实世界的实践相连接。这恰恰是世界模型的观点。

第二个目标是费曼的名言"What I cannot create, I do not understand"。谢赛宁认为这句话本身没错,但费曼说的"创造"和"理解"是在真实、具体的世界中进行的,需要某种行动。把这句话简单地用来为统一模型的扩散损失做背书,是逻辑上完全站不住脚的——你不能把"创造"简化为一个扩散模型的反向传播损失。

他自嘲道:"也许就像小时候写作文滥用名人名言一样,现在看到这些东西给我一种 PTSD 的感觉。"然后正色说,如何恺明所言,每个人都应该多读一些哲学。

个人哲学:利物浦、Klopp 与"我只是普通人"

在访谈中穿插的个人细节,勾勒出一个远比学术论文更丰富的人物形象。谢赛宁是利物浦足球俱乐部超过二十年的球迷(KOP),他最喜欢的主教练是尤尔根·克洛普。当穆里尼奥说"I am the special one"时,克洛普回应说"I'm not the special one, I'm the normal one"。谢赛宁深深认同这种姿态——他不认为自己是"天选之人",而是一个普通人,只是对问题保持着真诚的热情和执着。

克洛普在球队中的角色是"电池"——通过自己的激情和能量为他人发电。谢赛宁说他也想成为这样的人,无论是在学术团队还是创业团队中。他坦言研究者有一种底层忧郁——研究的过程大部分时间是在黑暗中摸索,真正感到喜悦的时刻可能只占百分之五到十。

关于 Yann LeCun,谢赛宁的描述充满了真挚的敬佩。LeCun 有四大爱好:做模型飞机、天体摄影(Zoom 背景上的星云是他在自家后院拍的)、制作电子音乐和爵士乐鉴赏(他的个人主页上详细记录了纽约最好的爵士俱乐部)、以及帆船——他的管理哲学也来源于此:给每个人足够的信任,让他们做该做的事,只在出现波动时及时修正航向。

最打动谢赛宁的是 LeCun 的纯粹。这位图灵奖得主在会议上会拿出手机和每个人自拍合影,私下是一个温暖的人。在他身边不会感到恐惧,即便他地位再高,你也可以直接告诉他"我觉得你说得不对"。谢赛宁说,何恺明评价 LeCun 是"一个十六岁的青春期一直延续到六十五岁的人"。

访谈的最后,主持人问:"这个世界是不是一个巨大的世界模型?"谢赛宁说当然是。"那你能预测命运吗?""不能。""为什么?""因为我们没有足够的资源。你需要一台地球那么大的计算机,或者一台整个宇宙大小的计算机,才能告诉你关于生命、宇宙和一切的答案——而那个答案可能最终是 42。"这个来自《银河系漫游指南》的梗,为这场七小时的思想漫游画上了一个既深刻又轻松的句号。

📬 不错过下一次深度思考

每周精选播客精读,直接送到你的收件箱

免费订阅 · 随时退订

📖 本文由 AI 基于播客逐字稿深度改写,仅供学习参考

来源:张小珺播客 · 原始视频