首页 / 张小珺 Podcast

Sora 信息拼图与大模型淘汰赛:戴雨森、季逸超深度对话

🎙️ 戴雨森、季逸超 📅 2024年8月17日 ⏱️ 30 分钟阅读 🎧 2h+
AISora大模型投资创业OpenAI视频生成
Sora 信息拼图与大模型淘汰赛:戴雨森、季逸超深度对话

“先烈和先驱只有一线之隔。很多时候不是那个事不靠谱,而是它太早了。”

嘉宾简介: 戴雨森是真格基金管理合伙人,前聚美优品联合创始人;季逸超(Peak)当时是真格基金 EIR,NLP 和大模型领域专家(后来成为 Manus 联合创始人兼首席科学家)。这期节目录制于 2024 年初 OpenAI 发布 Sora 和 Google 推出开源模型 Gemma 之后,两位嘉宾结合各自在投资和技术一线的观察,试图拼出 Sora 的完整信息版图。

核心观点速览:

  • Sora 的模型规模估计在 6-10B 参数量级,训练用了约一两千张 H100
  • 视频生成模型的突破比预期早了至少半年
  • AI 应用落地要有耐心——“短期高估,长期低估”
  • 创业公司不要站在大厂的主航道上,火车轨道上拦火车是自杀行为
  • 多模态大一统有价值,但也会带来更大的黑盒问题
  • 技术还不够好时”过分雕花”是陷阱——要假设终局是”神一样的模型”
  • Monica 等 AI 应用已经证明全球化 Day 1 是可行的

那个改变一切的夜晚

2024 年 2 月,北京时间凌晨两点,OpenAI 发布了 Sora。

戴雨森当时在泰国度假,本来已经要睡了。突然看到推特上刷出 OpenAI 的 Jim Leaker 推文——“哇,要变天了。“那个晚上一直聊到凌晨五点才睡。

季逸超的反应更冷静一些。他作为 NLP 出身,ChatGPT 发布时的冲击更大——“那一瞬间我意识到要变天了”。但 Sora 出来后,他心态更偏”看戏”,可以更纯粹地从技术角度思考。

但两人的共识是一致的:Sora 真正让人震撼的不是效果有多好,而是它来得太早了。 大家都知道 2024 年视频生成模型一定会有大进步,但没人想到春节还没过完就看到了这个水平。


Sora 的技术拼图

Sora 发布后,戴雨森和季逸超花了一周多时间跟十几拨技术专家聊,试图拼出 Sora 的技术全貌。

模型规模: 早期猜测是 3B 参数,后来多数人倾向于 6-10B。理由是——生成质量摆在那里,不可能太小。同时从生成时间反推(从 prompt 到出视频大概一两个小时),模型也不会太大——在实验阶段没有理由把模型搞得特别大。

训练算力: OpenAI 当时已经部署了约 20 几万张 GPU。最终训练 Sora 可能用了一两千张 H100。当然,做实验和最终训练是两回事——做实验可以用更多卡并行跑更多实验。

一个有趣的八卦: OpenAI 在中东融资时,就已经或多或少展示了 Sora 的能力。那句著名的 “what has been achieved internally”——可能就是那时候开始泄露出来的。


“世界模型”是不是真的?

这是 Sora 发布后最大的争论之一。有投资人说”第一天觉得太惊艳,后来发现也就这样——什么世界模型是假的”。

季逸超对此有清醒的判断:

LLM 是一个很聪明的盲人。现在的 Sora 可能是——虽然很会画画,但没有脑子。

他认为,单模态视频生成本身并不构成”世界模型”。真正有意义的是多模态融合——当语言理解和视觉感知打通之后,在自动驾驶、机器人等需要结合多种能力的领域,也许会诞生现在做不到的事情。

但他也提醒:当所有模态大一统之后,系统会变成一个更加密不透风的端到端黑盒。可解释性会进一步下降,可控性也会下降。

“AI 不是说我们一定非要追求一个完全的统一和完全的大一同。这还是要看场景。“


在技术还不够好的时候过分雕花

这可能是整场对话中最具前瞻性的观点之一——来自季逸超:

“我们要避免一个陷阱,就是在技术还不够好的时候过分雕花。在现有范式下,AI 应用可能一开始显得有用的时间点会比移动互联网要慢。但是一旦变得有用之后,它的扩散速度可能会远快于移动互联网。”

他举了一个例子:在 Windows Mobile 时代他就在手机上看过视频,但那个硬件和网速条件下,你能想到抖音也做不了抖音。抖音一定是在有了 4G、有了 iPhone 6 之后,有了足够的硬件软件算力之后才能做。

类似地,有人提到”三毛”(张鸣)说过的观点:你得假设有一个”神一样的模型”终究会出来,在这种情况下你能做什么样的应用?

戴雨森补充了投资视角:

“先烈和先驱只有一线之隔。很多时候其实不是那个事不靠谱,而是说它太早了。“


创业公司的生存法则

戴雨森分享了他一直以来的比喻:

“火车在它的轨道上,你要去拦它肯定不靠谱。但留在它的轨道之外——因为它没法脱离轨道——你就比较安全。”

这对所有做视频生成模型的创业公司都是巨大挑战。但他更看到机会:AI 能力在变强,意味着它可以解决更多问题、产生更多价值,而这些价值很多时候会被创业公司捕获。

“如果 AI 很弱智,模型没有进步,那创业公司你不会被它干掉。但是 AI 就没有价值了——那反而是我们更不愿看到的结果。“


真格的 AI 投资逻辑

戴雨森坦诚了真格在 AI 时代的核心逻辑:投最优秀的人,相信最优秀的人自然而然会跑进市场。

他们在 ChatGPT 之前就投了一些 AI 应用(如 H&O 等),现在用户涨得很快。ChatGPT 之后投了 Monica(浏览器插件和 App),用户数增长非常快且已经盈利。创始人是真格二次投资的创业者,除了浏览器插件,还想做更大更长远的方向。

一个有趣的问题——如果投资没赚钱怎么办?

戴雨森用了”韩潤吃包子”的比方:你不可能只吃第五个包子。SIG 投了聚美优品(没赚大钱),但因为投了聚美才能后来投到字节跳动。“如果月之暗面是张一鸣的聚美优品——如果我能投了下一个张一鸣,那至少离投字节也更近一点。“


AI 应用的时间节奏

季逸超对 AI 应用有一个重要判断:

“AI 应用它可能一开始有用的时间点会比移动互联网要慢,但是当它一旦变得有用之后,它的扩散速度可能会远快于移动互联网。”

他的意思是:移动互联网时代大家习惯了”一个应用几个月做出来,100 个公司超它”的节奏。但 AI 不一样——模型训练和迭代的时间尺度完全不同。你不能用移动互联网的速度去思考 AI 的问题。

耐心,是这场对话中反复出现的关键词。


对 GPT-5 的猜想

戴雨森和季逸超对下一代模型有几个比较确定的判断:

  • 可靠性更高,幻觉更少
  • 使用工具的能力更强(Agent 方面)
  • 可能能够操纵电脑界面(类似 Work Agent)
  • 可能是多模态类型的
  • 上下文长度更长,理解能力更强

但季逸超特别强调一点:

“Sora 给了大家一个很高的期待。年初本来有一个叙事——模型是不是到瓶颈了?因为去年实在太精彩了,大家每个月都期待有刺激的新东西。Sora 突然出来,把这个叙事打破了。“


数字永生:一个”可操作的小建议”

对话最后,季逸超抛出了一个颇具科幻感的思考:

“你把你现在年富力强时候的思路交给未来的一个 AI 的话,其实你一定能获得一个数字的永生。所以这是我给人类的一个非常可操作性的小建议。”


编者后记: 这期节目录制于 2024 年初,Sora 发布震惊业界之际。两年后回看,戴雨森和季逸超的很多判断都应验了——技术确实需要耐心等待,应用落地确实比预期慢,但一旦起飞速度确实惊人。季逸超后来创办了 Manus,做出了全球最火的 AI Agent——某种程度上,他在这期节目中所说的”假设有一个神一样的模型终究会出来”,正是 Manus 产品哲学的起点。

📖 本文由 AI 基于播客逐字稿深度改写,仅供学习参考

来源:张小珺 Podcast · 原始视频