Sora 信息拼图与大模型淘汰赛：戴雨森、季逸超深度对话

"先烈和先驱只有一线之隔。很多时候不是那个事不靠谱，而是它太早了。"

嘉宾简介： 戴雨森是真格基金管理合伙人，前聚美优品联合创始人；季逸超（Peak）当时是真格基金 EIR，NLP 和大模型领域专家（后来成为 Manus 联合创始人兼首席科学家）。这期节目录制于 2024 年初 OpenAI 发布 Sora 和 Google 推出开源模型 Gemma 之后，两位嘉宾结合各自在投资和技术一线的观察，试图拼出 Sora 的完整信息版图。

核心观点速览：

Sora 的模型规模估计在 6-10B 参数量级，训练用了约一两千张 H100
视频生成模型的突破比预期早了至少半年
AI 应用落地要有耐心——"短期高估，长期低估"
创业公司不要站在大厂的主航道上，火车轨道上拦火车是自杀行为
多模态大一统有价值，但也会带来更大的黑盒问题
技术还不够好时"过分雕花"是陷阱——要假设终局是"神一样的模型"
Monica 等 AI 应用已经证明全球化 Day 1 是可行的

那个改变一切的夜晚

2024 年 2 月，北京时间凌晨两点，OpenAI 发布了 Sora。

戴雨森当时在泰国度假，本来已经要睡了。突然看到推特上刷出 OpenAI 的 Jim Leaker 推文——"哇，要变天了。"那个晚上一直聊到凌晨五点才睡。

季逸超的反应更冷静一些。他作为 NLP 出身，ChatGPT 发布时的冲击更大——"那一瞬间我意识到要变天了"。但 Sora 出来后，他心态更偏"看戏"，可以更纯粹地从技术角度思考。

但两人的共识是一致的：Sora 真正让人震撼的不是效果有多好，而是它来得太早了。 大家都知道 2024 年视频生成模型一定会有大进步，但没人想到春节还没过完就看到了这个水平。

Sora 的技术拼图

Sora 发布后，戴雨森和季逸超花了一周多时间跟十几拨技术专家聊，试图拼出 Sora 的技术全貌。

模型规模： 早期猜测是 3B 参数，后来多数人倾向于 6-10B。理由是——生成质量摆在那里，不可能太小。同时从生成时间反推（从 prompt 到出视频大概一两个小时），模型也不会太大——在实验阶段没有理由把模型搞得特别大。

训练算力： OpenAI 当时已经部署了约 20 几万张 GPU。最终训练 Sora 可能用了一两千张 H100。当然，做实验和最终训练是两回事——做实验可以用更多卡并行跑更多实验。

一个有趣的八卦： OpenAI 在中东融资时，就已经或多或少展示了 Sora 的能力。那句著名的 "what has been achieved internally"——可能就是那时候开始泄露出来的。

"世界模型"是不是真的？

这是 Sora 发布后最大的争论之一。有投资人说"第一天觉得太惊艳，后来发现也就这样——什么世界模型是假的"。

季逸超对此有清醒的判断：

LLM 是一个很聪明的盲人。现在的 Sora 可能是——虽然很会画画，但没有脑子。

他认为，单模态视频生成本身并不构成"世界模型"。真正有意义的是多模态融合——当语言理解和视觉感知打通之后，在自动驾驶、机器人等需要结合多种能力的领域，也许会诞生现在做不到的事情。

但他也提醒：当所有模态大一统之后，系统会变成一个更加密不透风的端到端黑盒。可解释性会进一步下降，可控性也会下降。

"AI 不是说我们一定非要追求一个完全的统一和完全的大一同。这还是要看场景。"

在技术还不够好的时候过分雕花

这可能是整场对话中最具前瞻性的观点之一——来自季逸超：

"我们要避免一个陷阱，就是在技术还不够好的时候过分雕花。在现有范式下，AI 应用可能一开始显得有用的时间点会比移动互联网要慢。但是一旦变得有用之后，它的扩散速度可能会远快于移动互联网。"

他举了一个例子：在 Windows Mobile 时代他就在手机上看过视频，但那个硬件和网速条件下，你能想到抖音也做不了抖音。抖音一定是在有了 4G、有了 iPhone 6 之后，有了足够的硬件软件算力之后才能做。

类似地，有人提到"三毛"（张鸣）说过的观点：你得假设有一个"神一样的模型"终究会出来，在这种情况下你能做什么样的应用？

戴雨森补充了投资视角：

"先烈和先驱只有一线之隔。很多时候其实不是那个事不靠谱，而是说它太早了。"

创业公司的生存法则

戴雨森分享了他一直以来的比喻：

"火车在它的轨道上，你要去拦它肯定不靠谱。但留在它的轨道之外——因为它没法脱离轨道——你就比较安全。"

这对所有做视频生成模型的创业公司都是巨大挑战。但他更看到机会：AI 能力在变强，意味着它可以解决更多问题、产生更多价值，而这些价值很多时候会被创业公司捕获。

"如果 AI 很弱智，模型没有进步，那创业公司你不会被它干掉。但是 AI 就没有价值了——那反而是我们更不愿看到的结果。"

真格的 AI 投资逻辑

戴雨森坦诚了真格在 AI 时代的核心逻辑：投最优秀的人，相信最优秀的人自然而然会跑进市场。

他们在 ChatGPT 之前就投了一些 AI 应用（如 H&O 等），现在用户涨得很快。ChatGPT 之后投了 Monica（浏览器插件和 App），用户数增长非常快且已经盈利。创始人是真格二次投资的创业者，除了浏览器插件，还想做更大更长远的方向。

一个有趣的问题——如果投资没赚钱怎么办？

戴雨森用了"韩潤吃包子"的比方：你不可能只吃第五个包子。SIG 投了聚美优品（没赚大钱），但因为投了聚美才能后来投到字节跳动。"如果月之暗面是张一鸣的聚美优品——如果我能投了下一个张一鸣，那至少离投字节也更近一点。"

AI 应用的时间节奏

季逸超对 AI 应用有一个重要判断：

"AI 应用它可能一开始有用的时间点会比移动互联网要慢，但是当它一旦变得有用之后，它的扩散速度可能会远快于移动互联网。"

他的意思是：移动互联网时代大家习惯了"一个应用几个月做出来，100 个公司超它"的节奏。但 AI 不一样——模型训练和迭代的时间尺度完全不同。你不能用移动互联网的速度去思考 AI 的问题。

耐心，是这场对话中反复出现的关键词。

对 GPT-5 的猜想

戴雨森和季逸超对下一代模型有几个比较确定的判断：

可靠性更高，幻觉更少
使用工具的能力更强（Agent 方面）
可能能够操纵电脑界面（类似 Work Agent）
可能是多模态类型的
上下文长度更长，理解能力更强

但季逸超特别强调一点：

"Sora 给了大家一个很高的期待。年初本来有一个叙事——模型是不是到瓶颈了？因为去年实在太精彩了，大家每个月都期待有刺激的新东西。Sora 突然出来，把这个叙事打破了。"

数字永生：一个"可操作的小建议"

对话最后，季逸超抛出了一个颇具科幻感的思考：

"你把你现在年富力强时候的思路交给未来的一个 AI 的话，其实你一定能获得一个数字的永生。所以这是我给人类的一个非常可操作性的小建议。"

编者后记： 这期节目录制于 2024 年初，Sora 发布震惊业界之际。两年后回看，戴雨森和季逸超的很多判断都应验了——技术确实需要耐心等待，应用落地确实比预期慢，但一旦起飞速度确实惊人。季逸超后来创办了 Manus，做出了全球最火的 AI Agent——某种程度上，他在这期节目中所说的"假设有一个神一样的模型终究会出来"，正是 Manus 产品哲学的起点。