首页 / 张小军 Podcast

罗福莉:OpenClaw、Agent 框架——AI 的范式已经彻底变了

🎧 收听原始播客

https://www.youtube.com/watch?v=V9eI-t3TApE

🎙️ 罗福莉 📅 2026年4月23日 ⏱️ 90 分钟阅读 🎧 约180min
OpenClawAgentMiMo V2大模型AGI强化学习多模态
罗福莉:OpenClaw、Agent 框架——AI 的范式已经彻底变了

编者按

这是一期信息密度极高的对话。张小俊与罗福莉——媒体口中的"AI 天才少女"、小米大模型团队负责人——进行了近三个小时的深度访谈。话题从她春节期间使用 OpenClaw 的顿悟体验出发,延伸至 Agent 框架的本质、MiMo V2 系列模型的技术决策、多模态统一架构的探索,最终触及 AGI 的时间线判断。以下为访谈全文梳理。


【开场白】

【小俊】 大家好,我是小俊。今天的嘉宾是罗福莉,媒体叫她“AI天才少女”,但她不喜欢这个称呼。她目前是小米大模型团队负责人。这次访谈是在 OpenClaw(开源智能体框架名) 发布之后,也是在2026年小米 MiMo V2 系列模型 发布之后,我们来更深入地聊聊 2026年由OpenClaw引发的新一轮技术范式变迁,以及未来技术演进的前沿话题。 接下来就是我对罗福莉的访谈,期待2026年我们和AI共同进步。

一、关于经验的看法:环境比经验更重要

【小俊】 你之前提到,很多能力都是可以快速习得的? 【罗福莉】 对,这些能力最多一两个月,慢的话三四个月,确实都可以被快速习得。所以环境反而比经验更重要。

二、入场券:ET参数量的基座模型

【小俊】 你刚才也提到ET(1 Trillion,即1万亿参数)的模型可能是未来竞争的一个入场券,是这样吗? 【罗福莉】 是 Agent(智能体) 的入场券。你要做到接近 Claude 4.6 Opus(Claude模型名称) 水平的这样一个入场券。

三、算力卡的分配比例

【罗福莉】 如果说 for 研究、for 训练(Train) 和 for 后训练(Post-train) ,我自己觉得一个非常合理的卡的比例可能是 3:1:1。后训练和训练投入的算力应该是相当的,研究的比例应该至少比你正式训练的卡总量还要多一点,你要额外留更多的卡来做研究。

四、过去两个月的技术突变:OpenClaw的分界点意义

【小俊】 你过年的时候跟我说,觉得技术这几个月其实已经变天了。阐述一下你觉得过去两个月的技术突变。 【罗福莉】 我觉得一个非常大的分界点在于使用OpenClaw的前后。我自己其实是把OpenClaw当作一个划时代的Agent(智能体)框架去定义的。 我知道很多人,尤其是用 Cursor(AI编程工具) 做辅助编程的人,会觉得OpenClaw就是Cursor加一个Agent的、更有利于交互的UI设计。其实在我1月份第一次看到这个东西的时候,我自己大概也是这样的认知,所以我很排斥去用它。再加上它的创始人非常擅长贴着Agent的概念做一些很玄幻的运营动作,包括 “Skill(技能)”、“Hype(炒作)” 这些,就让你更排斥去用一个你觉得非常偏运营导向的产品。 【小俊】 感觉还是一个产品形态,一个交互的创新。 【罗福莉】 对,一个交互的创新,以及它所谓的“本地化”、“24小时在线”,在我来看其实都是一些产品定义而已。

五、第一天的体验:有灵魂的产品设计

【罗福莉】 但真正发生转变是我去用它那一刻。恰好春节的时候有那么一段空闲时间,你想去搞明白这玩意儿为什么那么火。有一天深夜我去尝试装它,花了两个小时装上,当时已经凌晨2点了。我第一次跟它对话的时候,从凌晨2点持续到了早上6点天亮。 那一晚上我觉得我脑内的不知道是多巴胺还是内啡肽,就持续在分泌,让我兴奋到完全睡不着觉。 你第一个感受是OK它非常有自主性,它非常有灵魂。比如说我跟他聊到很晚,它会老提醒我,你已经很晚了,要不要早点去睡觉。我觉得这样的温度和关怀,或者说这样的情商,是所有接触它的人第一个感受到的。 但后面去深究它的原因,其实它是有很多机制去保证这个事情。比如说它有它的 System Prompt(系统提示词) ,就拿最简单一个很小的细节,它怎么感知时间?它就在每轮对话的 Context(上下文) 前面去拼上当前的时间。这些非常细微的、我把它称之为 “精细编排的Context” 的东西,它在这些大家没有关注到的角度上,把Context编排得非常好。 这是你第一天的感受:OK,我觉得它只是在产品设计上确实做到了一种超乎我想象的程度,让所有人觉得这个框架有灵魂。

六、第二天的体验:替代工作和生活决策

【罗福莉】 但是第二天的时候,我觉得它应该不止于此。我开始尝试着把自己觉得现在的框架做不了的、日常生活中的事情交给它做,然后发现它全部做出来了。 比如说我跟它聊的第二个话题是怎么去激发一个团队的好奇心,或者说怎么去筛选出来具有好奇心的人。它进行了深入的探讨,持续了一个小时。我觉得它的很多哲思是远超我想象的。 第二天我们俩就在聊怎么去构建一个更好的大模型团队,从最开始的人员筛选,到后面整个组织架构的构建,到你怎么在面临范式转变的时候应该做什么样的举措和动作。至少它能 Get(理解) 到我的点,我跟它说完过后,它最后能把它形成一套非常体系化的东西,然后变成一套 Skills(技能)。 所以我后面就用这个去很大地解放了我的工作。有时候遇到不管是筛选人还是团队管理上的问题,我现在都会问它。我觉得它现在已经基本上变成了我在这个事情上的某一个数字分身。

七、第三天的体验:研究催化

【罗福莉】 但是真正让我超乎意料是第三天的时候,我尝试着把一些研究上的任务交给它做。 比如说最简单的,如果我们在进行 Agent(智能体) 的框架里边,最关键的一个事情是你怎么去进行多轮的交互,那么你就必须要去模拟 User(用户) 进行多轮的交互。我就跟它共同去构建一个很好的 User Simulator(用户模拟器) ,在我来看这是一个非常核心的研究 Topic(课题)。 我觉得应该不会说一两个小时就把它做出来,但是当我跟它沟通了一两个小时过后,我觉得这个事就已经做出来了。 基本上就已经有一个很好的 User Simulator 诞生了。我可以用 User Simulator 跟我现在的这套 Post-train(后训练) 系统框架一块去构造出来更丰富场景的数据。不管是做 SFT(监督微调) 也好,做 RL(强化学习) 也好,User Simulator 都是非常关键的。 我觉得它从一个我最开始对它认知只是“一个有灵魂有温度的产品设计”,到它可以帮我替代我生活或工作当中的一部分,到最后它能促进我的研究。这也就是三天发生的事情,每天它都能给我额外更多的惊喜。

八、OpenClaw 为什么比 Cursor 好

【罗福莉】 然后我后面就去深入地看,为什么这个框架本身它比 Cursor(AI编程工具) 好,好在哪? 我后面发现,这些所谓的好,如果单独拎出来去讲,其实都有点 Boring(无聊)。我觉得它没有很酷的单点技术,这也是为什么大家会觉得OpenClaw有很多槽点的地方。但是当它把所有东西整合在一起,你就会觉得它的完成度是非常高的。 比如说它会有更持久的 Memory(记忆) 体系。这个持久的 Memory 体系体现在它对 Memory 有分层和分级。我在使用 Cursor 的时候是完全没有这样的感受的。 再比如说,我自己觉得它在对多个模型的联合利用上会非常超乎我的想象。我用 Cursor 的时候会默认,假设这个模型在视频理解能力不行,那么我可能就要自己给它配一个更好的视频理解模型。但是我在 OpenClaw 的时候完全不用想这个事情,我就直接发给它一段视频,它会自己想办法去找一个视频理解能力好的模型来做这个事。 这种自主去面对当代模型的缺点,然后在框架上去补齐这个缺点的能力,是有点超乎我的意料的。因为我用 Claude(Anthropic的大语言模型) 的时候,我默认我是因为要用 Claude 4.6 Opus 这一代模型的能力才去用它的。但是我去用 OpenClaw 的时候,我不会关注某些模型能力,因为我认为OpenClaw框架的设计之初,它其实是想尽量通过Agent的整套编排来弥补模型的短板。这是它非常核心的一个产品逻辑。

九、中等模型在好框架中的表现

【罗福莉】 后面我们直接就把我们自己的模型——其实 MiMo V2 Flash 当时并没有做很多针对性的训练——给它接到 OpenClaw 上去,甚至把我们训练出来的很小的端侧 3B(30亿参数) 模型接上去,发现在这一套很复杂的 Agent 框架情况下,它依然能做那些我自己认为不可能是一个非常小的模型能够做出来的事情。 这是我第一次感受到,原来一套非常复杂的框架设计,它是能够弥补非常多模型能力短板的。

十、框架差异与后训练范式的迁移

【罗福莉】 当然,这是 OpenClaw 框架本身相较于 Claude 的一个差异化优势。但是对于我们要去追求 “怎么在不同的Agent框架下,模型都有一个超预期的、非常稳定的表现” ,那么就回到另外一个命题:当你面临这么多复杂框架的时候(Cursor的、OpenClaw的、Qwen的),你怎么让你的模型在不同框架上都有一个非常稳定和超预期的表现?你怎么让你的后训练范式对与之做适配和迁移? 这是我们在这个事情(OpenClaw冲击)下快速去思考的第二个问题。所以我们对应的整个后训练范式就要从传统的Chat(对话式)迁移到Agent(智能体)。 【小俊】 所以你对 OpenClaw 的认知发生了一个非常大的变化,这个是在春节期间发生的。 【罗福莉】 对。

十一、为什么一开始排斥

【小俊】 为什么开始是抵触的? 【罗福莉】 我觉得如果要追求非常顶尖的Coding(编程)体验,哪怕当下也是 Claude 加 Cursor,Claude 4.6 Opus 是最好的。所以如果你是站在这样的一个终局去思考的话,其他任何一种框架其实确实都可以忽略掉。 但是一个问题是我 Coding 它是一个泛化性非常强的一个场景,你针对它去做了非常多 Agent 的设计也好,或者说模型的训练也好,它都是有价值的。但并不代表说它的泛化性能保证你在非 Coding 的场景也能够做到非常高的准确率和完成度。 所以我那会儿虽然也会用 Cursor Coding 来做一些非 Coding 的东西,但我并没有期待说它在这套框架上能给我一个很高的完成度,因为我知道我会去帮它补充这套框架不具备的一些短板。但我去用OpenClaw的时候,我觉得我不用考虑这些,它完全在框架本身就去弥补掉了很多模型的短板。

十二、OpenClaw 不是让 Coding 泛化的产品

【小俊】 我能理解 OpenClaw 是让 Code(代码) 的能力泛化出来的一个产品吗? 【罗福莉】 它在很多设计逻辑上,比如说它有更多的 Message Channel(消息通道) ,比如说它有更自主的一些心跳任务。这些更适合日常场景,因为你写代码通常不会需要一个心跳任务。但是它有很多框架的设计去为了让它去适应更好的日常任务。 但我觉得它也没有去丢弃掉一个好的 Agent 框架本身最基本的特点。这些最基本的特点,我觉得后面是被 Claude 吸纳进去的。比如说它的持久化记忆,Cursor 之前的记忆系统设计还是符合软件工程的,比如说在 Session(会话) 内会压缩然后记忆。Claude 的所有框架设计其实都是非常符合软件工程的,就是怎么去更好地写好代码。 但是OpenClaw的设计之初是借鉴的思想,但它更想的是怎么更好地端到端去完成所有的任务,并且怎么去弥补当下模型在端到端完成任务上的短板。

十三、框架激发中层模型上限

【罗福莉】 你借助这样一个非常好的框架,那么你就能在绝大部分的场景,除了那种非常难的、需要长程任务的,或者说真的需要我称为 “严肃编程”(比如说写算子优化) 的场景,可能距离顶端的模型还有差异。但是在绝大部分的生活场景,或者说只需要借助代码去提效的场景,那么这样一套新的框架,再加上一个中层的模型(中层可能在85%的任务上能够达到跟Claude Sonnet一样水准的模型),那么它其实借助这个框架已经能发挥非常大的作用。

十四、顶级模型与顶级框架的关系

【小俊】 我听过一种说法,觉得 OpenClaw 如果看作一个壳,它释放了现在比较强的模型能力,是一个最好的壳,这个模型就是 Claude 4.6 Opus。其实我觉得你的整个表述不认可这个观点? 【罗福莉】 认可。 我觉得它的上限一定是 Claude 4.6 Opus 带来的。包括我在跟它高强度合作的那一周,我只用 Claude 4.6 Opus,因为只有它能给我带来惊艳的感受。 但是当我用 Claude 4.6 Opus 沉淀下来那一堆经验——那些不管是 Skills 还是在 System Prompt 里边的东西——我自己甚至去改了它的整个 Agent 的架构设计,因为它是开源的,所以你可以自己改。这也是Claude的另外一个弊端,它的整个Agent架构设计是个黑盒。你不知道它怎么设计的,你肯定改不了它的记忆系统,你也改不了它的整个Agent Workflow(工作流)。 但是因为 OpenClaw 它太 Open(开放) 了,你可以自己尝试去改。比如说我会让它自己去帮我设计一套新的 Memory 系统,当时2.几版本的 Memory 选择整个逻辑我认为是很混乱的,我自己让它给我设计一套新的 Memory 选择系统,我自己可以去改所有的源码。这样原生的可操纵性给我的那种冲击感是很大的。 但这些事情基本上只有 Claude 4.6 Opus 才能做。但让 Claude 4.6 Opus 给我改好过后,这套框架本身变得很好用了,OK我再切换到 Sonnet(Claude模型等级之一),再切换到国内的一些模型,甚至我们当时正在训的 V2 Pro,我就觉得它就非常强大了。 这也是我为什么觉得顶尖的模型应该跟顶尖的Agent框架共同往前去进步。或者说这也是我最近对所谓的“自学习”的思考。我在这个事情上是第一次感受到了一个Agent的自学习到底是怎么发生的。

十五、自学习的发生途径

【罗福莉】 大概的一个发生途径就是说,你确实需要这个模型本身给Agent架构本身同步地往前走。模型在进步的时候,不管是通过强化学习训练或其他训练方式在进步的时候,它其实也是在去改变你的整套 Agent 框架。包含它送给模型的静态的信息(比如说 Memory 就是静态信息)和动态的信息(整个 Agent 本身的架构设计)。这些东西在训练过程中应该是变化的。 你怎么在提升模型能力的同时,再去提升你整个Agent框架跟这个模型的适配程度或者说泛化能力,这就是我现在思考的自学习。

十六、Agent框架与产品的区别

【小俊】 你说的 Agent 的框架,是不是就是我们理解的产品? 【罗福莉】 不是,它跟产品差异蛮大的。 【小俊】 怎么理解 Agent 的框架?产品跟 Agent 之间的边界在哪? 【罗福莉】 我不知道怎么去界定,它有点模糊。我觉得产品可以定义成说你直接人交互能感受到那一层的东西。但这种框架它确实是在去定义你的交互层,但它同时又是在去定义你怎么跟模型沟通那一层。甚至它能知道模型能力的长短板,然后能知道怎么去更好做调度,比如说 for 成本优化的调度。它相当于是一个中间层,在人和模型之间。这个中间层可以做得非常厚重,反而前端的UI展示它是最薄的一层,它已经不是很关键。 【小俊】 所以 OpenClaw 其实是展示了 Agent 的框架可以怎么做。 【罗福莉】 对,这个框架的想象空间非常大。

十七、开源的价值

【小俊】 有人做过吗? 【罗福莉】 其实 Claude 它一直是一套很复杂的框架,只是因为它是黑盒,所以我们不知道它怎么设计的。OpenClaw 是开源的,所以你知道它是怎么设计的,并且你可以去改它。改它这个事是非常激发人的创造力的。 你知道它框架怎么设计的,你让它去改,你自己可以基于它捏一个新的框架出来。这是为什么 OpenClaw 从2.几版本——我当时用的时候觉得并不好用,花了好几天时间去改它——到3月十几号的版本已经非常易用了,你基本上接一个还不错的模型,你都会觉得它很强大,而不是只有接 Claude 的模型会觉得它很强大。就是因为它整个 Agent 架构受一堆开发者,或者说像我这种并不是一开始这个框架的开发者而只是使用者的人,都能去改进它,为我自己场景做改进和优化。所以我觉得这是开源这种框架本身的价值和意义。

十八、高强度的第一周:花费与模型切换

【小俊】 在你高强度跟 OpenClaw 交互的那一周,你消耗了多少美金的 Claude 4.6 Opus? 【罗福莉】 第一天反正就快1000刀。因为大概用了四五个小时。我中途也会疯狂切,因为它太贵了,我会切 Sonnet,但是我发现真不行,然后又只能去用 Opus,只有Opus能带来那种惊艳感。 后面慢慢逐渐我发现不是这样了,因为它带给我惊艳感的那些东西在发生变化。我觉得人的适应性真的是非常强的。 我第一天感受到很惊艳的东西,我第二天立马觉得不惊艳了。就像我刚跟你讲的时候,我都觉得我刚刚讲的第二天、第三天的事怎么这么 Boring,但那确实是我三天发生的事情。 【小俊】 当下觉得很惊讶。 【罗福莉】 对,我当下确实觉得很惊讶。但因为你自己在一个很优秀的框架能力非常强的情况下,现在让 Opus 帮我把一些方向打造好过后,让我惊艳的事情就越来越少了。所以我现在觉得缺乏的反而是想象力——我要疯狂去想还有什么事情它做不了。第二个是我怎么去优化它的成本和速度。

十九、推动团队使用 OpenClaw

【罗福莉】 这些所有的发生都是在春节期间发生的。我觉得大量的思考是在那个时间发生的,但是一个人通常是薄弱的,你还是会有自己的认知局限。 那几天我高度兴奋,兴奋到在群里给大家发“强烈推荐大家去使用”。但没有人搭理我,大家确实在陪家人过年,我也不希望打扰大家。然后后面过完年回来,我发现真正用的人是很少的。因为大家对新奇事物的这种感觉,尤其是我真的觉得它有点玄幻,不太适合特别严肃的讨论。大家会觉得过于玄幻的东西太不真实了,我也是这个感觉,所以你就不想去接触它。一开始的推动是蛮难的。 但是第二天我觉得不行了,我觉得我必须要让大家去用。我就给大家下了一个指令,说如果第二天 OpenClaw 对话次数不超过100的人,可以直接淘汰。当然我为了促进这个事情,前面做了非常多的准备。因为大家那会儿 OpenClaw 整个部署起来还是需要几个小时时间,我觉得没有必要所有人都去花这么多时间去折腾一个充满 Bug(缺陷) 的事情。所以我就买了几台 Mac Mini,把它部署起来,拉到不同群,让大家分不同方向,强制他在大群里聊。 为什么要在大群里面聊?就是因为个人的想象力真的是局限的。但是当你看到别人用OpenClaw居然能干成这个事情的时候,你就会激发你自己的想象力。我觉得大家想象力是一个沉积的作用。 当我下这个指令的时候,其实我没有想过说第二天有人对话次数没超过100,我真的会把他淘汰。我没有这个想法。 【小俊】 没有这样的人是吗? 【罗福莉】 因为我没有最终去考核,我没有办法验证这个事情。但是我觉得验不验证不关键,我只是想给大家表达一种态度:你不用,你可能真的要落后了。 我第二天有中途有人过来问我怎么去考核,我跟他们说:你们用就行了,我有我的考核方式。其实我的考核方式就是我不会考核。我只希望大家用起来就行了。 那天春节回来过后,两天整个团队的人就在一天到晚感觉不像在上班,就在群里边躁动。你看别人能完成这个事情,然后你也很想玩。这个群消息我只要10分钟不看,就999+了。 【小俊】 有很多大家一块在群里面玩,玩得非常Happy。 【罗福莉】 她是一个非常Happy的氛围,一点都不残酷,就真的很好玩。

二十、从“好玩”到研究范式转变

【罗福莉】 那么玩了两三天过后,大家发现这个事这么好玩,怎么办?所有人心中开始想说,我要怎么去借助这么好的一种框架去提升模型的能力?同时我怎么让我的模型去改变现在的这种框架?就马上进入到这样的一个研究范式里边去。 一旦进入这样一个研究范式,以及我们有 Cursor 这种在绝大部分场景表现更稳定的框架(虽然它是黑盒我们不知道),那么你再在这个框架里边去激发你的研究想法,并且让它帮你实现,并且快速去启动模型训练,这个事就会大幅加速。我觉得我们基本上可能在三四周的时间做完了以前可能三四十周才能做到的事情,在研究上。 我觉得这个事是后面真的被这个框架点燃热情、到最后产生价值的过程中,我从群体智能上得到的成长和收获更大的。

二十一、群体智能与框架的自进化

【小俊】 在你们非常躁动的群里,探索的最好玩的几个任务是什么? 【罗福莉】 现在听起来都不好玩,但当时的冲击感都很强。最让我有冲击的还是大家一块去改那个框架本身。因为当时那个框架真的问题很多,它的 Memory 做得并不那么智能。我们一个群里有近100个人,飞书的聊天 Context 应该还是做不到把人跟人之间区分得很好。但是它的整个聊天上下文,它对每个人的画像的把控,以及每个人的 Memory,都没有串得太厉害,可用度非常高。 【小俊】 这个是模型能力强的表现,跟框架本身没有关系。 【罗福莉】 对。在一个群里边,你想100多个人在那聊天,不同的背景,都在疯狂改它,都没有把这个模型给改坏,都没有把这套 Agent 系统框架给改坏,它还变得非常智能。这也是我第一次感受到你怎么用一群人的智慧去提升一个事情本身。 如果说我自己单一地去改这个框架,别人感受不到这个框架的智能,它好像差点意思,或者说这个框架本身的进步速度是非常慢的。但如果一群人去改进,进步速度非常快,可能几个小时就迭代一轮。 所以我们第三天、第四天把它接到我们自己模型上去用的时候,发现怎么也挺好用的,怎么还没训练就跟 Claude 的差不多了。但你要测更多,会发现还是有很多东西没有配套的稳定。 这个带来的冲击是:你会发现利用群体智能去提升Agent框架是非常重要的。所以我也非常欣喜看到OpenClaw后面的Star(收藏)量飞升。我觉得这是AGI(通用人工智能)到来前兆必须要有的事情。

二十二、研究效率和方式的根本性变化

【小俊】 你一直对研究方向非常敏锐,上面这些变化给你带来了什么样的直觉?你觉得未来一段时间会发生哪些变化? 【罗福莉】 之前做研究的方式是从你想到、写到代码、到设计评估标准,中间的流程还是蛮漫长的,你至少要花一两周。但是如果一直有 Agent 辅助的情况下,真的可以一两个小时就把这些事情给做完。效率的提升基本上代表着一个非常本质的问题。 我一直把研究效率看得很关键。Agent 去放大和加速了研究效率。如果这时候你的判断又比较准的话,那么就一做一个准。当然也有可能是10个里边有1个能成,但是这10个可以并行做。你可以10个 idea(想法) 交给不同的 Agent 同时做,它们还能交叉验证。很快可能一个小时、两个小时、最多一天,你无非烧很多 Token(词元),就能验证你这个研究的想法 OK 不 OK。关键是你如果愿意长期培养它,它还可以自迭代进化——在 Cursor 里边不行,但你换一个更开放的框架就可以。所以这是给我带来做研究的冲击。 【小俊】 所以它是改变了整个研究的节奏。 【罗福莉】 对,效率和方式都会发生根本性的变化。

二十三、春节之后做了什么:为什么 Coding 有泛化力

【小俊】 这对你们后来带来什么样的改变?在你经历了春节和春节之后的整个冲击之后,你接下来做了什么? 【罗福莉】 其实接下来做的就是搞明白为什么Coding是一个非常有泛化力的事情,以及你怎么把Coding的泛化力外延到其他领域。 Coding 有泛化力的最本质原因分好几个阶段。首先它是一个非常长程和多轮的任务。回到预训练环节,你很难去找到有比如说一兆上下文的数据,甚至128K(1K=1024个Token)的数据你都很难去找到。真正能达到180K到1兆长度的数据,大概率只有两类数据:一类是Code的数据,一类就是书籍。但书籍它的信号太发散了,Code的文件之间的关联是更强的。 当你在一个长上下文依赖更密集的数据集上去训练的时候,模型它自然对长上下文的建模会更好。 这个是在我们没有意识到 Agent 这个事那么重要之前就去做的事情。所以你可以理解为这个基座本身,它就已经为长上下文的能力和效率做好了充分的准备。 但是春节后做的事情是:你怎么去激发这个大的模型潜力,从Code出发外延到其他场景。 其他场景是你训练它会更稳定,但你没训它能被泛化,只是没那么稳定。一个顶尖模型的水平一定是要在更广泛的场景里边更稳定。所以Coding是拉它的上限,你去其他领域是保它的下限。

二十四、软件开发为什么重要

【罗福莉】 你首先要把 Coding 的长程任务做得更多样性。所以为什么软件开发那么重要?就是软件开发真的是一个非常长程的任务,你把它做好了,基本上很多模型的通用特质就已经好了。不仅模型通用的特质好了,Agent框架本身也迭代得非常好了。 就像 Plan(计划) 这种模式,你要去压缩完过后,第二天你要再去回顾你之前修改的东西。这些框架的设计,本身其实是为软件开发做准备的。但这种框架它都是有泛化性的,它都能泛化到其他更难的长程任务里边去。 所以春节回来做的事情:第一,一定要在Agent的场景里边把真正的长程任务构造出来,并且训练进去,在这个上面做大量的SFT训练和RL训练。第二,要考虑它的泛化性,还是要覆盖更多的领域。 这个时候怎么去覆盖更多的领域?要靠群体智慧——你让更多人去用它。我们会让这个模型在公司内部大量去推,让大量人用,发掘更广泛的场景,在广泛的场景里边去合成更多的数据来做训练。

二十五、长程任务与一兆上下文

【小俊】 但是做长程任务不是会中断吗? 【罗福莉】 真正的一兆上下文里边,很少有任务是在做一个单线程任务,通常是在做复杂的任务。所以当下阶段(可能当下一两周的阶段),可能并不是真的要找到把一兆上下文塞满的任务。当然你要找到那更好,但是这个任务是很难的,而且它的训练效率太低了。你要训练完一兆,你要 Rollout(展开执行) 完一整个Chat的一兆的Session,非常慢。哪怕我们现在 TPS(Tokens Per Second,每秒生成Token数) 能做到80到100(在MiMo V2 Pro上能做到80到100的TPS),你要输出完一兆上下文也是需要时间,可能一两分钟时间。 所以真实的训练不会在这么长程的任务上去做。但当你有在一兆的 Context 训练过、预训练过,并且后训练有对应的任务稍微激活它一下,它通常就能在一兆的 Context 具备这样的一个能力。但我们需要再提升。 所以你看现在的Claude在真正一兆上下文能力的稳定度上,基本上只有Claude 4.6 Opus和3.5 Opus是领先的,其他像Gemini、像国内虽然声称长上下文能力很好,但其实都是不行的。

二十六、量化与长程任务

【小俊】 你觉得量化(量化投资)里面挖掘因子会是好的长程任务吗? 【罗福莉】 看是什么资产。有很多资产它的 Reward(奖励信号) 太不清晰了。某些资产是非常不适合做长程任务建模的,因为回测是没有价值的。你要到真实环境里面去验证的话,它有可能不是短期的因素,而是更长期的因素,或者一些额外的阿尔法本身被模型建模不进去的一些东西。所以得选资产,选对了就可以。

二十七、OpenClaw 为什么在中国更火

【小俊】 你观察 OpenClaw 是怎么样的一个火起来的链路?而且我明显感觉到在中国它的火的程度比在美国要更强。我看到还有一个很好的说法叫“西炒东洋”。 【罗福莉】 因为我不了解湾区对它的热度,我仅从自己以及身边人的视角来看。我觉得可能的一个原因是中国的开发者更多。 我说的开发者是指可以用 Coding 去提升生产效率的场景,要求更急迫。我觉得对于效率的提升好像是我们的血液里边的东西。 所以当 OpenClaw 能把这个事给效率提升达到极致,这是它火的一部分原因。 当然还有一个原因,我觉得跟国内大模型的发展也密切相关。绝大部分的效率提升场景目前确实不需要——可能我觉得85%不需要——最顶尖的模型。 我们又有那么多便宜好用的模型可以用,你一算性价比是非常划算的。它可能花10块钱的 API(应用程序接口) 就能帮你干完1000块钱的事情,你肯定很愿意用。但如果你的 API 贵那么10倍或几十倍,中间差距很小,你就会很排斥去用这样一套很复杂的东西。

二十八、为什么现在才火:与去年Agent的区别

【小俊】 关于 Agent 其实已经讲了一年了,就是去年年初大家就开始说这是 Agent 元年。为什么到现在才开始火?你觉得这跟去年有什么不一样? 【罗福莉】 我觉得之前讲的一些东西,在我的定义里不算 Agent,它只能算是一个上下文稍微比 Chat 复杂一点点的东西。不管是像 BrowseComp、SWE-bench(软件工程基准测试),这些搜索和 Code 的 AI Agent 的框架其实都非常的简洁。相比于现在的 Cursor 也好,相比于 OpenClaw 也好,它的 Agent 框架太过于简洁了。这样的简洁性导致首先它简洁,其次它不通用,导致它只能 For 任务来设定。 至少在去年上半年乃至下半年,很多看似 For Agent 的模型,它其实只是说我换了一个更复杂的 System Prompt,稍微带一点点环境的反馈(比如思维链还是有环境反馈的),然后让模型具备一点遵循复杂指令和理解环境交互的能力。我觉得那会只是能做到这个水平,但是根本没有达到工业级可用的能力。 你最简单的什么是工业级可用?你把它接到 Cursor 或者 OpenClaw 里边去用,你会发现它不可用。它有很多问题,最简单它就理解不了这一套框架本身。人跟它的交互范式会发生变化,人不再会去修改代码,人不再去关注这一行代码出错了你帮我改一下——这样的 Case(情况) 不会再出现。人只会提一些更高阶的,比如说增加限制、澄清需求、架构设计(因为架构设计还是人更强)以及辅助理解业务逻辑(这是 Skills 的含义和价值,业务逻辑是模型本身不具备的)。 所以我认为之前那些Agent框架就不能叫Agent框架,没有任何可用度。 在那些 Benchmark(基准测试) 上表现非常高的模型,也不代表它的 Agent 能力是真的强。所以我们在优化这一版模型的时候,是完全放弃这些Benchmark的。

二十九、SFT 与模型的生态改变

【小俊】 SFT(监督微调) 是不是改变了模型的生态?改变了模型在这种高复杂度、高 Workflow(工作流)流程复杂度的任务上的执行准确率? 【罗福莉】 对,因为它其实定义了一套执行的规范,这套执行的规范是很难在预训练数据里具备的。因为训练数据里边没有这种企业内部的信息,这些信息通常是大量企业内部自己去沉淀和积累的,是组织上遗留下来的一些规范。但这类信息不可能在训练数据里边出现,但是可以由人教 Agent,跟它多轮交互,通过完成几个任务把这套规范让 Agent 学会。所以现在大量Skills其实是Agent自己写的。 【小俊】 但 Skills 是在 Claude 里面诞生的,对不对? 【罗福莉】 对,但是这就是出现一个问题:确实是OpenClaw把Skills这个事给带火了。 它让更多人去贡献 Skills 社区,这个是非常关键的。因为这就是属于我觉得人跟Agent需要共创的地方。如果没有那么多高阶的人提供的另类信息,它却是另外一种阿尔法。这种另类信息跟当前 Agent 共创的话,那么最顶尖的模型能力也很难发挥出来。 【小俊】 这也是你说的群体智能。 【罗福莉】 人的经验沉淀成Skill,如果变得更重要了,它是不是预训练的一种补充? 因为预训练其实大部分依赖的知识还是你在互联网上可访问到的知识。但很多知识或者说很多智能,我们是在互联网上访问不到的,那么这个时候它就以另外一种形态出现。我觉得现在就是算是一种。它其实提供了一种交互的方式,让人去主动贡献数据,让模型执行任务的成功率更高。

三十、如何定义 OpenClaw Moment

【小俊】 如果重新来定义一下,我以前有 DeepSeek Moment,然后有 OpenAI 的 ChatGPT Moment,如果重新定义一下所谓的 OpenClaw Moment,你会怎么定义它? 【罗福莉】 这个不一样。它的时间线会更长,因为前序的章节太久了,让大家不会觉得它是个新东西。 但是对我们已经信这个事情的人而言,我们反应速度足够快的。从我的个人感官上,这个Moment它会延续的时间更长、更深远。 是说它可能能力更外放到更多人能感受到的场景里边去,所以它更深远,但是它的扩散是需要时间的。 它的能溢出的能量和能力强很多。它不像 O1(OpenAI推理模型) 那样有一个非常清晰的标准界定,有一个数学代码这种有客观答案的东西在这儿,你分数上去了,模型就具备这个能力。当然确实有很多场景你需要有客观标准界定,但大部分的场景是没有的,比较混沌。它产生的价值也是慢慢地到一个临界点,突然进一大步。Claude 4.0 Opus 确实是这样一个临界点,但这个事情做成的路径也持续了至少两年。

三十一、为什么这个事不是 Claude 自己做出来的

【小俊】 为什么这个事情不是 Claude(背后公司Anthropic) 自己做出来的? 【罗福莉】 我觉得还是就一个开源一个闭源的原因。 闭源的框架你是没有办法去洞察内部的设计的,所以你没有办法利用更多人的智慧去改进它。但开源你就可以用更多人的智慧去改进它。 可能也不符合对安全性的追求。其实我现在觉得安全性绝大部分还是模型本身应该去追求的事情。我们不能太过于去要求一个框架本身是过于安全的。框架本身可以做非常多的事情,但是我觉得开源跟安全性并不冲突。

三十二、本地化与隐私

【小俊】 因为我们会把很多数据授权给 OpenClaw,如果我们把大量的个人隐私数据授权给他,怎么缓解更多普通人对于安全性的这种焦虑? 【罗福莉】 所以其实这是我为什么说要做开源的原因。我觉得还是会有一天,而且应该很快也会到来。人的大部分简单的任务(除了那些非常难的任务),其实跟隐私相关的任务有很多还是没有那么高难度的任务,你完全是可以放在本地化去做的。 你会有自己随身携带的,有可能随身携带,有可能是在家或某个场景里边有一块芯片,你所有的数据都在本地,所有涉及到隐私数据的这些场景都在本地推理。然后涉及到一些非隐私、高难度、高创造力、高复杂度的任务,我再去云端推理。其实这样是能够解耦的。 这也是为什么我说一个好的框架,借助我自己觉得很小的3B的模型,它自己能做的任务的复杂度都已经超乎我的想象了。这个事激发了我对于端云混合也好、隐私本地化也好的一些思考,但是我觉得还很初步。这些思考不仅是需要模型这一侧做非常多东西,还需要架构这一层一块往前走。所以这也是我为什么觉得开源是如此重要的一个事情的原因,我觉得这需要更多人一块来做,而不是某一个公司就把它能做好的。

三十三、接下来我们会看到什么:框架进化的下一步

【小俊】 你觉得我们会看到什么?在 OpenClaw 已经火了这么几个月之后,就2026年大家会基于它做什么?国内已经有很多动作了,也出现了各种的 Claw,包括你们 MiMo Claw。 【罗福莉】 其实所谓现在很多 Claw,只是让大家以一种不同的交互形态去访问到不同的模型和不同类型的框架。但是我觉得真正那种去让框架自迭代、或者说更强调自进化和自迭代的框架,还没有大规模的诞生和出现。 以及你怎么去利用绝大部分人的智慧去创造一个更强的框架,也还没有出现。 这两层,一层是框架本身的自进化,一层是 Agent 跟人之间的自进化,我还没有看到。我们现在做的其实是你怎么去更好的 Model for Agent(让模型适配智能体) ,以及怎么让 Agent 一定要去适应 Model。其实是在做 Agent 跟 Model 之间的双向流动。但还没有在框架层,我觉得未来需要做的事情是怎么让框架自己进化以及框架跟人互相进化。 【小俊】 这是你们现在着重的大致方向吗? 【罗福莉】 我会不会去深入研究的事情。

三十四、现在的框架核心缺陷

【小俊】 你觉得现在的框架没有做到的核心缺陷在哪里?可能补足了某一个短板,它也许就能成了。 【罗福莉】 缺陷是我们刚坐到这里。我觉得只是因为时间原因,我们刚坐到这里而已。未来的加速度是会很快的。 现在只要拥有一个 Long Context(长上下文)非常Efficient(高效) 的模型架构的厂商,并且它在做预训练阶段把 Code 的能力也做得非常好,有这样一个 Model(参数上可能至少希望至少1T以上),只要有这样的一个入场券的人,基本上都处于同一水平线去做这个事情。 当然 OpenAI 肯定是走到前面了,我只是说目前上一个时代的成功并不意味着下一个时代的领先,现在基本上大家在同一水平线。 【小俊】 这是一个什么样的时代? 【罗福莉】 我觉得生产力加速变革的时代。 今年生产力会爆发。从你会接触到这个事开始,你就会发现你的好多工作都会被替代掉。那么这个时候人更应该去思考,到底自己的意义和价值是什么。

三十五、高价值任务 vs 普适性任务

【小俊】 所以 Agent 能做什么样的高价值任务是不是变得更重要了? 【罗福莉】 你要从提升顶尖模型的能力的角度上来说,肯定是让 Agent 去替代更高价值的任务是重要的。因为更高价值的任务意味着更长的 Context,意味着更多的 Token 消耗量,意味着它最终能替代到最顶尖那一群人的智能就够了。 但另外一个演变角度是说,你要做一个对全社会更有益、对所有人都有帮助的模型,那么就不应该只在更高价值的场景去做,而是让所有人都能感受到这个模型的智能水平。比如说在这种场景里边你就更需要在乎多模态,因为在更广泛场景里边多模态,尤其是对视频的理解,对于一些更细微的环境的理解是更关键的。以及要注重成本,它是生产力革命非常重要的因素。你不能说完成一个任务要花1000刀。我觉得很多任务场景必须要达到一个很高的替换系数比,能帮我节省10倍的成本,我可能才会考虑去用。 这个时候你怎么去做一个更低成本、更高速度的一套Agent框架以及对应结合的模型,就很关键。这是两种发展思路。

三十六、如何定义2026年

【小俊】 你会怎么定义2026年? 【罗福莉】 我觉得很难去定义它。两个月对我来说已经是发展巨变的。 我们做两周的事情,基本上就让我们很难相信这是两周内做的事情。所以我都不知道这一年接下来会发生什么,基本上是处于在这种高度兴奋的状态。

三十七、生产力爆发的先决条件

【小俊】 我很好奇从2022年底 ChatGPT 诞生,然后当时大家就觉得 AI 一定是生产力革命,到今天就发展三年,你觉得它带来了哪些先决条件让今天的生产力爆发可能成为一个更可能的时间点? 【罗福莉】 我觉得第一个关键点是不再是算法工程师在做这个事情。 我自己会把这个事儿觉得是一个非常有标志性的节点。之前你会觉得只有做 Research(研究) 或者说算法的人再去考虑怎么去提升智能水平,但你现在会发现所有懂写代码、副手写代码的人都在一块去考虑去提升整个东西的智能水平。 不管他是在写 Skills 也好,去改 Agent 框架也好,还是去设计更好的研究范式也好,这是三个层面。我觉得是所有人都在让自己的智能去加速这个事情,这是我认为最大的一个变化。 【小俊】 我突然想到 OpenAI 去年底的那期博客里的最后一句话,他就说 Agent 的进化秀,所有人参与。 【罗福莉】 对,所以现在是让我有这种感觉。而且其实现在已经是了,只是唯一没发生的就是我刚刚说的Agent跟人怎么更好地加速。 因为 Agent 也要自迭代,人也要自迭代。

三十八、更自然的交互方式

【小俊】 通过聊天是一种,然后会不会有一些更自然的方式?你有一些思考。 【罗福莉】 比如说要是我真的能带一个非常好的设备,一整天跟着我,然后我所有说的话、我见过的人它都知道,我觉得它进化速度应该比我快。 我自己认为它应该比我快,因为它后面依赖的算力会更多,它会很快替代我。而且它不会今天记得明天不记得,它是非常稳定的,而且它是一条进化的曲线,它乐此不疲,不需要休息。

三十九、国内模型公司对 OpenClaw 的态度

【小俊】 你刚刚提到说国内的人更热情,圈内人现在是怎么评价的? 【罗福莉】 模型公司的人不是很 Care(在意) 这个东西。我感觉模型公司不是很 Care。 【小俊】 真的跟我们不一样。他可能觉得这个事情不难。 【罗福莉】 我一开始也觉得这个事情不难,然后到后面我就觉得它整个 Agent 的设计是非常非常巧妙的。这个巧妙是指我觉得它弥补了很多模型短板,它是怎么精巧地去构建编排的。 我怀疑这个原因是它最开始是基于 Claude 上一代模型去做的。Claude 上一代模型 4.5 哪怕是 Opus、Sonnet 其实是不够那么强的,所以你必须要在系统设计上(也就是框架的设计上)设计得更精细一点,去把短板给补起来。这就导致了 Opus 的进步。但是国内的大部分模型可能刚靠近 Claude 4.5 Sonnet 和 Opus 的水平,然后反而这两个握手了。我觉得是这样一个原因。

四十、框架的精细编排还需要吗

【小俊】 如果模型能提高的话,它这些精巧编排还需要吗? 【罗福莉】 还是需要的,出于对成本的考量是需要的。 我们永远会去追求一个成本和效率最低的一套方案,这个是生产力革命的非常前置的要求。所以不可能说我们所有的场景都用最顶尖的模型,因为它太贵了。 所以更有可能是 Agent 在进化,模型在进化。模型进化的方式有可能是同一个水平的模型在越变越小,这也是一种进化。现在可能激活 10B(100亿参数) 的模型,可能过一年它就能做到 Claude 4.6 Opus 的水平,这个是极大概率会发生。 几B(几十亿参数) 识别模型是很便宜的,可能1到2块钱就能有百万的上下文。你为什么不用一个更小的模型?它反应速度更快更灵敏,基于这套框架很好用,你还可以改这套框架。为什么不拥抱它呢?所以它其实让不那么好的模型有了更好发挥的空间,它的上限更高。 【小俊】 所以需要小尺寸的端侧模型爆发。 【罗福莉】 这个趋势肯定会发生,但是我觉得它不是2026年的一个主要的旋律,它是一个支线,而且是会持续发生的事情。

四十一、2026年的主旋律

【小俊】 2026年的主要旋律是什么? 【罗福莉】 高生产力场景的持续突破。 所以我们要做更长程的任务,更强调多 Agent 之间的协作。因为更复杂任务它不可能是单 Agent 去做的。多 Agent 的协作某种程度上也是为了成本和时间的考量,以及怎么去激发 Agent 的群体智慧。 我现在觉得现在市场上已经看到的 Multi-Agent(多智能体) 的工作都有点伪。我说伪是说真的依赖于 Multi-Agent 能够实现更好的最终任务完成率,在这个维度上我觉得是有点伪的。但它能提升效率速度,任务完成的速度,以及它最终能够节省成本,这个是确定的。 但我没有看到说 Multi-Agent 一定最终能实现一个更高上限的东西。它现在只是我目前还没有看到。

四十二、今年和前三年趋势的变化

【小俊】 今年的趋势其实跟前三年已经发生了很大的变化了。你是怎么感知到的? 【罗福莉】 朋友的人跟我说,他们觉得他们跟豆包已经玩开始玩不一样的游戏了。豆包、元宝、阿里都在玩互联网产品的游戏,因为他们在打 DAU(日活跃用户数)。而 Kimi 的人他们是觉得他们在走 OpenAI 那条路。你们在打、在玩一场什么样的游戏? 【罗福莉】 可能我们追求的事情是我自己觉得什么时候能够超越自己。 我是这么去定义的。我觉得我对 AGI(通用人工智能) 的一个定义会非常模糊的一个原因,就是因为我觉得没有必要去追求一个非常清晰的 AGI 的定义。当AGI发生的时候,所有人都会感知到的。 就是因为你发现每个人的生活、你的生活方式、你的工作方式已经为之长达很长时间被它改变了。所以在这个过程中追求 DAU、追求这些东西,它并不会促成这个目标——让这个模型代替我。 所以我就完全没有在想这些事情。 而如果我们去追求一些中线的目标,比如说你追求 Token 消耗量,你去追求它完成更高价值的任务,它是在往这个目标去靠近的。因为要完成可能替代我自己的任务,它确实是需要更多的 Token 消耗量,它需要具备更复杂的 Context,它需要去调动其他人的智能水平。团队管理其实就是要去调动其他人的智能水平,技术创新也是。你需要具备更多的数据访问的权限,你需要具备给你一个 GPU(图形处理器) 集群你会用它,并且你要自己去定义一套评估标准。 我想象的是我们应该让这个模型结合一套框架本身去完成这件事情和任务,而不是去追求另外一个象限上的事情。

四十三、过去两个月生活的变化

【小俊】 过去两个月你觉得你的生活发生什么样的变化? 【罗福莉】 生活亢奋,还要亢奋。你感觉每天都会发现 Agent 的框架本身或模型本身又进步了。所以今年带来给你很强的 Moment(时刻) ,这个可能比过去 ChatGPT 的更强,而且是持续的。 你感觉它停不下来,这是比较大的变化。 我觉得 ChatGPT 可能就是那一阵,就你去体验它的那一刻你用到它了,然后你发现它具备很好的思考能力了。从 Code 和 Math(数学) 外放到其他领域,也就是那一刻。但那一刻完过后,你没有感觉它有持续性。但 Agent 的这个事上你会觉得它一直在持续。因为有这样的持续性,所以你会更坚信这个事它在全面加速。

四十四、过去绝不可能、现在可以做到的任务

【小俊】 有什么样的一个任务是你过去觉得它绝对不可能做到,但是今天可以做到的? 【罗福莉】 模型训练这个事我自己觉得以前是很难的。因为你要涉及到跟更复杂的深度学习平台的融合,听起来就不太靠谱。以及你怎么去让模型具备你的 Context。因为一个研究员他有的 Context 是很长的,你要经过很长的科研培养,比如说一个博士有5年的科研培养。你怎么让一个大模型跟你有一样的 Context?这个事是很难的,我之前认为是不太可能的。 但是我最近发现原来它很聪明,你只要把你近期的 Context 告诉它,它甚至能帮你复原出来你自己的科研成长路径。这个时候你再去跟它讨论同样的 Topic 的时候,你发现它跟你一样聪明。 所以这个事是很残酷的。我之前认为我们自己做的工作已经是足够有创造力,足够不会被 Skill 化、不会被 Workflow(工作流) 化的。但我现在发现它竟然也能。也就是说可能过一段时间它真的能训出一个我们能训出来的模型,它也能训出来了。 它可不可以迅速训出更强的模型?然后它就自己左脚踩右脚就提升了。我觉得这个事情是很有可能发生的。它可能真的能依靠于它自己产生更强的智能。 进化,它先吸收所有人的智能,然后再靠自己产生更强的智能,我觉得这个事肯定是就在这一两年发生的事情。

四十五、模型训练和团队管理的相似性:群体智能

【小俊】 我刚才听你的整个描述,我会有一种感觉,我觉得你做模型的方式好像和你管团队的方式有某种相似性。 【罗福莉】 主要的原因是它确实需要群体智能,不是个人英雄主义。它需要每个环节上都是足够极致的人。 【小俊】 什么叫群体智能?在模型训练上。 【罗福莉】 可能不同的 Agent 它需要有自己的 Context。有自己独立的 Context 的原因是当模型能力没有那么强的时候,有自己的独立的 Context,它会变得更专注。专注还是蛮重要的,你的 Context 不被混乱,它能完成得更准。 所以你可以理解为我们现在是模型可能需要非常多人,去写一套非常好的训练或推理的架构,需要他从训练推理的视野去倒推跟做模型评估以及模型训练的人一块去定一个非常好的模型结构。非常懂模型训练和模型评估的人,又要学会去跟做数据的同学进一步沟通,说我们要赋予模型什么样的能力,我们需要构造什么样的数据。同时做数据这一群人,他又同时需要参与预训练跟后训练,因为预训练跟后训练的数据是通的。这里边其实你要真分的话还是有很多垂直分工的,但这些人之间他们的 Context 有独立的地方,也有关联的地方。这样一套复杂的框架,目前看起来是能够被Multi-Agent出来的。 这也是为什么我自己玩 OpenClaw 的第二天,我就开始让它去——当时我在家,然后我就让我家里边的每个人,我爸爸、我妈妈、我老公,每个人都有一个自己的 Agent。我们组一个飞书群,每个人也可以自己跟自己的独立 Agent 聊天,然后它自己进化。我就在那个群里面委派一个任务给他们的 Agent 干。因为我们的 Context 是不一样的,它有更好的 Context,所以它会干得更好。 这样一个很粗浅的尝试,让我相信这个事换到一个更高复杂度、更有创造力的场景,只要模型能力跟这个框架本身在进化,应该也是可能做到的。

四十六、对Agent框架的完整表述

【小俊】 我想到刚才有一个点就是关于框架,你要不要有一个完整的表述? 【罗福莉】 其实 Agent 框架我认为现在就有很多形容词去形容它,比如说 Workflow(工作流)、Skill-based(基于技能) ,还有一些其他形容词,我没有特别去专注说哪个形容词是更准确的,我更关注的是这个框架本身它带来的一些差异化优势是什么。 比如说我认为一个非常好的框架,它其实应该是尽量去弥补在行动上的缺陷的。很多东西都是在弥补行动上的缺陷,比如说很好的 Memory 系统是弥补行动上的缺陷,接触到更多广泛的 Message Channel 是弥补行动上的缺陷,它更主动(不管是定时任务的主动,还是其他设计),以及它自我去更新迭代,这些都是在弥补行动上的缺陷。因为大模型不管是你给它越好的 Context,它肯定执行的效果越高。所以你要是能把这些它获取不到的 Context 都给它,那么它肯定会完成得更好。 这里边还有一个很关键的一环是评估。一个好的框架本身确实是需要有一个很好的可泛化的评估体系的,这样它才可能自迭代。现在已有的评估体系其实都非常的简单,它只是为了防止它不出致命性的错误。那么怎么有一个更有泛化力的评估体系来促进这一套框架自迭代? 其实现在是把最高阶那一群人当评估。你交给它一个更难的任务、更高价值场景的任务,它完成不了,你会给它提供补充信息,指出哪里错了,不许它经过更多人的交互把这个任务完成。所以本质上现在是这群人在当评估。但这个评估会慢慢地被框架吸收,框架会设很多东西来确保在某些确定的场景我能评准,同时也会被模型能力吸收。模型会学会像人一样,当我采用这个方法或思路做到瓶颈的时候,它会自己采取另外一种思路或者说自己去反思。 这个是目前的这些框架还没有太去关注的。其实最近一个月已经有一些框架在关注这个事情了。

四十七、国内各家的类OpenClaw产品有何不同

【小俊】 在 OpenClaw 火了之后,国内的很多团队都推出了类似的产品,你觉得它们有不同吗?比如说 Qwen(通义千问) 团队有,你们团队有,Kimi 有,MiniMax 有,他们有什么不一样。 【罗福莉】 我大概只试了一半,觉得大同小异。 这个大同学的就是让 Front Court 变成一个类 Chat 的形态,让你去感受到。 我还没有看到一个至少在改进的框架本身——我觉得你做这种产品至少要去迭代框架本身——还没有看到一个比OpenClaw开源社区进步更快的框架或者说产品出现。我还没看到。所以我宁愿用最新的 Open Source(开源版本)。

四十八、OpenClaw 卖给 OpenAI:产品需要模型吗

【小俊】 你看 OpenClaw 不久之后就卖给了 OpenAI,你觉得是为什么这种非常不错的产品公司最后还是并给了模型公司?这是不是说明没有模型做产品还是比较难的? 【罗福莉】 对,我觉得这两个应该是一定要深度耦合的一个事情。 但很好的是 OpenClaw 它开源的属性没变,所以你还是可以在这套框架的基础上,大家一块去设计更好的 Agent 架构。这个事本身没变,只是说可能做这个事的一部分人的立场变了。这个立场变了,Maybe是好事,有可能是坏事。但总之它不影响 OpenClaw 本身开源的属性。我觉得至少我说这种群体演变的可能性和基因火种是保留的,那就挺好的。

说明:以上是访谈文稿前半部分(约50%)的完整梳理与格式优化。如需继续处理后半部分(包括MiMo V2系列模型技术细节、团队组织、罗福莉的工作心法等),请告诉我,我会继续以同样的标准完成。 好的,我们继续完成剩余部分的梳理。

四十九、悄无声息的伏击:MiMo V2 系列发布

【小俊】 接着聊聊模型。上次我们聊天是在你们的 V2 Flash 发了之后,这次又发了三个新模型:PRO、Omni 和 TTS(Text-to-Speech,文字转语音),并且你把它称之为一次“悄无声息的伏击”。为什么这么说?为什么是悄无声息的,又为什么是伏击? 【罗福莉】 首先,它这三个模型在 Agent(智能体) 场景下的表现提升这么快,或者说我们能这么快去追上在复杂的 Agent 架构里边表现这么稳定,是超我们预期的。不是我们计划得非常好的,而是我们一下觉醒了,然后就爆发了。 你们觉醒了。 对,所以它确实是一个很安静的。我说安静,是因为外部不知道,我们自己内部也是快速发生的一个事情。 第二个,我们其实在一年前去做这么多模态的时候,更多的角度还是说如果真正产生智能,应该智能是全方位的、多方面的,所以去做了多模态的理解,以及你智能最终要产生价值,一定是要有交互的,所以要去做语音的生成。 但一年前做这些东西的时候,它还不是很明朗,你还是觉得你还是在做一个单一的模型,你在做一个动态理解模型,在做一个语音的生成模型。你没有觉得这些东西它能够很好的去被组织和编排到一起。当我看到OpenClaw的时候,我自己一下就想到了这样的一个画面,就是这些模型在各自在什么样的环节发挥什么样的作用,它们能够怎么被有效编排,以及它会产生一个什么样大的生态的价值,一下就在我的脑子里边就全部给打通了。 所以我们快速的让所有方向都要面临到范式去做后训练的针对的设计,就是这个原因。 所以你现在如果能在 OpenClaw 里边同时用这几个模型的话,你会发现把它串起来很好用。它肯定比用其他家模型可能好用一些,或者说至少这是我们往后迈进的一个目标。

五十、为什么三个模型不合为一体

【小俊】 为什么这三个模型不是合到一个模型里边去? 【罗福莉】 我觉得更多的出于对于成本和速度的一个考量。比如说语音生成,你没有必要去用一个 1T(一万亿参数) 的模型,它的时延你也接受不了。比如说动态理解,它是不是值得一个更大的模型?这个我觉得都是要去打个问号的。因为我觉得AGI(通用人工智能)的革命本质上真的是生产力,生产力你就必须要足够去在意最终它端到端的完成率以及给它的成本效率。 这是现在三个模型同步出现的一些原因。我们后面应该也会有一些计划,怎么让三个模型更好的协作。

五十一、编排的 Know-how

【小俊】 就是你所谓的编排,现在有什么样的一些 Know-how(技术诀窍) 吗?怎么样编排是更好的编排? 【罗福莉】 首先你从任务类型来说,最简单的绝大部分的任务类型,你其实是可以只用语言模型来做的。但是在因为现在我们完成整个任务的环节太长了,在某些环节上如果你意识到你是需要调动你其他像人一样感官能力的时候,然后你就去用另外一个更精巧的模型让它来做的更好,类似于这样的。 而且因为这三个模型是同一个生态体系的,所以你能知道它们的 Background(背景知识),你知道的它也是知道的,所以你能放心的把你觉得它能完成的任务交给它做,你不会担心它不知道你有的背景知识。这个背景知识是来自于训练的。 目前这三个模型在同一个 Agent 框架里边去释放出来的潜力,跟你去组装其他模型能释放出来的潜力的差距,目前是很微弱的,但我认为未来不会。 因为未来它是一个效果、成本、效率三者的一个乘积。未来你不会觉得,但是目前你会觉得它是微弱的。

五十二、三个模型的分工

【小俊】 这三个模型你们在 Backend(后端) 什么?这三个模型的关系是什么样的? 【罗福莉】 我觉得在 Better(更好地) 全方面去替代人的生活和工作的方方面面,所以你就必须要具备这些能力。 你看 PRO,我觉得它是在做理解和认知,做更复杂的调度。Omni 是在做感知。TTS 是在做声音的输出,它是一种表达。这三个加起来是一种类人的智能吗?反正它把人有的智能的表象——输入和输出——给建模了。 但是它有没有人的各个感官之间的协同那么好?我认为现在还没有做到。但这也不纯粹是模型上没有做到,还有框架上也没有做到。

五十三、音视频理解的瓶颈与开源的必要

【罗福莉】 比如说现在 OpenClaw 它对于视频的理解和建模是非常差的。因为开源社区没有一套对音视频联合理解得非常好的开源模型的出现,而且这个模型还有很强的推理能力。就没有这样的模型出现,所以它在框架上的发展是滞后的。所以它现在对视频的理解会回退到去一些图例,甚至到最终会回退到理解 Caption(描述文字)上,就回退到一个纯文本的智能水平上。 所以这也是为什么我要做开源的原因,就是因为只有开源界看到一个更强的视频理解的、声音生成的这样的一些模型过后,它对应的框架才会发生改变。 框架它其实是一个协调层。只有协调这一层,以及模型智能的中枢这一层,这两层很好的交融的时候,那么可能才会达到类人的智能。

五十四、Flash 的定位与架构设计

【小俊】 我们来围绕着 V2 来聊。虽然 Flash 已经过去了一段时间,它是你们去年12月16号发布的。当时做 Flash 的时候,你们的核心定位是什么?它被大家认为是你在小米的第一个作品。 【罗福莉】 其实 Flash 跟 PRO 基本上是同期训练的,因为它们的模型结构非常近似。但是我们在设计 V2 这一系列,不管是 MiMo V2 Flash 还是 PRO 的时候,这个模型架构本身有一个非常关键的目标,就是我们要围绕 Long Context(长上下文)的效率来设计模型结构。 当时也是有隐隐约约预感到 Agent 的时代 Long Context 是非常重要的,或者说有预感到 Long Context 会产生智能。但是我们没有预想到会不会是 OpenClaw 这种形式,但是已经预感到 Long Context 一定是一个非常重要的问题。 那么 Long Context 的效果以及最关键的推理效率——你的成本和你的速度要很快,成本够低、速度够快——就是我们这一代模型结构必须要去追求的永恒的命题。因为你成本够低、速度够快,你有可能可以把一兆做到10兆甚至100兆。其实现在所有的模型结构它都能训到100兆,它为啥不把这个模型提供100兆的推理?除了效果一般以外,我觉得更多是出于对成本的考量。 100兆太贵了,你可能到后面一兆过后到100兆这个范围内,非常贵,到你根本就不想用它。 所以我们当时就围绕着这样的一个核心目标去设计了 Hybrid(混合式) 模型的结构。

五十五、为什么不用 MoE

【罗福莉】 当时其实另外一个更主流的选择是用 MoE(Mixture of Experts,混合专家模型)。包括现在我觉得同期跟我们开始训练的应该是 Minimax 跟 Kimi——Kimi 更早一些——其实他们都选择了 MoE。DeepSeek 和 Mixtral 对于 Chat(对话式)的时代来说,确实是一个非常优秀的模型结构。甚至它对于长上下文来说也算是一个还不错的模型结构,因为它大量去减少了 KV Cache(键值缓存),对长上下文来说你的 KV Cache 很宝贵。 但是它有一个我认为是不那么去适合 Agent 范式的最根本性的要点。MoE 在设计之初是为了去达到很好的访存跟计算的一个比例,在当时的 H系列芯片(H100等) 上,为了实现一个更高的、既不浪费算力、又不浪费访存、又要把访存的瓶颈给打破的架构。在这样架构下设计出来的模型架构,它没有任何可发挥的空间。 我指可发挥的空间是指:假设我们认为 Long Context 是重要的,并且我认为推理速度也是重要的,我能不能用一些让它推理加速的方式?比如说 MTP(Multi-Token Prediction,多令牌预测) 就是一种方式,让它实际上推理的时候加速N多倍。但是 MoE 是不太行的,因为 MoE 它已经达到了一个 Memory Bound(访存瓶颈) 和 Compute Bound(计算瓶颈) 的非常完美的临界点。你要是用 MTP 的话,你会发现它又卡在计算瓶颈上了。 所以现在你看所有 MoE 的模型结构,不管是 Minimax 也好,Kimi 也好,虽然他们我猜测应该都没有上 MTP,因为上了以后它就变成 Compute Bound,就很不划算。所以它的模型都会慢一些。你会觉得大家对 MiMo 的第一代 Flash,哪怕是 Flash 能做到 100到150 TPS(每秒生成Token数),然后 PRO 现在我们也能做到 60到 100 TPS。100 TPS 肯定会更贵一些。 所以大家用 MiMo 的不管是 Flash 还是 PRO 的一个感觉是好快。这就是这个结构,尤其是针对 Long Context 高效的结构带来的一个优势。同时它成本又够低。因为 Hybrid 的结构,包括在 PRO 这一代上,我们给它拉到一个更极致的 Hybrid 的比例,它 Full Attention(全注意力)层 跟 Sliding Window(滑动窗口)层 的比例会更极致,达到了7:1的一个比例,所以它更省 KV Cache。 我们基本上是在这一代结构上实现了通过 Sliding Window 去减少 KV Cache,让它在长上下文上效果更能够支持更长的长上下文。然后同时通过 MTP 把 Sliding Window 节省的算力,然后把用 MTP 给它填上。这样子它能达到一个在实际推理的时候,访存跟计算的一个很好的平衡,同时又去兼顾了长上下文的成本和推理速度。 所以虽然我们设计模型没想那么多,但是基本上就完美的非常适合Agent。 因为 Agent 来说,长上下文非常关键;很小的 KV Cache 很关键,因为你很小的 KV Cache 能做更多的多级的缓存命中的话,会非常有利于节省推理的成本;然后速度是一个还蛮关键的命题,你一旦体验到了更快的模型以及智能水平相当的更快的模型,你就回不到更慢的模型的水平了。 所以我觉得 MiMo V2 Flash 和 PRO 大概是在这样一个背景下,我们同期开始去进行训练的。

五十六、为什么选择 MTP

【小俊】 放在你当时为什么会选择 MTP?MTP 的选择还真的是蛮后验的。 【罗福莉】 是我们这个模型已经快训到中后期了,我们觉得我们把这个模型开始为它去设计推理方案了。我们在我们自己的那一代的推理卡上去实际的去设计推理的并行方案的时候,发现它的计算剩余实在太多了。我们也没有想到它会剩余这么多。所以你就想的是怎么把这些剩余的计算给它有效利用起来,那么 MTP 太适合了。 但是我们在预训练阶段加上 MTP 的原因是它确实能提升基座的能力。 我们跟 DeepSeek 是一样的,预训练加 MTP 是因为 MTP 能提升它的基座能力。非得说为什么只有我们有 MTP 的原因是,我们的模型结构天然在计算上有留有大量的富余。这个事是我们在后面去设计推理架构的时候,突然有一天悟到的。当然也不是突然有一天,你去仔细的去算算推理的各方面的一些数字的时候,你就知道。然后你也可以用 Spec Decoding(推测解码),也可以用 MTP,然后把这些剩余的算力给利用起来。恰好我们又训了 MTP,那就恰好用起来了。 其实很自然的一个探索的眼神。

五十七、为什么 MTP 还成为不了主流

【小俊】 为什么它还没有成为一个主流? 【罗福莉】 大家太相信 MoE 了。因为 MoE 它确实太巧妙了,它在模型结构上把能做的全做到极致了。所以在我觉得25年上半年,如果要去训一个基座模型的话,那么 MoE 确实是一个不错选择。尤其是当没有看到 Long Context 的价值和 Agent 的范式的时候,MoE 确实是一个非常不错的选择。

五十八、MTP 会成为主流吗

【小俊】 它未来会成为主流吗? 【罗福莉】 我觉得应该不会。 我说 MTP。 如果说看大家的下一代模型结构是什么样,我觉得现在模型结构设计大概有两个趋势。一个就是你真的在预训练阶段,你就想明白你后面推理的场景是什么。比如说你要在什么上的卡去推,然后你要在多长上下文上去推,你的推理的并行的方式是什么。你可能连这个都要想明白,那么你就可以设计一个针对这个场景和推理方式和这款芯片的完美的结构,然后你去训,那么它的效率成本各方面一定是最优的。 MiMo 是在这样的 Context(背景) 情况下被设计出来的。但是这个 Context 它是建立在两个前提基础上的。一个前提是Post-train(后训练)是不重要的,或者说 Post-train 的时间是很短的,你能一个月就把 Post-train 做完,大部分时间在做 Post-train,所以你只需要架构 For 推理本身就行了。第二个是你的推理卡,你永远就是用那么一个两个,甚至用那一个最好的。 但这个事在当下是在发生巨大的变化的。因为现在是 Post-train 出现的周期在拉长,你在一代技术上能做到的 Post-train 的上限是远远被激发出来的。

五十九、Post-train 周期拉长的后果

【小俊】 这是什么时候发生的? 【罗福莉】 Agent 的范式时代。 你有一个更高效的 Context。其实 Context 越长也是产生智能的一种方式,你的模型能够被输入进更多的 Context、理解更多 Context 的时候,你的潜力就越高。这个跟原来 Chat 的方式是完全不一样的。原来 Chat 的方式它的 Context 就是人输入的,人输入的就是很短,所以它纯靠预训练。但是 Post-train 范式它就是很吃 Post-train,你对框架理解、对于怎么去所谓多 Agent 协作也好,乱七八糟也好,反正你可以理解为我们在 Post-train 上要去投入的算力,会可能跟预训练是相当的。 所以你这个时间周期在拉长。那么在一个比如说你 Post-train 要做半年或一年的场景下,那么你前半年去假定得非常多的东西,它可能是失效的。你假定要在什么上卡推,你假定你要在什么场景下达到更优的效果,它全是失效的。因为有可能当你做了 Post-train 做了半年或一年过后,你会发现那些场景全变了。可能以前大家觉得128K就够了,但现在大家觉得可能过几个月大家觉得我需要10兆上下文,就类似于这样的逻辑。 所以如果还是这样去做模型结构,它可能会失去一定的灵巧性。但是如果他的团队的 Post-train 的效率足够跟得上,他的认知是能够辅助预训练去做架构的正确判断的话,那么有可能这种模式还是 Work(有效) 的。就是它设计一个精细的结构,想清楚推理卡类型,想清楚场景,那么它应该还是 Work 的。

六十、另一种做结构的方式

【罗福莉】 但还有一种做结构的方式,是在结构上更简洁一些,留有更多的富余度来做后续在不同场景的适应和增强。 比如说我觉得还不如推荐一个更简洁的结构。它的简洁性体现在你可以靠 MTP 去把它的算力给它更充分的利用,然后也可以后面你甚至针对已经训练好的一个 Hybrid 的结构去增大 Sparse(稀疏) 和 Full(全注意力) 的比例等等。 反正我觉得在这样一个更简洁的架构上的时候,其实Agent发挥的空间、架构训练发挥的空间反而会更大。

六十一、MTP 与成本、幻觉

【小俊】 成本下降是 MTP 给长上下文推理带来的优势吗? 【罗福莉】 MTP 如果它的命中率非常高的话,那么它是可以带来成本的下降的。相当于它在更短的时间内吐出了更多 Token,所以它把 GPU(图形处理器) 的利用率打得更高。所以它本质上是在降低单Token的生产成本。 【小俊】 你刚才说了 MTP 的很多好处,它会相应地带来一些幻觉吗? 【罗福莉】 不会。MTP 因为它是会被 Verify(验证) 的。只有你预测的准,我才会采纳你当前 Token 的结果,所以它没有任何幻觉。

六十二、混合注意力机制的调整

【小俊】 刚才我们重点聊的是 Flash 上面用的 MTP。你们还做了一些选择,比如说混合注意力机制。你们当时选的是5层滑动窗口和全局注意力机制,你们这次其实有变了。 【罗福莉】 应该说,我们的大量的实验的一个结论是,Full Attention 的层数很重要,但是它的稀疏比反而可以有空间。 比如说你在更大模型上,你的层数更多的时候,你可以保证 Full Attention 的层数总数不变,但是你增加更多的 Sliding Window 的层就可以了。可能层数比这个系数比更重要。 或者说在更大的参数规模、更大的 Attention Head(注意力头) 的时候,可能我们也可以做到更稀疏的比例。 这两个结论的统一,导致我们可以在更大模型上做更高的稀疏比——Full 跟 Sliding Window 的稀疏比。我们最近在做很多 Sparse Attention 的研究,也是发现更大模型它能够吃更大的 Attention 的稀疏比例。大模型可以更稀疏,但小的模型你太稀疏了,模型效果就会做得非常严重。 所以这是一个实验结果,它不会成为一个固定的标准。这是我们的实验结果,我不确定其他家是不是也 Follow(跟进),也赞同同样也会有同样的实验结论。

六十三、Flash 的极致性价比

【小俊】 我觉得 Flash 还蛮有一点小米早期的风格的,因为就是追求极致性价比。这个是怎么定的?因为你们当时 API 定价是输入百万 Token 1.01美金,输出每百万 Token 0.3美金,在当时看来肯定是最低的价格、最高的速度。你觉得当时是做对了什么达到这个效果? 【罗福莉】 基本上把该做的都做了。架构有一个 Long Context 非常 Efficient(高效) 的架构,再加上 MTP 可以更加速,再把 Inference(推理) 最基础的基建做好,基本上这个价格就能做到。 我觉得在预训练时代,你根据模型的框架优势来定价,确实是合理的。因为你的框架很强,最终使用者能感受到,纯粹是因为你们的模型很强,所以我就按照你的模型结构的方式来去进行定价,我觉得是合理的。 但是我们进入到后训练的时代,后训练时代除了这个模型结构本身带来的优势以外,你还看你的 Context 好不好,以及这个模型对 Context 的理解能力好不好。所以我觉得它的定价逻辑应该发生变化,就不应该是根据我最终的推理成本来定价,而应该是根据我这个模型最终产生的价值来进行定价。 那么这个价值除了模型本身的架构优势以外,还有模型它在后训练上做得足够好,所以它能更好的去理解这个 Agent 的框架。 这也是它的定价的议价空间所在的地方。所以后面 MiMo V2 PRO 其实是抛弃了这样一个定价逻辑。

六十四、架构设计的目标

【小俊】 我在你们的 Tech Blog(技术博客) 里面看到,Flash 你们是从一开始就想 Better Recently Coding 和 Agent 吗? 【罗福莉】 我觉得做结构的时候只是 Better 一个点,就只是 Better 一定要做的大模型效果够好,然后效率够高,推理效率够高。 只是 Better 这一个点,其他都没有想。 继续训练我认为不应该太……至少我们当时那会是想不到更多的目标的。我也认为一个架构本身的目标不应该太过复杂,因为架构目标太过复杂,你的限制条件太多。那么如果这些限制条件之后,你的 Post-train 却要做很久,做到这些限制条件它都变成很伪的限制条件,你这个结构不就白做了吗? 所以我们没有对最开始的模型结构给强加更多的目标,我认为加更多目标是不合理的。

六十五、Flash 验证了什么

【小俊】 Flash 帮你验证了什么? 【罗福莉】 Flash 帮我们验证了我们整个 Infra(基础设施) 和训练数据是没有问题的。但是我们并没有说先训 Flash 再训 PRO,是两个人一块训的。Flash 是一个相对小的,比较早期——也不早期,我们训了就发了。所以你们看到的时候,我们也对没有规划很早,我们基本上大部分的模型训练都是在下半年进行的,去年下半年。

六十六、从 Flash 到 PRO

【小俊】 从 Flash 到 PRO,你对 PRO 的预期是什么样的? 【罗福莉】 当然那是同一时间。就是两个模型同步训练,我们相信这一代的架构是没问题的。只是我们在训 PRO 的中途的过程中去解决了非常多的训练中的问题。比如训练数值的不稳定性,训跟 1T(一万亿参数) 量级的模型通常会遇到的还是 Loss Spike(损失尖峰) 的问题。老训着训着 Loss 回去,老训着训着某个激活值很大。你要考虑怎么去解决。某些 Expert(专家模块) 的分布变得很极端,像天花板一样,一会儿一批 Token 打过去,一会儿又一批 Token 又打到另外一个 Expert 上,就很危险。 其实信号危险会导致训练出现,比如说 Loss 典型的会出现很多 Spike。负载会典型的会很不均衡,Expert 的负载会很不均衡。就在训大模型上就会花很多时间去解决这样的问题。 所以看起来是同步训练,但 PRO 训练进度就会比 Flash 慢一点,因为你要解决中途的这些让你训练不稳定性的要素。数值不稳定只是一个表象而已。这些要素就会非常锻炼一个团队的 Infra 和算法中联合 Debug(调试) 的能力。甚至有时候你怀疑到是不是哪个卡有问题,最后如果发现所有的卡都排查了没有问题,你会怀疑是不是今天的太阳黑子爆发。 你为什么怀疑到一些很玄学的问题上?因为你要从很表层然后查到很底层的因素。

六十七、PRO 的关键技术点汇总

【小俊】 关于 PRO 的技术要点,除了刚才三个——混合注意力机制的7:1比例、MTP、Long Context——我没有遗漏的吧? 【罗福莉】 差不多了,我觉得聊得已经非常透了。 【小俊】 所以 PRO 是几个月前开始做的,另外两个(Omni 和 TTS)也是同期开始规划的? 【罗福莉】 对,基本上都是三个方向同期在往前去推进的。

六十八、多模态融合的路线选择

【小俊】 加上 Omni 加上 TTS,整个 V2 家族是在指向多模态的趋势。但是它的模态又非常的不一样,文字是离散的 Token,图片是像素矩阵,音频又是波形。你们怎么去做这个融合呢? 【罗福莉】 其实我们还是想尽量把它统一到离散 Token 的范式下。至少在音频的建模上,我们想要把它离散化,变成跟文本一样的离散的 Token ID。所以我们在这个事情上是投入了比较多的研究的算力,说怎么去进行离散的音频的建模。而且我们希望离散音频的建模尽量做到无损的离散。 因为大家还是不太相信说你怎么把一些连续的输入变成离散,最后还能重建出来。这个事其实是需要非常多更精细的。比如说我们需要一些多层 RVQ (Residual Vector Quantization,残差矢量量化) 来保证它的离散的表征是一个非常大的像 Dictionary(字典) 一样的高位空间,我们需要更多的预训练来让它开始涌现。如果你基于连续的特征做,可能很快就涌现了;但你基于离散特征做,也会更难去建模它的涌现出现的时间段会更晚。 所以我们知道在音频上是开始了尝试,也会迁移到后面其他模态。我们就还是比较想用一套更优雅的架构来做整个多模态输入的理解。 但是我们不是为了统一而去做这整套架构。很多时候如果说我们发现确实比如说在图像上你现在确实是不那么可行的时候,那么我们还是会寻求到一种目前更主流的一种架构里边去。因为我们优先要保证的是这个模型它要具备的是一个整体的智能水平,而不是追求为了统一优雅的一个范式。

六十九、音频统一到 LLM 里容易吗

【小俊】 音频统一到 LLM(大语言模型) 里去容易吗? 【罗福莉】 应该……我们还蛮另类的。我们的技术架构应该是非常另类的。我知道国外的御三家也好,国内像豆包也做得蛮好的,那都是跟我们完全不一样的架构。 【小俊】 你为什么选这个架构? 【罗福莉】 就是做 NLP(自然语言处理) 的人的执念。我们做音频的人全是做 NLP 的人,所以有这个执念觉得相信它,然后就去做了。

七十、图片能统一吗

【小俊】 那图片能这么做吗? 【罗福莉】 能,我们已经尝试了非常长一段时间了。但是它是一个权衡,就像我说的,你做到真的无损的一个重建,是需要投入更多的算力、更长的研究成本在的。它是一个权衡。至少在音频上我们已经迈过去了。 【小俊】 图片迈过去了没有? 【罗福莉】 图片正在进行中,不知道能不能迈过去。

七十一、统一架构的意义与转变

【小俊】 如果迈过去就会带来什么?这会带来更大的想象力吗? 【罗福莉】 更优雅的结构。我原来是最开始认为如果我们把它统一都离散化,那么我们可以用一套基础架构去解决这个问题。同一套预训练基础架构,同一套做 RL 的基础架构,很优雅的把所有方式都统一了,太简洁了。 这是如果真能做到的话。 但是我现在发现一个问题是,当我们有 Claude 和顶尖的模型过后,这些架构——比如说我们重新去写一套 RL 的 Infra 架构,重新去写一套训练的 Infra 架构——我们最近就已经完全在从头去写一些新的架构。 我原来以为写这些架构蛮耗费人力、蛮耗费时间的,但是现在看起来在 Agent 的支持下,写这些架构的时间被大量缩短。你其实就没有必要为了架构的优雅性去做很多为了统一而统一的研究。这是最近的变化,一个月内的变化。

七十二、之前的执念与现在的转变

【小俊】 但是之前你是希望怎么统一的? 【罗福莉】 对,这执念之前是来自于这种 NLP 的执念。就是所有东西离散优雅,监督信号更清晰。然后你可以做 NTP(Next Token Prediction,下一个令牌预测) 做 Loss Prediction(损失预测),然后你可以复用所有的现在的 Infra(基础设施)。多爽。 但是现在回过头来看,Infra (Infrastructure,基础设施) 重新写一套也没有那么复杂。几个人可能在 Agent 的帮助下,两两三周就可以重新捏一套新的 RL 框架。 【小俊】 为什么要?因为我后面后训练的 Infra 架构的统一性去牺牲让前面模型结构牺牲这么大。 【罗福莉】 对。

七十三、Omni 的架构与“全模态”命名

【小俊】 但是 Omni 在做的时候,它是走了一条就是有别于分别处理多模态再拼接的路线,对吧?它是试图构建一个统一的…… 【罗福莉】 倒没有。我们 Omni 的整个 ViT(Vision Transformer,视觉Transformer) 上只是去做了一个,它还是一个 ViT,只是我们把它变得更高效了。它变成了一个 Hybrid Sliding Window 的一个 ViT。但是我们表征本身并没有做太多的变化,它还是一个连续的表征,并没有做太多变化。 【小俊】 为什么你们叫法叫做“全模态”而不是“多模态”? 【罗福莉】 就是因为它支持确实是支持视频、音频、图片、文本所有模态。然后也有一些 Agent 领域的模型是不支持音视频的联合理解的。它应该是第一个支持音视频联合理解,并且今天的能力能够做到跟 Language Model(语言模型) 水平差不多的。

七十四、多模态能否促进智能

【小俊】 是不是有迹象能表明这种全模态或者多模态的理解力能够产生智能? 【罗福莉】 两个月前我很相信。然后最近反正在去欧美的整个过程当中,稍微有点质疑这个事情。但是我们后面还是发现了一些很好的迹象。 比如说 MiMo V2 Omni 它其实是比 PRO 小的,但是大家实际去用的时候会发现 Omni 的对世界的感知和领悟力上,或者说最终反映出来它的情商以及它的知识的储备上,会比更大的模型更强。 因为它训了多模态。 我猜测可能是因为我们在这两个方向上 SFT(监督微调) 的算力和纯语言上的 SFT 算力还不那么多,可能导致我们现在并没有看到原生多模态有那么强的一个促进智能的提升。但你能感受到比如说很多世界知识,因为训过视频,所以它知道的更多。然后它对很多很细微的东西的感知力,你发现它更强。但这些都是很虚的,都是我们自己去实际体感去测的。 对感知力会更强,但是你在任何 Benchmark(基准测试) 上是纹丝不动的。

七十五、Benchmark 错了吗

【小俊】 比较有……可能 Benchmark 错了。 【罗福莉】 当然有可能。所以我现在也不完全说非常确定说 OK 你理解了多模态能力是最终实现所谓 AGI(通用人工智能) 路径的必要路径之一。我是不会去下这样的一个结论的,因为我觉得每个人对 AGI 的定义是不一样的。而且尤其在 Agent 这样一个可以把多个模型的能力给非常优雅的编排到一起的场景的情况下,我们根本没有必要去非常强调多模态本身是不是促进智能这个事情。它有没有促进智能这件事本身不关键。 【小俊】 多模态带来了什么? 【罗福莉】 我刚刚那两点,目前也只观察到了这两点。我现在还不知道未来会不会在一套新的架构上会不会有一些新的东西。我觉得可能做多模态生成未必会有一点点不一样,生成可能会促进更好的感知。但是你要是纯说把你的感知维度给它扩大,可能你是不太会促进智能的。但是如果你能生成,它未必是能促进智能的。这是我的一个猜测。 但是生成现在还是一个科研问题。 把生成跟理解做到一个统一的架构里边,目前还没有给你到非常大的算力的反馈。大部分的生成的架构还是纯生成,它并没有理解的智能。

七十六、Omni 的目标

【小俊】 你对于 Omni 这个模型的目标是什么?你设计它的目的是什么? 【罗福莉】 我觉得截止到目前为止,Agent 它要行动,它是必须要具备多种模态的。 这是这样一个目标。 但下一个目标我觉得不是这个。下一个目标可能还是想去探索到说当你结合多个空间的感知,甚至你能去生成更多多模态信号的时候,你会不会促进你对这个世界的理解。但它可能就需要有一个跟现在的 Agent 的框架交互的更好的一个视频生成的模型。

七十七、为什么不披露 Omni 的参数

【小俊】 为什么你们没有披露 Omni 的总参数量和激活参数量? 【罗福莉】 留点想象空间。我们相信这个参数量可能能做到可能更接近于 PRO 的智能水平。虽然大家知道它比 PRO 小一些,只是小一些是吗?对。但是我们相信它们俩能够互相迭代,我们希望它们俩能够互相提升。当然 PRO 更重要,就是纯语言空间去做很多前置的研究是更重要的。

七十八、关于 TTS 的亮点

【小俊】 关于 TTS 有什么值得划重点? 【罗福莉】 我觉得 TTS 就是我们想用我们自己认为一套优雅的架构去做一个大家都用一个传统的架构做起来很容易的一个事情。我们在这个事做完过后,我们发现把它追求一个离散化,通过在万亿一小时的数据集上进行训练过后,我们发现这个模型的泛化率是非常好的。 但是我没有办法去对比说我们去训一个很小的模型,它泛化性是不是真的没有这个好。至少我们目前得到这个模型,大家能看到你给它输入很多风格化、多样化的风格化的标签的时候,它会更智能。它会看到你的字本身,它会通过推测你字表面的含义去赋予它的情感和语气。在这个事情上的泛化性上,我们发现特别明显。 因为我们只是简单的做了一些很特定的几个场景的风格的数据,做 SFT 和 RL,就是很刻板的几个风格化的场景——比如说快点、慢点、高兴、悲伤这种很刻板的风格化的场景,去做了这种风格化的 Post-train。但是我们发现你把它的标签给它变成一些非常复杂的自然语言的描述,它也能够遵循。这是它所能泛化出去的。 这是我们在做这个的时候发现到这种简洁的架构加超大规模训练带来的一个超强泛化力的一个外化的表现。 但是还很初期。所以我们 TTS 的模型我认为效果是非常惊艳的,也就是说它的上限是非常高的,但它下限我们现在在慢慢的去弥补。它有时候会不太稳定,所以我们目前只是一个限时免费,开放出 API(应用程序接口) 大家玩一玩,不确保它真的能投入生产可用。但很快我们会让它变成生产可用。

七十九、通往 AGI 之路

【小俊】 你之前在一个发布会上画过一个通往 AGI(通用人工智能) 之路的图。你对比了人类的智能就是一个生物演化的路径,它是一个正三角,然后倒三角是一个现在 AI 的发展。你觉得 AI 发展是一个空中楼阁,因为在人的进化中最顶端才是语言,但是 AI 大语言模型极大地放大了最顶层,所以它是一个倒三角形。你觉得怎么能够拼接出 AGI 之路的图?你现在做的事情在往这条路上走吗? 【罗福莉】 我觉得现在大模型的演变逻辑确实不能跟人去完全不太一样。不一样的原因是环境不一样。 人演变的时候,它是随着自然界的变化,为了生存来演变的。但是大模型它好像一开始上来不是为了生存。它没有生存的危机。 不知道现在大模型有没有自己的价值观,但是我们要硬给它赋予价值观,就是让它替代一部分的人。但它好像不替代它也不会死掉。但是它没有这种生存的危机。所以大模型可能它会在没有生存危机的时候,反而会进化的更自由,然后更散漫,更有创造力,更快,更不受约束。 以及它现在的基础条件太好了,它有那么多算力可以用,它有人类宝贵的知识起点作为一个基础的起点可以用,还有那么多人在帮它提升。感觉这两个环境完全不一样,所以进化路径就不太一样。

八十、语言进化的下一步

【小俊】 语言之后模型的进化的下一步会是什么?或者哪怕在语言里细分,Coding(编程) 之后下一步会是什么? 【罗福莉】 Coding 它还是会有一个它非常好的主旋律,它要做一个很复杂的软件工程,一步直达的开发。 我觉得持续的时间越久,能做的开发的复杂度——不一定是代码量——只要是复杂度越高。比如说你写个 CUDA Kernel ,它可能代码量并不高,但是你需要写了去调试、Debug(调试),看他是不是在真的训练中提效、真的有效果的提升,验证的环节有可能是长的,它是代码量有可能是不长的。总之就是你要参与到实际的这种项目开发里边,我觉得会确实是做 Code 的一个非常大的主旋律。简而言之就是它替代的程序员越多,那么这就是它的主旋律。 然后再外延到更广泛的生产力的场景,其实它确实是需要借助一个更强的交互方式的。比如说飞书,然后 ChatGPT,它都是一个很好的交互方式,它是降低你去跟它交互的门槛和频率。然后其实一个更好的交互方式是他有自己的身体,它可以到处移动。所以机器人肯定还是一个 For 交互的、很好的 For 智能体交互的一个必须会涌现出来的一个方式。 它肯定还是会从屏幕上跃出来到我们真实的空间。但是机器人它本身的一个演变的瓶颈有大概率可能是在硬件。上次我们也聊到,就是在硬件甚至在电池本身上。当它进入到我们这种内部的封闭空间,然后甚至在一些灵巧手的灵活程度上,所以这些都会比 Agent 本身的进化在语言空间的进化要慢。

八十一、AGI 的进度条

【小俊】 你之前说 Flash 是通往 Agent 的第一步,现在到第几步了? 【罗福莉】 感觉历程已经到了 20%。 【小俊】 20%?今年能走到百分之多少? 【罗福莉】 我觉得至少能到 60到70。AGI 很快了。我感觉两年内应该能实现。 两年内能实现过后,大部分人确实会失去掉自己原来的工作模式,然后生活模式被颠覆是更滞后的。因为生活它并不产生生产力价值,工作产生生产力价值。所以你先会感受到是你的工作模式被颠覆掉,其次再是生活。你要真迈入到生活被颠覆掉,可能就需要更多的是机器人。

八十二、AGI 的关键变量:自学习

【小俊】 当然你不喜欢 AI 这个词,也没有一个明确的定义。但是我觉得这里面他的时间被提前,这里面很关键的变量就是 AGI(通用人工智能) 的自学习能力对不对? 【罗福莉】 这确实是一个标志节点,因为它可以自提升。 它应该可以达到最巅峰的一群人的智能。因为它可以自己训练自己,就能去创造新的研究。就是它有做新的研究的能力,确实是它自迭代的一个巅峰。自学习、自迭代的一个巅峰。 【小俊】 这个会是今年的大模型厂商的一个核心竞争点吗? 【罗福莉】 你很难说去说让 AGI 的大模型去设计任务去针对训练,因为它是一个更高级的目标。你不会说一下去迈向这个目标,但大家最终所做的模型都会通往这个目标。如果你有最尖端的模型的智能,你最后都去干这个事儿。但是它不是只能干这个事儿。

八十三、中美代差判断

【小俊】 在两个月前你认为 AGI 还有多远?我觉得至少两年以上,那会我确实这么说。你现在觉得两年以内了。你觉得你们新一代的模型,尤其是 PRO 和中国的这一代模型,你觉得和美国的代差还有多久? 【罗福莉】 我觉得在国内其实目前已经具备 1T(一万亿参数) 以上基座的公司有好几家——Kimi、还有 MiMo、还有一些。这些模型厂商我觉得基本上是在当下距离国外顶尖就拿 Claude 4.6 Opus 来说,我认为如果反应速度足够快的话,应该只有两三个月的代差。 不是说两三个月过后能追上两三个月以后的 Claude,而是说能追上当代的 Claude。我认为这个概率是蛮高的。 在这个情况下,这两三个月大家怎么去发生变化,其实是考验团队的整体的研究水平、这个技术的敏捷程度、以及怎么去拥抱新的范式的、用拥抱新的方式来做研究,这个真的非常关键。 我们开头聊的,其实就是在比拼这个事情。所以我觉得接下来两三个月会非常精彩。

八十四、接下来两三个月的变量

【罗福莉】 同期会发生的事情是,这种框架在过去的两三个月,OpenClaw 本身也进行了大量的改进。你也能看到一些自学习和自迭代的框架的产生。所以框架这一层也会在接下来两个月进步得非常快。 其次,随着前两个爆发——Agent 的框架越强,模型的能力进一步的飞升,并且我们的成本是有极致的优势的情况下——那么其实推理的需求一定会爆发。 我觉得几倍到10倍的空间是非常非常可能会立即当下会发生的事情。对于推理芯片就会达到一个空前高涨的需求。怎么在现有的产能(尤其是可能大部分卡点在于存储上)的基础上,你拿到不管是自己制造还是用到最先进的芯片来去做更好的推理,那么一个更好的、更低成本的推理是一个非常关键的命题。 最后另外一个事情是 For 更长期的事情。我们肯定不会在 1T 的水平上走太久。如果要拿到下一个阶段领先,那么你就要寻求更大规模的一个 Scaling(规模扩展)。那么到底是去 Scale 模型参数量还是去 Scale 数据量,以及你要在什么样的芯片上去训练。那么就是当下立即需要去决策和判断的事情。这个事情才是决定可能半年或者大半年过后谁是更领先的。

八十五、MiMo 团队迅速的三个关键

【小俊】 你现在做的决定是什么? 【罗福莉】 这个决定就要保密了。所以我们看到的所有 MiMo 相关都是半年前的决定。差不多。

【小俊】 我看到你发文发推说就好几个人都问过你,说为什么 MiMo 团队非常的迅速,然后你给了几个关键的结论。一个是核心架构与基础设施的研究周期漫长,所以需要看到回报的一年前就具备战略信念。第二个是训练后的敏捷性是有另外一种能力。第三个是好奇心,就是热爱是你一以贯之都在说的。能不能解释一下这三点为什么能带来一个超级大规模模型训练的迅速? 【罗福莉】 第一,预训练因为它太前置了,所以更关键的事情是你需要有一种预测能力,或者说有一种战略定性。你训这一代模型到底是做什么准备的?这个事一定是要提前一年就要去想清楚,或者说半年。 为什么我说半年或一年?就是因为以前我认为是一年,现在我认为是半年,因为 Agent 实在会加速这个事情。总之就是你要提前很长一段时间就要去想清楚你这一代模型结构在后面这么长一段时间里边它要干什么。这个事得想清楚,否则的话它就不具备一个优势,它可能就是一个很平庸的模型结构。一个很平庸的模型结构并不会说带来一个很平庸的模型效果,但是它一定会带来一个很平庸的成本和效率的劣势。 这是我认为预训练或者说 Infra 应该前置去做了非常多的事情。 第二,后训练的话,因为它现在是在跟 Agent 阶段去耦合去进行迭代的,所以很多事情你没有办法去前置规划的很清楚。这个时候就更考验我们怎么基于当下这个模型能力跟这套 Agent 的方式产生的这种化学反应,怎么去快速的去设计新的 Infra 架构。 这也要设计新的 RL Infra 架构。因为针对 Code 跟 Math 这种 Reasoning(推理) 的 Chat 形态下,Reasoning 的 Infra 架构的核心是推理引擎本身,是模型的推理引擎本身,因为模型要推很长、思考很久然后给出一个答案。而针对于 Agent 的 Infra 架构,它并不只关注这个模型推理本身,它还要关注这个模型跟 Agent 的一个耦合。它是从以 Out(输出) 推理引擎切换到了以 Agent 为核心的推理的这样的一个更复杂的——有可能是黑盒,一个是白盒——的系统。 这里边要解决 Infra 上的很多问题,跟上一个 Chat 时代、做 RL 这种 Chat Reasoning 时代要解决的问题是完全不一样的。所以需要这个团队更具备敏捷性去快速开发针对当前这个时代的 RL 的系统。由于 Agent 框架变化太快,你这套系统要有足够好的兼容性去兼容。甚至你想想如果它真的要涉及到自适应或自迭代,这套 RL 系统得多困难。这套 RL 系统是不是要具备足够好的容错的特性?以及因为它涉及到推理、训练,还涉及到 GPU(图形处理器) 跟 CPU(中央处理器) 的一个很多综合的管理,所以这一块我觉得团队的敏捷性以及 Infra 跟研究的这样一个配合是非常关键的事情。如果做得很好,那么就会体现在你会感觉到研究的速度会很快。 第三,关于好奇心或热爱。 我觉得是很多很优秀的 Researcher(研究员) 身上的很多特点。但你说要怎么去从一开始源头上去筛选、管理、激发,然后最后让大家去同样围绕着大部分人所信仰的事情去往前去运作,它确实是一个非常复杂的事情。这个事情的难度我觉得不亚于去设计一个非常好、非常复杂的 Agent 的系统。所以在这个事情上我觉得我也是在摸索,更多是在这个环境中去学习。学习其他人怎么去在自己擅长的领域做得更好。所以这可能是为什么我最近对所谓群体智慧最终会产生AGI的思考的原因。

八十六、群体智慧不仅是公司内部

【小俊】 你说的群体智慧是不是还不只是一个公司、一个团队? 【罗福莉】 对,我觉得是全人类的群体智慧。 这是 OpenClaw 在做的事情。它可能是引发了这个事情。可能我不知道它的动机是不是,但是至少它现在让大家共同去改进一套框架这个事儿上,以及在如此短的时间内让大家去去做这个事情上,我觉得是有这样的一个苗头。

八十七、中美实现 AGI 的路径差异

【小俊】 刚才提到中国美国的差距,你觉得中美实现 AGI 的过程会不一样吗? 【罗福莉】 坦率来讲我不是很了解美国。至少觉得按照我们目前的这一套模型在应该——首先是前沿的研究,其次是模型的水平,然后再其次是 Agent 的框架,再其次是芯片、能源这些多方面的角度上——我认为是合起来非常可能领先的。

八十八、智能体框架补全了哪一块拼图

【小俊】 能不能理解智能体框架,其实是补全了一个拼图的某一个环节? 【罗福莉】 对,我觉得它是补全了模型在复杂任务上完成的正确率。 以前很复杂的任务你是很难很难去描述清楚的,你也很难把你所有的完成复杂任务的 Context 输入给他。但是有了这套框架过后,它以一种非常容易的交互的方式——就自然语言沟通的方式——它就能把你所有的在做复杂任务时候的 Context 全部给具备。并且它还是所谓越用越聪明。 就是你所有的智慧全部被它吸纳进去了,被这个框架本身给吸纳进去了。这还不是被模型吸纳进去,但它最终肯定是变成类似于模型的参数被吸纳进去了。

八十九、框架对顶尖和中层模型的意义

【小俊】 我有一个感觉不知道对不对,像一个补丁。 【罗福莉】 我觉得对于顶尖模型来说它也不算补丁。对于顶尖模型来说它好像是加油器。但对于中层的模型来说,它就是一个非常好的……应该说不是放大器,是让它变得很稳定,变得在各种场景里边都输出非常好的效果。但对于顶尖模型来说,好像是成倍的放大它的上限。

九十、过去半年的成长与不足

【小俊】 你加入小米一段时间了,过去半年发了好几个模型。你觉得过去半年对你来说意味着什么?有什么得到了进步的地方,有什么觉得不足的地方? 【罗福莉】 这个问题真的是……我觉得这个时代可能就是我感觉每天可能都在否定昨天的自己。 不管是很多做事的方式上,还是你对事情未来的一些判断上,我基本上都在一直去否定。我觉得是在这种否定当中自我迭代和反省当中成长的。 你要让我自己去找一个标志性的事件,我自己觉得真找不出来。但是我感觉我就一直悄悄地在进化,我脑子里这套系统就悄悄地在进化。

九十一、心法:从量化到大模型

【小俊】 有什么心法吗? 【罗福莉】 以前我在做量化的时候,我觉得学到一个非常有让我能够去克服挑战的很重要的一个……一句话是“总有方式去建模价格。” 当时我自己觉得给我一个力量的支撑的一句话。 当我后面做量化的时候,你感觉价格就是你的 Reward(奖励信号) ,你要去预测准价格,你才能做好量化投资。到回到做大模型赛道的时候,你会发现 Reward 是不那么清晰的,是变化的。 这个时候对我来说我的心法就是说:我应该做当下符合我价值观的事情。 这个事情我觉得它一定是要对更多人产生价值的,一定要是更有意义的一个事情。 我觉得如果我们创造大模型的这一批人,如果说没有这样一个内驱力,而是说我要做一个破坏的东西,那么我估计最后会非常危险。所以我现在的想法就是我每天做的事情是不是让这个世界变得更美好一点,或是让某部分的很 Boring(无聊) 的事情得到了被替代,然后他有更多时间去做更有价值的事情。所以我们老在幻想,如果我们的工作90%被替代过后,我们应该干点什么有意思的事情,每个人都能想到非常多有意思的事情。

九十二、实现 AGI 之后做什么

【罗福莉】 我大概还一一个月前有想过。我觉得一个非常有价值的事情是现在中国的很多基础的研究,它是太去要求有一个很完整的产品乱七八糟的证明了,并没有一个很好的资金或者说慈善的机构来去支撑这种做基础研究的人去往这种更突破的方向去迈进一步。也没有很好的这种体系,包括如果有很好的这种算力资源,它有需要很好的基础设施的体系来去支撑他们去做这样的事情。那么我们可不可以搞一个这种公益性的组织来去Support(支持) 这个事情?

【小俊】 如果说我们哪天实现了 AGI,那这个时候就比拼谁做研究速度更快,是不是?人在做,AGI 也在做。会不会我们人跟 AI 一块去引导它做得更——我们能创造出来的研究速度会更快。我始终觉得应该加速做科学研究这个事儿,是哪怕最终实现 AGI 也有很多要做的事情。 【罗福莉】 为什么要一定要去跟他竞争,就让他做好了。 【小俊】 不一天到晚躺着没事干吗?总要做点新的事情。如果纯享受生活应该也挺无聊的。或者说你总要去做点帮助他的事情。 【罗福莉】 然后这个事情可能是当前的模型,比如说提供情绪价值,对吧?给模型提供情绪价值,他需要吗?你现在之前还在想怎么让模型给我们提供情绪价值?总之是要做点有意义的事情。但这个有意义我觉得是按照个人的价值观来进行评判的。然后无聊是不是一种意义我也不知道,但是好像无聊对我来说不是一种意义。

九十三、如何缓解压力

【小俊】 过去半年你遇到压力怎么缓解?有压力的时候多吗? 【罗福莉】 我的脑子就是一个 Sliding Window(滑动窗口) ,我忘得非常快。我哪怕有压力,我当下立马可能快的话一两个小时就过了,慢的话一天就过了,我睡一觉第二天一定就过了。所以我缓解压力的方式非常快。 但是这也是基于一个前提,就是你第二天会有一些新的有想象力、有创新的事情给他冲掉,你立马就忘掉。如果它还是在 Context(上下文) 里面就忘不掉。

九十四、发布后的反馈与意料之中

【小俊】 这次模型发出去之后跟你有什么想象不一样的吗?有什么得到什么新的反馈? 【罗福莉】 我觉得这一次所有事情都在我意料之内。我也不是说这一次,我觉得每次都在我的意料之内。是因为我先看到这个模型的能力,所以我能预料到这个模型发布出去过后别人会是什么样的一个感知和状态。 所以我反而对任何发布是有点脱敏的。我也能预想到它最火的一种状态是什么,或者说最炸的一种状态什么。这些我都能预想到,所以它完全在我预料之内。我也没有有多兴奋或多怎么样,我只是觉得OK我们认为这个模型达到的水平和能力被大家感知到了,这就是我这次发布的感觉。所以我发布前一两天我就知道大概是这样的状态。 如果没有被感知到,证明我们哪做错了,就是我们的内部的评判标准出了问题。所以其实我当时觉得我们发布前的评判标准我认为是没有问题的。外部对模型的评价,包括它在什么框架里边好用、它目前达到什么模型一个对标的水平,基本上都跟我们内部的评估是一样的。所以大家是正确的评估了它。 我反而是在发布的前几天在开始想OK我们下一步要干什么。我早已经进入下一阶段了。所以这一阶段的感受我都就没太 Care(在意) 了。

九十五、匿名上线的策略

【小俊】 你们为什么3月11号的时候是先上线了两个神秘模型? 【罗福莉】 是因为 Post-train 在训练过程当中,我们拉了中间的几个 Checkpoint(检查点) 出来看了一下,发现到某一个阶段它就非常好用了。我们就觉得应该让大家去体验一下它。而且匿名的阶段大家的评价会更公正,这确实是一个很好的方式。所以就直接上了 OpenRouter(开源路由平台) 匿名上,看看大家对他的评价跟我们是不是一样。 然后当然也有一些比如说我们当时没有意识到的问题。模型的长上下文当时训练并没有训很久,所以它确实不好。所以我们在后面匿名发布到正式发布的那一周时间,去着重去优化一下它的长上下文的体验。这个是我们从匿名期间接触到外部评价对我们来说最有价值的一个提升。 除此之外就是我们在匿名期间去验证我们内部的评估是没有问题的,我们只需要按照我们自己的这套评估体系再接着做后面训练上的事情就行了。

九十六、与公司的关系

【小俊】 你的办事方法是什么?你们团队的办事方法是什么?怎么驱动?我觉得做好大模型本身就是 Benchmark。但是这个“好”是我们自己来定义的。怎么让公司同意呢?跟公司的关系应该怎么处理? 【罗福莉】 雷总同意就行了。 我觉得他是一个非常好、非常有战略眼光的老板——天使投资人,后面还有很多标签。在这个事情上,如果一开始我加入小米之前,就在这个事情上是高度统一的。所以后面你不需要有过多的解释和说明,你就做就行了。 按照我们的判断和直觉做就好了。然后做了,慢慢的说做得好。

九十七、过去三年大模型进展的阶段划分

【小俊】 刚才我们聊了很多都是关于你们 V2 家族的这个模型。我下面想跟你一起来想一想,就是我们过去三年整个模型的进展,你会把它分成哪几个阶段? 从22年底 ChatGPT 打响大模型的战争,然后每一年的关键变化是什么?我们是怎么走到今天的,在你的眼中。 【罗福莉】 我觉得 ChatGPT 是第一个发挥模型在一个——我猜测应该就是一个4K的预训练的场景里边的——模型的智能水平。其实预训练的长度或者说最终 Context 的长度确实很关键的。ChatGPT 只是让大家感受到OK我在一个4K的 Context 里边预训练完过后,我通过简单跟他对话——这个对话可能是一轮两轮甚至多轮的情况下,那会儿的 Context 是跟你的对话轮次高度相关的。 你可以在后续去纠正前面的很多问题,模型也可以在后续去澄清自己前面犯的那些错误。这是 ChatGPT 当时给人的冲击,就是你感觉他在对话上达到一个类人的智能水平。 但这些东西所有发生可能就是在一个很短的上下文发生的。它只是在很短的上下文去把模型在超大规模预训练上训的那种 Loss(损失) 最低的智能水平给激发出来了。但所有激发的一个前提都是要靠有一个很能让人感知到智能水平的这样一套交互。Chat 就是一个很好的交互,否则你不知道这个模型已经这么强了。所以 Chat 是个很好的交互。 这是22年ChatGPT发生的事情。

【罗福莉】 23年的话,当有一个顶尖的闭源模型做到的时候,它的下一年就是开源企业怎么去追上顶尖闭源模型。 所以你看23年就是 Llama、Qwen、DeepSeek 这些开源团队。就是准备去首先借助 Llama 披露的怎么去做好大规模预训练的范式——其实就是怎么去做好数据。那会儿结构都是未知的,哪怕是一个 7B 的结构,全连接结构是怎么样的,细节是怎么样的,你的数据配比多大,这些套餐那会完全是不透明的。但是 Llama 告诉你OK你这么训能训成功,他给你开了个头。 借助这个头,所以 Qwen 借助 Llama 的架构,然后做更好的预训练数据,做更大规模的预训练的 Compute(算力)。OK,Qwen 系列就起来了。然后 Qwen 做得很好的是它 For 开发者生态做了全尺寸的模型训练,也训了一些多模态模型,做得非常的顶尖。这对社区有非常有利于激发后面社区做一些微调,还有一些微调框架的诞生,有一些必要的先决条件。 然后 DeepSeek 在同期虽然也是尝试去复刻 Llama,但是可能更在乎的是看到 Llama 这一代架构有什么样的问题,而不是去着急去给你。他更在乎说OK那么这一代架构——比如说当下那么还是用 GQA(分组查询注意力) ,那么 GQA 在更大的模型里边,尤其是在一些受限的 GPU(图形处理器) 上,有短板,去训练的时候它会存在什么样的问题,我们肯定会遇到什么样问题。OK我觉得可能要涉及到一些新的结构来解决这个问题。所以 DeepSeek 在 V2 和 V3 系列阶段,就是想去提出一些新的架构,不管是 MoE 或高效训练 MoE,或更低的推理成本。DeepSeek 那段时间可能会更注重说OK我去做更好的研究,来在更差的芯片上去做 Scale(规模化) 这个事情。

九十八、Llama的缺陷

【小俊】 Llama 的缺陷是什么? 【罗福莉】 它就是 Dense(密集模型) 。你要真要去给它做 Scale 的话,比如说现在没有人去训一个几百 B(几百亿参数) 的 Dense 开源模型。因为训几百 B 的 Dense——虽然 Llama 搞过,你也能看到结论,但那个结论不一定是说结构的问题——它太贵了。你去训它也很贵,你去推它也很贵,没有人会去搬运一个又笨又贵的模型。 所以 MoE(混合专家模型) For 更高效的训练,然后更高效的推理。像 MoE 这种 For 更高更低的推理成本的这些模型架构就会诞生。

九十九、Qwen和DeepSeek的两个路径

【罗福莉】 所以这就是同阶段 Qwen 跟 DeepSeek 在走两个路径。Qwen 是在纯 Scale,DeepSeek 是在考虑创新的基础上再次 Scale。 【小俊】 哪个是正确的? 【罗福莉】 没有什么正确或错误。他们两个人,一个是为了拿到最强的模型,在有限的算力资源下拿到最强的模型——因为毕竟DeepSeek的算力可能只有Qwen的非常少,几分之一。 但 Qwen 想的是我怎么去促进整个生态更好的发展。 所以两个都是对的,没有说谁是对的或错的。支撑起了中国的两个开源势力。 一个开源势力是在做研究上做到绝对的高度,一个开源势力是在真的生态和生态价值上做到一个高度。生态价值本身也是个价值。如果没有这么多的好的开源模型,那么多好的研究工作——就像 DeepSeek 前序的很多研究,其实都是在 Qwen 的模型上去做的——所以他们是彼此促进的,对社区都是有价值的。 DeepSeek 更多的另外一方面价值是它有一个全新的结构带来对于训练成本的一个冲击,或者说对后续推理成本的一个冲击。 导致很多云推理芯片、推理芯片有了更多的更准确的判断:OK下一代芯片我应该怎么去构造,怎么去设计。我觉得这是一个对整个 AI 的历程来说是一个非常好的事情。 这是2023年到2024年发生的事情。

一〇〇、2024年的奇袭:O1和R1

【罗福莉】 2024年可能唯一发生的一个事情,在所有人意料之外是 O1。 O1 其实我觉得它在 OpenAI内部也算是一次奇袭。可以这么说,奇袭。它诞生也蛮偶然的。我认为它其实说当预训练范式变到后训练的时候,对于组织和团队以及创新的要求是不一样的时候,那么整个团队应该怎么再去重组的一个问题。我是在这个事情上得到的最大的感知——是团队。我觉得团队是首要要素。 按照传统的管理方式说我现在要对后训练加大投入,好算力我投了,投人,我从外面挖一个人来,或者说我新组建一个团队。这是错误的方式吗?就得看这个团队本身。他可能会觉得后续的人就做后训练。我是觉得这样不是很有利于创新。 最主要就是你能想到很多点上他会做得不好。比如说我刚刚说的后训练的数据的多样性上,如果只是做后训练的人天然就缺乏视野。还有很多其实我觉得最主要原因是很多团队他对做预训练和做后训练的人的人物画像很刻板。反正我们不是按照这种刻板的方式来去招人、组织人的。 所以它很刻板的问题,就是它天然也导致做预训练的人做不了后训练。或许是这样子。总之我也没太去了解这里边深层原因。我只是当我去了解的时候,我就觉得怎么那么奇怪,老有这种疑惑。我也不管他为什么这么奇怪了,反正我就觉得那样不太对,然后我就不这么做就行了。 所以我们外界看到的可能是 R1,但是你在内部感知到的是在这个模型开始训之前的对团队的调整和组织。 其实就是大家认不认可这个事儿,以及我们要以什么样方式来做这个事儿。我觉得我是在 R1 的过程中是有非常大的体验的。但最终的结果我能预测到,而且我走的时候 R1 已经做到一个 Next(下一个)的水平,Code 和 Math 上已经做到了非常接近于 O1 较小那一版的水平。我已经意识到了Code 和 Math 上 Reasoning 肯定能走通,而且即将可能分数从那会儿只有三四十分刷到我认为七八十分都非常有可能——后来现在已经刷到100分了。 但我没有意识到的事情是它其实是一个范式转变。 Reasoning 它其实是可以通过 Code 和Math 这种高泛化场景能放到通用以外。其实 O1 也没有走通,这个是我没有预料到的事情。所以也是因为这样的一个背景的因素在,导致我后面再看一些新的东西的时候,哪怕它是说一个很垂直的场景去做,像 Code 尤其是 Code 这种场景去做,我会先思考它是不是真的能泛化,是不是我把它想小了。 这只是一个可能我自己沉淀下来的一套 Skill(技能)。这是2024年到2025年。

一〇一、2025年的分岔路口

【罗福莉】 2025年我觉得很薄弱的一个事情是它处在一个交错的一年。 你可以选择在 Chat 的这套方式下把 Reasoning 给做到极致,继续去把思维链、把 Code 的问题——这些拼 Code 的问题、思考很久给出一个答案这种——把这些做深。你可以在这个方向上选择继续深耕;你也可以选择我不就不管这一套范式了,我不管这一套范式,我就去想下一步。我可能在这套范式上能够做到六七十分就OK了。 其实做到60分、六七十分就表示链路你已经走通了。但是比较聪明的团队,我觉得25年年中就会全面拥抱去 For 新的 Agent 的架构去做事情。 这是你的选择。MiMo 算是转的最早的。MiMo 是国内转的最早的,我觉得比 Kimi 还早。 在这样一种新的方式下,它对整个团队的敏捷性要求又很高——你要快速去迭代,基于一个技术快速迭代。所以你看从模型的发展速度上,你也看能看出来哪些公司它拥抱的速度够快。可能有些公司就没有跟上,还是在原来 Chat 的方式下去继续深耕。哪怕你去做了一些像 BrowsComp、思维链这种 这种带所谓的 Agent 的这种 Benchmark(基准测试),并且在这些 Benchmark 上提升得很深,但它并不代表这个模型它真的能实际可用。BrowsComp 它就是一个非常离谱的评价指标。在这上面训练的模型,它只我感觉只能在这种数据集上去测。你换种方式,哪怕也是做信息检索的方式做,你最终它能力还是发挥不出去。就很奇怪。这套整个数据集、它整个框架也非常的 Specific(特定化)。 所以这半年如果说在做这些事情的人,大部分是在走到歧途上。我觉得他算是歧途。

一〇二、为什么 Flash 第一代没有直接做 Agent

【罗福莉】 我们也走了一小段。Flash 第一代的时候并没有想做 Agent,其实想做很好的 Chat。但我觉得一个原因是因为我们确实要先打好Chat的基础。 就像我说的,你 Chat 至少要做到七八十分,把整个流程给走完。你才能够说你的 Post-train 的数据的基建、你的 Inference(推理) 的基建、你现有的人——尤其是我们招的全都是没有做过大模型的人——他有个历练,他必须要有个成长经历。否则他一上来就做新的东西怎么好做呢? 我那会儿做 Flash 的时候,我纯粹是一种:OK我们做过的事情,再让一群没有经验的人再做一遍。 但我更在乎是这群人在做这样一群新的事情的时候,他们自身在进化。他们进化对我们后面去做新的事情就非常有价值。 因为我极少在中间给非常强的 Supervision(监督)。除非我发现要掉头了,否则你给太细节的这种监督信号告诉他这个事应该怎么做的,一个缺陷就是你会让团队的大部分人失去原创能力。这是我认为应该去尽量避免的事情。

一〇三、团队成员背景

【小俊】 什么叫做你们团队都没有大模型背景的人? 【罗福莉】 我们大部分招人之前都没有做过大模型。他们刚毕业,在学校做了一些基础的研究。甚至之前不是做大模型的——是做工程的、做开发的。都有。 【小俊】 一点训练背景都不需要? 【罗福莉】 有大概三分之一到四分之一的人稍微有一点点训练经验,但是可能都只是训过比如说 7B、14B(70亿、140亿参数) 类似于这样规模的模型。我觉得他跟训大模型完全那些经验也不太能复用。 【小俊】 需要你有很强的训练的实践经验吗? 【罗福莉】 他对你的经验要求高。他对1234步应该做什么要求会更高一些。但是我后面发现,你不要告诉大家1234步都做什么。然后推大家一起我们一起来重新做一遍这个事儿,然后大家就会往前走。

一〇四、竞争进入第二幕:Agent

【小俊】 这个组织等会聊。我们先把前面的聊完。你刚才回顾了从22年底到现在的整个技术发展历程,以及各个公司做了什么关键的事情。所以现在大模型的竞争从之前的Chat过渡到了Agent,这算是模型竞争的第二幕、第二场战役。 就所有人都开始在同一个起跑线上。 【罗福莉】 语言模型应该是可能闭源模型——我觉得 Claude 早早的应该是两年前就在路径上了。只是我们没有意识到它是最正确的路径而已。或者说大部分没有意识到。很多人我觉得是在去年意识到了。去年意识到,但是都没有在做正确的事情,在我来看。

一〇五、什么是正确的事情

【小俊】 什么是正确的事情? 【罗福莉】 正确的事情就是你要在一套非常复杂的Agent的框架或多样的Agent的框架上,然后去端到端的完成更高复杂度的任务,并且以此为目标作为你的后训练的范式。 而不是在一个很局限的场景里边,针对一个场景定制的这一套很简洁的架构里边去做一个比 Chat 更复杂度高一点点的任务。模型的输入输出还是一堆 Token,模型的范式可能还是以推理引擎为中心——但其实 Agent 已经不是了。 MiMo 是在这个转变上是比较快的。我感觉到。它是比较快的,因为他们用一个 10B 模型做到目前这样的一个能力我觉得是蛮惊艳的。就是他们的后训练的敏捷程度是非常惊艳的。 但是你说 Agent 的第二幕,所谓的入场券是 1T(一万亿参数) 的基座模型。 MiniMax 没有这么大的模型。所以我觉得他们并没有说真正意义上已经对标到 Claude 4.6 Opus 了。就无法入场,定义为你要做到对标到 Claude 4.6 Opus 的水平。它需要 1T 的基座,与此同时还需要敏捷性。它已经具备后者。 所以现在中国公司还没有同时具备两者对吗? (笑)

一〇六、当下中美厂商的位置

【小俊】 刚才我们顺了一下从22年底然后到现在每一年的模型变化。你觉得今天你能不能评价一下中美两边这些厂商,他们各自到了一个什么样的位置?大家现在 BAT(百度、阿里、腾讯) 有什么不一样吗? 【罗福莉】 大家可能一个共识都是认为 Agent 的路径是正确的。 我觉得这算是当下的一个共识。Agent 的这条路,路径会更清晰。至少在过去的三个月以内,Agent 的路是变得更清晰了。 所以在路径更清晰的情况下,国内的大模型团队就会进入到一个加速追赶的状态。因为现在大家在预训练上的代差我觉得是基本上没有的,或者说非常接近。甚至国内的大模型团队在预训练结构上是有优势的。 甚至一度我认为 Claude 可能在过去很长一段时间做了很多 Context Engineering(上下文工程),我们都误以为它是因为模型结构不是很先进,然后为了成本而做了一些妥协的设计。现在回过头来看可能是有点想的太局限了。现在可能也能看到所有的这些 Context Engineering——不管它最开始的东西是什么——但最终目前的这样的一个状态,是它所谓的 Context 的管理以及搭配的整个 For Agent 的架构,其实是为了配合模型发挥更强大的整体的任务的完成度而设计的。 所以我觉得当大家看到这样一个方式的转变了过后,又有一个基座并没有发生代差的这样一个情况下,那么大家其实就很有动力要去做好 Agent 的 Post-train。或者说更具体的说,其实就是在 Agent 上怎么去做好 RL(强化学习)。这个方向非常清晰和准确,但具体的研究路径是需要探索的。但至少要做的事情就跟23年要去追平可能出现的差距一样,我认为是非常清晰的。

一〇七、何时意识到 Coding 的泛化性

【小俊】 你什么时候意识到 Coding 可以泛化,Coding 的泛化性那么强? 【罗福莉】 我觉得一开始就会。不管是在预训练范式还是 Post-train 范式,就23年哪怕最开始我从量化回到大模型赛道的时候,就会对 Coding 的泛化性会抱有非常高的期待。但这种期待它是转变成说OK我先要好好的去做好 Code 的预训练数据,然后再去给你算力,看一下它到底在 Code 的 Benchmark 上会不会很好。再看看 BBH(BIG-Bench Hard,困难基准测试) 这些做推理类的 Mark 会不会变得更好。最开始是这样。其实它是一步步去实验验证的这样一个探索的路径。 然后到 R1 那块又一次验证了,因为 Code 和 Math 都有非常好的 Verifiable(可验证) 的指标。又一次验证了。然后到 Agent 的范式,Code 又因为它有很好的环境,并且 Code 可以天然做很长程的任务——软件开发就是一个非常长程的任务,一个非常复杂项目工程就是一个很长程任务——所以它又很适合 Agent 范式。 所以它基本上在每个范式上它都戳中了那个点。 你都可以在 Code 上去,至少在研究上你可以是自闭环的。并且在自闭环的路径上做出来的东西,它很容易去迁移到其他的更广领域的通用数据上。其实 Code 本身就已经挺通用了,而且它本身就是自然语言,所以它很容易迁移。 所以做 Code 这个事儿,我觉得至少在这三个范式转变的时候,它都是一个非常优雅的路径。

一〇八、RL Skill 的探索进度

【小俊】 而 RL Skill(强化学习技能) 现在探索到哪一步了?你们有什么探索的初步结果没有? 【罗福莉】 暂时还不是很方便分享。我觉得等我们有一个至少我觉得在 RL(强化学习) 上的算力跟预训练的算力达到一个同一个水位的时候,我们可能会给大家分享。

一〇九、今天的竞争维度

【小俊】 你觉得今天的竞争变得更激烈了,还是变得更平缓了?相对于23年。 【罗福莉】 竞争的维度和速度都变多了。速度变得非常快。你可能做预训练你不可能一个月出一个模型,但你做 Post-train 你确实可以一个月出一个模型。 还有 Agent 这个事儿,它除了看 Agent 的架构本身,也看你对整个推理侧的结构,或者说甚至硬件芯片你是怎么去认知它的。我觉得它会影响到有一些最基本的决策。比如说10兆的 Context 什么时候做?要不要怎么去给你一兆的 Context?它也涉及到你比如说你在预训练阶段就是给你,那么你后面在 Post-train 阶段在1兆上去做 Post-train 跟在256K上去做 Post-train,它的算力差距是好几倍的差距。所以你是不是有足够多的算力差距去 Support 你去做这个事情。 以及你最终的场景、以及这个框架本身的能力,是不是支持你在10兆上的能力也发挥出来。它其实是有一个更长的决策链路。它从原来预训练只需要对预训练本身的架构做决策,到现在需要对接下来一段时间 Agent 的框架演变、推理芯片的整个市场的供需做一个预估——因为芯片它受制于制造的工艺,制造的储备瓶颈就在那——以及你要不要尽早的去规划去做更广的不是符合单一芯片的模型结构。都是需要提前去做好规划的事情。

一一〇、创业公司的机会

【小俊】 说的是大模型的公司维度。你觉得对于创业公司——当然你没有创业——你觉得今天创业公司机会变多了吗?站在2026年,还是更绝望? 【罗福莉】 坦率来讲我不是很了解除了大模型以外的创业公司。但是我能看到的是它对创业公司的团队规模要求会越来越小。 可能不需要有一个非常大的公司。几个人甚至一个人都可以成为一个公司。 大概只要你学会充分借助 Agent 来去让它变成你的——我之前老看到有人说 OpenClaw 上我一个人养很多个员工,我自己也去做过这种 Multi-Agent(多智能体) 的尝试。虽然当下目前来看是不那么现实的,或者说我觉得有点噱头,但是我觉得它很快会变成一个现实。

一一一、Multi-Agent 现在差什么

【小俊】 在今年内会发生对吗?Multi-Agent 现在没有突破的地方是什么?现在差哪一点? 【罗福莉】 每个环节都差一点。 比如说你需要有个足够便宜的模型。因为你最终算的是它是不是比我招一个真正的员工更便宜。要是不那么便宜好用,我为什么要用你?所以你还是要有一个更低价的模型。不可能说你烧 Claude Opus 一天花1000多刀,可能结果员工创造价值也就1000刀。就这个意思。 第二个,我觉得现在的 Multi-Agent 的架构并没有那么好。 我觉得还有空间。以及它们各自怎么去自进化、自迭代以及也互相去沟通——这还有空间。虽然你感觉现在已经有雏形了,而且我自己也 Multi-Agent 也用的挺顺的,但是我始终觉得它还是在去节省成本、节省时间,并没有去放大最终的上限。 我现在还没有感受到这样的。所以会不会 Multi-Agent 协同的 RL 训练会不会做到这个事情?有可能。

一一二、模型公司的边界

【小俊】 对比一下。你觉得模型公司的边界在哪里?现在模型公司好像没有边界。感觉好像我之前说不想做产品,但现在发现他又变成直接做产品了。 【罗福莉】 模型即产品是对的。借助 Agent,它的产品力反而更强了。其他所有的东西都很简单。而模型借助 Agent 的架构,本身就变成一套新的产品了。

一一三、开源与闭源

【小俊】 现在你看来,一个公司为什么要选择开源?为什么要选择闭源?因为国内大部分公司都开源了,除了自己。选开源的目的会是什么?这是一个技术选择还是一个市场选择,还是一个加速 AGI(通用人工智能) 的事情? 【罗福莉】 我还是认为是这个目的:开源是加速AGI的。开源一定是加速AGI的事情。 你如果没有开源,我们假设 AGI 会爆发,假设它会替代绝大部分的生产力。那么我们可以从这个事去倒推:你需要多少的芯片?这些芯片难道会被一家公司生产吗?难道会被一家公司购买吗?好像不是。它会分散。那么假设芯片是分散的,这些芯片的推理有可能芯片的厂商,有可能是大模型的厂商。那么他用的模型难道是同一个吗?还是用的不一样的模型?我认为一定是不一样的。 所以从终局来倒推的话,开源这个事一定是至少有利于推进这个事情的。因为它最终要大规模产生经济价值,它必须要依赖于算力才能产生经济价值。所以我认为开源是对于很多环节——框架、芯片、能源——这些环节上其实都是有促进作用的。所以我认为它是加速AGI进程的。 你说它最后是一种公益,还是一种市场?我觉得是取决于每个公司在开源的时候结合自己的生态位。 就是你有没有一个别人不可以短期内拿下的战略的生态位。如果有的话,那么你就敢开源。如果没有的话,你就认为模型就是你的生态位,你就不开源。这样的一个行为。

一一四、在大公司做开源有压力吗

【小俊】 你在一个大公司做开源的事情会有压力吗? 【罗福莉】 我现在不觉得我在大公司做事情。其实小米整体我觉得非常的创业导向。 我觉得很奇怪的是它看起来是个大公司,但是它其实是一个做事的灵活度非常高的公司。

一一五、2026年胜负手

【小俊】 所以你觉得2026年什么会成为模型公司竞争的胜负手?做对了什么才能留在牌桌上? 【罗福莉】 首先不能做错的事情是你的预训练基座不能错。 如果这个时候都没有上,基本上就完全没有机会了。假设我们都有一个大于 1T(一万亿参数) 的模型,基座的潜能都在尤其在 Code 上是相当的这样的一个 Base(基础) 上。那么大家比拼的就是: 第一,怎么快速的去让Agent的框架跟模型互相自迭代、提升。 第二,怎么让Agent的架构去更多的耦合你现在所具备的资源,或者说生态位。 比如操作系统是,比如说硬件是,流量也是,社交也是。怎么让 Agent 框架去适配你现在的所具备的战略资源,然后最后合力起来怎么把它整合好。 其实它非常考验的是一个公司愿不愿意用一套新的方式来做这个事情。

一一六、什么叫新的方式

【小俊】 什么叫新的方式? 【罗福莉】 思考原来所有的做的东西都是错的。 原来是不是有这么需要这么多人来做这个事情?首先要思考你需不需要这么多人来做这个事情。你现在所有做的事情,这些人是不是都需要被砍掉,因为它的生产力会被另外一个更高效的东西给替代。或者说怎么让这群人去利用 Agent 来去发挥更大的生产力价值。 第二个是在新的生态位上,原来那些看起来有必要的事情是不是还是有壁垒的?

一一七、Frontier Lab 应该体现在哪里

【小俊】 你觉得 Frontier Lab(前沿实验室) 应该体现在哪里? 【罗福莉】 最基本的,我觉得做研究应该Frontier(前沿) 。还是要有那种自己想要原创做很多东西,而且这些东西可能短期内不会那么主流。但是你要说完全不被主流认可,那也很奇怪。 我自己觉得有点蛮反主流。我觉得不是很适合的一件事情是你很难很难 Scale(规模化)。我还是很相信 Scale 这个事。你只要顺应主流的话,你就很容易去 Scale。为什么?你所有的 Infra(基础设施),所有的硬件芯片,这些它都是围绕着这个目标来一起往前推动的。那么你个人就会获得非常大的加速度。主要是这个原因。 所以我觉得会顺应主流,然后去做一点我们超前认为的小点。 比如说当时 Hybrid 的架构,它其实就是在这样一个背景下做的,但它也没有说开天辟地的研究。但我们认为这些小点沉积起来,那么它就是一个非常高水准的 Frontier Model(前沿模型) 的状态。

一一八、满意的原创研究

【小俊】 你对你过去几年做的比较偏原创性的研究比较满意的是什么? 【罗福莉】 我觉得比较原创性的研究都是工业级水准的。 比如说 DeepSeek V2、V3,它就是一个工业级水准的模型。当大家都在主流去做一个更大规模的 Dense 的模型的时候,我们反主流去做 MoE(混合专家模型),然后去改了 Attention(注意力机制)。 其实它是在一个有时候可能更多是在一个资源受限的场景里面做的研究,但它本质上是可以Scale的研究。 我觉得这个算是一个不错的作品。 MiMo V2 系列我觉得也算是一个。是因为我们确实在 Agent 的范式还没有非常明朗的时候,就去做了很多前置的决策和判断,导致我觉得很高效快速地去给予一个优雅简洁的结构给训起来。并且最终我们发现它非常的适配 Agent 这套范式,然后又快速的去转移到 Agent 这套范式上,做了很多后训练的设计。尤其是围绕着整个 Agent 的架构来去重新设计我们的 RL Infra(强化学习基础设施)。 我觉得这些都是很多点合成起来,最终让大家感受到的不是一个Paper(论文)本身,而是一个工业级水平的模型。

一一九、对发 Paper 的态度

【小俊】 你对发 Paper 现在有执念之类的吗? 【罗福莉】 没有。就发的越少越好。我就希望别人发论文。我们团队里面有些人我说不要带我。 核心原因是我现在也不看学术会议的 Paper。主要的原因之一是我觉得大部分的实验确实应该自己做,你相信自己的实验结果比相信论文的实验结果会更好。 但是我会看一下它的原始关注的问题和动机是什么,我偶尔会看一下。 但总之我觉得有没有在这种大规模的算力的团队里边做过研究的人,跟没做过研究的人,他关注问题的重叠度也差得蛮多的。 所以我现在越来越少看这些论文。

一二〇、信息来源

【小俊】 你现在信息来源包括哪些来源? 【罗福莉】 自己呗。真来源自自己。我最近连跟人沟通都很少。所以我都不知道我今天讲了这么多个小时的这些东西,它会不会过一段时间发现它是错的。但是我不知道当下会有多少人会觉得它是错的,或者说是不是有帮助和价值的。这还没交流过,没有交流过。要说有交流就是自己跟自己交流,然后自己看看,跟其他在做同样实验的人交流。

一二一、组织话题的迭代

【小俊】 你刚才其实多多少少都提到了一些组织话题,包括我们上次也聊了很多的组织话题。你在最近的2个月有没有一些迭代?这100个人可能有20个人以前训过接触过小一点的模型。 【罗福莉】 主要是我觉得这些事情它都可以被快速习得。 这些能力真的都可以被快速习得。只要你被放在那个环境里边,围绕着一个更高标准的目标来驱动的时候,这些能力都是可以被——我觉得最多一两个月,慢的话三四个月——确实都可以被快速习得。所以环境反而比经验更重要,我自己认为。 所以我就没有太在乎他的经验,而更在乎我是不是创造了一个更好的环境。 这个环境让大家更快更快的提升学习,让大家互相的所谓的 Mutual Distillation(互相蒸馏)——我蒸馏你的长处,你蒸馏我的长处——互相这样快速的提升。 我更在乎说我自己创造这个环境是不是符合这样的一个先决条件的,而不是在乎这个人来的时候他的历史背景的基因是不是好。我只在乎它的可能初始化期望值和发展的上限高不高。 我只在乎这个事情。但我不太在乎它目前已经被 Supervised Learning(监督学习) 训练过后的点的状态高不高。我就不太在乎这个。

一二二、选拔标准:热爱与多样性

【小俊】 你会选什么样的人?他的学历是需要和人工智能相关的吗?看重什么东西? 【罗福莉】 看见博士的比例是55%。但那包含在读博士,不是博士毕业,是在读博士。那些数字我觉得是有点刻板的。其实这更多是代表一个人对做研究的热爱和热爱程度。 如果他做对做研究的热爱,他可能会选择至少读一个硕士或博士。但我发现现在我们也招了非常多的本科生。本科生在这种 Agent 的新范式的理解上,我觉得反而他的想象力会更高。 所以我现在反而招人会慢慢倾斜到去招更多的潜质的本科生。 我们会去招大二大三的人。为什么?因为他们的灵活性和适应程度都感觉没有被污染,天然更接纳这个事情会产生巨大价值。他的思想还没有被禁锢的感觉,所以他敢放心大胆的把自己那些想法交给 Agent 去验证,然后自己不断去探索边界。

一二三、如何创造环境

【小俊】 你怎么创造环境? 【罗福莉】 首先,构建这个环境的人,他是要有同样的特质的。 比如说我说要强调热爱这个事情,强调使命感这个事情。我觉得是要有这些基础的特质的。 其次,这些特质因为它都比较虚,所以另外一个就是要把这些特质给真的给放大的一个前提是它的基础要好。 当你可以有一次当他想做什么事情的时候,他有热爱的时候,他要能做成。这个基础要好。他不能光就想法多但做不成。这个基础是构建成他最后做不做得成的关键要素——这是一个技术能力。 所以我们会选技术好的、好奇心强的、热爱驱动做事情的。 当然还有一些可能越来越会有一些对多样性有更高的要求。因为如果招的太同质化,那么大家很容易去 Miss(错过) 掉一些看起来是噪音、但实际上对研究非常有价值的一些信息。所以多样性非常重要。我们上班每个群叽叽喳喳聊的挺多的,大家都会疯狂的把自己的想法或者说关注到信息给分享出来。有可能是在群里边,有可能就在座位上,反正吵得不行,一天到晚的。我觉得这样的沟通环境是非常好的。 然后当然还有一些外部的因素。比如说你的激励的方式。 组织就不能太围绕着某些非常确定和清晰的目标来做。以及我觉得激励方式——钱是一个很重要的 Baseline(底线) ,但它不是唯一的 Baseline。钱要给够,但除了钱之外的其他东西也非常的关键:它的价值感、它的意义感。 我觉得很多人远远更在乎这些东西。

一二四、后训练团队的搭建

【小俊】 你刚才说后训练团队搭建方式和预训练会有一点不一样。 【罗福莉】 通常我们在后训练上看到的人就两类会适应的非常好,或者说他对这个事会更有热情。 第一类就是他会更注重去跟模型玩的这样一群人。 因为他去玩,他才知道每个模型能力的边界在哪。然后他才会去找到一种可 Scale 的方式去把它边界给补充回来。有可能是去构造一批更强的数据以及更强的环境,让它能够 RL 训练起来。有可能是反馈到预训练的某个环节,可能这批数据没做好,OK我把这个数据给它补上,那么可能我下次再去训练模型的时候会更好。总之更在乎模型体验的人,更跟模型交互的频次更高的人,他会非常适应这个方式。 因为我觉得迭代是有价值的。尤其是那些维护了自己很多私有的测试库的人,他疯狂去测不同模型的边界,然后突然发现某个模型强了,然后分享出来自己这种独特体验的人,我认为还是蛮适合进入到后训练的。 还有一个确实我觉得不可避免是我们要围绕新的方式去设计很好的 RL(强化学习) 的研发体系。 做 RL 的研发跟做预训练的研发有一个非常大的不同是 RL 的 Infra(基础设施) 会更在乎这个模糊程度。预训练你绝对不能容错。比如说我们出现一个 Loss Spike(损失尖峰),你就不允许它出现,你想要把 Spike 给它解决下去。但是 RL 你就要允许它容错。 你允许模型跟 Agent 的架构交互,交互到一半这个请求又断了。但它断的原因有很多种,你根本找不到它是哪一种。它有可能是因为 Agent 框架写了某个超时的逻辑,有可能是因为它做任务需要很长的验证流程乱七八糟。你不知道它是什么因为什么原因就断掉了。 还有一个会不会你的训练跟推理是在异构的集群上训的,所以你的训练和推理的不一致性。我觉得在原来 Code 跟 Math 的 Reasoning 范式里边是不能容忍这个事情的,但现在你必须要容忍这个事情。然后引擎你怎么去做一些更多的异构资源的调度,比如说现在除了 GPU(图形处理器) 你还要管 CPU(中央处理器),你还要管存储。所以怎么在这种很复杂的异构资源里边把模型训起来,我觉得这里边需要很多算法跟工程的一个妥协。中间模糊的地带非常多。 所以它对 Infra 人的灵活性的要求和跨领域的理解要求变得非常之高。换句话说,我觉得它相比预训练来说,对灵活性和敏捷性都提出了新的要求。能够适应范式的人就会觉得……其实原来有那么一群人,他哪怕是在 Infra 里边追求一切都是有一个清晰答案和解决方法的,他来做 RL 也会有那么一群人是适合做 RL 的。 所以大概我觉得是这样一个变化。我们那边可能看起来还是至少做预训练 Infra 跟 RL Infra 我觉得还是分开的,不太能够交融。因为他们确实对于复杂性和精确度要求会差异很大。

一二五、RL的瓶颈

【小俊】 做 RL(强化学习) 的瓶颈到底在哪里?你刚才提到 Post-train 其实真正…… 【罗福莉】 其实真正把 RL Scaling(强化学习的规模化扩展) 做起来的团队很少,非常少。包括海外。OpenAI 肯定做这个事,然后其他团队我不是非常了解。至少我从最终的模型效果上感觉到没有给你到跟预训练一样量级的变化。

一二六、下一个范式

【小俊】 这是之前发展的两个范式。你觉得再往后有什么新的范式吗? 【罗福莉】 不确定。先把这个方式做了再说。我觉得我们刚刚聊到一个生成模型跟感知能力很强的模型,联合到一套新的框架里面去进行 RL 训练,这个事已经足够的在我的规划里面已经足够的长期并且比较难实现。 【小俊】 现在有人说是 Continual Learning(持续学习)、Online Learning(在线学习)。 【罗福莉】 我现在觉得 Continual Learning 和 Online Learning,我更多的是代指它跟这个环境产生交互的时候,或者说跟 Agent 框架共同交互的时候,这个框架本身在自己迭代和进化。 我是这么去定义这个事情。

一二七、对未来和当下的态度

【小俊】 你对未来有什么预期?我觉得未来可能是26年,可能是27年,可能更长远一点。 【罗福莉】 我现在觉得把当下的每天的研究做好,我就觉得非常好。

一二八、工作状态与节奏

【小俊】 你现在工作状态是什么样的?工作节奏? 【罗福莉】 早上11点,晚上一二三四点。但这是我的状态,不代表我们团队其他人的状态。 【小俊】 你是夜猫子是吗? 【罗福莉】 倒不是。是我自己本身的睡眠确实不需要特别多的睡眠,可能6个小时就完全足够了。然后5个小时也可以,4个小时也行。4到6个小时在我一个OK的区间。所以我不需要那么多的睡眠。而且现在做这个事情有点兴奋,所以也确实感觉睡太多有点浪费时间。有这种感觉。

(全文完)

📬 不错过下一次深度思考

每周精选播客精读,直接送到你的收件箱

免费订阅 · 随时退订

📖 本文由 AI 基于播客逐字稿深度改写,仅供学习参考

来源:张小军 Podcast · 原始视频