Manus 被收购前最后访谈:季逸超聊 Agent 的本质、技术路线与 AI 创业
Manus 被收购前最后访谈:季逸超聊 Agent 的本质、技术路线与 AI 创业
The Last Interview Before Manus’ Acquisition: Peak on Agent, Tech & Startup
编者按
2025年底,张小珺坐下来和 Manus 联合创始人兼首席科学家季逸超(朋友叫他 Peak)录了一期超过三小时的对话。这是 Manus 被收购前最后一次深度访谈。
2025年初,Manus 以”通用 Agent”的身份引爆全球关注,随后走过了惊心动魄的一年——从邀请码争议到与 OpenAI 正面交锋,从月烧几十万美金到逼近盈亏平衡,从五个人的北京小办公室到新加坡百人团队。
季逸超的故事从高中做猛犸浏览器赚到第一桶金开始,途经辍学创业、NLP先烈、GPT-3冲击下的溃败、一年半的打工生涯,最终在 Manus 找到了”首席科学家而非 CEO”的定位。这篇访谈涵盖了他完整的创业经历、Manus 的技术架构决策、Agent 的本质思考、与模型公司的微妙关系,以及对 AI 时代创业的深度判断。
全文约三万字,建议收藏慢读。
一、从家庭到 App Store:科技创业者的起点
季逸超的故事要从家庭说起。
他的父亲是北大物理系教授,传统意义上的科学家;母亲是老一辈中关村的连续创业者。他从小在这两种风格中成长,最终走了一条中间路线——科技创业者。
他自认不是那种聪明孩子,学习也就一般,偏科。但他比较幸运——很早就找到了自己喜欢做的事。
那是2009年,苹果推出 iPhone 的第二年。App Store 的出现对他来说是一个特别重要的转折点。在 App Store 之前,像他这样喜欢捣鼓软件的人缺乏一个全球化变现的能力。对高中生来说,课外瞎捣鼓是离经叛道的——你没有第三方指标来证明你的爱好有价值。App Store 给了他一个契机:可以向父母、同学和老师证明,这些”瞎搞”是能产生经济价值的。
于是他做了一个第三方 iOS 浏览器——猛犸浏览器(Nemus Web Browser),用最朴素的商业模式:卖一份赚一份(buy copy)。这个软件从第一个版本到最后,他大概赚了30多万美金。对高二高三的学生来说,已经相当不错了。
他甚至自己破解自己的软件,在国内论坛上发出去——“你没钱你就给我捧个人场”。这样做的同时,他获得了来自资本界的关注。在中关村参加一个创业活动时,真格基金的徐小平问他:“小伙不错,你想创业吗?”
他当然不想——既然有一个可以边上学边躺着赚钱的现金流,为什么要创业呢?但毕竟徐老师的面子要给。回家跟父母商量后,他做了决定:拿了 term sheet,大学不上了,去创业。
App Store 给了他一个特别好的正反馈——你只要创新,也许就能有回报。当时想得比较天真,就是做出一个好东西,自然就会有好的结果。不过他也渐渐意识到,这不是常态——他是幸运地踩中了一个时代的机遇。
他还提到了移动互联网早期和 AI 时代的一个关键区别:当时从桌面到移动有一次硬件媒介变化,无论大厂还是开发者都众生平等,都在做全新尝试。但 AI 虽然是技术突破,并没有出现全新平台。所以这回没有蛮荒期——无论巨头、创业公司还是个人开发者,大家的反应都一样快。
二、从猛犸浏览器到 NLP:新世界的大门
猛犸浏览器最终的结束不是因为失败,而是因为季逸超发现了更好玩的东西——自然语言处理。
起因很具体:为了给浏览器做预加载功能(预测用户下一次点击),他开始研究 NLP。但真正让他觉得”新世界大门打开了”的,是2013年 Google 推出的 Word2Vec——它头一次能让自然语言文本变成稠密向量。这让他意识到,自己的兴趣可能不在做浏览器,而在 NLP。
他跟真格基金说不想做浏览器了。真格的回应很简单——“随便”。于是他全身心投入了 NLP。
当时他们做的是知识图谱方向。传统的命名实体识别(NER)关注几个类别:人名、地名、组织名——这是白名单机制。关系提取也需要提前预设关系类型。但季逸超认为,任何两个实体之间的关系应该是无限集。
于是他们投入了一种新技术——后来在学术界被定义为 Open Information Extraction(开放式信息提取)。不需要提前定义 schema,AI 自己识别实体、提取关系、持续构建知识图谱。
他们选择了最苦的一条路:从零训练模型。从2014年底开始,一路经历了传统依存句法分析、Word2Vec 向量化、LSTM + Attention、BERT,每一次技术迭代都意味着过去几年的积累基本作废。
那几年他形容为”非常幸福的”——基本上想什么,世界上就会发生什么。但不幸的是,每一次技术迭代,过去的积累基本就算了。
他们的产品叫 Maggie(来自一部动画里的超级英雄),做的是让 AI 自动去网上阅读文章、持续构建知识图谱。两个模型加起来大概 0.3B 参数。他到今天觉得那是自己智力、编程和 research 能力的巅峰,“再后来就逐渐老登化了,水准开始下降”。
他们甚至自己从头搭建了整套搜索引擎基础设施——爬虫、索引引擎全部手写。他们和 Google 的 Knowledge Vault 做过 head-to-head 对比,在最高精度下准确度达到89%。
那个项目做完的那一刻,我的人生有点圆满了。所以后来做 Manus 这些事,我心里已经没有那种”我要证明自己”的感觉。我早就无憾了。
三、GPT-3 的冲击:天要塌了
2019年的某一天,季逸超拿到了 GPT-3 的 early access。
我觉得天要塌了。
他们把同样的任务拿 GPT-3 测了一下,随便写了一个 prompt(那时候没有什么 prompt 艺术),发现它和自己端到端训练的模型五五开。
而且他当时就意识到一个更深的问题——GPT-3 虽然很贵,但它是一个通解。以前在 NLP 领域,做信息抽取的、做机器翻译的、做客服系统的,大家精卫分明。但 GPT-3 出来之后,印证了一件事——好像不同的任务是能够大一统的。
他的第一反应是什么?
赶紧卖掉公司。
卖了,变现了。
张小珺追问他,从2011年到现在做的事跟现在大家做的差不多?季逸超纠正说:大家在每一个阶段遇见的问题是类似的,但每一个阶段都未能解决未来再次遇到时的问题。比如他们当时说的 long context 是从512个 token 到16k,现在的 long context 可能是200k 到 2 million。历史会压韵,但肯定不会重复。
四、不当 CEO:找到自己的位置
经历了创业失败后,季逸超去了一家独角兽公司打工一年半。那是一家 AI 2B 公司,内部有打榜文化——谁赢得越多,获得越多显卡资源。他一个人囤了好几十张卡,一直霸榜第一。那段经历特别开心。
但这段经历更重要的收获是:他彻底想清楚了自己不适合做 CEO。他有两个问题——第一,管人不太行,自称”开朗的内向”(INTJ),搞不定太多人与人之间微妙的事情;第二,他有时候会陷入一种特别追求”正道”的思路,面前有一个能赚钱的方向和一个能把有趣技术走到底的方向,他会毫不犹豫油门踩死往技术走。他知道这一定是错的,所以需要有一个人把他管住——“在我又想发癫的时候给我摁死。”
他的诉求非常清晰:
一,不想当 CEO,不想当一号位。
二,想找一个”画布”而不是一个已经成型的产品。 因为他觉得当时所有人都在下注,没有谁真正有系统性的方法知道 AI 产品接下来要做什么。他想像字节跳动一样有数据思维——不从零做一种”因为相信所以去做”的事情,而是有一个初步 PMF 但又非常空的画布来观察用户。
这就是他加入 Manus 的背景——和联合创始人肖弘(Red)的配合。
五、肖弘:身心健全的稀缺特质
季逸超对肖弘的评价很有意思——他觉得肖弘有一种非常稀缺的特质:他很正常。身心健全,没有任何不良嗜好,没有任何极端的思想。
张小珺问:这不是一个正常的指标吗?
这已经很难得了。我觉得现在整个这个行业有很多人比较偏执。但讲真——你没有乔布斯的命,却得了乔布斯的病。
张小珺问:“你在说你自己吗?“他说对——而且他经过惨痛的失败之后意识到了这一点,但很多人还没有意识到。
他进一步解释为什么身心健康对 AI 创始人如此重要:你必然会受挫,但身心健康的人是打不死的——能够一次一次很谦卑地重新站起来,很冷静地看待外界的变化,回馈到决策上。
肖弘打动他加入的那句话很简单:“Peak,我知道你做过浏览器,你做过搜索引擎,你做过语言模型——你想不想在一个产品里把这三个事都重新做一遍?“他承认:“听起来也挺吸引人的。”
但他非常清楚——加入不是为了做 Monica(肖弘之前做的 Chrome AI 插件),Monica 是大家的”学费”、公司的现金牛。他们加入是要寻找第二曲线。
季逸超聊到行业里其他创始人时直言不讳:别的创始人都太艺术家了,多少有点抑郁。以前移动互联网时代他还挺喜欢这类人的,因为边际成本很低,可以赌一把。但 AI 这个行业更像传统制造业——一直有固定成本在那儿,随着用户量增加,成本线性提升。所以对经营操作能力的要求比上一代高很多。移动互联网喜欢艺术家,AI 不是。
六、Monica 的启示:浏览器插件是绝妙的观察窗口
在做 Manus 之前,季逸超在 Monica 上观察了大量用户行为。
Monica 是一款 Chrome 插件。他觉得这个产品形态非常戳他——首先,它没有改变任何用户的习惯,你在浏览器中仍然使用你熟悉的 Gmail、YouTube,用户的原本轨迹不是被强行改的,观测是无偏的。其次,浏览器插件的功能分发是基于 context 的——跟视频理解相关的东西只会在你看 YouTube 时出现,跟文章改写相关的功能只在 Gmail 或 Google Docs 里出现。它消解了功能增加带来的复杂度爆炸问题。
他觉得浏览器插件是一个绝妙的观察用户到底在怎么用 AI 的窗口——它甚至不能叫一个产品形态,它是一个空的容器,一个空的画布。
他特别喜欢 GitHub 的一句话:Everything added dilutes everything else——你每增加一个东西,都会稀释所有的价值。
Monica 当时已经有接近1200万美金的 ARR(年度经常性收入),而且是盈利的。但看 Chrome 插件商店的天花板——头两名 Adblock 和 Grammarly 做了很多年,也就停留在5000万左右。而 Chrome 浏览器的日活大概20亿,他们做到底也只能渗透到不到1%——因为插件是一个形态比较高阶的模式,好多普通用户甚至不知道 Chrome 能装插件。
七、AI 浏览器的失败:两个致命的坑
2024年4月到9月,他们尝试做一款 AI 原生浏览器。产品形态其实跟后来的 ChatGPT Atlas 已经很像了。但踩了几个坑:
第一个坑:追求端侧运行。 他后来自嘲——拜托,你做的是一款浏览器,浏览器本身就是联网的,你为什么要追求离线端侧运行?Apple Silicon 芯片你最多跑一个 3B 的模型,用户会拿你跟云端旗舰模型比。
第二个坑:让 AI 接管用户的浏览器。 如果你让 AI 接管用户的电脑,会出现一种很奇怪的体验——比如 AI 在填一个表,你一滚屏幕想看看下面的内容,AI 就把网页又拉回来了。就好比你有一个特别聪明的实习生,但你非要跟这个实习生共用一台电脑。
还有一个更深层的问题:真正有价值的是长任务(long horizon task),但你做的是原生浏览器,AI 在你电脑上持续运行——你不能把电脑盖上,盖上就休眠了。
最终让他们下定决心放弃的,是一个核心拷问:做了这样一款原生 AI 浏览器之后,有什么是 Chrome 加 Monica 做不到的吗?想想好像没有。
而且 The Browser Company 的创始人 Josh Miller 宣布停止 Arc 浏览器时说的话一下就和他们共鸣了——“我做 Arc 这么久,我甚至无法说服我的亲戚朋友从 Chrome 换成 Arc。” 季逸超感慨:“这是我的第二遍浏览器,又得到了相同的结果。”
但这段经历并非浪费。他们对 Chromium 内核非常了解,也做了整套 Agent 调度系统——这些技术积累后来全部用在了 Manus 上。
八、Manus 的诞生:从 Cursor 里看到通用 Agent
放弃浏览器后,真正”无所事事”的时间只有两周半。
转机来自一个意外的观察:他们发现公司里很多非工程师都在用 Cursor——运营同事在用 Cursor 写博客,数据分析同事在用 Cursor 做数据可视化。它本来是一个最专业的产品形态(IDE),却有很多非原始目标用户在用。
他们站在这些同事身后观察——这些人根本不看左边的代码,就是在右边不断跟 AI 交流,让 AI 通过编程完成非编码任务。
这个观察带来了一个关键洞察:
编程不是一个垂直能力,编程是一个通用能力——它是解决通用任务的一个媒介。
但 Cursor 的形态对非程序员不是最优的。结合之前做浏览器学到的教训,他们得出了三个判断:
一、不应该跑在用户电脑上。 应该在云端沙箱里运行,这样 AI 可以在后台长时间工作,解放用户注意力,而且还能并发。
二、代码应该作为工具而非主要呈现。 代码对很多人有天然的紧张感。Cursor 会经常问用户权限,用户看不懂,唯一选择就是一直按”接受”。他还提到一个朋友用 Cursor 不懂技术就瞎用,结果 Cursor 把他的网卡驱动给卸了,导致电脑上不了网。
三、面向 prosumer(专业消费者),不跟巨头卷程序员市场。
我觉得”不做什么”真的特别重要。AI 让创业公司的产能变得很大,以前你没有”我不做什么”的自由——外部因素会阻止你天马行空。但 AI 时代好像眼中机会很多,AI 又充分解放了生产力,所以克制反而成了最稀缺的能力。
项目代号也很有意思——AirBNB:Browser in Browser in the Air(浏览器里运行的浏览器,跑在云上)。
从2024年10月开始正式搞,到2025年1月中 Manus 基本做完。但季逸超决定不马上发布——他听到了 Anthropic 两个月后会有模型更新的 rumor,想把产品发布跟模型迭代对齐,享受最大的代际提升。
Manus 这个名字来自 MIT 校训 Mens et Manus(拉丁语”心与手”)。他们要做的是那个”手”——让智能真正去触及现实世界。(而且他所有产品都是 M 开头——猛犸、Maggie、Monica、Manus。他说这完全是巧合,“可能 M 开头的产品运气都不会太差。“)
九、三个关键判断:比较幸运的是,好像都对了
季逸超说,他们在做 Manus 之前做了三个判断:
判断一:不做模型,做产品。 如果你是一个产品引领的思路,你某种意义上在买模型彩票——直到最后那一刻你都不知道模型到底能不能达到你想象的需求。他之前已经吃过这个亏。更健康的做法是:当产品有了 PMF 之后,再以增加稳定性、降本或突破天花板的思路去做模型。
判断二:编程不是垂直能力,而是通用能力。(上一节已详述)
判断三:服务 prosumer,不跟巨头卷普通用户。
像有一些别的 Agent 公司可能觉得”我增加很多不同的 tool 给 Agent”,而我们每月都在想——我能删掉什么。
十、为什么做”通用” Agent?
张小珺追问:按照传统创业理念,应该找一个垂直领域扎进去,为什么要做通用 Agent?
季逸超从三个角度回答:
技术角度: 他上一次创业就经历了专有模型被大一统模型吃掉的体验。现在即使做垂直 Agent,背后用的还是通用基座模型。
产品角度一: 通用 Agent 让用户按自己的想象力使用产品。他们不做特别大的使用场景赌注,而是一种达尔文式的观察——用户可以按自己的想象力使用产品,他们通过观察集体行为模式去捕获头部场景,再做最后一公里的优化。
产品角度二: 垂直 Agent 频次太低——你在每一个 Hackathon 都会遇见一个团队要做旅行规划 Agent,但旅行规划对普通人来说一年就两三次。
产品角度三: Manus 比垂直 Agent 能多做一步。比如世界上有很多能做网页的 AI,但真正难的是让网页内容言之有物。Manus 可以先完成 deep research,基于研究结果做出网页,网页还有真正的后台数据库——如果用户分享到互联网上,Manus 还能在同一个 session 内分析流量,甚至帮你做 PPT 发邮件给投资人。
他举了一个令他印象深刻的例子:一个分子生物学家用 Manus 做 deep research,但实验仪器导出的是一个非常小众的数据格式。别的产品做不了。Manus 说”这是一个很奇怪的文件格式,我先去研究一下”——然后自己去 GitHub 下载了一个开源项目来解析,再继续完成分析。
这种长尾的、没有人专门为他做的场景,有一款通用产品能解决——用户会获得极大的满足感。而且这种长尾不等于低频,因为这是这个人每天的工作。
十一、虚拟化:给 Agent 造一台电脑
Manus 的技术架构核心是虚拟化。
每个 Manus 会话背后都有一个独立的、一次性的沙盒虚拟机。Agent 像一个人坐在电脑前一样操作:打开浏览器、写代码、安装软件、创建文件。他们内部开玩笑说,Manus 其实是一款个人云计算产品——让不会编程的人也能去操作云计算,并用在日常生活中。
他们有一个独特的功能叫 Wide Research(广域研究):你让别的 AI 去找 YC 过去一批中所有 AI 营销公司的 CEO 并找到他们的 email,任何别的 AI 都会失败——受限于 context window 和模型本身的懒惰,找到10-15个后质量急剧下降。但 Manus 可以启动100多个 sandbox 并行完成这件事,最后汇总结果。
他们没有选择 Docker 这种容器技术。Docker 基于 Linux Kernel 的 cgroup,绑定于 Linux 系统,但很多专业软件只在 Windows 生态里有。他们选了更重的路——基于 Firecracker 做轻量级但全虚拟化,这样未来还能支持 Windows 环境。
他们甚至在维护一个”专门为 Agent 设计的 Linux 发行版”——里面有很多只有 Manus 才知道怎么用的工具。还有一个专门的 Sandbox Team,他们做的事情更像是”在教一个不会用电脑的人如何更好地用电脑”,而 Agent Team 在做的是”如何设计一套稳健但统一的架构,让我们能持续跟上模型的进步”。
十二、“全世界都在帮我们训模型”
季逸超说了一个很有意思的商业逻辑:用户付钱 → 他们服务用户 → 获得影响力 → 影响模型公司帮他们训模型 → 内部 research 团队只关注非共识性的东西。他们成功地把模型训练这件事外包了出去。
因为 Manus 的 token 消耗量巨大,他们在几乎所有模型厂商那里都是全球 top 2 到 top 5 的客户。他可以天天给模型公司”洗脑”,告诉他们哪些能力需要改进。比如 Gemini 3 出来后他们很兴奋,之前遇到的问题被实实在在地变成了模型改进。
甚至 Gemini 新出的”可控并行 function calling”——那个定义、proposal 和实现 schema 是他写的。Google Cloud 开发者大会上,Google Cloud CEO Thomas 直接当着所有开发者说:“之前有一些只给 Manus 用的 feature,现在你们都可以用了。”
沟通最多的模型厂商?非常均匀。讨论 agentic coding,Anthropic 最好,Opus 4.5 可能被很多人低估了。Gemini 的多模态理解是断层级别的强,而且通过 Gemini 可能是你唯一能使用 Google 索引的方式。OpenAI 在纯推理方面投入很大。
有人担心模型公司学了他们的方法来抄产品:
首先,我们能用市面上所有最好的模型——这是我们的优势。第二,一旦他们垂直整合,迭代速度一定不如我们——产品迭代太快了。他们成了分化的,我们反而成了综合的。这很反直觉。
十三、Agent 与 ChatBot 的本质区别
季逸超花了很长时间解释为什么现有模型不适合 Agent 场景。
Chat Bot 的整个系统里只有两个元素——人和模型,以往复形式交互。但 Agent 有第三个元素:环境(runtime)。这个东西非常重。所以 Agent 的壳跟 Chat Bot 相比,完全不是一个厚度——它是地壳一样厚的壳。
他用了一个精彩的比喻:
如果 Monica 是生鱼片——好坏完全取决于原材料,几乎零加工——那 Manus 也许是水煮鱼,是一个非常复杂的菜。
模型的”对齐”问题
大部分模型仍然是为 Chat Bot 场景做的 alignment。Chat Bot 的天然问题是——无论用户的问题多复杂,它都倾向于在一轮回答中回答完毕。但 Agent 的基础假设是:接到复杂输入后,正确做法不是急于一轮回答,而是很有耐心地逐步尝试、基于上一步观测调整方案。
如果你强行用 Chat Bot 模型完成长链路 Agent 任务,模型干活的质量会越来越低。它会感受到一种无形的”上下文压力”——影响它输出 EOS token 的概率。一个常见现象就是到后面开始疯狂用 bullet point,着急收尾。
Reasoning 模型的陷阱
如果你盲目把为竞赛编程或数学设计的 reasoning model 平移到 Agent,instruction following 能力下降,幻觉和工具调用错误概率反而提升。
Agent 需要的不是用户给一个短问题、模型脑内想几千个 token 的推理,而是一种交错式思考(interleaved thinking)——获得一个 observation 后,不要急于预测下一个 action,而是进行一个中间的、相对短暂的 reasoning。
Long Context 的暴论
我现在有一个暴论:200k 以上的 context 就不重要了。比起更长的 context,更重要的是让模型具备 compaction awareness——对压缩的意识。模型应该知道”我的上下文已经很长了,我能不能把一些信息外化到文件系统中”,就像人把记忆整理成文档放在 Notion 里一样。
十四、“纯血派” Agent:The Bitter Lesson
季逸超自称坚信”纯血派 Agent”——很多人把 Agent 和 Agent Workflow 混在一起谈。Agent Workflow 追求稳定性,用人为规则去约束流程——但在他们眼中这不叫 Agent,这就是 Workflow。纯血 Agent 是:完成任务的所有过程和方式,由智能本身决定,没有人为加的约束。
他举了一个具体例子:你要让 Agent 做数据可视化,产品经理的直觉是写一大堆 guardrail——注意字体、注意乱码、注意语言……你每增加一条约束,其实在减少模型的多样性。他们的做法不同:只是加入了”查看图片”的能力。这样 Agent 能自己检查生成的图表,发现问题自己修复。这不是在堵漏洞(打鸭子),而是在让智能的泛化性帮你解决更多你还未发现的问题。
当然,直接去修补永远很有诱人力,更符合传统软件工程和产品经理的直觉。这时候我要站出来拦住所有人——不要这么干。
这背后是一个更深的信念——The Bitter Lesson(苦涩的教训):人类 AI 的进步基本全是用通用方法加投入更大的算力,而不是增加人为的专家知识注入。这个认知让他很早就买了 NVIDIA 的股票。
十五、不要把人的限制搬给 Agent
很多做 Agent 的公司有种惯性思维——在 multi-agent 系统中分设设计师、程序员、经理角色。季逸超觉得这不太对。为什么人类社会要分工?因为我们每个人都不太全能。但模型是比人更全能的东西,你应该充分利用模型的优势,而不要生搬硬套人的约束。
把 Agent 的人格化,是一种人的自恋。
他补充道:如果你真的在做一个 Agent,你同时在做两个产品——一个是给人用的,一个是给 Agent 用的。这两个东西的思维模式是不一样的,但需要一个好的技术架构把两者融合在一起。
十六、与 OpenAI 的竞争:他们做了,效果不如我们
张小珺问:OpenAI 做了你们怎么办?
他们做了——很明显效果不如 Manus。原因有两个:第一,Manus 能用市面上所有最好的选择,而 OpenAI 只能用自己的模型;第二,ChatGPT Agent 仍然是 ChatGPT 的一部分。
他们做过双盲测试:抽5%的用户悄悄换一个模型,那块用户的满意度直接就下降了。他们在服务最挑剔的一群人——永远要的是此刻 AI 能提供的最高水平。
“Manus 火了以后飘过没有?“——不会,因为他们每天受到的负面反馈比正面反馈更多。
那竞争怎么办?
小公司怎么跟大厂竞争?赶紧成为大厂。 不是在规模上超越它,而是做 Manus 的这个团队,比某些大厂想做 Manus 的那个团队强得多——这就可以了。
十七、发布前的确信与邀请码真相
季逸超说从做完 Manus 到发布前那段时间,没有任何焦虑。他们都是”中登行”(中年连续创业者),做完之后就知道这东西一定会火。
那为什么要用邀请码?
我们在最后决定发布之前,跟所有云厂商和推理供应商聊了之后,惊讶地发现——世界上能够在第二天立即到位的算力,比想象中少太多了。
云厂商说”你们千万别放开,放开我们会挂”。邀请码不是营销手段,而是物理限制。上线当天他们跟云厂商说”能不能临时加到这么多”,对方问”要下个月还是下下个月?“他们说”今天下午要”。然后就是真正的物理层面搬卡插机器。
为什么后来跟 Google 关系这么铁?真的是雪中送炭级别的支持。
至于炒作的质疑——
如果我们在三月份发布的时候有任何付费的宣传——我死全家。
那些文章怎么来的?第一,他们自己都觉得很酷的东西,大家一定会觉得很酷——对自媒体来说这是值得写的内容。第二,用涛哥的话说——这是多年广结善缘的结果。
十八、六位合伙人与决策机制
Manus 有六位合伙人——比大多数人知道的多。
- 肖弘(Red):CEO,几乎所有产品的最终决策者
- 张涛:CPO,负责产品和对外合作,经常全球出差带回交叉观点
- 季逸超(Peak):首席科学家,技术方面的 BDFL(仁慈的独裁者)
- 潘潘:CTO
- 慧杰:CMO
- CZ:COO,负责公司运营和财务
他们的决策机制很有意思——GPP 模式:
- Goal(目标):集权式,由 CEO 拍板
- Priority(优先级):集权 + 民主,一个人能拍板但大家充分发表意见
- Alternative(方案):充分民主,可选方案的数量甚至比质量更重要
他们非常反对投票——投票其实是在异化团队,你应该看目标而不是站队。最好的决策就是”你赶紧做一个试试”——与其悬而未决,不如赶紧试试,数据会告诉你答案。
十九、错误的自我意识:AI 最难量化的能力
在讨论评估时,季逸超提到了一个很少被关注但极其重要的指标——错误的自我意识。
低维度的表现:模型在 one shot 中完成任务的通过率。但更常见的情况是用户先发现错误并指出来——如果你经常用 AI coding,你可能有一个很沮丧的体验:你发现了一个问题让 AI 修,AI 说”太棒了,我已经完美修复了这个 bug”——其实它不仅没修好,还引入了另一个 bug。
更高维度的”错误”:它做出了一个能用的东西,但无法推到下一个 level——从可用到好用。他们还是愿意把这定义为一种错误。Manus 每做完一个网页,它可以选择用自己的浏览器把网页玩一圈,看看数据库记录是否对上。
二十、Online Learning、Latent Reasoning 与非共识方向
季逸超提到他们在做 Online Learning,但首先澄清了三个被混在一起的概念:狭义 online learning(持续改变参数)、mass personalization(大规模个性化,可以用 in-context learning)、continuous learning(当理想分布随时间改变时才真正需要)。
很多所谓的 online learning 的 practice,其实只是 on-policy 的数据收集并周期性优化模型。你的任务本身不具备动态性,你很快会打透 benchmark。
他还提到田渊栋的 Latent Reasoning 研究方向(论文叫 Coconut),认为这解决了非常本质的问题:RLVR 本质上只是增加模型在 pass@1 下的稳定性,模型能否解答一个问题还是取决于基座质量。现在通过 RLVR 做的 reasoning 是在 token space 进行采样——已经”塌缩”了。但 latent reasoning 没有进行这一次 sample,可以在近乎平行的维度内同时考虑多种可能性。
二十一、数据飞轮与用户反馈
Manus 的数据飞轮和 Chat Bot 很不一样。
在 Chat Bot 中,用户不满意会点 retry 或改 prompt。但在 Agent 场景下,用户会教 Agent——比如让 Manus 筛简历,筛出的标准不对,就跟它说”你这不对,我喜欢的是这种”。用户还会帮 Agent 修——“你这个不对,我已经帮你把文件改成了正确的格式”。
这两种反馈数据在 Chat Bot 时代是非常难获得的。有了大量用户后,他们即使不碰模型,也能获得一种 self-evolving 的能力——虽然是 parameter-free 的。用的人越多,失败率越低,完成同样任务的轮次开销越小。
同时他们非常看重主观评估:在 benchmark 上表现好的架构和模型,真实用户评分不一定高。因为用户关注的是你的 slides 长宽比是否超过 16:9、网站是否好看易用——这些很难用自动化 reward model 衡量。
二十二、增长的转变:从踩西瓜皮到主动出击
过去一年 Manus 的增长被内部称为”踩着西瓜皮”——几乎没有任何定向增长动作。但从获客和增长角度看,完全放任不是最可控的。他们接下来要更多由产品驱动,从踩西瓜皮变成主动服务目标用户群。
用户画像主要三类:互联网/技术公司的非程序员白领、Freelancer / Solo Entrepreneur(美国很多自负盈亏的独立工作者)、金融和咨询行业从业者。共性是有比较强的自驱力,任务是高价值的。
他用了一个很精确的类比:一个普普通通的人能做很多事,是因为有一台电脑。人跟电脑之间的接口就是右手用鼠标、左手用键盘、眼睛看屏幕、耳朵听声音——就这样,一个远程工作者用这样简单的标准接口,就能完成几乎无穷无尽的任务。
二十三、接下来三个月:Proactiveness(主动性)
季逸超说他们不敢想10年后,只能聊三个月内的事。重点方向是 Proactiveness(主动性)。
Agent 这个词的本意来自 agency——能动性。之前大家更关注结果呈现,但现在该关注输入侧了。对用户来说,输入 prompt 是很闹心的事。张涛有一个梦想——做一个 7×24 小时烧 token 的机器。
他举了一个他们内部已经在用的例子:面试完人后要在 Ashby(HR SaaS)里写评价。面试过程中用 Notion 或 Granola 记录。有了 proactiveness 之后,Manus 可以每天早晨在他醒来之前,自己看 Notion,帮他把记录填到 Ashby 里,只需要问他接受与否。
二十四、发布后的日子:颠倒黑白、站着融资
Manus 火了之后,真正的痛苦来自颠倒黑白——用户遍布全球各个时区。第一周到第二周,基本每天零散加起来就睡三四个小时。他们楼上租了一个更大的办公室,武汉同事能飞过来就飞过来,书架上摆的更多是补给营养品。融资给投资人开会都是站着开。
每天白天看到的网上大多是骂他们的东西。而跟投资人好好讲的时候得到正反馈,是他们一天中最温暖的时候。
关于被骂,最惨的一点是:很多国内用户骂他们,根本原因是用的根本不是 Manus——在国区 App Store 上搜到的所有 Manus 都是假的,全是山寨品。
关于一亿美金 ARR——现在超过了一亿美金。他们非常抵制”Vibe ARR”——不能把一个月内获得的年付算在当月。内部就看 Stripe 上的 MR 数据。
二十五、对肖弘的再认识
张小珺问过去一年对肖弘有什么新认识。
比较符合预期,情绪依然很稳定。但即使像他这样经验丰富的连续创业者,在很多时候还是会有人性的脆弱。好像他们不在意,但其实听到一些东西,心里还是觉得挺尖锐的。肖弘比 Peak 更容易受影响,会不开心,甚至很着急。他经常说”接下来一段时间我可能很抑郁,你们不用帮我”——但谁会真的放他不管呢?
他不是那种艺术家式的忽高忽低,情绪是稳定的,但比较容易低落——更感性一点。
二十六、模型公司格局与技术前瞻
季逸超对主要模型公司的看法:
OpenAI: 非常尊重他们 bottom-up 的创新文化,最有可能诞生新范式的公司之一。但接下来需要解决研究自由和产品化之间的张力。
Anthropic: 在 agentic coding 方面最领先,开发者社区根基很深。关注点是高经济价值任务——跟 Manus 的关注点比较相像。
Google/DeepMind: 证明了 pre-training 还可以继续,多模态和数据方面的积累是持久差异,搜索索引是别人难以追上的护城河。
xAI: Elon 已经意识到 Chat Bot 战争结束了,可能赌的方向是 pixel in pixel out——一切模态统一成像素。
Meta: 杨立昆走了也许是积极信号,可能会投入到更朴素且有快速成效的工作中来。
关于 Scaling Law:狭义的 Scaling Law——Loss 曲线还是能降的。广义的——固定投入多大算力就期望解锁多少新场景——这个很难保证。但即使不解锁全新场景,现有场景的质量还不够,质量提升靠 scaling 一定是有用的。
关于 AI 时代的稳态:移动互联网的稳态出现在用户时间被瓜分完之后。但 AI——至少他们努力的方向——是不占用用户时间而为用户创造价值。Agent 在减少与用户直接交互的时间,但在后台持续创造价值。所以人与产品交互的时长不是一个有限的约束条件。他坦言还没想出来 AI 时代到底什么是产生稳态的那个约束条件。
二十七、创业与人生
几个快问快答让这场漫长的对话有了一个温暖的收尾。
全球范围内喜欢的食物? Mac and cheese。垃圾食品。
全球范围内喜欢的地点? 北京。
一个冷知识? 海带不是动物。(“我周围人都不知道。""难道你知道吗?""我海鲜过敏,我经常要跟大家解释海带不是动物。”)
推荐两本书? “我平时读书特别少。我现在在读线条小狗的画册。”
影响 AI 进程的论文? 第一个是 Word2Vec。第二个——大家肯定都会说 Attention Is All You Need,但他要换一个:Flan-T5。
当下一个关键的 Bet? AI 接下来的进步需要用户的参与。
如果 Manus 下个月死了你会干嘛? 歇一会儿,太累了。
对 Manus 最乐观和最悲观的预期?
悲观预期:下个月死掉。这是所有创业公司一样的悲观预期。我们没有权利活着,我们是在努力获得一个活着的权利。
最好的预期:让所有有高价值工作的白领都能获得一个 7×24 小时不断推理的 AI 伙伴。
核心观点速览
- App Store 是第一个转折点:对高中生来说,不仅是变现渠道,更是证明”瞎搞也有价值”的第三方指标
- “你没有乔布斯的命,却得了乔布斯的病”:身心健康是 AI 创始人最被低估的特质,打不死的人才能赢
- 早一步是先驱,早十步是先烈:技术嗅觉和时机的关系比什么都重要
- “不做什么”比”做什么”更重要:AI 时代创业公司产能巨大,克制反而成了最稀缺的能力
- 编程是通用能力,不是垂直能力:非工程师用 Cursor 的方式暴露了一个本质——编程是 AI 解决通用任务的媒介
- 不在用户电脑上运行:从 AI 浏览器的失败学到的最重要一课,Agent 应该在云端沙箱独立运行
- “全世界都在帮我们训模型”:不自己训基座模型,用影响力驱动模型公司改进——这是 Manus 的飞轮
- 纯血 Agent vs Agent Workflow:不要生搬硬套人的分工,不要把人的限制搬给 Agent
- The Bitter Lesson:通用方法 + 更大算力 > 人为专家知识注入
- 错误的自我意识:AI 最难量化但最影响体验的能力
- Agent 的壁垒不是模型,是数据飞轮:用户的教学和修正是应用层独有的数据资产
- 邀请码不是营销,是物理限制:云厂商和模型厂商的算力在 Agent 时代完全没有准备好
- 200k 以上的 context 不重要:模型更需要的是 compaction awareness——对压缩的意识
- 移动互联网喜欢艺术家,AI 不是:AI 更像传统制造业,经营操作能力的要求比上一代高很多
📖 本文由 AI 基于播客逐字稿深度改写,仅供学习参考
来源:张小珺 Podcast · 原始视频