独家对话罗福莉:AI 范式已然巨变,从 Pre-train 时代全面转向 Post-train 时代
posts posts 2026-04-26T11:50:00+08:00基于罗福莉 3.5 小时访谈、36kr 整理稿与相关公开资料,梳理 2026 年大模型竞争为何从 Pre-train 转向 Post-train,以及 Agent 框架、RL Scaling、算力重配与组织敏捷性为何一起成为新主线。视频精读AI, 大模型, Post-train, Agent, OpenClaw, 罗福莉, 小米, DeepSeek, RL Scaling这篇文章不是 3.5 小时访谈的逐句转录,而是一篇围绕主线判断展开的精读。重点不在把所有细节重复一遍,而在把几句分量重的核心判断拆开:为什么竞争重心从 Pre-train 挪到了 Post-train,为什么 OpenClaw 这类 Agent 框架会被反复提起,为什么卡的分配和组织方式要一起改。
罗福莉是小米大模型团队负责人,此前曾供职阿里达摩院和 DeepSeek,在 NLP 和大模型领域有多年研究经历。2026 年 4 月,她与科技主笔张小珺进行了一场 3.5 小时深度对话,话题覆盖大模型竞争格局、Agent 时代的核心技术栈、组织变革和个人认知冲击。B 站发布了完整视频,36kr 同步发布了整理稿。
文章面向关注大模型路线、Agent 基础设施与 AI 组织变革的工程师、研究者和产品负责人。全文预计阅读 30 到 40 分钟,难度在 ⭐⭐⭐⭐ 左右。读完这篇文章,你应该能回答以下问题:
- 这场访谈所说的"范式转移",到底是从哪里转向哪里。
- 为什么 2026 年的关键竞争点从 Pre-train 明显偏向 Post-train、RL Scaling(强化学习扩展)与 Agent 系统适配。
- OpenClaw 这类 Agent 框架提供的,为什么不是一个表面壳层,而是一整套中间系统能力。
- 研究、Pre-train、Post-train 的用卡比例从 3:5:1 走向 3:1:1,到底说明什么。
- 1T 入场券、AGI 两年、群体智能这些判断里,哪些是可追溯观点,哪些仍然是前瞻推演。
- 把访谈里的判断转成团队动作,资源、评估和组织该从哪里先改。
材料边界与使用方式
本文依赖 3 类材料,各有各的能力边界:
| 材料 | 能确认的内容 | 在本文中的角色 |
|---|---|---|
| B 站视频简介与章节大纲 | 访谈主线、关键原话、时间节点 | 文章结构主轴 |
| 36kr 整理文章 | 观点展开版摘要、若干补充细节 | 补背景,不当作逐字引述 |
| MiMo-V2.5 的后续公开资料 | 团队后续产品方向与外部背景 | 只作延伸背景,不回填成访谈原话 |
原始访谈、媒体整理和作者延伸如果不分层处理,很容易被写成观点拼盘。下文会尽量把三层信息拆开:哪句是访谈原话,哪句是媒体归纳,哪句是基于公开背景的延伸理解。
8 个关键判断
这些判断会在后文逐一展开,这里先列出来作为阅读路标:
- 大模型竞争已经从 Chat 时代进入 Agent 时代,评分标准从"谁更聪明"变成了"谁更能完成任务"。
- “Anthropic 的路径是正确的,这是当下共识"说的不是站队,而是行业开始接受一件事:模型、框架、后训练和上下文工程要作为一个整体来理解。
- 国内团队在 Pre-train 上的代差已经非常接近,新的差距更可能出现在后训练、RL Scaling 和 Agent 框架适配上。
- Chat 时代常见的研究、Pre-train、Post-train 用卡比例可以是 3:5:1;进入 Agent 时代后,更合理的比例会走向 3:1:1,顶尖团队甚至会把 Pre-train 和 Post-train 拉近到接近 1:1。
- OpenClaw 被反复提起,不是因为它已经解决了一切,而是因为它把一个行业盲点暴露了出来:真正决定 Agent 上限的,不只模型本身,还有那层厚重的中间框架。
- 1T 参数级模型更接近 Agent 时代的一张入场券,而不是胜负手;真正难的是下一步到底该 Scaling 什么、在哪个环节 Scaling。
- 2026 年更像生产力加速重排之年,先被改写的是工作系统,生活方式未必会最先变。
- “每天在否认昨天的自己"这句话,指向的是研究范式、组织方式和个人能力结构同时被改写的现实。
竞争为什么从 Pre-train 转向 Post-train
访谈里有一句核心判断:
Anthropic 的路径是正确的,这是当下共识。
这句话的分量不在"谁支持谁”,而在它透露出的认知变化。Claude 的优势不再被简单理解成"模型更强”,而是模型、框架、后训练和上下文工程(Context Engineering)一起作用后的结果。上下文工程不同于 Prompt Engineering——后者关注如何写好提示词,前者关注的是整个上下文组装管线,包括检索到的文档、对话历史、工具输出、系统指令和长期记忆如何高效地送入模型的上下文窗口。
36kr 的整理里提到,过去有人把这些 Context 工程看成结构限制或成本妥协;现在回头看,它更像是在为 Agent 场景里的整体任务完成度服务。
访谈中还有另一句配套的话:
现在大家在 Pre-train 上的代差是基本没有的,或者说非常接近。
36kr 把这层意思进一步展开成"中美模型代差只有 2 到 3 个月"。不管你更接受哪种说法,结论都差不多:只把基座模型继续做大,已经很难单独构成决定性优势。Chat 时代主要比谁更聪明,Agent 时代开始比谁更能把任务做完,后者更依赖 Post-train、RL Scaling、框架适配、长上下文管理和错误恢复。
罗福莉对后训练重要性的表述也很直接:
现在至少跟 23 年要去追平 Pre-train 的差距一样,大家很 all in,要去做好 Agent 的 Post-train。更具体说,是在 Agent 上怎么做好 RL 的 scaling。
RL Scaling:从"回答得好"到"任务完成得好"
RL Scaling(Reinforcement Learning Scaling,强化学习扩展)在这里指的不再是传统的 RLHF 对齐。Chat 时代的 RL 主要让模型学会"回答得更好"——输出符合人类偏好、减少幻觉、保持安全。Agent 时代的 RL Scaling 要解决的问题完全不同:用更大的算力、更多样化的奖励信号和更复杂的环境来训练模型完成多步任务。
具体来说,Agent 场景下的 RL Scaling 需要让模型学会调用工具、做长程规划、从错误中恢复、在多步执行中保持一致性。Scaling 的对象变了——不再只是模型参数量,而是训练环境的复杂度和反馈信号的密度。这也是为什么后训练不再是收尾环节,而变成了决定 Agent 是否可用的主环节。
这种转变在 MiMo-V2.5 的技术报告里也有体现。其 Post-train 路径是 SFT + 大规模 Agent RL + Multi-Teacher On-Policy Distillation(MOPD,多教师在线策略蒸馏),重点放在 Agent 场景下的强化学习,而不是传统的指令微调。
后训练的变化不是"也变重要了",而是已经从过去的收尾环节变成决定 Agent 是否可用的主环节。任务不再只是问答,而是长程、多步、可失败、可恢复的执行过程。系统也不再只有一个 Rollout 推理引擎,而是一个带工具、带记忆、带状态的 Agent 系统。团队随之面对另一类问题:不是把模型训得更强,而是把模型放进真实环境后,怎样让它持续做对。
访谈原话里有一句用来概括这种变化:
系统从"以 Rollout 推理引擎为核心",转变为"以 Agent 为核心"的一个更复杂系统。
卡怎么分,反映的是瓶颈怎么迁移
访谈里有一组具体的数字:卡的配置变化。罗福莉提到,Chat 时代研究、Pre-train、Post-train 的用卡比例可能是 3:5:1;到了 Agent 时代,更合理的比例会变成 3:1:1,顶尖团队的 Pre-train 与 Post-train 甚至会接近 1:1。
| 时代 | 研究 | Pre-train | Post-train |
|---|---|---|---|
| Chat 时代 | 3 | 5 | 1 |
| Agent 时代 | 3 | 1 | 1 |
这不等于 Pre-train 失去价值,而是边际收益和系统瓶颈换了位置。旧范式里,更强的基座模型能直接带来更强体验,所以 Pre-train 吃掉绝大多数卡是合理的。新范式里,如果模型不能稳定地跑长程任务、理解复杂上下文、在多步执行里自我修正,它的能力就很难真正转成生产力,Post-train 的地位自然会上来。
36kr 还补充了一个观察:Agent 一旦进入研究流程,一个 idea 从写代码到设计评估,可能从一两周压缩到一两个小时。速度上来了,卡不一定更宽松,反而可能更紧,因为并行验证的量会跟着上去。
组织也得跟着换
技术路线一变,组织通常也得跟着改。罗福莉的判断是,做后训练需要更多背景的人一起上手,让预训练的人参与后训练,会带来新的视角。放到 Agent 场景里,这很自然:模型行为、上下文编排、工具调用、RL 反馈、评估标准和系统基础设施,本来就缠在一起,只让某个单一小组包办,往往容易做出局部最优。
访谈后半段提到 MiMo 团队时,她给出另一层判断:环境比经验更重要。MiMo 团队约 100 人,真正投入一代模型迭代的核心不过二三十到三四十人。内部不设小组、不设职级,甚至没有明确的 deadline。她不太迷信既有"大模型经验",更看重人在好环境里能否快速学会新范式里的工作方式——她甚至更青睐大二大三的本科生,认为他们在新范式面前"思想还没有被禁锢"。平权组织、较少职级分层、快速调试和联合排障,这些放在一起看,更像一条组织信号:范式切换期,适应速度会比静态履历更值钱。
OpenClaw 暴露了什么
如果把 OpenClaw 只当成一个具体产品,这场访谈就会被读窄。放回原语境里,它更像一个压力测试器。
OpenClaw 是一个开源的本地优先个人 AI 助手平台,以 TypeScript 为核心,采用 MIT 许可证。截至 2026 年 4 月,GitHub Stars 已超过 36 万,Fork 数超过 7.5 万。它支持 25 种以上的消息渠道——WhatsApp、Telegram、微信、飞书、Discord、Slack、iMessage、Signal 等——通过本地 Gateway 控制平面统一管理会话、渠道、工具和事件。生态方面,ClawHub 技能市场提供了 5400 多个 Skills,社区迭代速度极快。
罗福莉看重的不是最表面的交互层,而是那层厚重的中间层:记忆系统、消息通道、心跳任务、定时任务、Workflow、Multi-Agent 逻辑,以及如何把模型自己拿不到的环境信息补进去。这些组件合在一起,决定了模型能力能在多大程度上被转化为实际的任务完成度。
开源在这里就不只是"能不能白用",而是"能不能改框架本身"。黑盒产品最多让人感受到效果,开源框架则允许用户直接改 memory、改 workflow、改 Multi-Agent 逻辑,甚至借助更强模型回头重写框架。36kr 还记录过一个观察:当 Opus 这类顶尖模型先把框架改好之后,再切回 Sonnet、国内模型,甚至 MiMo 自己的模型,体验也会被明显拉升。框架层不只是在放大顶尖模型,也可能在抬高中层模型的有效上限。
罗福莉不认同"模型变强后 Agent 框架就不重要了"的说法。原因很现实:成本。不可能所有场景都用最顶尖模型,Agent 和模型会同时进化,同一水平的模型变得越来越小。她甚至判断,现在激活 10B 的模型,过一年可能做到 Opus 级别的水平,而且成本极低。框架层的精巧编排,不会因为模型变强而消失。
视频大纲里专门留了"群体智能提升 Agent 框架"这一章。按现有材料,更稳妥的理解是:群体智能现在更像框架演化的加速器。很多人同时用、同时改,几小时就能迭代一轮,这会显著提升速度,也可能改善部分场景的成本效率。但至少从这场访谈和 36kr 的整理看,还没有足够证据证明 Multi-Agent 已经系统性抬高了任务完成率上限。
1T 之后,真正的问题是什么
访谈里还有一句:
我们不会在 1T 水平上走太久。
这句话经常被转述,也容易被转述错。结合视频简介和 36kr 的整理,更合理的理解是:1T 参数级基座模型,是 Agent 时代接近顶尖水平的一张入场券。它说的不是"1T tokens 就够了",也不是"做到 1T 就稳了"。
后续公开资料能提供具体的侧面印证。根据 VentureBeat 2026 年 4 月的报道和 HuggingFace 模型卡,小米在 2026 年 4 月 27 日同时发布了两款模型:
| 规格 | MiMo-V2.5 | MiMo-V2.5-Pro |
|---|---|---|
| 总参数 | 310B | 1.02T |
| 活跃参数 | 15B | 42B |
| 架构 | MoE(256 路由专家,每 Token 激活 8 个) | MoE(384 路由专家,每 Token 激活 8 个) |
| 最大上下文 | 1M Tokens | 1M Tokens |
| 模态 | 文本 + 图像 + 视频 + 音频 | 文本 |
| 许可证 | MIT | MIT |
MiMo-V2.5-Pro 在 ClawEval(Agent 任务基准)上以 63.8% 的成功率领先开源领域,每条轨迹仅消耗约 70K Tokens,比 Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4 少 40% 到 60%。项目负责人的署名正是 Fuli Luo(罗福莉),与访谈的主体一致。
这不能反向证明访谈原话,但至少说明,罗福莉在访谈里强调的方向——后训练重点放在 Agent RL、1T 参数级模型作为入场券——后来确实落到了产品发布里。
后面的难题更现实:到底继续 Scaling 参数量,还是 Scaling 其他维度;用什么芯片;怎样把长上下文、低成本和高速度同时保住。Agent 任务不是多塞点上下文就结束,而是要在很长的执行链条里保持一致性、理解深层要求、恢复失败状态、控制成本。如果 1M 上下文很贵、很慢、很难用,那它就只是纸面参数。
为什么工作系统会先被改写
“AGI 两年内到来"这个判断容易吸引注意,但从工程和产业角度看,更该盯住的是另一层:工作系统会先变,生活方式未必先变。36kr 的整理里提到,罗福莉认为 AGI 进程大概已经走到 20% 左右,今年至少能走到 60% 到 70%;先被改写的是工作,因为工作直接对应生产力价值,生活场景的改造还更依赖机器人、硬件和物理世界能力。
这会带来两个很具体的变化。第一,人和 Agent 的交互层级会上移。人不再主要负责指出"这行代码错了”,而是更多负责补限制条件、澄清需求、给出业务逻辑、判断优先级。第二,很多高价值信息并不在预训练数据里。企业内部流程、团队经验、业务规则、技能清单和长期上下文,往往没法靠互联网语料自动补齐,Skills、Memory、长上下文和 Agent 框架因此一起变得更重要。
每天在否认昨天的自己
访谈后半段有一句话,比 AGI 时间表更能代表 2026 年 AI 行业的真实气氛:
每天在否认昨天的自己。
罗福莉提到,她原本以为自己的工作已经足够有创造力、足够不会被 Skill 化、Workflow 化,但后来发现 AI 竟然也能逼近这类工作,甚至可能进一步参与模型训练本身。这种冲击比"某个模型跑分更高"深得多,因为它直接碰到研究者对自身不可替代性的判断。
“环境比经验更重要"和"每天在否认昨天的自己"放在同一场访谈里看,意思就很清楚了:前一句在说组织怎么应对范式切换,后一句在说个人怎么承受范式切换。2026 年 AI 行业的一种真实气氛,就是昨天有效的方法今天可能就不够了,而新的方法还在快速形成。
这场访谈的 3 个边界
这场访谈的信息密度很高,但有 3 个边界最好守住:
- “两年内应该能实现"是高强度一线研究者的判断,不是行业共识。更稳妥的读法,是把它当作对技术加速度的主观估计,而不是日历式预言。
- Multi-Agent 值得跟踪,但目前更明确的价值仍然是加快迭代、改善部分场景成本效率,而不是已经被证实可以系统性抬高任务成功率上限。
- 开源框架很重要,但它不能替代评估、资源和工程能力。OpenClaw 让很多能力变得可见、可改、可迭代,可如果没有好的评估体系、足够快的基础设施、明确的约束和足够强的基座模型,开源本身也不会自动生成结果。
常见问题
问:Post-train 和 Fine-tuning 是一回事吗?
不完全是。Fine-tuning 是 Post-train 的一个环节,但 Post-train 的范围更大,还包括 RL Scaling、对齐、蒸馏、长上下文适配和 Agent 行为训练。访谈里强调的 Post-train,更偏向"用 RL 和复杂环境训练模型完成长程任务”,而不是传统的指令微调。MiMo-V2.5 的 Post-train 路径(SFT + 大规模 Agent RL + MOPD)就是一个具体例子。
问:RL Scaling 和 RLHF 有什么区别?
RLHF(基于人类反馈的强化学习)主要关注让模型的输出符合人类偏好,属于对齐范畴。RL Scaling 在 Agent 时代的含义更广:用更大的算力在更复杂的环境里训练模型,让它学会调用工具、做长程规划、从错误中恢复。两者的目标不同——前者是"回答得好”,后者是"任务完成得好"。
问:为什么说 OpenClaw 不只是一个聊天前端?
OpenClaw 不仅仅是一个连接用户和大模型的界面。它有一整套中间层:Gateway 控制平面管理会话、渠道和工具;Memory 系统维护长期上下文;Cron 和 Webhook 处理自动化任务;Multi-Agent 路由把不同渠道的消息分发到隔离的 Agent;Skills 系统通过 ClawHub 管理能力扩展。这些组件合在一起,决定了模型能力能在多大程度上被转化为实际的任务完成度。
问:1T 指的是 1T 参数还是 1T Tokens?
在这场访谈的语境里,1T 指的是参数量(Parameters)。1T 参数级模型如 MiMo-V2.5-Pro(1.02T 参数,42B 活跃参数的 MoE 架构)代表的是模型规模的一个关键门槛。1T Tokens 则是训练数据量的概念,两者不可混淆。MiMo-V2.5 系列的训练数据规模约为 48T Tokens。
问:Pre-train 真的不重要了吗?
不是。访谈说的是"代差已经接近",不是"Pre-train 不重要"。基座模型仍然是地基,只是在 Agent 时代,光有好的基座已经不够了。新的差距会更多出现在后训练、RL Scaling 和框架适配上。
如果把它落到团队决策
把这场访谈落到团队决策上,可以先做 4 件事:
- 不要只测聊天能力,要测长程任务完成度。单轮问答和静态 Benchmark 很难说明 Agent 在真实任务里的稳定性、错误恢复能力、上下文利用率和工具调用质量。
- 把 Harness、Memory 和评估系统当成基础设施,而不是外挂。模型不会直接裸奔进生产环境,框架怎么喂上下文、怎么存状态、怎么做约束、怎么评估失败,决定了体验上限。
- 重新看预算,不要把 Post-train 当成尾声。新的预算表不是把卡从 A 栏挪到 B 栏那么简单,而是要重新判断什么地方值得烧卡。
- 让团队更跨界,而不是更分层。Pre-train、Post-train、Infra、产品和评估在 Agent 时代越来越难被彻底切开,让不同背景的人更早进入同一个问题空间,通常更有效。
回看视频时,先看这几个节点
原视频超过 3.5 小时,不必线性看完。如果只补看一小时,先从下面这些地方跳:
- 00:01:31,OpenClaw 引发巨变:先看框架层到底改变了什么。
- 00:23:32,群体智能提升 Agent 框架:看群体协作的价值边界在哪里。
- 01:01:00,Agent 的自进化与自迭代:看 AI 为什么会让研究者产生危机感。
- 01:44:39,1T 模型是入场券:看 1T 到底意味着什么。
- 03:05:09,当下共识与竞争:看为什么说 Anthropic 路径已经成了行业共识。
- 03:19:00,环境比经验更重要:看个人能力和团队环境该怎么重估。
带着下面 5 个问题回看会更有效:
- 为什么说 Agent 时代的竞争主线,从 Pre-train 转向了 Post-train?
- 3:5:1 到 3:1:1 的变化,反映的到底是资源迁移,还是系统瓶颈迁移?
- OpenClaw 这类框架放大的,是模型能力,还是模型与环境之间的连接方式?
- 为什么 1T 只是入场券,而不是胜负手?
- 如果工作系统先被改写,人类在 Agent 流程里最稀缺的价值会转移到哪里?
如果你还想继续往下读
- 想继续看 Agent 框架和上下文层,可以读 Context Mode:解决 AI 编程 Agent 上下文危机的 MCP 服务器。
- 想看 OpenClaw 在工程实践里如何落地,可以读 如何做一个生产级 SKILL:MiniMax-M2.7 给 OpenClaw 写 SKILL 的保姆教程。
- 想补 OpenClaw 平台本身的架构解析,可以读 OpenClaw:本地优先的个人 AI 助手平台。
- 想补另一条 Agent 框架路线,可以读 GenericAgent:仅 3K 行代码的自我进化 Agent 框架——6 倍 Token 节省、9 个原子工具、Skill 树自增长。
参考材料
- 张小珺商业访谈录:对罗福莉的 3.5 小时访谈(B 站) / YouTube / Spotify
- 36kr:罗福莉最大胆的一次判断,AGI 两年内到来,工作模式先被颠覆
- VentureBeat:Open source Xiaomi MiMo-V2.5 and V2.5-Pro are among the most efficient at agentic ‘claw’ tasks
- OpenClaw GitHub 仓库
- MiMo-V2.5 HuggingFace 模型卡
这场访谈的核心信号很明确:大模型的竞争逻辑已经换轨,下一轮胜负不只看谁的基座模型更强,而看谁能把模型、框架、后训练、评估与组织一起推进到 Agent 时代。