独家对话罗福莉：AI 范式已然巨变，从 Pre-train 时代全面转向 Post-train 时代

2026-04-26 约 6173 字预计阅读 16 分钟

罗福莉是小米大模型团队负责人，此前曾供职阿里达摩院和 DeepSeek，在 NLP 和大模型领域有多年研究经历。2026 年 4 月，她与科技主笔张小珺进行了一场 3.5 小时深度对话，话题覆盖大模型竞争格局、Agent 时代的核心技术栈、组织变革和个人认知冲击。B 站发布了完整视频，36kr 同步发布了整理稿。

阅读目标：用一条主线把「Pre-train 转 Post-train」讲透——为什么代差被抹平、RL Scaling 到底在 scale 什么、算力比例怎么重配、组织为何要跨界，并用 OpenClaw、MiMo-V2.5 两个可核实的例子落地。本文较长，下面各级标题即目录（TOC），可按需跳读。

竞争为什么从 Pre-train 转向 Post-train

访谈里有一句关键判断：

Anthropic 的路径是正确的，这是当下共识。

这句话说的不是站队，是认知变了。Claude 的优势是模型、框架、后训练和上下文工程（Context Engineering）一起作用后的结果，不能简单归因于"模型更强"。上下文工程不同于 Prompt Engineering——后者关注如何写好提示词，前者关注的是整个上下文组装管线，包括检索到的文档、对话历史、工具输出、系统指令和长期记忆如何高效地送入模型的上下文窗口。

36kr 的整理里提到，过去有人把这些 Context 工程看成结构限制或成本妥协；现在回头看，它更像是在为 Agent 场景里的整体任务完成度服务。

访谈中还有另一句配套的话：

现在大家在 Pre-train 上的代差是基本没有的，或者说非常接近。

36kr 把这层意思进一步展开成"中美模型代差只有 2 到 3 个月"。不管你更接受哪种说法，结论都差不多：只把基座模型继续做大，已经很难单独构成决定性优势。Chat 时代主要比谁更聪明，Agent 时代开始比谁更能把任务做完，后者更依赖 Post-train、RL Scaling、框架适配、长上下文管理和错误恢复。

罗福莉对后训练重要性的表述也很直接：

现在至少跟 23 年要去追平 Pre-train 的差距一样，大家很 all in，要去做好 Agent 的 Post-train。更具体说，是在 Agent 上怎么做好 RL 的 scaling。

RL Scaling：从"回答得好"到"任务完成得好"

RL Scaling（Reinforcement Learning Scaling，强化学习扩展）在这里指的不再是传统的 RLHF 对齐。Chat 时代的 RL 主要让模型学会"回答得更好"——输出符合人类偏好、减少幻觉、保持安全。Agent 时代的 RL Scaling 要解决的问题完全不同：用更大的算力、更多样化的奖励信号和更复杂的环境来训练模型完成多步任务。

Agent 场景下的 RL Scaling 要让模型学会调用工具、做长程规划、从错误中恢复、在多步执行中保持一致性。Scaling 的对象变了——不再只是模型参数量，而是训练环境的复杂度和反馈信号的密度。这也是为什么后训练不再是收尾环节，而变成了决定 Agent 是否可用的主环节。

把两代 RL 的差别写成一张对照，能看得更清楚：

Chat 时代 RL(RLHF)    →  优化“回答得好”：人类偏好 / 降幻觉 / 安全对齐
Agent 时代 RL Scaling →  优化“任务完成得好”：工具调用 / 长程规划 / 错误恢复 / 多步一致
     Scaling 对象      :  环境复杂度 × 反馈信号密度（不再只是参数量）
     系统重心          :  “Rollout 推理引擎为核心” → “Agent 为核心”（带工具/记忆/状态）
MiMo 的 Post-train     ≈  SFT → 大规模 Agent RL → MOPD(多教师在线策略蒸馏)

这种转变在 MiMo-V2.5 的技术报告里也有体现。其 Post-train 路径是 SFT + 大规模 Agent RL + Multi-Teacher On-Policy Distillation（MOPD，多教师在线策略蒸馏），重点放在 Agent 场景下的强化学习，而不是传统的指令微调。

任务变成了长程、多步、可失败、可恢复的执行过程。系统也不再只有一个 Rollout 推理引擎，而是一个带工具、带记忆、带状态的 Agent 系统。团队随之面对另一类问题：把模型放进真实环境后，怎样让它持续做对。

访谈原话里有一句用来概括这种变化：

系统从"以 Rollout 推理引擎为核心"，转变为"以 Agent 为核心"的一个更复杂系统。

卡怎么分，反映的是瓶颈怎么迁移

访谈里有一组具体的数字：卡的配置变化。罗福莉提到，Chat 时代研究、Pre-train、Post-train 的用卡比例可能是 3:5:1；到了 Agent 时代，更合理的比例会变成 3:1:1，顶尖团队的 Pre-train 与 Post-train 甚至会接近 1:1。

时代	研究	Pre-train	Post-train
Chat 时代	3	5	1
Agent 时代	3	1	1

这不等于 Pre-train 失去价值，是瓶颈换了位置。旧范式里，更强的基座模型能直接带来更强体验，所以 Pre-train 吃掉绝大多数卡是合理的。新范式里，如果模型不能稳定地跑长程任务、理解复杂上下文、在多步执行里自我修正，它的能力就很难真正转成生产力，Post-train 的地位自然会上来。

36kr 还补充了一个观察：Agent 一旦进入研究流程，一个 idea 从写代码到设计评估，可能从一两周压缩到一两个小时。速度上来了，卡不一定更宽松，反而可能更紧，因为并行验证的量会跟着上去。

组织也得跟着换

技术路线一变，组织通常也得跟着改。罗福莉的判断是，做后训练需要更多背景的人一起上手，让预训练的人参与后训练，会带来新的视角。放到 Agent 场景里，这很自然：模型行为、上下文编排、工具调用、RL 反馈、评估标准和系统基础设施，本来就缠在一起，只让某个单一小组包办，往往容易做出局部最优。

访谈后半段提到 MiMo 团队时，她给出另一层判断：环境比经验更重要。MiMo 团队约 100 人，真正投入一代模型迭代的核心不过二三十到三四十人。内部不设小组、不设职级，甚至没有明确的 deadline。她不太迷信既有"大模型经验"，更看重人在好环境里能否快速学会新范式里的工作方式——她甚至更青睐大二大三的本科生，认为他们在新范式面前"思想还没有被禁锢"。平权组织、较少职级分层、快速调试和联合排障——范式切换期，适应速度比静态履历更值钱。

OpenClaw 暴露了什么

如果把 OpenClaw 只当成一个具体产品，这场访谈就会被读窄。放在访谈的语境里看，它更像一个压力测试器。

OpenClaw 是一个开源的本地优先个人 AI 助手平台，以 TypeScript 为核心。截至 2026 年 4 月，GitHub Stars 已超过 36 万，Fork 数超过 7.5 万（本文写作时实测约 38 万 Stars / 8 万 Fork，仍在快速增长）。它支持 25 种以上的消息渠道——WhatsApp、Telegram、微信、飞书、Discord、Slack、iMessage、Signal 等——通过本地 Gateway 控制平面统一管理会话、渠道、工具和事件。生态方面，ClawHub 技能市场提供了 5400 多个 Skills，社区迭代速度极快。

罗福莉看重的不是最表面的交互层，是那层厚重的中间层：记忆系统、消息通道、心跳任务、定时任务、Workflow、Multi-Agent 逻辑，以及如何把模型自己拿不到的环境信息补进去。这些组件合在一起，决定了模型能力能在多大程度上被转化为实际的任务完成度。

开源在这里就不只是"能不能白用"，是"能不能改框架本身"。黑盒产品最多让人感受到效果，开源框架则允许用户直接改 memory、改 workflow、改 Multi-Agent 逻辑，甚至借助更强模型回头重写框架。36kr 还记录过一个观察：当 Opus 这类顶尖模型先把框架改好之后，再切回 Sonnet、国内模型，甚至 MiMo 自己的模型，体验也会被明显拉升。框架层不只是在放大顶尖模型，也可能在抬高中层模型的有效上限。

罗福莉不认同"模型变强后 Agent 框架就不重要了"的说法。原因很现实：成本。不可能所有场景都用最顶尖模型，Agent 和模型会同时进化，同一水平的模型变得越来越小。她甚至判断，现在激活 10B 的模型，过一年可能做到 Opus 级别的水平，而且成本极低。框架层的精巧编排，不会因为模型变强而消失。

视频大纲里专门留了"群体智能提升 Agent 框架"这一章。按现有材料看，群体智能现在更像框架演化的加速器。很多人同时用、同时改，几小时就能迭代一轮，这会显著提升速度，也可能改善部分场景的成本效率。但至少从这场访谈和 36kr 的整理看，还没有足够证据证明 Multi-Agent 已经系统性抬高了任务完成率上限。

1T 之后，真正的问题是什么

访谈里还有一句：

我们不会在 1T 水平上走太久。

这句话经常被转述，也容易被转述错。结合视频简介和 36kr 的整理，1T 参数级基座模型是 Agent 时代接近顶尖水平的一张入场券。它说的不是"1T tokens 就够了"，也不是"做到 1T 就稳了"。

后续公开资料能提供具体的侧面印证。根据 VentureBeat 2026 年 4 月的报道和 HuggingFace 模型卡，小米在 2026 年 4 月 27 日同时发布了两款模型：

规格	MiMo-V2.5	MiMo-V2.5-Pro
总参数	310B	1.02T
活跃参数	15B	42B
架构	MoE（256 路由专家，每 Token 激活 8 个）	MoE（384 路由专家，每 Token 激活 8 个）
最大上下文	1M Tokens	1M Tokens
模态	文本 + 图像 + 视频 + 音频	文本
许可证	MIT	MIT

MiMo-V2.5-Pro 在 ClawEval（Agent 任务基准）上以 63.8% 的成功率领先开源领域，每条轨迹仅消耗约 70K Tokens，比 Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4 少 40% 到 60%。项目负责人的署名正是 Fuli Luo（罗福莉），与访谈的主体一致。

这不能反向证明访谈原话，但罗福莉在访谈里强调的方向——后训练重点放在 Agent RL、1T 参数级模型作为入场券——后来确实落到了产品发布里。

后面的难题更现实：到底继续 Scaling 参数量，还是 Scaling 其他维度；用什么芯片；怎样把长上下文、低成本和高速度同时保住。Agent 任务不是多塞点上下文就结束，而是要在很长的执行链条里保持一致性、理解深层要求、恢复失败状态、控制成本。如果 1M 上下文很贵、很慢、很难用，那它就只是纸面参数。

为什么工作系统会先被改写

“AGI 两年内到来"这个判断容易吸引注意，但从工程和产业角度看，更该盯住的是另一层：工作系统会先变，生活方式未必先变。36kr 的整理里提到，罗福莉认为 AGI 进程大概已经走到 20% 左右，今年至少能走到 60% 到 70%；先被改写的是工作，因为工作直接对应生产力价值，生活场景的改造还更依赖机器人、硬件和物理世界能力。

这会带来两个很具体的变化。第一，人和 Agent 的交互层级会上移。人不再主要负责指出"这行代码错了”，而是更多负责补限制条件、澄清需求、给出业务逻辑、判断优先级。第二，很多高价值信息并不在预训练数据里。企业内部流程、团队经验、业务规则、技能清单和长期上下文，往往没法靠互联网语料自动补齐，Skills、Memory、长上下文和 Agent 框架因此一起变得更重要。

每天在否认昨天的自己

访谈后半段有一句话，比 AGI 时间表更能代表 2026 年 AI 行业的真实气氛：

每天在否认昨天的自己。

罗福莉提到，她原本以为自己的工作已经足够有创造力、足够不会被 Skill 化、Workflow 化，但后来发现 AI 竟然也能逼近这类工作，甚至可能进一步参与模型训练本身。这种冲击比"某个模型跑分更高"深得多，因为它直接碰到研究者对自身不可替代性的判断。

“环境比经验更重要"和"每天在否认昨天的自己"放在同一场访谈里看，意思就很清楚了：前一句在说组织怎么应对范式切换，后一句在说个人怎么承受范式切换。2026 年 AI 行业的一种真实气氛，就是昨天有效的方法今天可能就不够了，新的方法还在快速形成。

如果拿这场访谈来指导团队决策

可以先做 4 件事：

不要只测聊天能力，要测长程任务完成度。单轮问答和静态 Benchmark 很难说明 Agent 在真实任务里的稳定性、错误恢复能力、上下文利用率和工具调用质量。
把 Harness、Memory 和评估系统当成基础设施，而不是外挂。模型不会直接裸奔进生产环境，框架怎么喂上下文、怎么存状态、怎么做约束、怎么评估失败，决定了体验上限。
重新看预算，不要把 Post-train 当成尾声。新的预算表要把卡从 A 栏挪到 B 栏，更要重新判断什么地方值得烧卡。
让团队更跨界，而不是更分层。Pre-train、Post-train、Infra、产品和评估在 Agent 时代越来越难被彻底切开，让不同背景的人更早进入同一个问题空间，通常更有效。

常见误读

「Pre-train 不重要了」——不对。代差被抹平不等于基座失去价值，1T 级基座仍是 Agent 时代的入场券；变的是边际算力该往哪投，而不是 Pre-train 归零。
「模型变强，Agent 框架就没用了」——罗福莉明确不认同。理由是成本：不可能所有场景都用最顶尖模型，框架层的编排会持续抬高中层模型的有效上限，Agent 与模型是同时进化。
「Multi-Agent／群体智能已经抬高了任务完成率上限」——证据不足。就这场访谈与 36kr 整理看，群体智能更像框架演化的加速器（迭代更快），而非完成率天花板的突破。

自测清单

读完可以对着问自己几个问题：

说得清「Chat 时代 RL」和「Agent 时代 RL Scaling」优化目标的区别吗？
解释得了用卡比例从 3:5:1 变成 3:1:1 背后「瓶颈迁移」的逻辑吗？
讲得出为什么开源框架（改 memory / workflow / multi-agent）比黑盒产品更被看重？
说得出「1T 不会走太久」真正想表达的是什么（不是 1T 就够）？
列得出这场访谈能直接指导团队决策的那 4 件事？

参考材料

想验证本文的可核实部分，下一步可以直接点开下面的一手来源——尤其是 VentureBeat 的 MiMo-V2.5 评测与 OpenClaw 仓库，数字都能当场对上：

大模型的竞争逻辑已经换轨，下一轮胜负不只看谁的基座模型更强，而看谁能把模型、框架、后训练、评估与组织一起推进到 Agent 时代。

更新于 2026-07-21

AI, 大模型, Post-Train, Agent, OpenClaw, 罗福莉, 小米, DeepSeek, RL Scaling

返回 | 主页

下一步

如果这篇内容对你有帮助，继续往更完整的路径里走。

你可以从专题页继续系统阅读，也可以通过联系页反馈想跟进的主题、工具和合作方向。

AI Agent 专题 Coding Agent 专题开源 AI 工具联系

目录