姚顺宇 4 小时访谈精读:AI 为什么从天才竞赛变成系统工程竞赛
posts posts 2026-05-11T23:50:00+08:00基于近 4 小时访谈与视频字幕,文章梳理姚顺宇对大模型竞争的几条关键判断:Pre-train 还没到头,蒸馏正在分叉,coding 仍是最现实的 agent 训练场,而真正决定上限的仍是问题定义、评估框架、组织能力和系统工程。视频精读AI, 大模型训练, Anthropic, Google DeepMind, Claude, Gemini, 模型Scaling, 系统工程, 技术预测, 姚顺宇这场近 4 小时的访谈里,姚顺宇把几个行业里最容易被说虚的话题讲得很实:Pre-train 短期还没见顶,蒸馏正在分成两条路,coding 仍是最现实的 agent 训练场,而 Anthropic 与 Google DeepMind 的差别,最后都要落到组织和系统工程上。
文章依据原视频 AI 字幕整理,只对明显的 ASR 错词做保守纠正。文中讨论的是从 Anthropic 转去 Google DeepMind 的姚顺宇,不是另一位同名的姚顺雨;凡是他没有公开展开的企业机密,这里都不外推。
这篇文章想抓住的,不是几句适合传播的金句,而是他反复落回去的几条判断:AI 为什么不神秘却依旧很难,Pre-train 的短期推进到底意味着什么,Claude 和 Gemini 的差别为什么越来越像工程偏好,以及“英雄主义已过去”究竟说的是模型训练的哪一层现实。
把这场访谈当成内部爆料来看,很容易读偏;更合适的读法,是把它当成一线研究者对问题定义、评估框架和组织方式的连续说明。本文只用视频页可核对的信息和字幕内容;字幕不是逐字稿,Claude、Gemini、Anthropic、Scaling law 这类词会有识别误差,拿不准的地方宁可收住。
从物理训练出的系统视角
姚顺宇看 AI 的角度,和典型的模型工程师不太一样。清华本科、斯坦福博士,原本做理论物理,研究过非厄米系统、量子物理和高能物理。博士毕业后离开做了 9 年的物理,转去一个完全陌生的行业,这一步在他自己口中也是人生里最大的跨步。
这个背景带来的,不是什么抽象气质,而是一套处理复杂问题的习惯:先定边界条件,再分清哪些变量真的相关,最后才轮到局部技巧。于是他盯的往往不是谁想出了什么妙招,而是一个复杂系统怎样稳定工作。
谈到语言模型的“黑盒”时,这套思路特别明显。他并不把 AI 当成一个特殊到无从下手的例外。在他看来,物理本身也不是一套从最微观动力学直接推到宏观现象的透明链条;很多时候,我们掌握的是某个尺度上的有效描述,而不是终极机制。AI 也是同样的处境:我们离“某个具体行为由哪些神经元激活造成”还很远,但这不妨碍经验规律先被总结出来,系统先被做起来。
他拿热力学早期作类比,也是这个意思。当时人们并不真正理解热的微观理论,经验定律却已经足够推动工业系统往前走。今天的 AI 也有相似之处:理论和实验还没有完全分家,不用等到微观机制全部讲清楚,系统也会继续迭代。这个比喻真正有用的地方,不是“AI 像热力学”这句漂亮话,而是它提醒你:理解有限,并不妨碍研究继续推进,前提是经验规律稳定、实验回路扎实。
他对概念边界也很警惕。主持人问“智能涌现”时,他几乎不愿把这个词当成科学问题来谈。原因不是否认模型能力在变强,而是这个说法本身太松。比起争论“涌现”是不是真的,他更在意另一种问法:有没有出现某种技术改变,使训练能够更稳定、更成体系地提升多种能力。这个问法更硬,因为它落在能做实验、能验证、能拆分的问题上。
照他的说法,今天关于 AI 的理解大致可以分成三层。最底下一层是微观机制:我们离完整解释还很远。中间一层是经验规律:像 scaling law 这样的关系,虽然未必已经得到充分解释,但足够指导实验和工程决策。最上面一层是工程复现:只要经验规律稳定、实验链路清楚,系统就能继续推进。把这三层搅在一起,很多争论就会失真。
AI 已经变成一个系统问题
访谈里最容易被截图传播的一句,是“AI 这个事,本来也不太需要脑子”。完整听下去,他说的并不是反智,而是另一件事:这行最重要的品质是靠谱、做事细、对自己负责。
他的判断很直接。Transformer、注意力机制、Scaling law(规模法则)这些核心思想并不神秘,真正难的是把数据、算力、训练流程、评估、后训练、安全约束、长上下文、工具调用和基础设施这一整条链路理顺。任何一环松散,最后都会拖累模型。
他接着把问题说得更实在。大家没那么担心 AI 能不能做到,真正麻烦的是事情有没有被良好定义。焦点因此从能力存不存在,转到任务定义、数据构造、反馈信号和评估方法是不是可靠。模型继续变强,瓶颈却越来越常出在问题没说清,而不是模型不会做。
这个系统最难的,其实有两层。一层是方法:哪些预设成立,哪些因素相关,哪些指标靠得住。另一层是人:研究员能不能抵抗把自己那段指标做漂亮的冲动,愿不愿意为全局负责。这也是他反复强调评价框架容易被 hack 的背景。
所以他才会说“AI 本质上是简单的”。这里的“简单”不是门槛低,更不是原理浅,而是这类问题能实验。很多困难学科缺的恰恰是可标定、可反复验证的实验条件;AI 至少到现在没有这个本质障碍,很多想法不是不能试,而是来不及全都试一遍。
他在访谈后段还给过一个很激进的预测:未来 6 到 12 个月,AI 甚至可能开始自己做实验,加快研究过程。这更像一线研究者对下一阶段的推演,不是已经发生的事实。要点也不在时间表本身,而在于下一步加速不一定只来自更大的模型,还可能来自研究链条被模型反过来加速。
这样再看“个人英雄主义时代已经过去了”这句话,落点就很清楚了:决定胜负的,不再是谁最像神话人物,而是谁能把复杂系统长期跑稳。
比答案更重要的是诊断框架:bug、假设与被 hack 的指标
比起答案,他更在乎诊断方法。结果和预期不一致时,不该急着宣布某条路线“到头了”,而该先问:到底是哪一层出了问题。
字幕里,“撞墙”至少有三种完全不同的来源。第一种,是真的接近了某种客观极限;第二种,是你对系统的科学假设没设对;第三种,更常见,也更不体面,就是系统里其实有 bug,只是你还没发现。他举的例子非常具体:训练不同尺寸模型时,token 配比、训练数据量、数据从哪里选,这些看上去像参数调节的地方,实际上都包含科学假设;如果这些假设设错了,你看到的不是“规律失效”,而是实验设计本身出了问题。再往下,还有更直接的实现错误。业界很多“撞到墙”的时刻,最后回头看,根本不是自然规律在发话,而是系统还没被理顺。
研究水平真正拉开差距的地方,也不在“还有没有空间”这种口号上,而在系统拆解异常的能力上。当一个行为和预测不一致时,团队能不能有条理地排除各种可能性,设计小实验去验证:你以为重要的因素,到底是不是真因素。好的研究不是一头扎进大训练里赌结果,而是能在大系统和小实验之间来回切换,把猜测压缩成可以验证的问题。
而且就算某个算法看起来更好,也不等于研究已经做对了。姚顺宇在后面讲得更尖锐:每一个评价框架都很容易被 hack。你总能找到办法让某个指标看起来更好看,比如用了不一样的数据、花了更多 training 的 flop、采样时又多花了更多算力,或者只汇报最有利的局部指标。一个负责任的研究员还得继续问:它在更大尺度下稳不稳?提升到底来自方法本身,还是来自额外资源?真正的限制因素是训练、采样,还是落到生产环境后才出现的瓶颈?
落到研究上,无非两件事。第一,模型研究不是单纯找“更高分”的点子,而是建立一套不容易自欺的诊断体系。第二,系统工程不是研究之外的脏活;在今天的大模型训练里,它本身就是研究方法的一部分。谁能更稳定地识别 bug、隔离变量、约束指标、抵抗局部最优,谁就更接近真正有效的进展。
Pre-train 与蒸馏:短期没撞墙,路线已经分叉
他不认同“Pre-train 已经到头”的流行说法,但也没把话说满。按他的经验,眼下还看不到明显天花板,接下来几个月大概率还会有推进;再往后,谁都别装作能算得太准。这种克制反而更可信,因为它符合今天模型研发的真实节奏:变化太快,长周期判断很容易失真。
他解释“撞墙”也不是哲学口吻,而是排障口吻。曲线一旦不涨,外界习惯先讨论 scaling law 是否失效;他的第一反应却是先查假设、查数据、查实现。很多所谓“到头了”,最后要么是实验设定有偏差,要么干脆就是系统里埋着 bug。对一线团队来说,修掉一个 bug,常常比追一个漂亮新词更能带来实打实的进展。
谈到蒸馏,他区分得很明确。外界常把一切“借强模型帮弱模型学习”的做法混成一类,但他其实在分两条路:一条是直接抄答案,一条是借外部模型改造自己的学习流程。
| 路线 | 做法 | 他怎么看 | 真正难点 |
|---|---|---|---|
| 硬蒸 | 直接拿强模型生成的大量 token 继续训练自己的模型 | 商业上不道德,技术上也偷懒,因为训练目标几乎由 teacher 代为定义 | 只能复现表面分布,难以形成自己的任务拆解和反馈逻辑 |
| “聪明的蒸” | 把强模型放进数据生成、筛选、排序、评价链条里,当辅助器或裁判用 | 更像真正的科学问题,不是抄答案,而是重写学习过程 | 你得先知道模型该学什么、反馈信号从哪来、收益怎么验 |
硬蒸的好处是快。teacher 吐出什么,你就学什么,局部 benchmark 甚至可能立刻变好看。但它的问题也同样直接:你学到的是“怎样像它那样回答”,不是“这个任务该怎么拆、这条反馈链该怎么搭、哪些能力值得优先优化”。训练目标一旦被外部模型替你定义,你自己的研究判断就会变薄。
更值得看的,是第二条路。这里外部模型不是最终答案,而是训练流水线里的一个部件:它可以帮你生成候选数据,也可以筛样本、排答案、给偏好信号。最后进模型的,仍然是你自己定义过的数据分布、评价标准和优化目标。难点也正在这里。你不只要会借力,还得知道什么时候借、借来做什么、又怎样防止外部模型的偏差被原样灌回系统里。
如果用今天更熟悉的术语对照,硬蒸更接近直接拿 teacher 输出做一轮 SFT;“聪明的蒸”则更容易延伸到筛选后的 SFT、偏好对、奖励模型、DPO 或 RLHF 这一整条后训练链。这里借这些术语只是为了方便定位,不是他在访谈里的原话。真正要分清的,始终是训练目标到底由谁定义:是外部模型替你定义,还是你借它来强化自己的反馈系统。
他后面提到“可能中国的实验室成了 multi agent 训练的先驱”,指向的也是同一件事。不同模型一旦被放进同一个生成、筛选、评价系统里,它们就不再只是单线的 teacher-student 关系,而会变成角色不同、分布不同的多个参与者,共同塑造训练过程。这样的问题,才是蒸馏真正往前走之后最有意思的部分。
所以行业现在并不是在“继续做大”和“开始做巧”之间二选一,而是两件事同时发生:规模化训练还在推进,算力利用率和后训练链路又被逼着越做越细。应用侧要的也不是更会说话的模型,而是更稳定、更能把能力转成结果的系统。
为什么 coding 会成为模型前沿的主战场
相比许多更容易上头条的大词,姚顺宇对 coding 的判断反而最具体。他直说,coding 是目前发展最快的场景,而且不只是最近几个月快。从他的回忆看,至少从 Claude 3.5 那一波开始,coding 就一直处在高速演进里。原因并不复杂:它同时满足了模型训练里两个非常稀缺的条件。
第一个条件是回馈信号清晰。写代码、补功能、修 bug 这些任务,天然就能用输入输出、测试结果和是否通过来判断成败。第二个条件是数据基础天然丰富。GitHub 上积累了几十年程序员写下来的代码和工程痕迹,足以让研究者围绕真实任务构造出大量环境。用他的话说,这是“很难在别的场景下同时找到”的两种特质。
在他那里,coding 不只是一个赚钱应用,而是“模型使用工具和环境交互的一个很好的抽象”。如果模型能在 coding 里稳定调用工具、理解上下文、反复试错、对结果负责,那它离更广义的 agent(智能体)能力就不远了。再往前一步,coding 甚至会反过来提升模型研究本身:如果你把 coding 做得足够好,研究效率本身就可能翻倍,形成一个研究上的飞轮。
所以 coding 的价值不能只从应用商业化去理解。它更像一个难得的可控实验平台。研究者可以把原本缠在一起的问题拆开看:模型是否理解任务,工具调得对不对,闭环有没有跑完,结果能不能经得住测试。回馈信号清楚,错误也更容易回溯;计划错了、工具用错了,还是执行细节出了问题,通常都能顺着链路查出来。这种可诊断性,在很多开放式任务里并不常见。
更重要的是,coding 把“工具使用”和“环境交互”这两个 agent 难题,放进了一个数据充足、验证明确、迭代速度快的场景里。所以 coding 上的很多进展,并不只服务代码补全本身,而是在给更通用的 agent 能力打样。它之所以重要,不只是因为能挣钱,而是因为它是少数既能快速试、又能客观验的前沿战场。
从产品角度看,coding 还有一个容易被低估的优势:优秀程序员对“好代码”的标准,比普通人对“好内容”“好娱乐”“好社交产品”的标准更收敛。简洁、结构清楚、抽象合理、方便维护,这些判断当然不可能完全一致,但共识远比社交产品和内容产品高。也正因此,coding 工具一旦跨过可用门槛,用户会更快感知到它的进步。
从 Anthropic 到 Google DeepMind:两种组织怎样把模型做出来
姚顺宇同时在 Anthropic 和 Google DeepMind 待过,这让他的比较少了很多外部评论里常见的空泛感。访谈里他当然不会讲训练机密,但有些组织差异说得很具体。谈 Anthropic 时,他强调的是 top-down 机制能成立的前提:做技术决策的人,既要在技术上服众,也要在组织上有真正的拍板权。这样的组合并不常见。
谈到 Google,画风就不同了。公司整体仍偏 bottom-up,但至少在 pre-train 这件事上,分工、owner 和验证框架已经很清楚。他说 pre-train 进入了 Google 的舒适区,意思不是事情变简单,而是 Google 的工程管理和大项目推进方式,恰好特别适合这类问题。
Anthropic 更像是把关键方向迅速对齐并推下去,Google 更像是把复杂工程做成稳定平台。这个归纳只能代表访谈里能公开说出的部分,但已经足够说明一件事:预训练这种高投入、强协同的问题,最后比的仍是谁把基础活做得更干净。
这种组织差别,最后会落到一个很朴素的标准上:团队能不能把基础工作做得足够干净。在不能公开谈内部细节的前提下,他给了一句足够说明问题的话:“把简单的事做得比谁都干净,是最关键的。” 这句话比任何神秘配方都更重要。比如在强化学习里,最简单的策略梯度(policy gradient)当然不是唯一算法,但它提醒你:复杂度本身不是价值,只有在确实必要时才值得引入。很多时候,团队差距不在于谁先想到了花活,而在于谁把基础工作做得更系统、更干净。
这里也要守住边界。访谈给到的是亲历者视角,不足以让外部读者准确判断他在每个模型训练里具体负责到什么程度,更不能把有限表述外推成完整的项目内幕。把它当成一线观察会更合适:它能帮助我们看清路数,不能替代公开技术报告。
按他的判断,组织问题归根结底是技术 leader 的问题:这个人不只要能拍方向,还得具备两种能力,一种是关键时刻能下场救火,另一种是即便某件事不是自己亲手做,也能理解为什么别人的工作重要、为什么它值得被容纳在系统里。好的 AI 组织不靠明星个人撑场面,而靠一整套能让普通人稳定做出高水平工作的系统。
leader 的作用并不只是拍板,更像是在维持整个实验体系的信噪比。一个系统越大,局部最优、指标美化、资源错配就越容易把组织带偏;leader 真正的价值,是在这些偏移刚出现时就能识别出来,必要时亲自下场把问题重新拆开,同时又容得下不同模块以不同节奏推进。他把“救火能力”和“容得下别人”放在一起讲,也正是这个意思:前者保证系统不会在关键处断裂,后者保证系统不会因为过度单一而失去探索能力。
他也不觉得“聊天机器人就是终局产品形态”。字幕里他反复说,模型明明有那么多能力,但今天人类和 AI 的主要交互仍然只是一个对话框,这件事本身就有些不太 make sense。组织、模型和产品形态都还在继续变化,远远没到终局。
个人英雄主义为什么在模型训练里退潮了
姚顺宇对“英雄主义已过去”的解释,比流行剪辑里的那一句要细得多。他并不是在说 AI 行业再也不会出现关键人物,而是在区分两个阶段:当某种关键技术还没有被发现、还没有被证明能大规模成立时,先撞到那一下的人,或者率先把那条路打通的小团队,当然可能是英雄;可一旦路径被发现,大模型竞争很长一段时间里更像集体主义。
他的原意很明确:之后的胜负,主要不在于某个个体到底有多天才,而在于这个集体能不能围绕一个目标一起投入时间、精力和执行质量。这里的“集体主义”不是口号,而是规模化工程的现实。因为在他看来,AI 这个方向一旦进入可实验、可重复、可扩张的阶段,后续很多想法并不神秘,甚至有些“谁都能想,谁都能干”。真正拉开差距的,是谁更早抓住机会、谁能把它做成系统、谁的团队能把粗糙的东西打磨成可靠的东西。
所以他更愿意把很多模型层面的突破理解成“历史大势的一部分”,而不是个体英雄的神话。用他自己的比喻说,现在大家更像冲浪的人,真正决定方向的是那个浪,而不是冲浪者本人。顺势而为、抓住机会、把系统做好,比把成败解释成个人传奇更接近现实。
但他也没有把“英雄主义”彻底从整个 AI 产业里抹掉。字幕里谈到 Claude Code、Cowork 这类产品时,他反而承认,产品层面仍然可能存在一些个人英雄主义的窗口。原因很简单:模型能力一旦涌现出来,谁能最快意识到它该被包装成什么样的产品、谁能最早把它变成对很多人都重要的工作流,这里面仍然有很强的判断力和时机成分。所以更准确的说法不是“英雄主义消失了”,而是它在模型训练里明显退潮,在产品形态和交互创新上却还没有完全消失。
聊天机器人为什么可能不是 AI 的终局形态
他还说过一句很容易被忽略的话:聊天机器人也许根本不是 AI 的终局形态。理由不是抽象哲学,而是非常具体的使用体验。他拿搜索举例说,很多场景其实非常简单,比如“买大米”这种需求,你根本不想把时间浪费在一个聊天机器人身上,不想看它转半天圈、给一堆解释、再丢一个链接给你。对这类任务来说,一个简单、直接、快速的交互就是更好的形态。
问题不在“搜索会不会被替代”,而在于今天几乎所有 AI 能力都被塞进了一个对话框,这件事本身就未必合理。模型已经会搜索、会写代码、会调工具,却还主要以“问一句,答一句”的方式出现。这当然是一个入口,但更像临时总入口,不像终局形态。一旦模型真正嵌进 IDE、搜索、工作流和具体任务里,聊天框很可能只是其中一个壳。
这也解释了他为什么把“模型追没追上”和“产品是不是已经站稳”分开看。就算 Google 还没在产品层面完全追上 OpenAI,也不意味着格局已经定死。前提很简单:如果聊天机器人只是过渡形态,那么今天围绕聊天框建立起来的优势,就未必能原封不动带进下一代交互。
再看 Google,就更容易理解他的意思。Google 擅长的是形态已经稳定的大产品:入口长什么样、用户要什么、流程怎么跑,都比较清楚时,它能靠技术和工程把体验卷到极致。搜索就是最典型的例子。
但如果交互形态本身还没定型,优势结构就会变。今天的 chatbot 也许只是模型能力的一个临时容器;哪天出现一个更自然、更高效的新壳,把聊天框的能力吸进去,当前的产品优势也会随之重排。真正没定下来的,也许不是谁的参数更多,而是人类最终会用什么方式去调用这些能力。
整场访谈真正留下来的,不是一句“个人英雄主义已过去”,也不是一句“AI 本质上简单”,而是一种看问题的方法:把注意力从神秘故事和个人神话,移到问题定义、评估框架、组织结构和产品形态上。这条线,比任何单句金句都更值钱。
参考材料
- B 站:对姚顺宇的 4 小时访谈
- 文字整理:公众号“语言即世界 language is world”《独家对话姚顺宇:请允许我小疯一下!》