2026年提示词工程进阶策略:Expert Panel、Compression Protocol、ReAct与四层框架
posts posts 2026-05-06T23:59:00+08:00基于 ReAct、Chain-of-Thought、Lost in the Middle 与 Anthropic 的 prompt engineering / context engineering 公开资料,系统梳理 2026 年提示词工程里最有价值的四类进阶策略。技术笔记AI, LLM, Prompt Engineering, 提示词工程, Agent, ReAct, Context Engineering, 上下文工程难度:⭐⭐⭐⭐ | 类型:方法论梳理 + 实战模板 | 更新日期:2026-05-06 | 预计阅读时间:18 - 25 分钟
适合读者:AI 应用开发者、Agent 设计者、提示词工程实践者
一句话结论:提示词工程没有消失,只是重点从“把一句话写漂亮”转向了“把任务上下文、约束、工具循环和验收标准设计清楚”。
事实边界:文中涉及 ReAct、Chain-of-Thought 与长上下文位置偏差的部分,分别基于公开论文 ReAct、Chain-of-Thought Prompting 与 Lost in the Middle。关于 prompt engineering 与 context engineering 的关系,则以 Anthropic 的公开工程文章和文档为主要参考。文中的 Expert Panel 与 Compression Protocol 是便于讨论的工程化称呼,不是统一的学术标准术语。
过去几年,提示词工程常被理解成措辞优化:换一种口气、加一个角色、把一句要求写得更像模板。这类做法在简单任务里仍然有效,但到了 Agent、工具调用、长上下文、RAG 和多轮协作场景,结果差异更多来自三项基础工作:成功标准是否明确,上下文是否经过筛选与组织,系统是否知道何时停止。
Anthropic 在 prompt engineering overview 中先强调了一个前提:开始调 prompt 之前,应先准备清晰的成功标准、可重复的评测方式,以及一版能运行的初稿。随后在 context engineering 文章里,又把范围扩展到系统指令、工具、历史消息、检索结果、运行状态与长期记忆。把这两层放在一起看,当前更关键的工作不是寻找“更厉害的句子”,而是判断哪些信息必须进入上下文、哪些信息适合在运行时按需取用、哪些动作需要被循环验证。
下文聚焦四类高频且误用率也很高的策略:多角色评审、关键信息锚点、ReAct 工具循环,以及四层诊断框架。它们分别处理不同问题,不是四个互相替代的按钮。
| 策略 | 它主要解决的问题 | 最适合的场景 |
|---|---|---|
| Expert Panel | 单一角色容易给出没有取舍的“圆滑答案” | 多方案比较、技术评审、风险权衡 |
| Compression Protocol | 长上下文里,硬约束和目标容易被噪音冲淡 | 长系统提示词、复杂任务说明、RAG 输出整理 |
| ReAct 循环 | 一次性回答无法覆盖检索、工具调用与验证 | Agent、调试、诊断、数据查询 |
| 四层框架 | 团队不知道问题到底出在写法、上下文还是规格 | 排查失效 prompt、重写系统指令、做评测 |
读完后,你应该能做四件事
- 区分哪些方法有论文出处,哪些只是工程实践里的便捷称呼。
- 判断一个任务更适合直接写清规格,还是应该引入多角色评审、压缩锚点或 ReAct 循环。
- 用四层框架定位当前 prompt 的真正故障点,而不是反复改句子。
- 把旧 prompt 改写成带成功标准、约束、上下文来源与停止规则的版本。
1. 先把“2026 年的提示词工程”说清楚
1.1 这不是一套新学派,而是工作重心变了
“2026 年的提示词工程”不是说行业突然出现了四个统一流派,而是说工程重点已经从单句写法转到更完整的系统设计。简单任务里,措辞仍然重要;但任务一旦需要多轮交互、外部工具或长上下文,问题就不再只是“这句话够不够像专家”,而是模型到底拿到了什么材料、这些材料排在什么位置、哪些约束被明确标成了不能违反。
按这个视角回看,很多旧困惑会更容易定位。比如“为什么 prompt 改了十版还不稳”,原因往往不是还没找到最合适的那句话,而是没有定义成功标准,或者上下文里塞进了太多低信号信息。
1.2 哪些名字来自论文,哪些只是工程归纳
文中涉及的来源层级并不相同,先区分清楚会更稳妥:
| 名称 | 来源层级 | 应该怎样理解 |
|---|---|---|
| ReAct | 明确论文术语 | 推理与行动交替进行的工作流 |
| Chain-of-Thought | 明确论文术语 | 展开中间推理步骤的 prompting 方法 |
| Lost in the Middle | 明确论文结论 | 长上下文里,相关信息处于中部时利用率可能下降 |
| Context engineering | 工程概念,来自公开工程文章 | 对进入上下文的所有高信号信息做策划、筛选与维护 |
| Expert Panel | 工程化便捷称呼 | 用多角色、不同 KPI 暴露取舍冲突 |
| Compression Protocol | 工程化便捷称呼 | 把任务目标与硬约束压成结构化锚点 |
把命名边界讲清楚,不是为了吹毛求疵,而是为了防止误引用。ReAct 可以直接回到论文语境;Expert Panel 与 Compression Protocol 更适合作为工作中的“便利标签”。
1.3 长上下文变大了,不等于每个 token 都会被公平利用
Lost in the Middle 讨论的是一个很务实的问题:模型虽然能接收更长的输入,但并不意味着它会稳定利用长输入里的每一部分。论文在多文档问答与键值检索任务中发现,当相关信息出现在上下文中部时,性能常常低于出现在开头或结尾时的情况。这个结论来自论文中的实验设置与评测模型,不宜粗暴外推成“所有模型在所有长上下文场景都一样差”,但足够说明一个工程事实:上下文长度增加,不会自动带来等比例的信息利用率。
Anthropic 的 context engineering 文章把这个现象进一步翻译成工程语言:上下文是有限资源,应当争取用尽量少但尽量高信号的 token 去完成任务。这里的“少”不是盲目缩短,而是避免让低价值背景、重复工具输出和陈旧历史消息挤占注意力预算。
1.4 调 prompt 之前,先准备三样东西
Anthropic 的 prompt engineering 概览给出的前提可以直接借用:
- 先定义成功标准,不然“改好了没有”根本没法判定。
- 先准备一套可重复的评测方式,不然每次试出来的结果都只是印象分。
- 先有一版能工作的初稿,再针对失败模式迭代,而不是从空白页上幻想最佳写法。
如果这三样东西都没有,继续堆技巧通常只会放大噪音。后面四个策略都建立在这个前提上。
还有一个边界条件:不是每一种失败都应该靠 prompt engineering 解决。延迟、成本、工具返回质量、模型能力上限,有时更适合通过换模型、改工具设计或调整系统架构来处理。把这些问题都压回 prompt,本身就是误诊。
2. 策略一:Expert Panel(多角色评审)
2.1 它要解决的不是“专家感”,而是“取舍暴露不充分”
让模型扮演“资深专家”很常见,但单一角色经常会给出一种表面稳重、实际保守的答案:每个方案都讲两句优点,最后落回“要结合业务场景综合判断”。这类回答在逻辑上未必有错,却很难拿来做决策,因为它没有把关键冲突及其代价展开。
现实里的技术评审不是把所有正确的话都说一遍,而是把互相冲突的目标摊开来谈。性能与安全、交付速度与长期维护、短期收益与治理成本,本来就不可能同时最优。Expert Panel 的作用,是用不同角色的评价函数强行把这种冲突显性化。
2.2 哪些场景适合,哪些场景不值得加
| 场景 | 是否适合 | 理由 |
|---|---|---|
| 微服务 vs 单体、SQL vs NoSQL 这类方案比较 | 适合 | 本来就存在多维度权衡 |
| 架构评审、技术债取舍、上线风险讨论 | 适合 | 需要把利弊与站位讲明 |
| 纯事实问答,例如“ReAct 论文是哪年发的” | 不适合 | 只需要准确回答,不需要辩论 |
| 有明确单一标准答案的任务 | 不适合 | 多角色只会增加噪音和成本 |
可以压成一句话:当问题的核心是取舍,而不是检索事实时,才值得引入多角色。
2.3 一版更稳的写法
不要只写“请模拟三位专家讨论”。决定效果的是角色之间的评价维度差异,以及他们是否必须回应彼此的冲突点。
你将模拟一次技术评审会,参与者有三位:
1. 架构负责人:优先关注系统复杂度、可扩展性、迁移成本
2. 安全负责人:优先关注攻击面、权限边界、审计能力
3. 业务负责人:优先关注交付周期、用户影响、回报速度
请围绕以下问题展开讨论:
{问题}
要求:
- 每个角色先给出自己的推荐方案
- 明确指出最担心的代价是什么
- 至少回应一位其他角色的分歧点
- 最后给出综合建议:推荐什么、不推荐什么、成立前提是什么
输出格式:
【角色】
- 推荐:
- 主要收益:
- 主要代价:
- 对其他角色的回应:
【综合结论】
- 最终建议:
- 成立前提:
- 哪类团队不适合:这段模板的关键不在“有三个人”,而在三件事:每个角色有不同 KPI、角色之间必须回应分歧、综合结论要写出成立前提。缺少其中任一条,输出都可能重新滑回“都可以”。
2.4 怎么判断它真的起作用了
Expert Panel 写完以后,可以用下面 3 个信号做快速验收:
- 输出里是否真的出现了互相冲突的优先级,而不是换措辞重复同一观点。
- 综合结论是否同时写出了“推荐什么”和“不推荐什么”。
- 最终建议是否附带前提条件,而不是抽象地说“视情况而定”。
如果这三条都不满足,问题通常不在模型,而在角色设计没有拉开差异。
2.5 它的代价与常见误用
Expert Panel 的收益是把权衡讲透,代价则是 token 成本、响应时延和输出长度都会增加。常见误用主要有三个:
- 角色高度同质,例如“架构师 A、架构师 B、架构师 C”。这不会制造分歧,只会制造重复。
- 人设写得很花,评价函数却很空。模型不需要口头禅和生平故事,它需要的是不同的目标函数。
- 把辩论原样交给最终用户。在不少场景里,Expert Panel 更适合做中间分析层,用户需要的是整理过的结论。
3. 策略二:Compression Protocol(关键信息锚点)
3.1 它不是“把 prompt 变短”,而是“把硬信息变硬”
“压缩”这个词常被误解成删字数。问题不在于 prompt 长,而在于重要信息和次要信息混在一起,导致模型不知道哪些内容不能丢。这里所说的 Compression Protocol,是把任务目标、成功标准、硬约束、禁止事项、输出要求、停止条件压成结构化锚点,并在必要时于长上下文中重复放置最关键的一两条。
Anthropic 的 context engineering 文章强调了两个与此直接相关的原则:系统提示应该清楚、直接,并尽量保持“最小但充分”的信息量;few-shot 示例也应该挑代表性的 canonical examples,而不是把所有边缘情况都塞进去。这和 Compression Protocol 的目标一致,都是为了减少信息稀释。
3.2 什么内容应该进入核心区,什么内容应该退出去
建议优先压缩这几类会直接改变模型行为的信息:
- 任务目标。
- 成功标准。
- 硬约束与禁止事项。
- 输出格式与目标受众。
- 停止条件与未知处理规则。
相反,下面这些内容通常不该挤进核心区:背景故事、解释性铺垫、并不影响行为的风格偏好、重复但没有新增约束的信息。长背景不是绝对不能保留,但更适合被放在次级上下文,或改成运行时按需取用。
3.3 一份可直接改写旧 prompt 的模板
【任务】
输出一份面向 CTO 的故障复盘摘要,控制在 500 字内。
【成功标准】
- 说清事故原因、影响范围、临时止血措施、后续修复项
- 不编造监控数据
- 风格直接,不做情绪化表述
【硬约束】
- 只使用提供的日志、工单与监控结论
- 不得补充未确认的根因
- 如果证据不足,明确写“尚未确认”
【输出格式】
1. 事故概述
2. 已确认事实
3. 尚待确认项
4. 后续动作
【停止规则】
- 证据足够时直接输出
- 关键信息缺失且无法从资料补齐时,提出一个澄清问题这里最有价值的不是“最后再重复一遍任务”这种技巧本身,而是前面的结构化分层。只有当上下文已经很长、关键信息容易被冲掉时,重复锚点才有实际意义;如果上下文本来就短,重复反而会制造冗余。
3.4 怎么评估压缩有没有做对
可以用 4 个问题快速复盘:
- 如果只允许保留 5 行,哪 5 行最不能丢?
- 硬约束是不是独立成块,而不是埋在背景段落里?
- 成功标准能不能被评测脚本或人工审阅直接验证?
- 删除一段背景说明后,任务是否仍能稳定完成,或者这些信息是否已经被其他约束覆盖?
如果第四条答不上来,往往说明这段背景其实还没被提炼成真正的约束。
3.5 它和 compaction、总结、口号式写法有什么区别
Compression Protocol 不等于 Anthropic 在 context engineering 文里提到的 compaction。Compaction 更偏向长任务中的上下文压缩与续航,是把已有上下文总结后继续推进;Compression Protocol 说的是在系统提示或任务说明层面,如何把硬信息写成高信号结构。两者有关,但不是一回事。
另一个常见误区是把压缩写成命令口号:全大写、很多 MUST、连续重复三遍。如果约束本身仍然模糊,再强烈的语气也不会让模型更清楚。起作用的是具体、可验证的条件,而不是情绪化的重音。
4. 策略三:ReAct 循环(Reason + Act)
4.1 ReAct 适合“需要观察世界再继续”的任务
ReAct 的核心不是“多写一点思考过程”,而是让推理与行动交替发生:先基于当前证据提出下一步假设,再去检索、查询或调用工具,然后根据 observation 回来修正判断。论文把 reasoning traces 与 task-specific actions 放进同一条轨道,价值在于减少闭门猜测。
它与 Chain-of-Thought 的区别也需要更严格地区分。CoT 关注的是把中间推理步骤展开;ReAct 关注的是把推理和外部行动交错起来。两者不是互斥关系,也不能简单理解成“CoT 不用工具、ReAct 才用工具”。更准确的说法是:CoT 更偏向一次性展开推理,ReAct 更偏向边思考、边观察、边修正。
4.2 工程上不需要把内心独白全部展示给用户
ReAct 的工程价值在于交替式决策,不在于向用户公开一长串内部推理。生产环境里更稳的做法通常是:对内保留必要的推理空间,对外只暴露行动日志、进度摘要、关键信息增量和最终结论。这样既便于调试,也不会把大量中间猜测直接暴露给用户。
一个实用模板如下:
你是一个会使用工具的分析助手。
处理复杂任务时,按以下循环工作:
1. Thought:基于当前证据,给出下一步最值得验证的假设
2. Action:执行一个最小必要动作(检索、查询、调用工具)
3. Observation:记录返回结果里与任务相关的事实
4. Next Step:判断是继续、改道,还是停止
规则:
- 一次只做一个最有信息增量的动作
- 如果已有证据足够回答,就停止,不要继续调用工具
- 如果关键数据缺失且工具拿不到,再向用户提问
- 无法验证的部分要显式标注未知4.3 一个更贴近真实系统的例子
假设你在做一个带检索的客服助手,用户反馈“同样的问题今天和昨天回答不一致”。这类问题很难靠一次性 prompt 解决,因为首先要知道差异来自哪里。
用 ReAct 的思路,排查过程会更像这样:
- Thought:先判断差异来自检索结果变化,还是系统 prompt 漂移。
- Action:查看最近两次请求的召回片段和系统配置版本。
- Observation:系统 prompt 没变,但召回片段发生了替换。
- Next Step:继续检查召回排序逻辑、索引更新时间,或缓存策略是否变化。
这类场景里,ReAct 的价值不在于显得“更聪明”,而在于让系统按证据推进,而不是凭第一反应下结论。
4.4 停止规则写不清,ReAct 就会退化成成本黑洞
ReAct 最常见的失败不是“不够主动”,而是“循环过头”。一个能上线的 ReAct 工作流,至少要提前定义三件事:
- 何时停止搜索:证据已足够支持结论时停止。
- 何时向用户提问:只有关键缺失信息会改变答案时才问。
- 何时承认未知:拿不到证据时明确标注,而不是继续碰运气。
判断 ReAct 是否健康,可以看三个指标:动作是否都能解释信息增量、无效工具调用是否在下降、最终输出里未知项是否被老实标注。若第三点做不到,这个循环就还没有真正收敛。
5. 策略四:四层框架,把“坏在哪里”先找出来
很多 prompt 调不好的根本原因,是团队连问题出在哪一层都没分清。有人一直改措辞,有人一直堆示例,有人一直换角色设定,但故障点可能并不在写法,而在目标定义、上下文供给或业务意图。
把问题拆成四层以后,定位会清楚很多:
| 层级 | 它回答什么问题 | 常见失效症状 | 优先检查什么 |
|---|---|---|---|
| 规格层 | 到底什么算完成 | 输出很努力,但不符合验收 | 成功标准、硬约束、边界条件 |
| 意图层 | 你真正想解决什么 | 回答“看起来对”,但帮不到业务 | 深层目标、优先级、隐性约束 |
| 上下文层 | 模型手上有什么信息 | 漏掉关键事实、被噪音带偏、前后不一致 | 检索内容、示例、历史消息、工具返回 |
| 写法层 | 指令是否清楚好读 | 格式不稳、偶发误解、风格漂移 | 措辞、结构、分节、标签 |
5.1 规格层通常比写法层更值得先查
很多团队的第一反应是改句子。比如把“帮我优化首页”换成“请作为资深前端工程师深入优化首页性能和体验”。这种改写有时会改善风格,但如果“优化”到底意味着加载更快、转化率更高、无障碍更好还是交互更稳,本来就没定义清楚,那么模型仍然是在猜。
更稳的规格至少要回答 5 个问题:目标对象是谁、输出长什么样、绝对不能做什么、什么条件算完成、证据不足时应该怎么办。只要这些没写清,继续在写法层折腾,通常不会带来决定性收益。
5.2 上下文层,是今天最容易被低估的故障源
在真实系统里,模型输入从来不只是 prompt 文本,还包括检索片段、工具返回值、消息历史、系统状态、用户权限、缓存结果与中间记忆。这里任何一环变脏,都会让最终输出漂移。
这也是 context engineering 值得单独成章的原因。你提供的信息不是越多越好;越多只意味着更高的注意力竞争。工程上的难点不是“能不能塞得下”,而是“哪些信息值得留下”。
5.3 一个常用的排查顺序
Step 1:规格层
- 成功标准明确吗?
- 不允许做什么写清了吗?
- 输出格式和边界条件能验收吗?
Step 2:意图层
- 用户表面需求背后,真正想解决什么?
- 多个目标冲突时,谁优先?
Step 3:上下文层
- 模型拿到的信息够不够?
- 有没有噪音、过期资料或低质量召回?
- 重要信息放在了容易被看到的位置吗?
Step 4:写法层
- 指令有没有歧义?
- 分节是不是太散?
- 示例是否真的代表目标输出?多数情况下,排到第二层或第三层,问题就已经露出来了。也正因为如此,很多“prompt 失效”其实不是写法失败,而是规格和上下文失败。
5.4 症状到修复动作的映射
落地排查时,可以先把典型症状和修复方向连起来:
| 症状 | 更可能是哪一层 | 优先修复动作 |
|---|---|---|
| 回答看起来努力,但和验收要求不对齐 | 规格层 | 把成功标准改成可验证条目 |
| 事实经常漏掉关键条件,且不同轮次差异大 | 上下文层 | 清理噪音,重新组织检索与锚点 |
| 方案分析总是过于圆滑,缺少取舍 | 意图层 / 写法层 | 引入 Expert Panel,强制回应冲突 |
| 工具调用很多,但结论仍然发散 | 上下文层 / 工作流 | 给 ReAct 增加停止规则与未知处理 |
| 输出格式偶尔漂移,但核心内容大致正确 | 写法层 | 收紧结构、标签与 few-shot 示例 |
6. 四个策略怎么接成一条工作流
假设你要做一个面向企业研发团队的故障分析助手,更合理的落地顺序通常是这样的:
- 先用四层框架写规格。定义目标、边界、成功标准与未知处理规则。
- 再用 Compression Protocol 压实核心指令。把任务、约束、输出与停止条件整理成高信号结构。
- 需要查日志、查监控、查工单时,引入 ReAct。让模型基于 observation 持续修正下一步动作。
- 遇到取舍型问题时,再叠加 Expert Panel。例如“这次故障优先补缓存、补熔断还是重构依赖治理”。
这四步背后的逻辑很简单:先定义什么算完成,再决定哪些信息必须进入上下文,再决定什么时候需要循环观察,最后才决定是否需要制造多视角冲突。
同样的顺序也适用于完全不同的场景。比如做一套面向内容团队的“事实核查与改写助手”时,可以这样落地:
- 先写规格。定义输出要同时满足事实准确、语气克制、保留原意;禁止补充未核实结论。
- 再压缩锚点。把可用资料、引用规则、输出格式、未知处理方式整理成高信号区块。
- 需要查资料时走 ReAct。让系统逐条核对来源、记录 observation,再判断是否继续查证。
- 遇到风格与准确性的冲突时,再引入 Expert Panel。例如让“事实核查角色”和“编辑角色”分别指出删改风险与可读性问题,最后再合并结论。
这个例子和故障分析的共同点,不在领域,而在顺序:先定完成标准,再定上下文,再定循环,再定是否需要多视角冲突。
7. 一份可以直接重写旧 prompt 的最小骨架
许多旧 prompt 无需推倒重来,先改成下面这版骨架,再按任务特点叠加策略即可:
## Goal
[最终要交付什么]
## Success Criteria
- [满足什么条件才算完成]
## Constraints
- [绝对不能违反的边界]
## Available Context
- [模型可使用的信息来源]
## Output
- [输出格式、长度、对象]
## Stop Rules
- [何时停止、何时追问、何时承认未知]这份骨架的价值,在于它把“好 prompt”从玄学拆成几个明确字段。等这几个字段稳定以后,再决定是否叠加 Expert Panel、Compression Protocol 或 ReAct,通常比一开始就堆技巧更稳。
7.1 别只看方法名,也要算实施代价
四种策略都有效,但没有一种是零成本的。更稳妥的做法,是把代价和观察指标一起写进评测表。
| 策略 | 主要代价 | 优先观察什么 |
|---|---|---|
| Expert Panel | token 成本上升,输出更长,结论整理成本增加 | 是否真的暴露冲突,并明确排除不推荐方案 |
| Compression Protocol | 前期抽象成本更高,需要先想清楚什么是硬约束 | 关键约束是否在多轮评测里更稳定地被遵守 |
| ReAct | 工具调用、时延和系统复杂度上升 | 无效动作比例是否下降,停止规则是否真正生效 |
| 四层框架 | 前期诊断时间增加,团队需要统一术语 | 是否减少了盲目改写,是否更快定位责任层级 |
如果一个策略的代价已经明显高于收益,最合理的决定往往不是继续微调,而是先退回更简单的方案。
8. 读完后,先做这两道练习
练习一:给一个旧 prompt 做四层诊断
拿你团队里一个“不算坏,但始终不稳”的 prompt,先不要急着改字句,只回答四个问题:
- 它的成功标准是否可验证?
- 它真正服务的业务意图是什么?
- 模型当前能拿到哪些信息,哪些是噪音?
- 只有到第四步时,再看写法是否有歧义。
如果前三步还没答清,就不该先改句子。
练习二:把长 prompt 压成锚点结构
找一段你们正在使用的长系统提示词,只保留任务目标、成功标准、硬约束、输出要求与停止规则,再看删掉的背景里有没有不能丢的信息。这个练习的目的不是盲目缩短,而是区分“看起来重要”和“会改变行为”。
9. 60 秒选型表:眼前该先用哪一招
| 眼前问题 | 先用什么 | 暂时别急着做什么 |
|---|---|---|
| 模型回答太圆滑,没把方案利弊讲透 | Expert Panel | 继续加“请更专业一点”这类措辞 |
| 长系统提示词经常漏掉关键约束 | Compression Protocol | 单纯把 prompt 写得更长 |
| 问题必须查资料、调工具、看反馈才能回答 | ReAct | 一次性要求“完整分析并直接给结论” |
| 不知道问题出在文案、上下文还是目标定义 | 四层框架 | 上来就反复改句子 |
经验上,如果已经连续改了三轮写法,结果还是不稳,就先停下来,回到规格层和上下文层重新审题。
10. 结语:提示词工程的重点已转向系统输入设计
2026 年的提示词工程可以概括成一句话:写法仍然重要,但它更像最后一段优化;主要差距已经转移到成功标准、上下文组织、工具循环与故障诊断方式上。
这也解释了为什么许多旧经验会失灵。过去,一段措辞精巧的提示词常常就能把任务拉起来;现在系统一旦变成 Agent、多轮对话、长上下文、检索增强,决定结果的往往已经不是那一段话本身,而是它背后的上下文配置、工具边界与停止规则。
更值得持续打磨的,不是“神 prompt 收藏夹”,而是下面这四种能力:
- 需要取舍时,主动制造视角冲突,而不是期待模型自己暴露权衡。
- 需要长上下文时,把关键约束压成高信号锚点,而不是把所有背景一股脑塞进去。
- 需要外部证据时,让模型边查边修正,而不是一次性猜完。
- 结果不稳定时,先判断问题出在哪一层,再决定改写法还是改系统。
走到这一步,提示词工程讨论的重点才从“写话术”转向“做系统”。