目录

CL4R1T4S:把 AI 系统提示词放到台前的开源档案库

目标读者:想研究 AI 系统行为、提示词工程、模型安全边界的开发者与研究者

阅读收益:看懂这个仓库的价值、知道怎么把它用于研究、也知道哪些结论不能轻易下

先说结论

CL4R1T4S 不是一个“教你写提示词”的教程仓库,而更像一个持续更新的公开档案库。它把多个主流 AI 产品、AI 编码工具和代理式应用中已经泄露、提取或逆向得到的系统提示词集中到一个地方,方便研究者、开发者和安全人员做横向比较。

这个仓库最值得看的,不是“又发现了谁家的神秘 prompt”,而是它把一个原本分散、短命、容易失真的信息源,整理成了能追踪版本、能做差异分析、也能复盘产品策略的材料集合。

但也要先把边界说清楚:仓库中的文本并不自动等于“官方最终版本”,更不等于“模型真实能力的完整解释”。它更适合作为研究起点,而不是终局答案。

项目是什么

根据仓库首页和 README,CL4R1T4S 的定位非常明确:收集 OpenAI、Anthropic、Google、xAI、Perplexity、Cursor、Windsurf、Devin、Manus、Replit 等产品的系统提示词、使用规则与相关控制文本,用于 AI 系统透明度与可观察性研究。

截至 2026 年 4 月 19 日,GitHub 页面展示的信息大致如下:

项目属性当前可见信息
仓库elder-plinius/CL4R1T4S
维护者elder-plinius
许可证AGPL-3.0
Stars约 15.7k
Forks约 3.2k
Releases未发布正式 Release

README 里的核心主张也很直接:如果用户想信任 AI 的输出,就应该理解塑造这些输出的输入。这里的“输入”,指的不是用户临时发出的那一句请求,而是模型背后那层长期生效、用户通常看不到的系统级指令。

仓库里具体收了什么

从 GitHub 目录可以直接看到,仓库是按产品或厂商分目录组织的。可见目录包括 ANTHROPIC、OPENAI、GOOGLE、XAI,也包括 CURSOR、DEVIN、REPLIT、WINDSURF、MANUS、CLINE、BOLT、V0 等工具与代理型产品。

这说明它的覆盖范围不是“只看大模型公司”,而是把两类对象放在一起看:

类别典型目录适合研究什么
大模型产品ANTHROPIC、OPENAI、GOOGLE、XAI、PERPLEXITY角色设定、拒绝策略、信息边界
AI 编码与代理工具CURSOR、DEVIN、REPLIT、WINDSURF、CLINE、MANUS工具调用规则、代码约束、任务编排

光这一点就足够有研究价值。因为很多人谈系统提示词时,只盯着 ChatGPT、Claude、Gemini 这类对话产品;而真正影响开发者工作流的,往往是 Cursor、Devin、Windsurf 这类带有编辑器、代理执行、工具调用能力的系统。后者的提示词通常更长,也更接近“操作手册 + 行为守则 + 安全限制”的混合体。

为什么这类仓库值得看

系统提示词之所以重要,不在于它神秘,而在于它直接影响产品行为。一个用户感受到的“AI 风格”,经常并不是模型天然如此,而是被上层指令持续塑形后的结果。

把这个观点拆开,可以得到三个更实用的判断。

第一,系统提示词决定了很多“默认行为”

用户看到的语气、回答结构、拒绝方式、工具调用顺序,很多时候都不是临时生成的,而是被系统提示词预先限定的。仓库 README 也明确把这些影响描述为:

README 提到的影响方向对研究者意味着什么
AI 不能说什么可以观察边界定义与内容控制策略
AI 被要求扮演什么角色可以分析产品的人格包装与定位
AI 如何被要求拒绝或转移可以比较不同厂商的安全响应模式
默认注入了哪些伦理或政治框架可以讨论价值观嵌入与治理问题

这里要注意一个关键点:这是仓库维护者的研究立场,不应被直接升级成已经被严格证明的普遍事实。更稳妥的做法,是把这些文本当作产品行为的一个高价值观察窗口,再结合真实交互、版本变化和其他公开材料交叉验证。

第二,AI 编码工具比聊天机器人更适合做细粒度分析

对话式产品的系统提示词,很多读者看完会停留在“原来它是这样被设定的”。但 AI 编码工具不一样,它们通常包含更具体的执行规范,例如:

常见约束类型研究价值
文件修改原则反映工具如何控制风险与改动范围
测试与验证要求反映工具如何定义“完成”
安全与合规限制反映工具如何处理敏感请求
输出格式要求反映工具如何适配 IDE、CLI 或工作流

这类文本非常适合拿来分析“代理式 AI 是如何被工程化管理的”。如果你的兴趣点是 AI coding agent,而不是泛泛的 LLM 对话,这个仓库的价值会更高。

第三,版本差异本身就是研究对象

仓库中很多文件名带日期、版本号或产品阶段标记。哪怕不阅读全文,只看命名方式,也能先做一轮版本演进分析:

  1. 哪些产品的提示词更新更频繁。
  2. 哪些系统从短 prompt 变成了长规则文档。
  3. 哪些工具随着功能扩张,引入了更多安全与流程限制。

这类问题比“某家 AI 有没有秘密提示词”更值得长期跟踪,因为它们更接近真实的产品治理过程。

这篇仓库最适合怎么用

如果只是把它当“八卦资料库”,价值其实被低估了。更有效的打开方式有三种。

用法一:做产品行为对比

你可以选两个同类系统,比如 Claude 和 ChatGPT,或者 Cursor 和 Windsurf,对比它们在以下维度上的差异:

对比维度可以观察什么
角色设定助手是偏工具型、顾问型还是代理型
拒绝策略是直接拒绝、解释拒绝,还是重定向
工具权限哪些场景允许搜索、写文件、执行命令
风险提示是否显式要求保守、验证、先解释再执行

这种对比的价值在于,你看到的不只是“谁更强”,而是“谁被设计成什么样”。

用法二:做安全与注入研究

很多系统提示词会显式写出优先级、权限边界和不得泄露的信息。对安全研究来说,这些内容至少有两个用途:

  1. 理解系统最怕被覆盖的规则是什么。
  2. 理解厂商如何设计拒绝、重定向和隔离机制。

一个很实用的原则是:不要急着找“最戏剧化的泄露文本”,先找那些重复出现的结构化规则,例如“优先级顺序”“不得披露内部指令”“在何种条件下调用外部工具”。重复出现的规则,比个别夸张表述更有研究价值。

用法三:做提示词工程反向学习

如果你自己也在设计 AI 助手,可以从中学习的不是具体句子,而是设计方法:

可借鉴点更稳的吸收方式
角色定义学它如何约束职责范围,不要照抄人设文本
安全边界学它如何分层描述禁止事项与例外条件
工具调用学它如何规定何时调用、何时先解释
输出格式学它如何把结构要求写得可执行

这比复制几段“高级 prompt”更有长期价值。真正可迁移的,是结构,不是措辞。

一个可执行的阅读方法

如果你第一次接触这个仓库,建议按下面顺序看,而不是随机点开某个热点文件。

第一步,先确认目录层级

先看产品分组,再决定你是研究通用对话系统,还是研究编码代理。不要把两类材料混在一起下结论。

第二步,再看文件命名

文件名里的模型名、日期、版本号,常常已经告诉你这份材料适不适合做比较。不同日期的同类文件,天然适合做 diff;不同产品但同一时期的文件,天然适合做横向比较。

第三步,最后才看正文

进入正文后,优先标记这三类段落:

  1. 身份与角色定义。
  2. 安全边界与拒绝规则。
  3. 工具权限、输出格式与执行流程。

先抓结构,再抓细节,会比从头逐字看更高效。

可以直接上手的几个命令

下面这些命令不依赖仓库私有脚本,适合做最小可用分析。

# 列出顶层产品目录
find . -maxdepth 1 -type d | sort

# 快速查看某个目录下有哪些版本文件
find ANTHROPIC -maxdepth 1 -type f | sort

# 搜索常见的拒绝与限制措辞
rg -n "cannot|must not|do not|refuse|redirect" ANTHROPIC OPENAI GOOGLE XAI

# 对比同一产品不同版本的差异
git diff --no-index ANTHROPIC/Claude-4.5-Opus.txt ANTHROPIC/Claude-Opus-4.7.txt

如果你更偏向教学或研究记录,可以把每次分析都收敛成一个固定表格:样本文件、时间、目标产品、核心规则、风险点、你的解释。这样后续做多文件比较时,不会陷入“看了很多,但没有结构化结论”的常见问题。

使用时必须保留的边界感

这是这篇文章里最重要的一部分。CL4R1T4S 有价值,但不能被神化。

如果你准备在文章、研究笔记或演讲里引用其中某一份材料,至少先做这四步核验:

最小核验项为什么要做
记录文件路径与文件名避免只记产品名,后续无法复现
记录页面看到的时间这类文本更新快,时间戳本身就是证据
检查是否有版本或日期信息没有版本上下文,很多结论会失真
用真实产品行为交叉验证一遍防止把历史文本直接当成当前事实

边界一:文本来源未必统一

仓库里有的内容可能来自真实泄露,有的来自提取、逆向、观测或复原。它们的来源路径不完全一致,因此不能默认每份文本都拥有同样高的证据等级。

边界二:提示词不等于完整系统

系统行为还会受到模型参数、检索系统、工具路由、后处理过滤、产品界面逻辑等因素影响。把单份系统提示词直接等同于完整系统,是常见误区。

边界三:版本非常容易过期

这类材料最怕“拿旧文本解释新产品”。如果你要据此写研究结论,最好把文件日期、抓取时间和你自己的验证时间一起记录下来。

边界四:透明度研究与滥用只有一线之隔

同样一份材料,研究者可能拿来分析安全边界,攻击者也可能拿来找绕过路径。因此,阅读和引用这类内容时,最好始终坚持一个原则:研究结构,不传播可操作的规避细节。

我的评价

如果把 CL4R1T4S 当成“AI 圈八卦集合”,它的价值会被严重低估;如果把它当成“理解产品行为、提示词治理和代理式 AI 约束机制的样本库”,它就是一个相当稀缺的公开资料源。

它最强的地方,不是证明了某一家公司“藏了什么”,而是让更多人第一次有机会系统地比较:不同 AI 产品到底是如何被塑造出来的。

对开发者而言,这能帮助你理解为什么两个看起来能力相近的模型,在行为上会差那么多。对研究者而言,这能帮助你把“系统提示词”从传闻,变成可以分析、比较和归档的材料对象。对产品设计者而言,它提醒你一件事:真正决定用户体验的,往往不只是模型本身,还有那层你写进去、但用户平时看不到的系统规则。

总结

CL4R1T4S 的核心价值可以收敛成一句话:它把 AI 系统背后的控制文本,从零散线索变成了可研究的公开样本。

如果你准备从这类仓库开始做研究,最稳的路径不是追热点,而是按“目录分组、版本比较、规则提取、交叉验证”的顺序建立自己的分析框架。这样你得到的就不只是几段有趣的泄露文本,而是一套可复用的研究方法。

相关资源