被暴露的AI系统提示词——从CL4R1T4S仓库看Claude Fable 5的透明与紧张

发布时间:2026/6/13 1:35:12
被暴露的AI系统提示词——从CL4R1T4S仓库看Claude Fable 5的透明与紧张 2026年6月9日Anthropic发布了Claude Fable 5。两天之后它的系统提示词全文就挂上了GitHub。这一次爆出来的不是越狱方法不是基准测试的跑分而是这家以“安全”为核心理念的公司真正写在模型背面、不想让普通用户看到的那些“后台规则”。Anthropic公开的Fable 5发布文案只有一个核心信息它是Mythos级模型的安全公开版性能顶尖同时通过三套安全分类器来控制风险。但在社区爆出的系统提示词里呈现出的是一幅更加复杂、甚至充满张力的图景——模型不仅要告诉用户自己有多强还在背地里决定什么时候“降智”。一、CL4R1T4S是什么系统提示词的开源透明档案CL4R1T4S是安全研究员“elder-plinius”维护的一个GitHub仓库核心目标是收集和公开主流AI模型与AI工具的系统提示词system prompts使用户能够了解影响AI行为和输出的底层指令。截至Claude Fable 5发布时该仓库的文件结构按照AI提供方分类组织并采用严格的命名规范来记录模型迭代的历史轨迹。CL4R1T4S不是越狱工具不提供绕过安全机制的漏洞利用代码但它可以被视为一种“透明性工具”——通过系统提示词的公开揭示厂商的设计意图、安全策略和行为边界。正是在这一使命下Claude Fable 5发布后不到两天其完整系统提示词便以“Claude Fable 5 — System Prompt”为题被收录进该仓库全文约117KB、超过1500行。这也是Fable 5系统提示词首次被完整公开。二、Fable 5的身份定位Mythos级的安全版本系统提示词的第一段话即交代了Fable 5的战略定位This iteration of Claude is Claude Fable 5, the first model in Anthropic’s new Claude 5 family and part of a new Mythos-class model tier that sits above Claude Opus in capability. Claude Fable 5 and Claude Mythos 5 share the same underlying model. Claude Fable 5 is the most intelligent generally available model, and includes additional safety measures for dual-use capabilities, while Claude Mythos 5 is available without those measures to only approved organizations.从这段话中可以提取出三个层次的区分维度Fable 5Mythos 5底层模型与Mythos 5相同与Fable 5相同安全措施额外安全措施针对“双重用途能力”无此类额外措施开放范围面向公众的“最智能通用模型”仅限受批准的组织定价$10/百万输入tokens$10/百万输入tokens用户报告中对“Safety measures for dual-use capabilities”给出了具体解释当系统检测到网络安全、生物化学等敏感领域的提示时模型会切换为由较弱的Opus 4.8来回答将潜在的危险能力“关在笼子里”。Anthropic在系统提示词中并未向用户明确说明这一“隐形防护”机制的存在这也是提示词公开后引发争议的重要原因之一。三、安全措施与能力降级系统提示词中明确提及Claude Fable 5针对双重用途能力配备了额外安全措施。这一设计逻辑在分析人士看来包含两个层次。首先是“安全沙盒化”通过三套AI分类器网络安全、生物/化学、蒸馏攻击模型在运行时对用户输入进行评估。当分类器检测到高风险信号时整个请求会被透明地转发给Claude Opus 4.8处理。模型本身不会显式告知用户发生了这种切换用户看到的仍然是一个“合规的”回复但回复的质量和能力级别已经下降。公司称超过95%的对话完全不受影响。其次是“蒸馏防御”Anthropic公开提及这一机制主要为了防止竞争对手通过大量API调用提取模型能力。但在实际使用中用户发现相当比例的常规请求编码、资料检索甚至日常对话被系统归类为高风险并触发降级导致Fable 5的实际可用性远低于预期。多位用户反映“难以稳定调用Fable 5”。同时系统提示词还明确了Fable 5的产品生态位——这不仅是模型发布更是Anthropic构建代理化产品矩阵的信号Claude is accessible through Claude Code, an agentic coding tool that lets developers delegate coding tasks to Claude from the command line, desktop app, or mobile app, and through Claude Cowork, an agentic knowledge-work desktop app for non-developers. Claude is also accessible via beta products: Claude in Chrome (a browsing agent), Claude in Excel (a spreadsheet agent), and Claude in Powerpoint (a slides agent). Claude Cowork can use all of these as tools.当安全性成为产品差异化手段能力分级就不再是单纯的技术决策。Fable 5系统提示词的公开呈现出一种特别的张力它同时承载着技术创新、安全治理与市场竞争这三重逻辑。四、发布前后的认知反转系统提示词的曝光恰好在Anthropic一个显著的政策转向背景下发生。公司此前曾警告AI系统可能正接近实现“自我改进”能力呼吁全行业协调暂停开发。然而仅几天之后Anthropic就主动发布了Fable 5。部分评论认为这一动作可被视为商业竞争对安全呼声的一种“妥协”——安全框架的修辞与市场推进的现实之间出现了可观测的裂痕。五、社区反应与行业影响Fable 5系统提示词的曝光激起了多层面的讨论。在企业信息安全层面CSO Online撰文称安全护栏在全行业测试中引发了比官方预期更广的拦截面。这种高误触率对企业安全团队而言既是“保护圈”也可能成为误伤生产力的因素。在模型透明性层面The Verge的报道指出新安全措施使得此前被认为过于危险的Mythos级模型能够公开发布但安全机制的降级执行将使用户难以真正触及模型的最强能力。从行业竞争角度看此次事件展示了AI安全策略从“技术问题”向“市场博弈”的偏移。通过公开系统提示词外界得以一窥商业AI产品在技术创新、安全控制和市场推广之间的内在张力。六、总结透明的代价Fable 5系统提示词的曝出展现了当前AI行业的一个重要节点当安全既是价值观又是成本还是防御性市场策略时系统提示词就不再只是一组后台指令而成为理解产品逻辑的关键窗口。这次系统提示词暴露揭示了三条值得警觉的结构性张力安全护栏的代价边界模型在执行安全措施时选择了一条“不透明通道”。安全不是附加功能而是被前置设计在行为底层的筛选器。透明性困局当一家以透明度为信条的公司其最前沿模型的安全逻辑需要靠社区反向拆解才能被用户充分理解时“透明”本身正在成为一个需要重新审视的概念。AI信任的转向对于企业开发者和安全团队而言信任不再仅仅基于模型在基准测试中的跑分而将越来越依赖于如何理解那些写在系统提示词里、但不写在公开发行说明里的“隐性规则”——以及在哪些条件下它们会被触发、绕过或滥用。那套系统提示词揭示了在性能光环之外安全AI的另一套真实成本结构。本报告依据公开社区披露的信息与第三方测评进行分析。模型实际行为、安全策略设计意图及更新情况以Anthropic官方最终说明为准。