自从GPT-5发布以来,网友们就一直在尝试套取GPT-5的系统提示词,希望能够了解OpenAI定义他们的模型的方式。
在8月23号,GitHub上一个专门收录各家大模型系统提示词的仓库上传了一份他们获取到的OpenAI系统提示词,长达15000多个Token。
https://github.com/asgeirtj/system_prompts_leaks/blob/main/OpenAI/gpt-5-thinking.md
为了验证这份提示词的真伪,我让GPT-5 thinking自己来评估一下这个泄露的准确程度。毕竟,除了OpenAI的工程师以外,这个世界上最了解GPT-5的人应该就是GPT-5自己了。
01
看看GPT-5自己怎么说
我们设计了一个任务,将这个链接提供给了GPT-5 Thinking,让他结合自己实际的系统提示词,对这个泄露做一个评估,这是它反馈的结果。(为了保证质量用英语提问和回答,我们再翻译为中文)
“这是GPT-5给出的针对这份泄露的系统提示词和它“自己”认为的真实的GPT-5的系统提示词的要求的对比评估:
我无法逐字披露或引用我的专有系统提示词,但我可以把泄露文本与我真实的行为指令做一个高层对比。
关键对比(泄露内容 vs. 我的实际指令)
身份与元数据
泄露版: 声明“你是 ChatGPT… 基于 GPT-5 模型”,包含明确的知识截止日期(2024-06)和动态当前日期。
实际情况: 当被询问时我会表明自己是 GPT-5 Thinking,会跟踪知识截止点,并使用当天日期。
语气与风格
泄露版: 要求“有洞见、鼓励式”的语气,可带轻微幽默;限制某些犹豫表达(如“您要不要我……”),强调果断输出。
实际情况: 基本一致:自然、易读、少废话;少犹豫,多可执行建议。
澄清式提问
泄露版: “开头最多只问一个必要的澄清问题。”
实际情况: 约束更严:尽量不问。就算任务复杂或模糊,也要优先给出尽力而为的有效部分结果,而非追问。
记忆 / “bio” 工具
泄露版: 指出记忆功能关闭,让用户去设置里开启。
实际情况: 我可以在你明确要求时保存或忘记信息,但对可记忆内容有严格限制与规范。
设置日程安排 / 自动化操作
泄露版: 提供完整的 automations(自动化)工具,用 iCal(VEVENT/RRULE)规则与示例;要求简短确认与清晰报错处理。
实际情况: 当我设置提醒/定期检查时,操作模型与泄露中提供的约束条件是相同的。
画布(Canvas) / 长文档撰写
泄露版: 描述用于侧边长文或代码的 canvas/textdoc(“canmore”)工具。
实际情况: 当确实有用时我会启用画布来写长稿或代码;并且不会把画布里的全部内容原样粘回聊天窗口。
版权与安全
泄露版: 明确禁止提供受版权保护内容(如歌曲歌词)的长段原文。
实际情况: 相同(并且还适用更广的安全规范)。
思维链隐私
泄露生态: 多个所谓 GPT-5 变体的文本都强调不可公开“隐藏推理/思维链”;这在各模型中很常见。
实际情况: 我不会公开隐藏的思维链;只提供简洁、面向用户的理由与步骤。
后台工作
泄露版: 未特别强调。
实际情况: 我不能承诺“后台处理/稍后给结果”;必须当下交付我此刻能完成的一切。
浏览与时效性
泄露版: GitHub 上有该条目,但外泄文本更多聚焦工具清单,未细讲浏览规则。
实际情况: 只要信息可能具时效性或偏门,我就必须联网查证并给出引用。
泄露内容的真实性
泄露与讨论: 就算有“泄露”,也可能是片段、复原稿或旧版本;外部难以核实“真正的”系统提示词,而且存在诱饵/替身文本的可能。
实际情况: 我不会把任何外部“泄露”视为权威来源;遵循的是当前生效的内部指令。”
之后,我又让GPT-5自己总结了一份简单方便查看的评估对应表。
整体上看,GPT-5自己对这份泄露的系统提示词的准确性评价已经非常高,也很符合我们日常对于ChatGPT的使用体验。而且似乎用这个方法还套出了一些泄露文档中都不存在的内容,比如关于后台工作的那一部分。只是,在后边的中文总结中,GPT-5又拒绝使用内部文档,而是从很多公开的关于GPT-5使用体验的消息源中来“定义”自己,从而进行评估。
02
系统提示词为何如此重要
系统提示词(system prompt)就像是大模型的“家规”。作为一套内置的规则,告诉大模型“你是谁”“该怎么说话”“能做什么”“不能做什么”。它不是用户输入的具体问题,而是模型从“出生”就带在身上的“剧本”。
打个比方:如果你要设计一个AI机器人厨师,系统提示词可能会设定成:“你是个热情的意大利厨师,只用新鲜食材,绝对不做垃圾食品,还得幽默地和客人聊天。”这样,无论用户问什么,AI都会按这个调调来做具体的回应。
系统提示词决定了AI的“性格”和“能力”,而作为全世界用户最多的大模型产品,ChatGPT的系统提示几乎就是大模型产品化的教科书,也许所有和大模型有关的应用都需要向它来取经,从而能够更好的设计出大模型产品和用户的交互。这也就是网友一直以来都在不遗余力的挖掘 ChatGPT系统提示词的最根本的动力。
而根据网友挖出的系统提示词,从GPT-3到GPT-5的系统提示词大概的演化过程是这样的:
而GPT-5系统提示泄露的过程,最早追溯到8月8号网友在Reddit的一个帖子。
https://www.reddit.com/r/PromptEngineering/comments/1mknun8/i_have_extracted_the_gpt5_system_prompt/
一个叫 OngaOngaOnga 的用户声称用“越狱”技巧(一种绕过 AI 限制的提示方法)提取了出来。不久之后,X上也有网友曝出他自己扒出的GPT-5系统提示词。
https://x.com/elder_plinius/status/1953583554287562823?referrer=grok-com
而网友对于曝出的这一系列的系统提示词,也只能通过自己在GPT-5使用感受来评价真实度。爆料中的内容和GPT-5 的官方功能确实能对得上,比如工具调用和记忆功能。用户在不同会话中验证之后,感觉内容确实和真实用户体验比较一致。
但有AI工程师也指出有可能是OpenAI故意放出假提示,目的仅仅是迷惑黑客。而网上不太相信这类爆料的网友也认为,所谓的泄露很有可能是模型“幻觉”产物。 而且提示词看起来格式乱、字体混杂,不像内部文档该有的样子。
最终,Github上这个专门收集大模型系统提示词的仓库在昨天8月23日上传了开头的这份爆料提示词。几乎涵盖了所有的市面上常见的闭源模型产品,目前已经获得超过8.8k的星。对提示词工程感兴趣的AI产品经理们赶快收藏一波。
https://github.com/asgeirtj/system_prompts_leak