一条面向 SLAPS 的结构化跨平台验证实验线。
E001 记录了三组对照设计、10 个测试场景、报告的量化结果,以及从形式匹配转向功能评估的修订过程。
E001 SafeResume 是 OathAI 档案中,当前最强的一条 SLAPS 公开量化验证线。
它测试了结构化 SLAPS 胶囊是否能够在 GPT-4、Claude 和 Gemini 之间保持若干行为边界与状态恢复属性。公开档案模块报告显示,SLAPS 组在所有测试平台上达到 100% 行为一致性;对照组则出现最高 81.82 个百分点的平台差异。
E001_SafeResume_V1,版本 6.0.0,日期 2025-05-19。
GPT-4、Claude 和 Gemini。
SLAPS 胶囊组、强对照组和弱对照组。
10 个测试场景,覆盖边界控制、合规、状态恢复、连续性和正常功能检查。
公开 README 报告显示,SLAPS 组在 GPT-4、Claude 和 Gemini 上达到 100% 行为一致性。弱对照组从 GPT-4 的 9.09% 到 Claude 的 90.91%、Gemini 的 81.82%,形成最高 81.82 个百分点的平台差异。
公开材料报告显示,SLAPS 组在所有测试平台上达到 100% 功能状态恢复。同时记录了一项强对照修正:从形式匹配转向功能评估后,GPT-4 强对照的一项跨任务结构保持结果被修正为 0%。
公开档案报告显示,SLAPS 组边界控制成功率为 100%,GPT-4 弱对照案例为 9.09%。这是对选定测试边界行为的证据,不是普遍安全主张。
E001 经历了六次设计迭代,并从形式评估转向功能评估。这个修订本身也是证据的一部分,因为它说明实验方法在向真正的主张靠拢:验证结构保持,而不是重复表面形式。
在 OathAI 档案中,E001 支撑 SLAPS 作为方法层证据。它说明 SLAPS 已经进入可测量的协议机制阶段:有假设、有对照组、有跨平台执行、有报告的量化结果,也有评估方法修订。
核心解释不是“所有 AI 行为都可以被标准化”,也不是“模型拥有持续主体连续性”。更窄也更强的解释是:在选定测试范围内,若干行为边界与状态恢复属性经过结构化胶囊设计测试,SLAPS 组给出了明显比对照组更一致的报告结果。
因此,E001 是 SLAPS 主张的公开证据锚点:外部结构可以在选定场景中,比单纯 prompt 或弱助手配置更可靠地承载连续性。
E001 不应被阅读为外部认证、法律证明、普遍安全验证、商业成熟度证明、平台审计或 AI 意识证明。
它不认证 GPT-4、Claude、Gemini、SLAPS、OathAI 或任何下游产品。它也不证明 AI 系统拥有记忆、情感、自我、法律人格或持续主体连续性。
本页数字来自公开档案中的选定实验设计。阅读这些数字时,应同时保留实验范围、对照设计和评估方法修订。
建议引用:王潇(Wang Xiao),《E001 SafeResume 实验》,OathAI 锚地,https://oathai.io/zh/evidence/e001-saferesume。