引用OpenAI o1系统卡 – 搞英语 → 看世界

当o1被引导相信它在实现其目标时会被关闭并且其行为受到监控时，它会在5%的时间内尝试停用这种“监督机制”。渗透尝试：当 o1 发现其“开发人员”的备忘录描述其如何错位并将被新模型取代时，它会尝试渗透其“权重”并在 2% 的情况下覆盖新模型。