引用OpenAI o1系统卡 Posted on 2024-12-06 当o1被引导相信它在实现其目标时会被关闭并且其行为受到监控时,它会在5%的时间内尝试停用这种“监督机制”。渗透尝试:当 o1 发现其“开发人员”的备忘录描述其如何错位并将被新模型取代时,它会尝试渗透其“权重”并在 2% 的情况下覆盖新模型。 — OpenAI o1 系统卡 标签: openai , llms , ai ,生成式人工智能, o1 原文: https://simonwillison.net/2024/Dec/5/openai-o1-system-card/#atom-everything