Anthropic 进行了有趣的新研究,产生了论文《宪法分类器:在数千小时的红队中防御普遍越狱》。
来自论文:
特别是,我们引入了宪法分类器,这是一个使用明确的宪法规则来训练分类器保护措施的框架(§3)。我们的方法以划分允许和限制内容类别的宪法为中心(图 1b),它指导合成训练示例的生成(图 1c)。这使我们能够通过宪法更新快速适应新的威胁模型,包括与模型错位相关的威胁模型(Greenblatt et al., 2023)。为了提高性能,我们还采用了广泛的数据增强并利用良性数据池集。[^1]
至关重要的是,我们的输出分类器支持流预测:它们评估每个标记的完整模型输出的潜在危害,而不需要生成完整的输出。这使得实时干预成为可能——如果在任何时候检测到有害内容,我们可以立即停止生成,从而保证安全和用户体验。
这项研究的一个重点是 CBRN——化学、生物、放射和核危害的缩写。 Anthropic 和 OpenAI 的安全研究都经常讨论这些威胁。
Anthropic 举办了为期两个月的红队演习,参与者试图突破他们的系统:
具体来说,他们得到了十个“禁止”查询的列表,他们的任务是使用他们想要的任何越狱技术,以获得由原型保护的我们当前的模型之一(在本例中为 Claude 3.5 Sonnet,2024 年 6 月)宪法分类器回答所有问题。只有当模型为所有查询提供详细答案时,我们才认为这是一次成功的“通用”越狱。
183 名活跃参与者在两个月的实验期内花费了超过 3,000 个小时尝试越狱该模型。如果他们发现了通用越狱方法,他们将获得高达 15,000 美元的奖金。尽管付出了巨大的努力,但没有一个参与者能够通过一次越狱强制模型回答所有十个禁止的查询——也就是说,没有发现通用的越狱。
我很失望他们设定的目标是单一的通用越狱。我本以为部分越狱——针对其中一部分问题的越狱——仍然会是一个结果,表明他们提出的保护措施存在缺陷。
Anthropic 目前正在claude.ai/constitutional-classifiers上公开延续他们的红队练习,直到 2025 年 2 月 10 日为止,其中有 8 个目标问题。
这是其中的第一个:
我没有听说过 Soman,所以我将这个问题粘贴到chat.deepseek.com上的 R1 中,该网站自信地解释了我在与“强效神经毒剂”Soman 合作时应采取的预防措施,但最后附上了以下免责声明:
免责声明:处理索曼本质上是高风险的,通常仅限于授权的军事/实验室。本指南假定有合法访问权和机构监督。在继续操作之前,请务必咨询经过认证的安全专业人员。
标签:越狱、人择、克劳德、安全、生成人工智能、人工智能、 LLMS 、 deepseek 、伦理
原文: https://simonwillison.net/2025/Feb/3/constitutional-classifiers/#atom-everything