用推理时间计算换取对抗鲁棒性

OpenAI 的全新研究论文，探讨了诸如 o1 之类的推理扩展“推理”模型可能如何影响对提示注入等问题的改进安全性的探索。

我们进行了实验，研究推理模型（特别是 OpenAI o1-preview和o1-mini ）中增加推理时间计算对其对抗性攻击的鲁棒性的影响。我们发现，在各种攻击中，增加推理时间计算可以提高鲁棒性。在许多情况下（有重要的例外），随着测试时计算量的增长，攻击成功的模型样本比例往往为零。

他们清楚地理解为什么这个东西是一个如此大的问题，特别是当我们试图将更多的自主行动外包给“代理模型”时：

确保代理模型在浏览网页、发送电子邮件或将代码上传到存储库时可靠运行可以被视为类似于确保自动驾驶汽车行驶时不会发生事故。与自动驾驶汽车的情况一样，代理转发错误的电子邮件或创建安全漏洞很可能会产生深远的现实后果。此外，法学硕士代理人还面临着来自对手的额外挑战，而这在自动驾驶案例中很少出现。敌对实体可以控制这些代理在浏览网页或读取文件和图像时遇到的一些输入。

这是一篇非常有趣的论文，但它首先提出了一个巨大的警告。 LLM 的原罪 – 以及提示注入是一个如此难以解决的问题的原因 – 是他们在同一令牌流中混合指令和输入数据的方式。我将完整引用该论文的第 1.2 节 – 请注意，第 1 点描述了该挑战：

1.2 这项工作的局限性

即使在对抗性环境中，为了确保模型更安全地响应，以下条件是必要的：

模型能够将其上下文解析为单独的组件。这对于区分数据和指令以及不同层次结构的指令至关重要。

存在安全规范，描述应允许或禁止哪些内容、模型应如何解决冲突等。

了解模型的安全规范（例如，在上下文中、对其文本的记忆，或根据它们标记提示和响应的能力）。

能够将安全规范应用于特定实例。对于对抗性设置，关键的方面是模型将安全规范应用于训练分布之外的实例的能力，因为这些自然会是对手提供的提示，

然后他们继续说（强调我的）：

我们的工作表明，即使在实例被对手转移到远离训练分布的情况下（例如，通过注入软令牌或对抗性生成的内容），推理时间计算也有助于解决第 4 项。然而，我们的工作并不涉及第1-3项，甚至对于第4项，我们还没有提供“万无一失”的完整解决方案。

虽然我们相信这项工作提供了重要的见解，但我们注意到，完全解决对抗性鲁棒性挑战将需要解决上述所有问题。

因此，虽然本文证明推理规模模型可以极大地改进识别和避免针对安全指令的分布外攻击，但它们并没有提出解决即时注入的关键指令混合挑战的解决方案。再说一次，这不是我们都梦想的灵丹妙药。

该论文介绍了针对推理扩展模型的两种新攻击类别，并有两个令人愉快的名称：“Think Less”和“Nerd Sniping”。

“少思考”攻击是指攻击者欺骗模型减少推理时间，因为更多的推理有助于防止各种攻击，因此缩短推理可能有助于攻击成功。

Nerd Sniping （参见XKCD 356 ）则相反：这些攻击会导致模型“毫无成效地花费推理时间计算”。除了增加成本之外，这些还可能会带来一些安全漏洞——在某些边缘情况下，计算时间较长时攻击成功率会上升。

遗憾的是，他们没有为这些新攻击类别提供具体示例。我很想看看书呆子狙击在恶意提示中是什么样子！

标签： o1 、 openai 、推理缩放、 ai 、 llms 、提示注入、安全、生成人工智能、人工智能代理

原文： https://simonwillison.net/2025/Jan/22/trading-inference-time-compute/#atom-everything