来自诺斯蒂克的加迪·埃夫隆:
我们建议继越狱和即时注入之后, LLM Flowbreaking成为不断增长的 LLM 攻击类型列表中的第三种。流程破坏不是关于是否可以绕过提示或响应护栏,而是更多关于用户输入和生成的模型输出是否会对更广泛的实施系统中的其他组件产生不利影响。
这里的关键思想是,一些建立在 LLM 之上的系统(例如 Microsoft Copilot)会实施额外的安全检查层,这有时会导致系统撤回已显示的答案。
我自己也见过几次这样的情况,最引人注目的是去年的 Claude 2,当时它在我眼前删除了几乎完整的播客文字记录清理工作,因为主持人开始谈论炸弹威胁。
诺斯蒂克将其称为“第二次思考” ,法学硕士系统决定撤回其先前的输出。对于攻击者来说,获取这些潜在有害数据并不难:我通过快速复制和粘贴获取了一些数据,或者您可以使用视频抓取或网络浏览器工具等技巧。
他们还描述了“停止和滚动”攻击,即用户在对模型执行查询时单击“停止”按钮,这也阻止了审核层有机会撤回其先前的输出。
我不确定是否会将其归类为全新的漏洞类别。如果您实现一个向用户显示输出的系统,您应该预料到撤回该数据的尝试可能会被破坏 – 屏幕捕获软件如今已广泛使用。
我想知道这种撤回 UI 模式有多普遍?我在 Claude 中看到过,显然 ChatGPT 和 Microsoft Copilot 具有相同的功能。我觉得它不是特别令人信服——在我看来,它更像是一个安全剧场,而不是一个避免不安全输出造成伤害的严肃机制。
通过 布鲁斯·施奈尔
原文: https://simonwillison.net/2024/Nov/29/llm-flowbreaking/#atom-everything