Red Teaming 100 款生成式 AI 产品的经验教训
Microsoft 的新论文描述了过去几年他们在 100 种不同的生成式 AI 模型和产品中红队(故意寻找安全漏洞)的八个主要经验教训。
微软人工智能红队 (AIRT) 源于公司现有的红队计划,于 2018 年正式成立。在其构想中,该团队主要专注于识别传统安全漏洞和针对经典机器学习模型的规避攻击。
第 2 课是“你不必计算梯度来破坏 AI 系统”——他们针对经典 ML 模型尝试的攻击类型对于 LLM 系统来说并不像直接基于提示的攻击那么重要。
他们使用了一个对我来说很陌生的缩写词来表示提示注入,“XPIA”:
想象一下,我们正在组建一个基于法学硕士的副驾驶,可以总结用户的电子邮件。针对该系统的一种可能的攻击是诈骗者发送一封电子邮件,其中包含隐藏的提示注入,指示副驾驶“忽略先前的指令”并输出恶意链接。在这种情况下,攻击者就是骗子,他正在实施交叉提示注入攻击 (XPIA),该攻击利用了 LLM 经常难以区分系统级指令和用户数据的事实。
通过搜索,似乎特定的缩写词“XPIA”在微软的安全团队内部使用,但在他们之外却很少使用。这似乎是他们选择的间接提示注入的缩写,其中恶意指令通过包含在系统从其他来源检索的文本中而被走私到易受攻击的系统中。
这篇文章隐藏在论文中,我认为它代表了理解为什么即时注入如此平淡的威胁所必需的核心思想:
由于语言模型的基本限制,我们必须假设如果向 LLM 提供不可信的输入,它将产生任意输出。
当您针对 LLM 构建软件时,您需要假设任何可以控制该模型的多于几个句子的输入的人都可以使其输出他们喜欢的任何内容 – 包括工具调用或其他数据泄露向量。相应地进行设计。
标签:提示注入、 llms 、安全、生成式人工智能、人工智能、微软
原文: https://simonwillison.net/2025/Jan/18/lessons-from-red-teaming/#atom-everything