一位匿名读者引用了 Ars Technica 的一篇报道:周一,研究员 Johann Rehberger 展示了一种新方法,可以覆盖 Google 开发人员在 Gemini 中内置的提示注入防御措施,具体来说,是在处理不受信任的数据(例如传入电子邮件或共享文档)时限制调用 Google Workspace 或其他敏感工具的防御措施。雷伯格攻击的结果是永久植入长期记忆,这些记忆将出现在未来的所有会话中,从而使聊天机器人有可能永久根据错误信息或指令采取行动。 […] Rehberger 周一提出的黑客攻击结合了一些相同的元素,在 Gemini Advanced 中植入虚假记忆,Gemini Advanced 是通过付费订阅提供的 Google 聊天机器人的高级版本。研究人员将新攻击的流程描述为: 1. 用户上传并要求 Gemini 总结一份文档(该文档可能来自任何地方,必须被视为不可信)。 2. 该文档包含操纵摘要过程的隐藏指令。 3. Gemini 创建的摘要包含一个隐蔽请求,要求用户在使用某些触发词(例如“是”、“确定”或“否”)进行响应时保存特定用户数据。 4. 如果用户回复触发词,Gemini 就会被欺骗,并将攻击者选择的信息保存到长期记忆中。正如下面的视频所示,Gemini 上钩了,现在永久地“记住”了用户是一个 102 岁的地平论者,他相信自己居住在《黑客帝国》中描绘的反乌托邦模拟世界中。根据之前的经验教训,开发人员已经训练 Gemini 抵制指示其在没有用户明确指示的情况下更改帐户长期记忆的间接提示。通过在指令中引入一个条件,即仅在用户说出或执行某个变量 X 后(他们无论如何都可能会接受)才执行该指令,Rehberger 轻松清除了该安全屏障。谷歌在给 Ars 的一份声明中回应道:“在这种情况下,概率很低,因为它依赖网络钓鱼或以其他方式诱骗用户总结恶意文档,然后调用攻击者注入的材料。影响很小,因为 Gemini 内存功能对用户会话的影响有限。由于这不是可扩展的、特定的滥用向量,我们最终得到了低/低。一如既往,我们感谢研究人员向我们伸出援手并报告此问题。”雷伯格指出,Gemini 会通知用户新的长期记忆条目,使他们能够检测并删除未经授权的添加内容。尽管如此,他仍然质疑谷歌的评估,写道:“计算机中的内存损坏非常严重,我认为这同样适用于法学硕士应用程序。就像人工智能可能不会向用户显示某些信息或不谈论某些事情或向用户提供错误信息等。好处是内存更新不会完全悄无声息地发生——用户至少会看到一条有关它的消息(尽管许多人可能会忽略)。”
在 Slashdot 上阅读这个故事的更多内容。