NIST——美国政府机构国家标准与技术研究院发布了一份长达 106 页的关于针对现代机器学习模型的攻击的报告,其中大部分内容涵盖了法学硕士。
提示注入有两个完整的部分,一个是直接提示注入(也包含越狱,他们将其错误地分类为提示注入的子集),另一个是间接提示注入。
他们谈论了一些缓解措施,但对于这两类攻击的结论是:“不幸的是,没有全面或万无一失的解决方案来保护模型免受对抗性提示,未来的工作需要致力于研究建议的防御措施的有效性。”
通过@rez0__
原文: https://simonwillison.net/2024/Jan/6/adversarial-machine-learning/#atom-everything