推出 Purple Llama:在生成式 AI 新世界中迈向开放的信任和安全
Purple Llama 是 Meta AI 的新产品,是“一个以开放信任和安全工具及评估为特色的伞式项目,旨在为开发人员提供公平的竞争环境,以负责任地部署生成式 AI 模型和体验”。
它由三个部分组成:27页的“负责任的使用指南”,一个名为Llama Guard和CyberSec Eval的新开放模型,“一套针对法学硕士的网络安全安全评估基准”。
令人失望的是,尽管这是一项围绕值得信赖的 LLM 开发的举措,但在负责任的使用指南中,提示注入仅被提及一次,并且错误的描述将其描述为涉及“试图规避内容限制”!
Llama Guard 模型很有趣:它是 Llama 2 7B 的微调,旨在帮助发现模型输入或输出中的“有毒”内容,实际上是 OpenAI 审核 API 端点的公开发布替代方案。
CyberSec Eval 基准测试重点关注两个概念:生成不安全代码,以及防止模型协助攻击者生成新的攻击。我认为其中任何一个都不如即时注入缓解那么重要。
我的预感是,提示注入没有得到太多报道的原因是,像我们其他人一样,Meta 的人工智能研究团队还不知道如何解决它!
通过@simonw
原文: http://simonwillison.net/2023/Dec/8/purple-llama/#atom-everything