推出 Purple Llama：在生成式 AI 新世界中迈向开放的信任和安全

Purple Llama 是 Meta AI 的新产品，是“一个以开放信任和安全工具及评估为特色的伞式项目，旨在为开发人员提供公平的竞争环境，以负责任地部署生成式 AI 模型和体验”。

它由三个部分组成：27页的“负责任的使用指南”，一个名为Llama Guard和CyberSec Eval的新开放模型，“一套针对法学硕士的网络安全安全评估基准”。

令人失望的是，尽管这是一项围绕值得信赖的 LLM 开发的举措，但在负责任的使用指南中，提示注入仅被提及一次，并且错误的描述将其描述为涉及“试图规避内容限制”！

Llama Guard 模型很有趣：它是 Llama 2 7B 的微调，旨在帮助发现模型输入或输出中的“有毒”内容，实际上是 OpenAI 审核 API 端点的公开发布替代方案。

CyberSec Eval 基准测试重点关注两个概念：生成不安全代码，以及防止模型协助攻击者生成新的攻击。我认为其中任何一个都不如即时注入缓解那么重要。

我的预感是，提示注入没有得到太多报道的原因是，像我们其他人一样，Meta 的人工智能研究团队还不知道如何解决它！