自去年 11 月以来,OpenAI 已经多次更新 ChatGPT。研究人员正在使用一种称为对抗训练的技术来阻止 ChatGPT 让用户欺骗它做出不良行为(称为越狱)。这项工作让多个聊天机器人相互对抗:一个聊天机器人扮演对手并通过生成文本来攻击另一个聊天机器人,迫使它打破通常的约束并产生不需要的响应。成功的攻击被添加到 ChatGPT 的训练数据中,希望它学会忽略它们。
原文: http://simonwillison.net/2023/Mar/5/the-inside-story-of-how-chatgpt-was-built/#atom-everything