引用 ChatGPT 是如何构建的内幕 – 搞英语 → 看世界

9599?v=4&s=200

自去年 11 月以来，OpenAI 已经多次更新 ChatGPT。研究人员正在使用一种称为对抗训练的技术来阻止 ChatGPT 让用户欺骗它做出不良行为（称为越狱）。这项工作让多个聊天机器人相互对抗：一个聊天机器人扮演对手并通过生成文本来攻击另一个聊天机器人，迫使它打破通常的约束并产生不需要的响应。成功的攻击被添加到 ChatGPT 的训练数据中，希望它学会忽略它们。

— ChatGPT 是如何建立的内幕

原文： http://simonwillison.net/2023/Mar/5/the-inside-story-of-how-chatgpt-was-built/#atom-everything