AI Disclosures Project 的一篇新论文 [PDF] 声称 OpenAI 可能在没有许可协议的情况下在 O’Reilly Media 付费图书上训练其 GPT-4o 模型。该非营利组织由 O’Reilly Media 首席执行官 Tim O’Reilly 本人联合创立,使用一种名为 DE-COP 的方法来检测语言模型训练数据中的版权内容。研究人员分析了 34 本 O’Reilly 书籍中的 13,962 个段落摘录,发现 GPT-4o 比 GPT-3.5 Turbo 等旧型号“识别”的付费内容明显更多。该技术也称为“成员推理攻击”,测试模型是否能够可靠地区分人类创作的文本和释义版本。包括 O’Reilly、经济学家 Ilan Strauss 和 AI 研究员 Sruly Rosenblat 在内的合著者写道:“GPT-4o [可能] 能够识别并预先了解许多在训练截止日期之前出版的非公开 O’Reilly 书籍。”
在 Slashdot 上阅读这个故事的更多内容。