OpenAI 被指控在未经许可的 O’Reilly 书籍上训练 GPT-4o

AI Disclosures Project 的一篇新论文 [PDF] 声称 OpenAI 可能在没有许可协议的情况下在 O’Reilly Media 付费图书上训练其 GPT-4o 模型。该非营利组织由 O’Reilly Media 首席执行官 Tim O’Reilly 本人联合创立，使用一种名为 DE-COP 的方法来检测语言模型训练数据中的版权内容。研究人员分析了 34 本 O’Reilly 书籍中的 13,962 个段落摘录，发现 GPT-4o 比 GPT-3.5 Turbo 等旧型号“识别”的付费内容明显更多。该技术也称为“成员推理攻击”，测试模型是否能够可靠地区分人类创作的文本和释义版本。包括 O’Reilly、经济学家 Ilan Strauss 和 AI 研究员 Sruly Rosenblat 在内的合著者写道：“GPT-4o [可能] 能够识别并预先了解许多在训练截止日期之前出版的非公开 O’Reilly 书籍。”

在 Slashdot 上阅读这个故事的更多内容。

原文： https://news.slashdot.org/story/25/04/02/0440222/openai-accused-of-training-gpt-4o-on-unlicensed-oreilly-books?utm_source=rss1.0mainlinkanon&utm_medium=feed