在媒体露面后,OpenAI推出了一款工具,试图区分人工编写的文本和人工智能生成的文本——比如公司自己的ChatGPT和GPT-3模型生成的文本。分类器不是特别准确——它的成功率约为 26%,OpenAI 指出——但 OpenAI 认为,当它与其他方法结合使用时,可能有助于防止 AI 文本生成器被滥用。
随着围绕生成式 AI(尤其是文本生成 AI)的热情不断增长,批评者呼吁这些工具的创造者采取措施减轻其潜在的有害影响。美国一些最大的学区已禁止在其网络和设备上使用 ChatGPT,担心会影响学生的学习和该工具生成的内容的准确性。包括Stack Overflow 在内的网站已禁止用户共享 ChatGPT 生成的内容,称该人工智能让用户很容易用可疑的答案淹没讨论线程。
OpenAI 的分类器——恰当地称为 OpenAI AI 文本分类器——在架构上很有趣。它和 ChatGPT 一样,是一种 AI 语言模型,它是根据来自网络的许多公开文本示例进行训练的。但与 ChatGPT 不同的是,它经过微调可以预测一段文本由 AI 生成的可能性——不仅来自 ChatGPT,还来自任何文本生成 AI 模型。
更具体地说,OpenAI 在来自五个不同组织(包括 OpenAI 本身)的 34 个文本生成系统的文本上训练了 OpenAI AI 文本分类器。该文本与维基百科中相似(但不完全相似)的人工文本、从 Reddit 上共享的链接中提取的网站以及为以前的 OpenAI 文本生成系统收集的一组“人类演示”配对。 (然而,OpenAI 在一份支持文件中承认,它可能无意中将一些 AI 编写的文本错误分类为人类编写的文本,“鉴于 AI 生成的内容在互联网上的激增。”)
重要的是,OpenAI 文本分类器不适用于任何文本。它至少需要 1,000 个字符,或大约 150 到 250 个单词。它没有检测到剽窃——这是一个特别不幸的限制,因为文本生成 AI 已被证明会反刍它所训练的文本。 OpenAI 表示,由于其英语前向数据集,它更有可能在儿童或非英语语言书写的文本上出错。
在评估一段给定的文本是否由 AI 生成时,检测器会稍微回避它的答案。根据其置信度,它将文本标记为“非常不可能”由 AI 生成(小于 10% 的可能性)、“不太可能”由 AI 生成(在 10% 到 45% 之间的可能性)、“不清楚它是否是” AI 生成(45% 到 90% 的机会)、“可能”AI 生成(90% 到 98% 的机会)或“可能”AI 生成(超过 98% 的机会)。
出于好奇,我通过分类器输入了一些文本,看看它是如何处理的。虽然它自信地、正确地预测了一篇关于 Meta 的 Horizon Worlds的文章中的几段和来自 OpenAI 支持页面的一个片段不是人工智能生成的,但分类器在处理来自 ChatGPT 的文章长度文本时遇到了困难,最终未能对其进行分类共。然而,它确实成功地从 Gizmodo 的一篇文章中发现了 ChatGPT 输出——还有什么? — 聊天 GPT。
根据 OpenAI 的说法,分类器错误地将人类编写的文本标记为 AI 编写的文本的概率为 9%。在我的测试中并没有发生这个错误,但我将其归因于样本量太小。
![OpenAI 文本分类器](https://techcrunch.com/wp-content/uploads/2023/01/chatgpt-random-article-example.png)
图片来源: OpenAI
在实践层面上,我发现分类器对于评估较短的文章并不是特别有用。 1,000 个字符在消息领域是一个难以达到的门槛,例如电子邮件(至少是我定期收到的电子邮件)。这些限制让人停顿——OpenAI 强调可以通过修改生成文本中的某些单词或从句来规避分类器。
这并不是说分类器没用——远非如此。但它肯定不会阻止当前状态下的欺诈者(或学生,就此而言)。
问题是,其他工具会吗?一些家庭手工业如雨后春笋般涌现,以满足对人工智能生成的文本检测器的需求。 ChatZero 由普林斯顿大学的一名学生开发,使用包括“困惑度”(文本的复杂性)和“突发性”(句子的变化)在内的标准来检测文本是否可能是 AI 编写的。抄袭检测器Turnitin正在开发自己的 AI 生成文本检测器。除此之外,谷歌搜索还发现了至少六个其他应用程序,这些应用程序声称能够将 AI 生成的小麦与人类生成的谷壳分开,来折磨这个比喻。
这很可能会成为一场猫捉老鼠的游戏。随着文本生成 AI 的改进,检测器也会改进——这是一种永无止境的来回交流,类似于网络犯罪分子和安全研究人员之间的交流。正如 OpenAI 所写,虽然分类器在某些情况下可能有所帮助,但它们永远不会成为确定文本是否由 AI 生成的可靠唯一证据。
这就是说,没有灵丹妙药可以解决人工智能生成的文本所带来的问题。很可能永远不会有。
OpenAI 发布工具来检测 AI 生成的文本,包括来自最初发布在TechCrunch上的Kyle Wiggers的 ChatGPT