碰巧是星期三晚上,我的女儿正在为她的欧洲历史课准备“拿破仑的审判”,请求帮助她扮演托马斯·霍布斯的角色,为辩方证人。我向 ChatGPT 提出了问题,它在几个小时前刚刚由 OpenAI 宣布:
这是一个自信的答案,附有支持证据和对霍布斯著作的引用,但这是完全错误的。霍布斯是专制主义的支持者,他相信唯一可行的替代无政府状态——人类事务的自然状态——的方法是将绝对权力授予君主。制衡是霍布斯年轻的同时代人约翰洛克提出的论点,他认为权力应该在行政部门和立法部门之间分配。詹姆斯·麦迪逊 (James Madison) 在撰写美国宪法时采纳了查尔斯·孟德斯鸠 (Charles Montesquieu) 的一项改进提案,该提案增加了一个司法部门以制衡其他两个部门。
ChatGPT 产品
很幸运,我的第一个 ChatGPT 查询最终成为服务出错的地方,但你可以看到它是如何发生的:霍布斯和洛克几乎总是一起被提及,所以洛克对三权分立的重要性的阐述很可能与家庭作业中霍布斯和利维坦的提及相邻,您可以在 Internet 上找到散布的内容。这些作业——由于在互联网上——可能是支撑 ChatGPT 的 GPT-3 语言模型的一些要点; ChatGPT 应用一层人类反馈强化学习 (RLHF)来创建一个新模型,该模型在具有一定程度记忆力的直观聊天界面中呈现(通过重新发送以前的聊天交互以及新提示来实现)。
周末令人着迷的是,这些改进如何导致人们对 OpenAI 的能力产生浓厚的兴趣,以及人们对人工智能即将对社会产生的影响的认识不断增强,尽管底层模型是已有两年历史的 GPT-3 .我怀疑,关键因素是 ChatGPT 易于使用,而且是免费的:阅读 AI 输出示例是一回事,就像我们在 GPT-3 首次发布时看到的那样;自己生成这些输出是另一回事;事实上,当 Midjourney 使 AI 生成的艺术变得简单和免费时,人们的兴趣和意识也出现了类似的爆炸式增长(本周这种兴趣又一次飞跃,对 Lensa AI的更新包括了稳定扩散驱动的魔法化身)。
更广泛地说,这是前 GitHub 首席执行官纳特·弗里德曼 (Nat Friedman) 在接受 Stratechery 采访时向我提出的关于 Github Copilot 之外的现实世界人工智能应用程序匮乏的观点的一个具体例子:
我离开 GitHub 时想,“好吧,人工智能革命已经到来,现在将立即掀起一股其他人修补这些模型和开发产品的浪潮”,然后就没有了,我认为这真的很令人惊讶。因此,我们现在所处的情况是,研究人员刚刚领先,他们以加速的方式向世界提供了大量的新功能,他们每天都在这样做。所以我们现在有这种能力悬垂在世界范围内徘徊,奇怪的是,企业家和产品人员才刚刚开始消化这些新能力并提出问题,“你现在可以构建的产品是什么你不能在人们真正想要使用之前构建?我认为我们实际上存在短缺。
有趣的是,我认为其中一个原因是因为人们在模仿 OpenAI,它介于初创公司和研究实验室之间。因此,已经有一代这样的人工智能初创公司将自己打造成研究实验室,地位和声望的货币是发表和引用,而不是客户和产品。我认为,我们只是想讲述这个故事,并鼓励其他有兴趣这样做的人来构建这些人工智能产品,因为我们认为它实际上会以一种有用的方式反馈给研究界。
OpenAI 有一个 API,初创公司可以在上面构建产品;然而,一个基本的限制因素是成本:使用 OpenAI 最强大的语言模型Davinci生成大约 750 个单词,成本为 2 美分;使用 RLHF 或其他任何方法对模型进行微调会花费很多钱,并且从该微调模型生成结果大约 750 个单词需要 12 美分。那么,OpenAI 本身就使用其最新技术推出了第一个可广泛访问且免费(目前)的产品,这也许并不奇怪;该公司的研究肯定会得到很多反馈!
ChatGPT 于周三推出。今天它突破了 100 万用户!
– 山姆奥特曼 (@sama) 2022 年 12 月 5 日
在提供对 AI 功能的 API 访问方面,OpenAI 一直是明显的领导者; ChatGPT 的迷人之处在于,它将 OpenAI 与 MidJourney 一起确立为消费 AI 产品方面的领导者。后者通过订阅直接将消费者货币化;这是一种商业模式,对于在 GPU 时间方面具有边际成本的事物来说是有意义的,即使它限制了探索和发现。这就是广告一直闪耀的地方:当然你需要一个好的产品来推动消费者使用,但免费也是一个主要因素,文本生成最终可能更适合广告,因为它的效用——因此机会收集第一方数据——对大多数人来说可能比图像生成更高。
确定性与概率性
哪些工作将首先被人工智能颠覆,这是一个悬而未决的问题;然而,这个周末对一群人来说显而易见的是,有一项普遍的活动受到严重威胁:家庭作业。
回到我上面提到的我女儿的例子:谁没有写过一篇关于政治哲学的论文,或者读书报告,或者任何数量的主题,对于被分配写理论上新的论文的学生,但就世界而言,通常只是对一百万次之前写过的东西的反省。不过现在,你可以从反流中写一些“原创”的东西,而且至少在接下来的几个月里,你可以免费做。
计算器与 ChatGPT 对家庭作业的含义有着明显的类比:学生无需进行繁琐的数学计算,每次都可以简单地输入相关数字并获得正确答案;教师通过让学生展示他们的作品来调整。
不过,那也说明了为什么人工智能生成的文本是完全不同的东西;计算器是确定性的设备:如果你计算4,839 + 3,948 - 45
你每次都会得到8,742
。这也是为什么教师要求学生展示他们的作品是一种充分的补救措施:只有一条通往正确答案的道路,并且展示沿着这条道路走下去的能力比获得最终结果更重要。
另一方面,AI 输出是概率性的:ChatGPT 没有任何对错的内部记录,而是关于在不同上下文中哪些语言组合在一起的统计模型。该上下文的基础是 GPT-3 训练所用的整体数据集,以及来自 ChatGPT 的 RLHF 训练的额外上下文,以及提示和之前的对话,以及很快来自本周发布的反馈。这可能会产生一些真正令人兴奋的结果,例如ChatGPT 中的虚拟机:
您知道吗,您可以在 ChatGPT 中运行整个虚拟机?
太好了,在这个巧妙的提示下,我们发现自己位于 Linux 机器的根目录中。我想知道我们能在这里找到什么样的东西。让我们检查一下主目录的内容。
嗯,这是一个简单的设置。让我们在这里创建一个文件。
ChatGPT 喜欢的所有经典笑话。我们来看看这个文件。
因此,ChatGPT 似乎了解文件系统的工作原理、文件的存储方式以及以后的检索方式。它了解 linux 机器是有状态的,并正确检索并显示此信息。
我们还用电脑做什么。编程!
那是对的!如何计算前 10 个质数:
这也对!
我想在这里指出,这个用于查找素数的 codegolf python 实现效率非常低。在我的机器上评估命令需要 30 秒,但在 ChatGPT 上运行相同的命令只需要大约 10 秒。所以,对于某些应用程序,这个虚拟机已经比我的笔记本电脑更快了。
不同之处在于 ChatGPT 实际上并没有运行 python 并确定性地确定前 10 个素数:每个答案都是从构成 GPT-3 的互联网数据语料库中收集的概率结果;换句话说,ChatGPT 在 10 秒内得出了对结果的最佳猜测,而且这个猜测很可能是正确的,感觉就像是一台真正的计算机在执行相关代码。
这引发了关于知识本质的迷人哲学问题;您也可以简单地向 ChatGPT 询问前 10 个素数:
那些不是计算出来的,它们只是已知的;不过,它们之所以为人所知,是因为它们被记录在互联网的某个地方。相比之下,请注意 ChatGPT 如何打乱我上面提到的简单得多的等式:
为了它的价值,我不得不更加努力地工作才能让 ChatGPT 在数学上失败:基本 GPT-3 模型在大多数情况下都会错误地计算基本的三位数加法,而 ChatGPT 做得更好。尽管如此,这显然不是一个计算器:它是一个模式匹配器——有时模式会变得很奇怪。这里的技巧是在它出错时抓住它,无论是基础数学还是基础政治理论。
审讯与编辑
在处理 ChatGPT 的影响方面,已经有一个网站处于前线:Stack Overflow。 Stack Overflow 是一个网站,开发人员可以在这里询问有关他们的代码的问题或在处理各种开发问题时获得帮助;答案通常是代码本身。我怀疑这使得 Stack Overflow 成为 GPT 模型的金矿:有问题的描述,以及解决该问题的代码。但是,问题在于正确的代码来自经验丰富的开发人员回答问题并让其他开发人员对这些问题进行投票;如果 ChatGPT 开始被用来回答问题会怎样?
看来这是个大问题;来自堆栈溢出元:
暂时禁止在 Stack Overflow 上的帖子中使用 ChatGPT 生成的文本。
这是一项临时政策,旨在减缓使用 ChatGPT 创建的答案的涌入。关于使用此工具和其他类似工具的最终政策是什么,需要与 Stack Overflow 工作人员讨论,并且很可能在 Meta Stack Overflow 上进行讨论。
总的来说,由于从 ChatGPT 获得正确答案的平均比率太低,发布由 ChatGPT 创建的答案对网站以及询问或寻找正确答案的用户来说是非常有害的。
主要问题是,虽然 ChatGPT 产生的答案有很高的错误率,但它们通常看起来可能不错,而且答案很容易产生。还有许多人尝试使用 ChatGPT 创建答案,但没有专业知识或不愿意在发布之前验证答案是否正确。因为这样的答案很容易产生,所以很多人都在张贴大量的答案。这些答案的数量(数千)以及答案通常需要至少具有一些主题专业知识的人详细阅读以确定答案实际上是错误的这一事实有效地淹没了我们基于志愿者的质量管理基础设施。
因此,我们需要减少这些帖子的数量,并且我们需要能够处理快速发布的帖子,这意味着与用户打交道,而不是处理单个帖子。因此,目前不允许使用 ChatGPT 在 Stack Overflow 上创建帖子。如果用户被认为在发布此临时政策后使用了 ChatGPT,将实施制裁以阻止用户继续发布此类内容,即使这些帖子在其他情况下是可以接受的。
这里有一些引人入胜的线索。一个是关于制作内容的边际成本:Stack Overflow 是关于用户生成的内容;这意味着它免费获得其内容,因为它的用户为了帮助、慷慨、地位等而生成它。这是Internet 唯一实现的。
AI 生成的内容比这更进一步:它确实要花钱,尤其是现在,(OpenAI 目前承担这些成本,而且它们是|可观的),但从长远来看,你可以想象一个内容生成的世界不仅从平台的角度,而且从用户的时间来说都是免费的;想象一下创建一个新的论坛或聊天组,例如,使用可以立即提供“聊天流动性”的人工智能。
不过,就目前而言,概率 AI 似乎站在 Stack Overflow 交互模型的错误一边:而由计算器代表的确定性计算提供了一个你可以信任的答案,这是当今 AI 的最佳用途——而且,正如Noah Smith 和roon argue ,未来——提供了一个起点,你可以纠正:
所有这些愿景的共同点是我们称之为“三明治”工作流程的东西。这是一个三步过程。首先,人类有创作冲动,给人工智能一个提示。 AI 然后生成一个选项菜单。然后人类选择一个选项,对其进行编辑,并添加他们喜欢的任何触摸。
三明治工作流程与人们习惯的工作方式大不相同。人们自然会担心提示和编辑在本质上不如自己产生想法那么有创意和有趣,这会使工作更加死记硬背和机械化。也许其中一些是不可避免的,因为当手工制造让位于大规模生产时。人工智能为社会带来的财富增加应该让我们有更多的空闲时间来发展我们的创造性爱好……
我们预测很多人会改变他们对个人创造力的看法。正如一些现代雕塑家使用机器工具,一些现代艺术家使用 3D 渲染软件一样,我们认为未来的一些创造者将学会将生成 AI 视为另一种工具——一种通过解放人类思考来增强创造力的工具关于创作的不同方面。
换句话说,人类在人工智能方面的角色不是审问者,而是编辑者。
零信任作业
这是在这种新范式下家庭作业可能是什么样子的示例。想象一下,一所学校获得了一套 AI 软件套件,希望学生使用它来回答有关霍布斯或其他任何问题的问题;生成的每个答案都会被记录下来,以便教师可以立即确定学生没有使用不同的系统。此外,教师没有徒劳地要求学生自己写论文,而是坚持使用人工智能。不过,事情是这样的:系统会经常给出错误的答案(而且不仅仅是偶然的——错误的答案通常会被故意推出);家庭作业的真正技能在于验证系统产生的答案——学习如何成为验证者和编辑者,而不是反省者。
这种新技能的引人注目之处在于,它不仅仅是一种在 AI 主导的世界中越来越重要的能力:它是一种在今天非常有价值的技能。毕竟,只要内容是由人类而不是人工智能生成的,互联网就不是“对的”;实际上,ChatGPT 输出的一个类比是我们都熟悉的那种张贴者,他们权威地断言事物,无论它们是否真实。现在,验证和编辑是每个人的基本技能。
这也是与自由社会兼容的对互联网错误信息的唯一系统性回应。在 COVID 出现后不久,我写了零信任信息,证明了错误信息的唯一解决方案是采用零信任网络背后的相同范例:
答案是甚至不要尝试:不要试图将所有东西都放在城堡内,而是将所有东西都放在护城河外的城堡里,并假设每个人都是威胁。因此得名:零信任网络。
在此模型中,信任处于经过验证的个人级别:访问(通常)取决于多因素身份验证(例如密码和受信任的设备或临时代码),甚至一旦通过身份验证,个人也只能访问粒度-定义的资源或应用程序……简而言之,零信任计算从互联网假设开始:每个人和所有事物都相互连接,无论好坏,并利用零交易成本的力量在比以往更分散和更细粒度的水平上做出连续的访问决策在涉及到物理安全时,这永远是可能的,这使得城堡和护城河安全核心的根本矛盾变得毫无意义。
我认为年轻人已经在错误信息方面适应了这种新范式:
为此,与其试图与互联网作斗争——尝试围绕信息建造一座城堡和护城河,并由此产生所有不可能的权衡——拥抱洪水还有多少价值呢?所有可用的证据表明,尤其是年轻人正在弄清楚个人验证的重要性;例如, 牛津路透社研究所的这项研究:
在我们的采访中,我们并没有发现我们经常听到的年轻人对媒体的信任危机。人们普遍对一些政治化的观点表示怀疑,但也有很多人对一些个人喜爱的品牌的质量表示赞赏。假新闻本身被视为比民主崩溃更令人讨厌,特别是考虑到与公众似乎受到的关注相比,问题的感知规模相对较小。因此,用户觉得自己有能力解决这些问题。
路透社研究所此前的一项研究还发现, 社交媒体暴露了更多与线下新闻消费相关的观点,另一项研究表明,政治两极分化在使用互联网最少的老年人中最为严重。
同样,这并不是说一切都很好,无论是短期的冠状病毒还是中期的社交媒体和无中介信息。然而,有理由保持乐观,相信事情会变得更好,我们越快接受这样的想法,即更少的守门人和更多的信息意味着创新和好的想法,与那些伴随着互联网已经学会忽略。
那篇文章最大的错误是假设信息的分布是正常的;事实上,正如我在定义信息中指出的那样,不良信息的数量要多得多,原因很简单,因为生成这些信息的成本更低。现在,由于人工智能,信息泛滥将变得更加巨大,虽然它通常是正确的,但有时也是错误的,对于个人来说,弄清楚哪个是哪个是很重要的。
解决方案将从互联网假设开始,这意味着丰富,并选择洛克和孟德斯鸠而不是霍布斯:与其坚持自上而下的信息控制,不如拥抱丰富,并委托个人来解决问题。就人工智能而言,不要禁止学生或其他任何人使用它;利用它来创建一个教育模型,该模型从假设内容是免费的开始,真正的技能是将其编辑成真实或美丽的东西;只有这样,它才会有价值和可靠。