ChatGPT 3.5 一年前推出,我认为我们仍在解决问题所在。 AGI 的争论发生在一个角落(现在大多数人都忽略了),而半导体、模型尺寸和运行成本的对话则发生在其他角落,但我最感兴趣的是产品。这有什么用?你会用一项承诺无所不能的技术来做什么?
今年夏天,比尔·盖茨表示,当他在 20 世纪 70 年代末在 Xerox PARC 看到第一个 GUI 时,他意识到这可能是谁可以使用计算机的一个重大变化。您不再需要学习键盘命令 – 相反,您只需单击您需要的内容即可。但是,您仍然需要其他人来创建您单击或点击的每个单独工具:必须有人制作按钮。法学硕士看起来像是泛化水平的又一个重大变化:一个软件可以变成任何工具。
大约十年前推出的语音助手浪潮让我们在这方面起步错误。 Alexa 及其模仿者大多未能超越声控扬声器、时钟和电灯开关,而他们失败的明显原因是他们只解决了一半的问题。新的机器学习意味着语音识别和自然语言处理足以构建完全通用和开放的输入,但尽管你可以问任何问题,但它们实际上只能回答 10 或 20 或 50 件事,而且每一个都必须是由亚马逊、苹果或谷歌的人一一手工构建。 Alexa 只能做板球得分,因为亚马逊的某人构建了一个板球得分模块。这些答案通过机器学习转回语音,但答案本身必须手动创建。机器学习可以做输入,但不能做输出。
法学硕士从理论上解决了这个问题,因为从理论上讲,你现在不仅可以问任何问题,还可以得到任何问题的答案。与所有机器学习一样,法学硕士将逻辑问题转化为统计问题:您无需为每个可能的问题手动编写模式(这无法扩展),而是为机器提供所有文本和数据的有意义的样本它会为自己制定模式,并且确实可以扩展(或者应该可以扩展)。你得到了机器来制造机器,现在你有了输入和输出。第一阶段是法学硕士可以回答有关训练数据中任何内容的问题,但第二步是,实际上,这在某种意义上是一个推理引擎,因此您可以要求它阅读一些网页,或者向它提供一些内容数据,找出答案。以下是关于本周英国现场新闻报道的查询:原则上该主题不在训练数据中。 ChatGPT 阅读了一些新闻网站并找出了答案。
这是可以理解的令人陶醉的,但我认为它给我们带来了两个新问题——科学问题和产品问题。你可以问任何问题,系统会尝试回答,但可能是错误的;而且,即使答案正确,答案也可能不是解决问题的正确方法。
首先,科学问题。去年我们都在谈论“错误率”或“幻觉”(事实上,我也在这里写过关于它们的文章)。法学硕士的突破在于创建了一个可以通过机器大规模构建的统计模型,而不是(今天)必须手动构建且无法扩展的确定性模型。这就是它们起作用的原因,但其本质是统计概率模型不会给出二元意义上的“正确”答案,而只能给出可能的答案。这些屏幕截图是我最喜欢的插图:如果您想要像我这样的人的传记,这两个都是很好的结果。它提供了合适的大学和合适的工作。但如果你想知道我实际上去了哪所大学,你现在不能使用 ChatGPT – 它会给出正确的“类型”答案,这可能是也可能不是“正确”答案。这不是数据库。
是否以及如何解决、修复或管理这个问题是目前人工智能中基本的主要科学问题之一(现在尝试这些查询,你会得到不同的结果,但不一定是更好的结果),你可以花你一生中的一周都会观看资深人工智能科学家在 YouTube 上争论这个问题的视频,最后得出的结论是他们真的不知道。 (这在一定程度上也是 AGI 问题,人们也可以这么说。)
与此同时,这在哪里以及如何重要?你可以问 Alexa 任何问题,但它只能回答十件事。 ChatGPT 会回答任何问题,但你能使用这个答案吗?这取决于问题。
如果出于某种原因你确实想知道本尼迪克特·埃文斯 (Benedict Evans) 在哪里上的大学,那么这些屏幕截图将毫无用处,你应该使用谷歌。但如果您正在集思广益,为小说或电影中的人物传记,这可能是完美的。有些问题没有错误答案,或者有多种可能的正确答案。同时,如果有人要求我写一篇很长的自我传记,而我又不想花半个小时写它,那就太好了——我可以看到错误并修复它们,而且它仍然非常有帮助。我总是把机器学习的最后一波描述为给你无限的实习生,这也适用于这里:ChatGPT 是一个实习生,可以写一份初稿,或者一百份初稿,但你必须检查它。
这是一个科学问题,也是一个用例问题,但它也是一个产品问题 – 如何呈现和包装不确定性?这是使用法学硕士进行一般网络搜索的一个非常基本的问题:谷歌给你十个蓝色链接,它传达的信息是“它可能是其中之一 – 看看你的想法”(并将我们所有人变成机械土耳其人,通过选择向谷歌提供反馈最佳答案)。但是聊天机器人会为您提供三段文本,其中明显有确定性作为“答案”,以及脚注、点击免责声明和“小心!”最后的样板并不能真正解决这个问题。这可能是一个产品设计问题(“建议更多答案”),但我认为这种确定性的错误印象也延伸到了文本格式本身:法学硕士现在可以进行完美的自然语言生成,这往往隐藏了底层模型中的缺陷。他们生成的散文在语法和语言上都是正确的,而散文完美的事实往往掩盖了散文所表达内容的弱点。 (如果你要求一张桌子,同样的问题在某种程度上也适用 – 它会给你一些看起来像桌子的时间,但你必须检查数字。)
然而,退一步来说,我认为产品问题实际上比错误率要广泛得多。我之前说过,我认为 Alexa 和其他语音助手的失败有两个原因,其中之一是机器学习无法解决输出,只能解决输入。现在情况已经改变了。但第二个原因是,我认为自然语言、语音或文本不一定是正确的界面,即使你正在与 AGI 交谈,即使它是“正确的”,而且,更根本的是,提出问题并得到答案答案可能是一个狭窄的接口,而不是通用的接口。
最简单的挑战是问什么。您有一个文本框和一个提示。你输入什么?你能要求什么?如今所有关于人工智能的讨论似乎都在寻找隐喻,因此,作为一名分析师,我认为思考 Excel 很有趣。你有一个可以做“任何事情”的无限网格,那么你用它做什么呢?你会做什么?这可能是一个很难回答的问题。 LLM 文本提示有很多“空白画布”的挑战,但限制更少。
其中一些是熟悉、探索或欲望路径,而我的一些反对意见是“传统思维”。每当我们获得新工具时,我们首先会强制它适应我们现有的工作方式,然后随着时间的推移,我们会改变工作以适应新工具。我们尝试将 ChatGPT 视为 Google 或数据库,而不是问它有什么用。我们怎样才能改变工作来推进这一点呢?
Excel 与许多现代软件一样,试图提供帮助。当您今天打开它时,您不会看到空白的电子表格。您会得到想法和建议。
ChatGPT 现在正在尝试做同样的事情 – “我应该用这个做什么?”
不过,这让我想到了第二个问题。 Excel 不仅仅提供建议 – 这些图块是文档,而文档是流程的开始,而不是答案。您可以看到您已构建的内容、正在执行的操作以及已取得的进展。创作与流程的感觉同样适用于 Photoshop、Ableton 或 Powerpoint,甚至是简单的文本编辑器。关键词是编辑器——你可以编辑!
相反,使用法学硕士做任何具体的事情都是一系列的问题和答案,以及反复试验,而不是一个过程。你不会从事那些在你手下发展的事情。您创建一个输入,可能是 5 个单词或 50 个单词,或者您可能附加一个 CSV 或图像,然后按“GO”,您的提示将进入黑匣子并返回一些内容。如果这不是您想要的,您可以返回提示并重试,或者告诉黑框对第三段执行某些操作或更改图像中的树,按 GO,然后看看现在会发生什么。这感觉就像战舰作为一个用户界面——你将东西插入提示中,然后等待找出你击中的内容。
我不认为解决方案是购买隐喻性的“ChatGPT for Dummies”一书。这会告诉您,如果您输入“想象一下您是一家广告公司的一位雄心勃勃的副总裁!”,这会有所帮助。在您询问广告文案的想法之前,您可以让模型逐步完成回复,或使用插件或“代码解释器”。但如果您需要手册,它就不再是“自然语言”了。一旦你开始谈论“即时工程”,你就描述了命令行——你描述的是 GUI 之前的内容,而不是 GUI 之后的内容。
相反,回到提示本身,回到 Excel,我想起了很久以前与我交谈过的顾问,他告诉我,他的一半工作是将人们从 Excel 转移到数据库,另一半是反过来说。正如每个 Unix 功能都成为一家公司一样,“文件/新建”屏幕中的每一个模板都是一家公司。在某个时刻,您想要的控制、工具、建议等类型变得如此具体,以至于它可能成为一个全新的产品和一个全新的公司。您可以完全在 Excel 中经营一家小型企业,并使用 VLOOKUP 和一堆嵌套 IF 语句来管理发票 – 但您也可以使用Quickbooks 。
同样,您可以将 ChatGPT 与代码解释器、一些插件和包含已保存提示的文本文件一起使用 – 但将这些任务分解为工具可能会更好。今年出现了数百甚至数千个初稿的浪潮 – 所谓的“薄 ChatGPT 包装器”。提示是 API 调用,“提示工程”将是 API 参数。这就是命令行所发生的情况 – ChatGPT 的悖论在于,它既是超越图形用户界面的一步,因为你可以要求任何东西,而不仅仅是带有按钮的功能,但也是一个退步,因为很快你就必须记住一堆晦涩难懂的咒语,就像 GUI 所取代的命令行一样,并记住你上周想要做什么以及如何做的想法 – 然后你花钱请人将这些命令变成按钮。
当然,现在人工智能的一大问题是“薄 ChatGPT 包装器”中的“薄”——有多薄?如果您只是使用 GUI 进行 API 调用,那么您可能没有太多护城河。但另一方面,当今科技行业的每个人都在某种程度上包装了其他东西。 Snap 使用 Google Cloud 进行存储,但我们不称其为“瘦 GCP 包装器”。上一波机器学习部署方式的一个重要部分是,基本功能成为“超大规模”(Google Cloud、AWS 和 Microsoft Azure)的构建块,然后将这些功能集成到堆栈中更专业的产品中。一家法律软件公司可能会使用 GCP 翻译和 AWS 情绪分析,就像使用 AWS 数据存储一样,但它使用它们来构建律师事务所可以购买的东西,以及围绕这些产品的许多其他产品,以及销售队伍和对业务的了解。需要律师,而且它根本不担心来自 AWS 的竞争。然后,作为该产品的一部分,它可能会用自己的数据构建自己的模型,做超大规模企业没有做的事情。
我不知道法学硕士会在多大程度上遵循这种模式。可能会有很多更小、更便宜的开源法学硕士,或者可能会有少数非常昂贵、非常大、非常好(而且非常通用)的模型,并且可以达到很多目标。比前一波的模型更进一步。同样,你可以在 YouTube 上观看很多人对此进行辩论,但在这种情况下,我认为这不会改变要点:在很多情况下,通用系统可能会被抽象为单一用途的 UI,即使这些用户界面非常薄。
这可能与过去几十年笔式计算的屡次失败相呼应:我们使用笔,所以我们认为这是与计算机交互的正确方式,并且我们认为一旦硬件完善,其余的就会顺理成章。我们与人交谈,所以当然,如果我们可以与计算机交谈,并且它可以与我们交谈,那会更好吗?然而,苹果现在在 iPad 中拥有技术上完美的笔式计算模型,有多少人使用手写笔来处理电子邮件?这就是拟物化。也许计算机还是计算机更好,而不是冒充纸质,更不冒充实习生?我建议我们将获得大量工具来管理我们与法学硕士黑匣子的交互,当然所有这些都会变得更好,但也有可能确实需要进行根本性的范式转变从工作作为过程到法学硕士的问答模型,这仍然是固有的,并且这只适用于某些任务,而不适用于其他任务。大多数人没有用过 Apple Pencil。
回到 Excel,将我的比喻提升一个层次,今天的 ChatGPT 有时看起来更像是原始 PC,而不是 Excel(或 VisiCalc)。它是一种通用技术,有命令行,还有一些理论上很神奇的东西,还有一些对少数人来说非常有用的东西,但我们还没有拥有所有最重要的软件的丰富性 – 所有所体现的用例。目前,ChatGPT 对于编写代码、集思广益营销创意、生成文本草稿以及其他一些事情非常有用,但对于许多其他人来说,它看起来有点像 20 世纪 70 年代末的那些 PC 广告,承诺您可以用它来整理食谱或平衡你的支票簿——它可以做任何事情,但是什么呢?
原文: https://www.ben-evans.com/benedictevans/2023/10/5/unbundling-ai