2013 年,当我创办 Stratechery 时,没有比新 iPhone 的发布更大的事件了;它唯一的竞争对手是 Google I/O,也就是最新版本 Android 发布的时候(硬件总是打破平局,包括苹果在 WWDC 上推出的 iOS)。这不仅是因为智能手机相对较新并且仍在添加关键功能,而且这些平台的战略决策和最终命运仍然是一个悬而未决的问题。更重要的是,科技行业的整个未来显然与上述平台及其相应的操作系统和设备息息相关。主题演讲怎么可能不是什么大事呢?
十年过去了,科技主题演讲的重要性已经减弱,就苹果而言,它完全消失了,取而代之的是预先录制的营销视频。我很想为此生气,但这是有道理的:iPhone的介绍并没有因为苹果的演示而被削弱,而是苹果的演示反映了这样一个现实:围绕iPhone最重要的问题是关于营销策略的。您如何细分 iPhone 产品线?你们如何定价?您希望建立什么样的品牌亲和力?在那里,我刚刚总结了iPhone 15 的介绍,以及就战略考虑而言智能手机时代——开始的结束——已经结束的现实。 iOS 和 Android 是既定的,但接下来又是什么?
答案显然是人工智能,但即便如此,活力似乎也很平静:苹果除了在财报电话会议上向投资者保证他们正在研究这一领域外,还没有谈论过生成式人工智能; Google I/O 当然是关于人工智能的,但主要是在谷歌自己的产品的背景下——其中很少有产品真正发货——而我当时的文章很快就转移到了关于人工智能创新本质的哲学讨论(维持与颠覆性)、技术革命与联盟的问题,以及上周人工智能行政命令即将到来的监管之战的预览。
Meta 的 Connect 主题演讲更加有趣:不仅人工智能角色被添加到 Meta 的社交网络中,而且明年你将能够通过智能眼镜随身携带人工智能(我告诉你硬件很有趣!)。然而,似乎没有什么比昨天的 OpenAI 开发者大会(他们的第一次)所带来的活力更匹配:在科技领域,没有什么比与产品市场契合的消费产品更有趣的了。对我来说,这足以让我想起一个古老的策略备用方案:第二天的主题演讲。
主题演讲形而上学和 GPT-4 Turbo
首先,从主题演讲作为工件的意义上来说,这是一个非常好的主题演讲。首席执行官萨姆·奥尔特曼(Sam Altman)在与微软首席执行官萨蒂亚·纳德拉(Satya Nadella)幽默的交流中承诺,“我不会占用你太多时间”;没关系,纳德拉可能只是为了这次活动而来到旧金山:在这种情况下,他代表观众见证了一场紧凑的演讲,内容很有趣,让他们渴望了解更多。
奥特曼本人在舞台上表现出色,具有只有在现场主题演讲中才会出现的紧张能量。事实上,他似乎从来不知道其他主持人来自舞台的哪一边,这一点很人性化。与此同时,现场演示不仅顺利进行,而且还利用了现场演示的事实:在一个例子中,演示者指示她创建的 GPT 给 Altman 发短信;在一个例子中,演示者指示她创建的 GPT 给 Altman 发短信;他举起手机,表示收到消息。在另一个例子中,GPT 随机选择了五位观众来获得 500 美元的 OpenAI API 积分,然后将其扩展到所有人。
与此同时,新产品和功能“今天”就可用,而不是未来几周或几个月,就像 I/O 或 WWDC 等活动越来越多的情况一样;所有的一切结合起来给人一种明显的进步和兴奋感,对于人工智能来说,这基本上是正确的。
GPT-4 Turbo 是我所说的“大多数”的一个很好的例子。该 API 包含六项新功能:
- 增加上下文长度
- 更多控制,特别是在模型输入和输出方面
- 更好的知识,这既意味着将有关世界的知识的截止日期更新为 2023 年 4 月,又意味着为开发者提供轻松添加自己的知识库的能力
- 新模式,如 DALL-E 3、Vision 和 TTS(文本转语音)都将包含在 API 中,新版本的 Whisper 语音识别即将推出。
- 定制,包括微调和定制模型(奥特曼警告说,这不会便宜)
- 更高的速率限制
需要明确的是,这仍然是相同的基础模型(GPT-4);这些功能只是使 API 在功能和性能方面更加可用。它还说明了 OpenAI 如何通过迭代增强其核心功能,变得更像是一家产品公司。是的,任务仍然是 AGI(通用人工智能),核心科学团队几乎肯定正在研究 GPT-5,但 Altman 和团队并不只是把模型扔到墙上让行业其他人来弄清楚。
价格和微软
下一个“功能”与 GPT-4 Turbo 简介相关:API 变得越来越便宜(输入令牌便宜 3 倍,输出令牌便宜 2 倍)。不出所料,这一消息引起了与会开发商的欢呼;作为一名分析师,令我欢呼的是奥特曼对公司优先事项的明确阐述:首先是降低价格,然后是速度。您当然可以争论这是否是正确的优先级(我认为是的,因为现在最大的需要是增加实验,而不是优化),但我欣赏的是清晰度。
之后的部分是对纳德拉的简短“采访”,这也是合适的:OpenAI 的定价最终取决于微软构建基础设施以支持该定价的能力。纳德拉实际上在公司最近的财报电话会议上解释了微软如何实现这一目标:
确实,我们采取的方法是全栈方法,无论是 ChatGPT、Bing Chat 还是我们所有的 Copilot,都共享相同的模型。因此,从某种意义上说,我们所做的一件事是对我们使用的、我们训练的一种模型以及我们正在大规模进行推理的一种模型具有非常非常高的影响力。这种优势会一直渗透到内部利用、第三方利用,而且随着时间的推移,您可以看到堆栈优化一直延伸到硅片,因为开发人员正在使用的抽象层如果你愿意的话,它比低级内核要高得多。
因此,我认为我们采取了一种基本方法,这是一种技术方法,即我们将拥有所有可用的副驾驶和副驾驶堆栈。这并不意味着我们没有人为开源模型或专有模型进行培训。我们还有很多开源模型。我们进行了一系列微调,进行了一系列 RLHF。人们使用它的方式有很多种。但问题是,我们对一个经过训练的大型模型和一个用于所有第一方 SaaS 应用程序以及 Azure AI 服务中的 API 进行推理的大型模型进行了规模利用……
从云方面学到的教训是——我们不是在经营不同业务的集团,而是微软产品组合上下的所有技术堆栈,我认为,这将非常重要,因为考虑到这一纪律,看起来,对于这种人工智能转型,任何对所有业务中累积的资本支出不遵守纪律的企业都可能会遇到麻烦。
微软从 OpenAI 中受益的事实是显而易见的;这清楚地表明,OpenAI 也从微软那里获得了独特的好处,而这是他们无法从其他云提供商处获得的:因为微软也是一家产品公司,投资于基础设施来为上述产品运行 OpenAI 的模型,所以它有能力进行优化和优化。在使用之前进行投资是 OpenAI 无法做到的,即使有其他云提供商的支持。在这种情况下,开发人员需要支付更少的费用,或者理想情况下,有更多的自由度来发现用例,从而导致他们支付更多的费用,因为使用量呈爆炸式增长,这是值得的。
GPT 和计算机
我之前提到过 GPT;你可能很困惑,因为这个名字要么是辉煌的,要么是彻底的灾难。当然,你也可以对 ChatGPT 说同样的话:大量消费者的接受有可能使可以说是糟糕的选择变成伟大的选择,我可以理解为什么 OpenAI 寻求将“GPT”基本上打造成 OpenAI 聊天机器人,这是一个遥远的含义来自“通用预训练变压器”——重点是它们不是“通用”!
无论如何,Altman 是这样解释 GPT 的:
GPT 是针对特定目的而定制的 ChatGPT 版本。您可以为几乎任何事物构建 GPT(ChatGPT 的定制版本),并附有说明、扩展知识和操作,然后您可以将其发布以供其他人使用。因为它们结合了指导、扩展的知识和行动,所以它们可以对您更有帮助。它们可以在许多情况下更好地工作,并且可以为您提供更好的控制。它们将使您更轻松地完成各种任务或享受更多乐趣,并且您将能够在 ChatGPT 中直接使用它们。实际上,您只需与语言交谈即可对 GPT 进行编程。可以轻松自定义行为,使其符合您的需求。这使得构建它们变得非常容易,并且为每个人提供了代理权。
我们将向您展示什么是 GPT、如何使用它们、如何构建它们,然后我们将讨论它们将如何分发和发现。之后,对于开发人员,我们将向您展示如何将这些类似代理的体验构建到您自己的应用程序中。
Altman 的示例包括来自 Code.org 的课程计划 GPT 和来自 Canva 的自然语言视觉设计 GPT。正如 Altman 指出的那样,第二个示例可能看起来很熟悉:Canva 有一个 ChatGPT 插件,Altman 解释说“我们已经将插件发展为 GPT 的自定义操作。”
我发现插件概念很有趣,并且是理解大型语言模型的功能和局限性的有用方法;我在ChatGPT 获取一台计算机中写道:
这种方法的含义是计算机是确定性的:如果电路 X 开路,则 X 表示的命题为真;如果电路 X 开路,则 X 表示的命题为真; 1 加 1 总是 2;单击浏览器上的“返回”将退出此页面。当然,在单个晶体管和我们可能对计算机执行的任何操作之间存在大量的抽象和大量的逻辑,并且实际上存在无数个错误的地方,但计算机的适当心智模型是:他们完全按照他们被告知的去做(事实上,错误不是计算机犯了错误,而是程序员告诉计算机做错误事情的表现)……
然而,大型语言模型凭借其概率方法,在许多领域都非常直观,但可能会产生幻觉,并且在数学方面非常糟糕;这就是为什么 OpenAI 推出的最引人注目的插件来自 Wolfram|Alpha。斯蒂芬·沃尔弗拉姆解释说:
几十年来,人们对人工智能的思考存在着一种二分法:ChatGPT 使用的“统计方法”和实际上是 Wolfram|Alpha 起点的“符号方法”。但现在,由于 ChatGPT 的成功,以及我们为让 Wolfram|Alpha 理解自然语言所做的所有工作,终于有机会将这些结合起来,创造出比任何一个单独实现都更强大的东西。
这就是所发生的确切组合,从而产生了该文章的标题:
事实上,这种效果如此之好,本身就证明了助理人工智能是什么,什么不是:它们并不像我们之前理解的那样进行计算;它们是人工智能的一部分。他们的“思考”和交流方式非常人性化。坦率地说,我也很难解决这三个问题——这就是计算机的用途!现在 ChatGPT 拥有了自己的计算机。
我仍然认为这个概念非常优雅,但只有一个问题:用户界面很糟糕。你必须从“市场”获取一个插件,然后在开始对话之前预先选择它,只有这样,经过 ChatGPT 与相关插件提供商协商答案的漫长过程后,你才能得到可行的结果。
这个新模型在一定程度上缓解了这个问题:现在,您不必选择正确的插件(从而重新启动聊天),只需直接转到有问题的 GPT 即可。换句话说,如果我想创建海报,我不会在 ChatGPT 中启用 Canva 插件,而是转到侧边栏中的 Canva GPT。请注意,这实际上并没有解决需要选择正确工具的问题;它所做的就是让用户在流程中更合适的阶段做出更明显的选择,这可不是一件小事。我还怀疑 GPT 会比插件快得多,因为它们从一开始就是集成的。最后,独立的 GPT 更适合 OpenAI 试图开发的商店模型。
不过,还有更好的方法:奥特曼演示了它。
ChatGPT 和通用接口
在介绍上述 GPT 之前,Altman 谈到了 ChatGPT 的改进:
尽管这是一次开发者大会,我们还是忍不住要对 ChatGPT 进行一些改进。 ChatGPT 是一个小型应用,现在使用 GPT-4 Turbo,具有所有最新的改进,包括最新的截止,我们将继续更新 – 今天全部上线。现在,它可以在需要时浏览网页、编写和运行代码、分析数据、生成图像等等,我们听到您的反馈说该模型选择器非常烦人:从今天开始,它已经消失了。您不必单击下拉菜单。所有这一切都将共同发挥作用。 ChatGPT 只会知道该使用什么以及何时需要它。但这不是主要的事情。
您可能想知道为什么我将本节放在 GPT 之后,因为根据 Altman 的说法,它们是主要内容:这是因为我认为此功能增强实际上更重要。正如我刚才指出的,GPT 是一个基于优雅插件概念的更好的 UI,其中概率性大语言模型可以访问确定性计算机。然而,最好的 UI 是根本没有 UI,或者更确切地说,只是一个 UI,我的意思是“通用界面”。
在这种情况下,“浏览”或“图像生成”基本上是插件:它们是专门的功能,在今天之前,您必须显式调用;展望未来,他们只会工作。 ChatGPT 将在文本生成、图像生成和网页浏览之间无缝切换,而无需用户更改上下文。插件/GPT 想法最终扎根的必要条件是广泛扩展相同的功能:如果我的对话涉及数学,ChatGPT 应该知道自己使用 Wolfram|Alpha,而无需我添加插件或者去专门的 GPT。
我可以理解为什么这种功能还不存在:正确暴露功能并训练模型以了解何时调用这些功能的明显技术挑战是 Clayton Christensen 教授的集成和模块化理论的教科书示例,其中集成在以下情况下效果更好产品不够好;只有当产品超出预期时,才有标准化、模块化的空间。为此,ChatGPT 现在才具备在不选择模式的情况下生成图像的能力:我预计寻找不太明显的工具的能力将相当困难。
事实上,整个插件/GPT 方法最终可能会陷入死胡同;在主题演讲接近尾声时,OpenAI 开发体验主管 Ramon Huet 明确演示了 ChatGPT 计算机编程。该场景是为巴黎的 Airbnb 分摊费用:
代码解释器现在也可以在 API 中使用。这使得人工智能能够在文件上编写和生成代码,甚至生成文件。那么让我们看看它的实际效果。如果我在这里说:“嘿,我们将有 4 个朋友住在这家 Airbnb 上,我的房费加上我的航班费用是多少?”
现在发生的事情是,代码解释器注意到它应该编写一些代码来回答这个查询,所以现在它正在计算在巴黎的天数、朋友的数量,它还在幕后进行一些汇率计算以获得这个答案我们。不是最复杂的数学,但你明白了:假设你正在构建一个非常复杂的财务应用程序,它需要计算无数的数字、绘制图表,以及任何你可能用代码处理的任务,那么 Code Interpreter 就会很好地工作。
嗯,哪些任务你不使用代码来处理?公平地说,Huet 指的是相当简单的面向数学的任务,而不是互联网上每个应用程序的大规模重新创建,但考虑一下 ChatGPT 将获得选择正确工具的智慧,以及它针对哪些问题是很有趣的。只会暴力破解新的解决方案;计算的历史实际上会给后者一个更高的概率:有很多问题不是通过聪明的算法解决的,而是通过摩尔定律的应用解决的。
消费者和硬件
说到 Stratechery 的第一年,那是我第一次在What Clayton Christensen Got Wrong中撰写有关集成和模块化的文章;正如标题所示,我认为该理论并不具有普遍性:
克里斯滕森本人在上面摘录的第一句话(2006 年)中阐述了他的理论的主要缺陷:
您还可以在飞机、软件、医疗设备等方面看到它。
这就是问题所在:消费者不购买飞机、软件或医疗设备。企业确实如此。
克里斯滕森的理论是基于企业而不是消费者做出的购买决策的例子。这很重要的原因是低端颠覆理论假设:
- 买家是理性的
- 每个重要的属性都可以记录和测量
- 模块化提供商可以在对买家重要的所有属性上变得“足够好”
所有这三个假设在消费市场上都失败了,这最终也是克里斯滕森的理论失败的原因。让我依次来说一说:
总结一下这个论点,消费者关心事物的方式与你可能赋予其效用的任何价格不一致,他们优先考虑易用性,他们关心用户体验的质量,因此特别受到接缝的困扰模块化解决方案所固有的。这意味着集成解决方案获胜,因为没有什么是“足够好”的;正如我在亚马逊的背景下指出的,神圣的不满是颠覆的解药:
不过,贝佐斯的信揭示了专注于客户的另一个优势:它使得不可能过度关注。当我五年前写那篇文章时,我正在思考关注用户体验所提供的机会,就好像它是一条渐近线:人们可以越来越接近最终的用户体验,但永远无法实现它:
但事实上,消费者的期望并不是一成不变的:正如贝索斯令人难忘的说法,消费者的期望是“神圣的不满”。今天令人惊奇的是明天的赌注,也许令人惊讶的是,这创造了巨大的商机:如果您的公司致力于为消费者提供尽可能最佳的体验,那么您的公司将永远无法实现其目标。
就亚马逊而言,这种无法实现且不断变化的目标已深深植根于公司文化之中,再加上该公司展示出的利用现有业务的利润开展新业务的能力,就像一种永动机。
我认为这两篇文章没有理由不适用于 ChatGPT:虽然我可能会认为幻觉在某种意义上是一种功能而不是错误,但事实是很多人使用 ChatGPT 来获取信息尽管事实上它在真相方面存在有据可查的缺陷;这个缺陷是可以接受的,因为对于客户来说,为了易用性而牺牲准确性是值得的。或者看看插件:最初实现的概念已经被放弃,因为用户界面的复杂性比任何可能的实用程序都更有害。这种模式似乎会继续下去:当然,客户会说他们想要准确性和第三方工具;他们的行动将继续证明便利性和易用性是最重要的。
这有两个含义。首先,虽然这可能是 OpenAI 的第一次开发者大会,但我仍然不相信 OpenAI 会成为一家真正以开发者为中心的公司。我认为那是 Altman 的计划,但现实以 ChatGPT 的形式介入:ChatGPT 是自 iPhone 以来最重要的面向消费者的产品,使 OpenAI 成为意外的消费者科技公司。推而广之,这意味着集成将继续比模块化更重要,这对微软的计算堆栈来说非常有用,但对开发人员来说可能就不那么令人兴奋了。
其次,使用 ChatGPT 时仍然存在一大块摩擦;来自人工智能、硬件和虚拟现实:
人工智能确实是一种新的、革命性的东西,它不仅仅是一种家庭作业辅助工具,但我不认为现有的界面是正确的。与 ChatGPT 交谈比打字更好,但我仍然需要启动应用程序并设置模式;视觉是一种令人惊奇的能力,但它需要更多的意图和摩擦才能调用。我可以看到这样一个场景:Meta 的 AI 在技术上不如 OpenAI,但更有用,只是因为它具有更好的外形。
在强调了一些有关 OpenAI 可能与 Jony Ive 合作构建硬件的新闻报道后,我得出结论:
显然,在推出潜在的硬件产品之前还有很多步骤,包括实际同意构建一个。当然,苹果和谷歌已经制造了每个人都可以携带的设备,尤其是后者在自己的人工智能能力上投入了大量资金;押注市场上的硬件,赢得人工智能领域的硬件机会是最安全的赌注。不过,这或许并不是 OpenAI 或 Meta 放弃努力的理由:与谷歌和苹果展开硬件大战会很困难,但如果人工智能的能力完全实现,“只是一个应用程序”可能会更糟糕。依赖于完全消除流程中的人为摩擦。
这就是 ChatGPT 正在努力实现的通用界面的含义:它还需要通用访问,这对于任何“只是一个应用程序”的公司来说始终是一个挑战。是的,正如我所指出的,由于苹果和谷歌的主导地位,这种可能性似乎很小,但我认为,范式转变的主题演讲才刚刚开始卷土重来,这是一个外部机会。