2022年的故事是人工智能的出现,首先是图像生成模型,包括DALL-E、MidJourney和开源的Stable Diffusion,然后是ChatGPT,第一个文本生成模型取得重大突破。在我看来,这是技术的新纪元。
不过,要确定那个时代可能会如何发展,回顾 26 年前有史以来最著名的战略书籍之一是很有用的:克莱顿·克里斯滕森 (Clayton Christensen) 的《创新者的困境》( The Innovator’s Dilemma ),尤其是这段关于不同类型创新的文章:
大多数新技术都促进了产品性能的提高。我称这些为持续性技术。一些持续性技术可能具有不连续性或激进性,而其他技术则具有渐进性。所有持续性技术的共同点是,它们根据主要市场的主流客户历来重视的性能维度,改进既定产品的性能。特定行业的大多数技术进步都具有持续性……
颠覆性技术为市场带来了与以往截然不同的价值主张。一般来说,颠覆性技术在主流市场上的表现不如成熟产品。但它们还有一些边缘(通常是新)客户看重的其他功能。基于颠覆性技术的产品通常更便宜、更简单、更小,而且通常使用起来更方便。
通过观察现有公司在创新进入市场后的表现,似乎很容易回顾并确定创新是持续性的还是破坏性的:如果创新是持续性的,那么现有公司会变得更强大;如果它具有破坏性,那么大概是初创公司获得了大部分价值。
考虑以前的技术时代:
- PC 对几乎所有现有的现任者都具有破坏性;这些相对便宜和低功耗的设备几乎没有小型计算机的能力或利润率,更不用说大型机了。这就是为什么 IBM 乐于将原始 PC 的芯片和操作系统分别外包给英特尔和微软,这样他们就可以推出产品并满足他们的企业客户;个人电脑变得更快了,不过,英特尔和微软占据了主导地位,因为市场上的一切都相形见绌。
- 互联网几乎是全新的市场创新,因此由全新的公司定义,这些公司在颠覆现有企业的范围内,在远离技术的行业中这样做,尤其是那些涉及信息的行业(即媒体)。这是谷歌、Facebook、在线市场和电子商务等的时代。所有这些应用程序都运行在由 Windows 和英特尔驱动的 PC 上。
- 云计算可以说是互联网的一部分,但我认为它应该有自己的一类。它也极具破坏性:商品 x86 架构淘汰了专用服务器硬件,大量 SaaS 初创公司剥离了现有企业的功能以建立公司。值得注意的是,云计算的核心基础设施主要是由前几个时代的赢家建造的:亚马逊、微软和谷歌。微软尤其引人注目,因为该公司还将其传统软件业务转变为 SaaS 服务,部分原因是该公司已经将上述软件业务转变为订阅模式。
- 移动最终由两家老牌公司主导:苹果和谷歌。不过,这并不意味着它没有颠覆性:Apple 的新 UI 范式要求不要将手机视为小型 PC,就像微软那样;谷歌的新商业模式范式不要求将手机视为操作系统销售的直接利润中心,而是将其视为其广告业务的护城河。
这段历史值得注意的是,我上面所说的假设并不完全正确;颠覆性创新确实始终来自市场的新进入者,但这些新进入者不一定是初创公司:在以前的技术时代,一些最大的赢家是现有公司利用其当前业务进入新领域。与此同时,克里斯滕森理论的其他原则也成立:微软在移动领域苦苦挣扎,因为它具有颠覆性,但 SaaS 最终得以维持,因为它的商业模式已经一致。
鉴于现有公司在新时代取得的成功,在考虑人工智能的影响时,最明显的起点是五巨头:苹果、亚马逊、Facebook、谷歌和微软。
苹果
我已经参考了一本关于技术战略的最著名的书;最著名的文章之一是 Joel Spolsky 的Strategy Letter V ,尤其是这句著名的话:
聪明的公司试图将其产品的互补品商品化。
Spolsky 在解释为什么大公司会投资开源软件时写下了这句话:
调试代码不是免费的,无论是专有的还是开源的。即使您不为此支付现金,它也有机会成本和时间成本。可用于开源工作的志愿编程人才数量有限,每个开源项目都与其他开源项目竞争同样有限的编程资源,只有最性感的项目才真正拥有超过他们可以使用的志愿开发人员。总而言之,我对那些试图证明免费啤酒软件的疯狂经济事物的人印象不深,因为就我而言,他们只是得到被零除的错误。
开源不能免于重力法则或经济学。我们在 Eazel、ArsDigita、The Company Formerly Known as VA Linux 和许多其他尝试中看到了这一点。但是开源世界中很少有人真正理解的事情仍在发生:许多非常大的上市公司,肩负着最大化股东价值的责任,正在投入大量资金来支持开源软件,通常是通过支付大型团队的程序员来处理它。这就是补语原理所解释的。
再一次:当产品的互补品价格下降时,对产品的需求增加。一般而言,公司的战略利益是尽可能降低其互补产品的价格。理论上可持续的最低价格将是“商品价格”——当你有一群竞争对手提供无法区分的商品时出现的价格。因此,聪明的公司会尝试将其产品的互补品商品化。如果你能做到这一点,对你产品的需求就会增加,你就能收取更多的费用,赚更多的钱。
Apple 投资开源技术,最著名的是用于其操作系统的 Darwin 内核和 WebKit 浏览器引擎;后者符合 Spolsky 的处方,因为确保网络与 Apple 设备配合良好可以使 Apple 的设备更有价值。
与此同时,苹果在 AI 方面的努力在很大程度上是专有的:传统的机器学习模型用于推荐、照片识别和语音识别等方面,但并没有对苹果的业务产生重大影响。不过,Apple 确实从开源世界收到了一份不可思议的礼物:Stable Diffusion。
Stable Diffusion 之所以引人注目,不仅因为它是开源的,还因为它的模型出奇的小:当它发布时,它已经可以在一些消费类显卡上运行;几周之内,它就被优化到可以在 iPhone 上运行的程度。
值得称赞的是,Apple 抓住了这个机会,其机器学习团队上个月发布了以下公告:
今天,我们很高兴发布针对 macOS 13.1 和 iOS 16.2 中稳定扩散的 Core ML 优化,以及开始部署到 Apple Silicon 设备的代码……
在任何应用程序中稳定扩散的关键问题之一是模型运行的位置。在应用程序中在设备上部署 Stable Diffusion 比基于服务器的方法更可取的原因有很多。首先,最终用户的隐私受到保护,因为用户提供作为模型输入的任何数据都保留在用户的设备上。其次,初始下载后,用户无需互联网连接即可使用该模型。最后,在本地部署此模型使开发人员能够减少或消除与服务器相关的成本……
针对稳定扩散优化 Core ML 并简化模型转换,让开发者能够更轻松地以保护隐私且经济可行的方式将这项技术整合到他们的应用程序中,同时在 Apple Silicon 上获得最佳性能。此版本包含一个用于使用扩散器和 coremltools 将稳定扩散模型从 PyTorch 转换为 Core ML 的 Python 包,以及一个用于部署模型的 Swift 包。
值得注意的是,这个公告分为两部分:首先,Apple 优化了 Stable Diffusion 模型本身(它可以这样做,因为它是开源的);其次,苹果更新了操作系统,得益于苹果的集成模式,已经针对苹果自己的芯片进行了调整。
此外,可以肯定地说这只是一个开始:尽管苹果多年来一直在自己的芯片上推出所谓的“神经引擎”,但人工智能专用硬件已根据苹果自身的需求进行了调整;看来未来的 Apple 芯片,即使不是今年,也可能是明年,也将针对 Stable Diffusion 进行调整。与此同时,Stable Diffusion 本身可以内置到 Apple 的操作系统中,并为任何应用程序开发人员提供易于访问的 API。
这提出了将“足够好”的图像生成功能有效地内置到 Apple 设备中的前景,因此任何开发人员都可以使用它,而无需扩展病毒式传播的 Lensa 所需的那种后端基础设施。而且,推而广之,这个世界的赢家最终看起来很像 App Store 时代的赢家:Apple 获胜是因为其集成和芯片优势被用于提供差异化的应用程序,而小型独立应用程序制造商拥有 API 和建立新业务的分销渠道。
另一方面,输家将是集中式图像生成服务,如 Dall-E 或 MidJourney,以及支持它们的云提供商(迄今为止,支持上述 Stable Diffusion 应用程序,如 Lensa)。可以肯定的是,Apple 设备上的 Stable Diffusion 不会占领整个市场——Dall-E 和 MidJourney 都比 Stable Diffusion“更好”,至少在我看来是这样,当然苹果设备之外还有广阔的世界,但内置的本地功能将影响集中式服务和集中式计算的最终目标市场。
亚马逊
亚马逊和苹果一样,在其应用程序中使用机器学习;不过,图像和文本生成等直接消费者用例似乎不太明显。已经很重要的是 AWS,它出售对云端 GPU 的访问权。
其中一些用于训练,包括 Stable Diffusion,据 Stability AI 的创始人兼首席执行官 Emad Mostaque 称,它使用 256 台 Nvidia A100 运行 150,000 小时,市场价格为 600,000 美元(低得惊人!)。不过,更大的用例是推理,即实际应用模型生成图像(或文本,在 ChatGPT 的情况下)。每次您在 MidJourney 中生成图像或在 Lensa 中生成头像时,推理都会在云中的 GPU 上运行。
亚马逊在这一领域的前景将取决于多种因素。首先,也是最明显的是,这些产品最终在现实世界中的用处有多大。不过,除此之外,Apple 在构建本地生成技术方面取得的进展可能会产生重大影响。不过,亚马逊本身就是一家芯片制造商:虽然迄今为止它的大部分努力都集中在其 Graviton CPU 上,但该公司可以为 Stable Diffusion 等模型构建自己的专用硬件,并在价格上展开竞争。尽管如此,AWS 还是在两面下注:就 Nvidia 的产品而言,云服务也是一个主要合作伙伴。
亚马逊的短期大问题将在于衡量需求:没有足够的 GPU 将导致资金流失;但是,购买太多闲置的产品对于试图限制它们的公司来说将是一项重大成本。同时,这还不是最糟糕的错误:AI 面临的挑战之一是推理需要花钱;换句话说,用 AI 做东西是有边际成本的。
我怀疑,就开发引人注目的人工智能产品而言,边际成本问题是一个未被充分认识的挑战。虽然云服务总是有成本的,但人工智能生成的离散性可能使得为实现产品市场匹配所需的迭代提供资金具有挑战性;我认为 ChatGPT 是迄今为止最大的突破性产品,它不仅对最终用户免费,而且由 OpenAI 中的一家公司提供,这两家公司都建立了自己的模型,并与微软就计算能力达成了一项甜心交易,我认为这并非偶然。如果 AWS 必须以低价出售 GPU,从长远来看可能会刺激更多的使用。
值得注意的是,这些成本应该会随着时间的推移而下降:即使芯片本身变得更快、更高效,模型也会变得更有效率,一旦市场上有足够的产品最大限度地利用云服务,云服务就应该有规模回报他们的投资。尽管如此,除了上述在本地运行推理的可能性之外,全栈集成将产生多大影响仍然是一个悬而未决的问题。
元
我已经在Meta Myths中详细说明了为什么我认为 AI 对 Meta 来说是一个巨大的机会,值得公司投入巨额资本支出:
Meta 拥有庞大的数据中心,但这些数据中心主要用于 CPU 计算,这是为 Meta 的服务提供动力所需要的。 CPU 计算也是驱动 Meta 的确定性广告模型及其用于从您的网络推荐内容的算法所必需的。
不过,ATT 的长期解决方案是建立概率模型,不仅可以确定应该针对谁(公平地说,Meta 已经在使用机器学习),还可以了解哪些广告转化了,哪些没有转化。吨。这些概率模型将由大量 GPU 构建,就 Nvidia 的 A100 卡而言,成本高达五位数;在一个确定性广告效果更好的世界里,这可能太贵了,但 Meta 已经不在那个世界了,不投资于更好的定位和衡量是愚蠢的。
此外,同样的方法对于 Reels 的持续增长至关重要:从整个网络推荐内容比仅从您的朋友和家人推荐内容要困难得多,特别是因为 Meta 计划不仅推荐视频,还推荐所有类型的媒体,并在其中穿插您关心的内容。在这里,人工智能模型也将是关键,而构建这些模型的设备需要花费大量资金。
不过,从长远来看,这项投资应该会有所回报。首先,我刚才描述的更好的定位和更好的推荐有好处,这应该会重新启动收入增长。其次,一旦这些人工智能数据中心建成,维护和升级它们的成本应该大大低于首次建设它们的初始成本。第三,这项巨额投资是除 Google 之外其他公司无法进行的投资(而且,并非巧合的是,Google 的资本支出也将增加)。
最后一点也许是最重要的:ATT 对 Meta 的伤害比任何其他公司都大,因为它已经拥有迄今为止最大、最精细调整的广告业务,但从长远来看,它应该会加深 Meta 的护城河。对于像 Snap 或 Twitter 这样的公司或任何其他在数字广告领域处于劣势的公司来说,这种投资水平根本不可行(甚至超出了 Snap 依赖云提供商而不是自己的数据中心的事实);当您将 Meta 的广告定位可能会开始远离该领域(Google 之外)这一事实与来自 Reels 的库存大量增加(这会降低价格)这一事实结合起来时,这将是一个奇迹,为什么任何广告商都会打扰去别的地方。
使 Meta 的 AI 发挥作用的一个重要因素不仅仅是构建基础模型,还在于持续针对个人用户对其进行调整;这就是需要如此大量容量的原因,Meta 必须弄清楚如何经济高效地进行这种定制。不过,这有助于 Meta 的产品可能会越来越集成:虽然该公司可能已承诺向高通公司提供其 VR 耳机的芯片,但 Meta 仍在继续开发自己的服务器芯片;该公司还发布了为其工作负载抽象出 Nvidia 和 AMD 芯片的工具,但该公司似乎也在开发自己的 AI 芯片。
有趣的是,从长远来看,图像和文本生成等事物如何影响 Meta: Sam Lessin 假设算法时间线的最终游戏是 AI 内容;谈到 Metaverse 时,我也提出了同样的论点。换句话说,虽然 Meta 正在投资 AI 以提供个性化推荐,但这个想法与 2022 年的突破相结合,是通过 Meta 渠道提供的个性化内容。
现在,看看 Meta 的广告工具如何发展将会很有趣:生成和 A/B 测试副本和图像的整个过程都可以由 AI 完成,而且在大规模提供这些功能方面,没有公司比 Meta 更好.请记住,Meta 的广告主要针对漏斗的顶部:目标是吸引消费者对他们以前不知道的产品或服务或应用程序的注意;这意味着会有很多失误——绝大多数广告没有转化——但这也意味着有很大的实验和迭代空间。这似乎非常适合人工智能:是的,发电可能有边际成本,但这些边际成本远低于人类。
谷歌
《创新者的窘境》于 1997 年出版;在那一年,伊士曼柯达的股票达到了最高价 94.25 美元,而且理由似乎很充分:就技术而言,柯达处于完美的位置。该公司不仅主导了当前的胶片技术,还发明了下一波浪潮:数码相机。
问题归结为商业模式:柯达通过提供卤化银胶片赚了很多钱,利润率很高;另一方面,数码相机是数码相机,这意味着它们根本不需要胶卷。因此,柯达的管理层非常有动力说服自己,数码相机只会供业余爱好者使用,而且只有当它们变得非常便宜时,这肯定会花费很长时间。
事实上,柯达的管理层是对的:从数码相机发明到数码相机销量超过胶片相机销量,用了25年多的时间;数码相机用于专业应用还需要更长的时间。柯达在此期间赚了很多钱,并派发了数十亿美元的股息。而且,虽然该公司在 2012 年破产,但那是因为消费者可以获得更好的产品:首先是数码相机,最终是内置摄像头的手机。
可以肯定的是,认为这是一个圆满结局的想法是一种逆向观点:大多数人认为柯达是失败的,因为我们希望公司永远存在。从这个角度来看,柯达是一个警示故事,说明一家创新公司如何允许其商业模式将其引向最终的厄运,即使所说的厄运是消费者得到更好的东西的结果。
因此我们来到了谷歌和人工智能。谷歌发明了变压器,这是支撑最新人工智能模型的关键技术。据传谷歌有一款对话聊天产品,其性能远远优于 ChatGPT。谷歌声称其图像生成能力优于 Dall-E 或市场上的任何其他公司。然而,这些声明只是:声明,因为市场上没有任何实际产品。
这并不奇怪:谷歌长期以来一直是使用机器学习来改进其搜索和其他面向消费者的产品的领导者(并通过谷歌云提供该技术作为服务)。然而,搜索一直依赖于人类作为最终的仲裁者:谷歌将提供链接,但用户通过点击来决定哪个是正确的。这扩展到广告:谷歌的产品是革命性的,因为它不是按展示次数向广告商收费——其价值很难确定,尤其是在 20 年前——而是按点击次数收费;广告商试图接触的人将决定他们的广告是否足够好。
七年前,我在《谷歌与战略局限》一文中写到了谷歌在人工智能世界中的业务所面临的难题:
在昨天的主题演讲中,谷歌首席执行官桑达尔皮查伊在回顾技术历史并强调我在 2014 年底描述的 PC-Web-Mobile 时代后,宣布我们正在从移动优先的世界转向人工智能优先的世界;这就是引入 Google Assistant 的背景。
在上述 iOS 6 之前的一年,Apple 首次以 Siri 的名义引入了助手的想法。你第一次可以(理论上)通过语音进行计算。一开始它的效果不是很好(可以说它现在仍然没有),但是对一般计算和谷歌的影响是深远的:语音交互都扩展到可以进行计算的地方,从你可以专注于你的眼睛和把手放在您的设备上,以便在任何地方都有效,即使它限制了您可以做的事情。助手必须比搜索结果页面更主动;仅提供可能的答案是不够的:相反,助手需要给出正确的答案。
这对谷歌技术来说是一个可喜的转变;从一开始,搜索引擎就包含了一个“我手气不错”的按钮,谷歌创始人拉里佩奇非常有信心搜索引擎可以为你提供你想要的准确结果,虽然昨天的谷歌智能助理演示是固定的,但结果,特别是在上下文感知方面,比市场上的其他助手更令人印象深刻。更广泛地说,很少有人质疑谷歌在作为其助手基础的人工智能和机器学习方面是明显的领导者。
然而,一项业务不仅仅关乎技术,谷歌在助手方面尤其存在两个重大缺陷。首先,正如我在今年的 Google I/O 之后所解释的那样,该公司在进入市场方面存在差距:助手只有在可用时才有用,对于数亿 iOS 用户而言,这意味着需要下载和使用单独的应用程序(或构建用户愿意在其中花费大量时间的体验,例如 Facebook)。
其次,尽管如此,谷歌有一个商业模式问题:“手气不错的按钮”保证相关搜索不会让谷歌赚到钱。毕竟,如果用户不必从搜索结果中进行选择,则表示用户也没有机会点击广告,从而选择谷歌在其广告商之间为吸引用户注意力而创建的竞争的赢家。 Google Assistant 也有同样的问题:广告去哪儿了?
那篇文章假设 Google Assistant 将被用来区分谷歌手机作为独家产品;这最终是错误的,但潜在的分析仍然有效。在过去的七年里,谷歌的主要商业模式创新一直是将更多的广告塞进搜索中,这是一种在移动设备上特别有效的策略。而且,公平地说,谷歌最赚钱的搜索类型——旅游、保险等——可能无论如何都不太适合聊天界面。
不过,这只会增加谷歌管理层的担忧,即在特定的搜索环境中,生成人工智能可能代表一种颠覆性创新,而不是持续性创新。至少在开始时,颠覆性创新不如现有的创新;这就是为什么它很容易被管理者忽略的原因,他们可以通过(正确地!)告诉自己他们当前的产品更好来避免思考商业模式的挑战。当然,问题是颠覆性产品变得更好,即使现任产品变得越来越臃肿和难以使用——这听起来很像谷歌搜索当前的发展轨迹。
我不是在为谷歌打电话。我以前这样做过,但错得可笑。不过,犯错往往是时间问题:是的,谷歌拥有自己的云服务,而 YouTube 的主导地位似乎只是在增加,但即使多年来一直投入现金和利润,搜索高峰的轮廓似乎也很清晰。
微软
与此同时,微软似乎处于最佳位置。像 AWS 一样,它有一个销售 GPU 的云服务;它也是 OpenAI 的独家云提供商。是的,这非常昂贵,但鉴于 OpenAI 似乎有内部轨道成为 AI 时代的顶级科技公司名单的补充,这意味着微软正在投资那个时代的基础设施。
与此同时,Bing 就像 iPhone 前夕的 Mac:是的,它贡献了相当多的收入,但只是占主导地位的一小部分,而且在整个微软的背景下也相对微不足道。如果将类似 ChatGPT 的结果整合到 Bing 中会冒着商业模式风险以获得巨大市场份额的机会,那么这是一个非常值得的赌注。
与此同时, 来自 The Information 的最新报告称,GPT 最终将出现在微软的生产力应用程序中。技巧将是模仿 AI 编码工具 GitHub Copilot(基于 GPT)的成功,它想出了如何成为一个帮助而不是麻烦(即不要成为 Clippy!)。
重要的是添加新功能——也许是收费的——与微软的订阅业务模式完美契合。值得注意的是,该公司曾经被认为是颠覆受害者的典型代表,在完整的叙述中,它不仅诞生于颠覆,而且还将因此而达到更高的高度。
关于 AI 的潜在影响还有很多可以写,但这篇文章已经很长了。从新公司的角度来看,OpenAI 显然是最有趣的:OpenAI 有可能成为所有其他 AI 公司建立的平台,这最终意味着 OpenAI 之外的 AI 的经济价值可能相当低;这也是谷歌的牛市案例,因为他们最有可能成为 OpenAI AWS 的微软。
除了图像生成之外,还有另一种可能性,即开源模型在文本生成空间中激增。在这个世界上,人工智能成为一种商品:这可能是对世界影响最大的结果,但矛盾的是,就个体公司的经济影响而言,这是最微弱的(我怀疑最大的机会将出现在准确性至关重要的行业:现任者将因此对人工智能的投资不足,就像柯达对数字投资不足,忘记了技术会变得更好一样)。
确实,最大的赢家可能是英伟达和台积电。 Nvidia 对 CUDA 生态系统的投资意味着该公司不仅拥有最好的 AI 芯片,还拥有最好的 AI 生态系统,并且该公司正在投资扩大该生态系统。不过,这已经并将继续刺激竞争,尤其是在谷歌 TPU 等内部芯片方面;不过,至少在可预见的未来,每个人都将在台积电生产芯片。
不过,最大的影响可能完全不在我们的考虑范围之内。就在休息之前, Nat Friedman 在 Stratechery 采访中告诉我Riffusion ,它使用 Stable Diffusion 通过视觉超声图从文本中生成音乐,这让我想知道当图像真正成为商品时还有什么可能。现在文本是通用界面,因为自文字发明以来,文本一直是信息传递的基础;然而,人类是视觉动物,人工智能在图像创建和解释方面的可用性可能会从根本上改变以无法预测的方式传达信息的意义。
目前,我们的预测必须更加有时间限制和适度。这可能是人工智能时代的开始,但即使在科技领域,时代也需要十年或更长时间才能改变周围的一切。