上周OpenAI 发布了 DALL-E 2 ,它根据文本提示生成(或编辑)图像;来自@BecomingCritter 的这条推特帖子有大量示例输出,包括泰迪熊在 1980 年代在月球上进行新的人工智能研究:
一张古色古香的花店店面照片,有柔和的绿色和干净的白色门面,敞开的门和大窗户:
而且,在最直接的例子中,一个沐浴在 AGI 乌托邦阳光下的人类:
OpenAI在其网站上有一段描述 DALL-E 的视频:
虽然视频确实提到了 DALL-E 的一些缺点,但它对可能性非常乐观。摘录:
Dall-E 2 是来自 OpenAI 的新 AI 系统,它可以将简单的文本描述(如“考拉扣篮”)转化为以前从未存在过的逼真图像。 DALL-E 2 还可以逼真地编辑和润饰照片……
DALL-E 是通过在图像及其文本描述上训练神经网络而创建的。通过深度学习,它不仅可以理解像考拉熊和摩托车这样的单个物体,还可以从物体之间的关系中学习,当你向 DALL-E 索要“考拉骑摩托车”的图像时,它知道如何创建那个或任何东西else 与另一个对象或动作的关系。
DALL-E 研究有三个主要成果:首先,它可以帮助人们以前所未有的方式在视觉上表达自己。其次,人工智能生成的图像可以告诉我们很多关于系统是否理解我们的信息,或者只是重复它所教的内容。第三,DALL-E 帮助人类了解人工智能系统如何看待和理解我们的世界。这是开发有用且安全的人工智能的关键部分……
用于训练 DALL-E 的方法的令人兴奋之处在于,它可以从各种其他标记图像中获取知识,然后将其应用于新图像。给定一张猴子的照片,DALL-E 可以推断出它在做一些以前从未做过的事情时会是什么样子,比如戴着一顶有趣的帽子纳税。 DALL-E 是一个例子,说明富有想象力的人类和聪明的系统如何协同工作,创造新事物,放大我们的创造潜力。
最后一行可能会引起一些人的注意:乍一看,DALL-E 似乎准备与艺术家和插画家竞争;不过,还有另一种观点,DALL-E 指出了元宇宙未来的一个主要缺失部分。
游戏和媒体进化
长期以来,游戏一直处于技术发展的前沿,就媒体而言,情况当然如此。最早的电脑游戏只不过是文字:
紧随其后的图像,通常是位图类型;我记得在图书馆播放了很多“Carmen San Diego 在哪里”:
很快游戏就包含了当你在 2D 世界中导航精灵时的动作; 3D 紧随其后,在过去 25 年的大部分时间里,我们一直致力于让 3D 游戏变得更加逼真。然而,几乎所有这些游戏都是 2D 屏幕上的 3D 图像。虚拟现实提供了置身于游戏本身的错觉。
尽管如此,这种演变也面临着挑战:创建更逼真的 3D 游戏意味着创建更逼真的图像纹理来装饰所有这些多边形;这个问题只会在虚拟现实中被放大。这就是即使是开放世界游戏的范围最终也受到限制的原因之一,而且游戏玩法在很大程度上是确定性的:通过了解你要去哪里以及到达那里的所有选项,开发人员可以创建所有必要的资产提供身临其境的体验。
这并不是说游戏不能有随机元素,除了程序生成的roguelike游戏之外:传递不可预测性元素的最明显方式是让人类互相玩,尽管是在定义明确和受控的环境中。
社交和用户生成的内容
社交网络经历了与游戏类似的媒介演变,但延迟了两个十年。 Web 上最早的社交网络形式是基于文本的公告板和 USENET 组。随后出现了广泛的电子邮件、AOL 聊天室和论坛。 Facebook 在 2000 年代中期出现。帮助它大受欢迎的一件事是添加了图像。 Instagram 是一个只有图片的社交网络,很快就添加了视频,这就是 TikTok 的全部内容。而且,特别是在过去的几年里,通过 Zoom 或 Facetime 等应用程序的视频会议已经在 2D 屏幕上提供了 3D 图像。
尽管如此,媒体对于社交网络的重要性一直较低,只是因为它的社交部分天生就很有趣。人类喜欢与其他人交流,即使这需要拨打随机 BBS 来下载消息、撰写回复并拨回以发送。游戏可能主要是确定性的,但人类充满了惊喜。
此外,这意味着社交网络要便宜得多:用户自己生成所有内容,而不是平台必须生成所有内容。这使得新平台更难落地,因为你需要用户来吸引用户,但这也使得该平台比任何游戏都更具粘性(或者,换句话说,最具粘性的游戏具有他们自己的)。
提要和算法
社交网络的第一次迭代除了时间之外没有特定的算法组件:较新的帖子位于顶部(或底部)。随着 Facebook 在 2006 年推出新闻提要,这种情况发生了变化。现在,您无需访问所有朋友的页面,只需浏览提要,它从一开始就决定要包含哪些内容以及按什么顺序。
随着时间的推移,News Feed 从一种相对简单的算法演变为由机器学习驱动的算法,其结果 令人费解,以至于 Facebook 花了六个月的时间来修复最近的排名错误。影响是巨大的:不仅是 Facebook,Instagram 的参与度和增长速度都随着算法驱动的提要变得更好而大幅增加;它也非常适合货币化,因为决定您看到的内容的同一类信号也会影响您展示的广告。
然而,之所以讨论算法驱动的提要与社交网络在不同的部分,是因为它们的力量的最终例子根本不是社交网络:它是 TikTok。当然,TikTok 都是用户生成的内容,但与 Facebook 的关键区别在于,您不仅限于来自网络的内容:TikTok 会从整个网络中提取它认为您最感兴趣的视频。我解释了为什么这是2020 年Facebook 的盲点:
有趣的是,Facebook 不可避免地错过了这一点:首先,Facebook 将自己首先视为一个社交网络,因此它不愿意将其视为一种责任。其次,Facebook 对 Snapchat 采取的方式强化了这种观点。 The Audacity of Copying Well的重点是 Facebook 利用 Instagram 的社交网络来阻止 Snapchat 的增长,这只会强化网络是 Facebook 最大的资产,从而使 TikTok 的盲点更大。
TikTok 将用户生成内容的零成本特性与与您的网络分离的纯算法提要相结合;存在网络效应,因为 TikTok 需要很多内容可供选择,但它不需要您的特定网络。
机器学习元宇宙
我知道元节是如此 2021 年,但令我震惊的是,科幻小说中的例子,包括Snow Crash和Ready Player One ,它们的实现非常像游戏。他们的虚拟世界是由有远见的公司创建的,或者在后者的情况下,是一个有远见的开发人员,他们还包括一个虚拟世界最终所有权的确定性游戏。是的,第三方可以并且确实建立了具有强大社交组件的体验,最著名的是 Da5id 在Snow Crash中的黑太阳俱乐部,但核心机制——以及核心经济——比其他任何东西都更接近多人游戏。
然而,这在现实世界中极具挑战性:请记住,创建游戏,尤其是它们的艺术,是昂贵的,而且成本越高,体验越沉浸。另一方面,社交媒体很便宜,因为它使用用户生成的内容,但这些内容通常停留在更基本的媒体上——文本、图片,以及最近才出现的视频。当然,内容不一定需要限制在您的网络中——算法可以将网络上的任何内容传递给任何用户。
DALL-E 的迷人之处在于它指向了可以将这三种趋势结合起来的未来。归根结底,DALL-E 最终是人类生成内容的产物,就像它的 GPT-3 表亲一样。当然,后者是关于文本的,而 DALL-E 是关于图像的。但请注意,从文本到图像的进展;接下来是机器学习生成的视频。当然,这可能需要几年时间;视频是一个更加困难的问题,响应式 3D 环境更加困难,但这是该行业以前走过的道路:
- 游戏开发者突破了文本的限制,然后是图像,然后是视频,然后是 3D
- 社交媒体首先将文本、图像和视频的内容创建成本推至零
- 机器学习模型现在可以以零边际成本创建文本和图像
从长远来看,这指向了一个元宇宙愿景,它比典型的视频游戏确定性要低得多,但比社交媒体上产生的内容要丰富得多。想象一下不是由艺术家绘制而是由人工智能创造的环境:这不仅增加了可能性,而且至关重要的是,降低了成本。
零边际内容
还有另一种方式来思考 DALL-E 和 GPT 以及类似的机器学习模型,这可以追溯到我长期以来的论点,即互联网是一种只有印刷机才能匹配的变革性技术。后者的革命性在于它大大降低了消费的边际成本。来自互联网和第三产业:
同时,印刷书籍的经济性与手工复制的经济性有着根本的不同。后者纯粹是一种运营费用:产出严格取决于劳动力的投入。不过,前者主要是资本支出:首先,建造印刷机,其次,为一本书设置字体。支付这些重大前期费用的最佳方式是制作尽可能多的特定书籍可以出售。
那么,如何最大限度地提高可以出售的副本数量?答案是使用特定语言中使用最广泛的方言进行打印,这反过来又激励人们采用该方言,从而使整个欧洲的语言标准化。这进一步加深了城邦之间共享语言的亲和力,尤其是几十年来,随着围绕书籍和后来的报纸发展的共享文化。这种合并以不同的速度发生——英国和法国比德国和意大利早了几百年——但几乎在每一种情况下,第一等级都不是天主教会的神职人员而是国家君主,即使君主放弃了新的权力伯克所代表的精英贵族。
互联网产生了两个影响:一是让消费的边际成本降到了零。即使使用印刷机,您仍然需要打印和分发实物,这需要花钱;同时,将这篇文章发送给世界上任何感兴趣的人实际上是不花钱的。这彻底颠覆了出版业,摧毁了看门人的力量。
然而,另一个影响是在生产方面。我在Mistakes and Memes中写过关于 TikTok 的文章:
这句话,“Facebook 因其所展示的内容而引人注目,无论是谁展示的”,这句话非常接近于描述 TikTok。错误在于后者对它所呈现的内容很有吸引力,不管是谁创造的……换句话说,我过于关注需求——聚合理论的关键——并且没有深入思考供应。用户生成的内容不必只是网络中人们的宠物照片和政治咆哮;它可能是一种新型网络的基础,梅特卡夫定律带来的回报不是任何一个节点可用的连接数量,而是定制馈送的输入数量。
机器学习生成的内容只是 TikTok 的下一步:GPT 和 DALL-E 以及其他类似模型不是从网络上的任何地方提取内容,而是以零边际成本从内容中生成新内容。这就是元宇宙的经济学最终将变得有意义的方式:虚拟世界需要以几乎零成本创建的虚拟内容,完全可以为个人定制。
当然,DALL-E 还提出了许多其他问题,其中许多是哲学问题。上周已经对此进行了很多讨论,而且应该还有更多。尽管如此,经济影响也很重要,在上周宣布之后,互联网的未来比以往任何时候都更接近、更奇怪。
来源: https://stratechery.com/2022/dall-e-the-metaverse-and-zero-marginal-content/