著名的图片网站 Getty 拥有8000 万张图片的目录。 Getty 的竞争对手 Shutterstock 提供了 4.15 亿张图片。建立这些惊人的图书馆花了几十年的时间。
现在,看来我们必须重新定义 prodigious。在上周的一篇博客文章中,OpenAI 表示其机器学习算法 DALL-E 2 每天生成超过 200 万张图像。以这样的速度,它的产出将等于 Getty 和 Shutterstock 在八个月内的总和。该算法每天生成的图像几乎与免费图像网站 Unsplash的整个集合一样多。
那是在 OpenAI 向所有人开放 DALL-E 2 之前。直到上周,访问都受到限制,等待使用该算法的人一直在等待。出现该数字的博客文章的目的是宣布 DALL-E 2 现已向广大公众开放。
与此同时,类似的算法已经免费提供。那么,步伐可能会从这里开始加快。
当然,值得指出的是,这是一个不完美的比较。您的平均 Shutterstock 或 Getty 图像的质量通常更高,并且这些网站还提供时事的编辑图像。同时,DALL-E 2等算法每次提示生成多张图像,图像质量参差不齐,最好的作品需要熟练的手来打磨。
尽管如此,很明显 DALL-E 和其他人是前所未有的图像制作机器。
分阶段推出
今年早些时候发布的 DALL-E 2 一直是科技界的热门话题。
与其前身 OpenAI 于 2021 年首次亮相并产生明显不完美的作品不同,DALL-E 2 使用文本提示制作逼真的图像。用户可以混合和匹配元素,如要求宇航员骑马,以及风格,如约翰内斯·维米尔 (Johannes Vermeer) 的戴珍珠耳环的女孩风格中的海獭。
为了限制滥用并更好地过滤算法的输出,OpenAI 寻求分阶段发布。 DALL-E 2 和其他类似的算法经过数百万在线图像和字幕的训练,容易受到数据集中的偏见以及用户滥用的影响。 OpenAI 在 4 月发表了一篇关于 DALL-E 2 的论文,并为 200 位艺术家、研究人员和其他用户预览了该算法。他们在下个月将预览版每周增加 1,000 名用户,然后将测试版算法的访问权限扩展到 100 万人,并定价。
该公司在博客文章中写道:“负责任地扩展像 DALL-E 这样强大而复杂的系统——同时了解它可以使用和误用的所有创造性方式——需要一种迭代部署方法。”
在推出期间,OpenAI 收集了用户的反馈并将其转化为技术修复,以减少偏见和过滤器以防止不适当的内容。他们还聘请了一个版主团队来密切关注事情的发展。随着数百万张图片变成数千万张甚至更多张,这种方法的扩展性如何还有待观察,但该团队迄今为止对该产品有足够的信心,可以继续进行完整的发布。
人工智能艺术兴起
与此同时,人工智能世界的其他部分并没有停滞不前。竞争对手迅速紧随 DALL-E 的脚步。首先是 DALL-E Mini——现在是 Craiyon——一种质量较低但免费的图像生成器,被互联网用来制造模因。更高质量的算法包括 Midjourney 和 Stable Diffusion。谷歌甚至用它的 Imagen 算法加入了这场游戏(尽管该公司迄今为止一直保密)。
将这些添加到 DALL-E 2 的输出中,AI 艺术的数量将快速增长。
今年夏天早些时候,Stable Diffusion 表示其算法在测试期间已经每天产生 200 万张图像。当该平台在 9 月中旬达到 100 万用户时, Stable Diffusion 创始人 Emad Mostaque 在推特上写道:“我想,我们应该尽快每天打破 10 亿张图片,尤其是在我们打开动画等之后。”
人工智能艺术的迅速出现并非没有争议。
Jason Allen 在 Midjourney 中创作的一件 AI 艺术作品最近在科罗拉多州博览会上赢得了数字艺术蓝丝带奖。不难看出为什么。这件作品美丽而令人回味。但许多艺术家在推特上表达了他们的不满。
一些人担心算法会减少平面设计师的工作量。质量、速度和数量与所需专业技能有限的结合可能意味着公司选择快速算法创建而不是聘请设计师。
最近, Ars Technica报道说,Shutterstock 已经拥有数千张 AI 图像。不久之后,该网站出现了一些问题。与此同时, Getty 以版权问题为由,在其平台上完全禁止了人工智能艺术。法律环境仍然模糊不清,可能会发生变化。
“目前,AI 生成的内容将与任何其他类型的数字插图提交进行审查,” Shutterstock 上周告诉Quartz 。 “随着我们更多地了解合成图像,这可能会立即改变。”
其他人担心,密切模仿工作艺术家风格的能力可能会对他们作品的价值和知名度产生负面影响。还不清楚哪些艺术家的创作帮助训练了算法。 去年,当 OpenAI 发布在开放代码存储库上训练的编码算法时,开发人员表达了类似的担忧。
但并不是每个人都同意人工智能艺术会在新鲜感消失后如此轻易地取代熟练的设计师和艺术家。社区可能会进一步解决一些问题,比如决定只对公共领域的作品训练算法或允许艺术家选择退出。 (已经有一个工具可供艺术家查看他们的创作是否包含在训练数据中。)
当尘埃落定
多年来,机器学习算法已经生成了奇怪、新颖但不是特别有用的图像和文本。 2020 年,当 OpenAI 发布自然语言算法 GPT-3 时,能够产生高质量工作的 AI 真正出现在了现场。该算法可以生成有时与人类编写的内容几乎无法区分的文本。 GPT-3 现在就像 DALL-E 2 一样,是一种付费产品, 也是一个惊人的生产者。
但即使与 GPT-3 一样大,DALL-E 2 也可能处于领先地位。 “我们看到的兴趣比我们预期的要多得多,比对 GPT-3 的兴趣要大得多,”OpenAI 的产品和合作伙伴副总裁 Peter Welinder 在 7 月份告诉麻省理工学院技术评论。
这种趋势不太可能以图像结束。人工智能开发人员已经开始关注视频。就在上周,Meta 发布了可能是迄今为止最先进的此类算法。尽管它的输出还远非完美,但改进的速度表明我们不会等待太久。
当尘埃落定时,这些算法有可能将自己确立为一种新的艺术形式。摄影在 19 世纪到来时面临类似的阻力,最终,它并没有取代现有的艺术形式,而是加入了他们的行列。
“至少从摄影出现以来一直存在的东西现在仍然是正确的:半生不死的艺术是最令人兴奋的。在有人弄清楚它是什么之前,没有人知道一种新的艺术形式会是什么,”斯蒂芬·马奇最近 在大西洋上写道。 “弄清楚什么是人工智能艺术将是非常困难的,也是非常快乐的。让我们现在开始。”
图片来源: OpenAI