去年年初,OpenAI 展示了一种名为 DALL-E(WALL-E 和 Dali 的组合)的非凡的新 AI 模型,它能够以几乎任何风格绘制几乎任何东西。但结果很少是你想挂在墙上的。现在 DALL-E 2 出来了,它的前身做得更好,做得更好——实际上非常好。但是新功能带有防止滥用的新限制。
DALL-E 在我们原来的帖子中有详细描述,但要点是它能够接受相当复杂的提示,例如“一只熊骑着自行车穿过商场,旁边是一只猫偷宣言的照片独立。”它会很乐意遵守,并在数百个输出中找到最有可能满足用户标准的输出。
DALL-E 2 从根本上做同样的事情,将文本提示变成令人惊讶的准确图像。但它学会了一些新的技巧。
首先,它在做原始事情方面做得更好。从 DALL-E 2 的另一端出来的图像要大几倍,而且更详细。尽管产生了更多图像,但它实际上速度更快,这意味着用户可能愿意等待的几秒钟内可以产生更多变化。
“戴珍珠耳环的女孩风格的海獭”结果相当不错。
这种改进的一部分来自于改用扩散模型,这是一种从纯噪声开始的图像创建类型,随着时间的推移对图像进行细化,反复使其更像所请求的图像,直到完全没有噪声为止。但它也只是一个更小、更高效的模型,一些参与它的工程师告诉我。
其次,DALL-E 执行他们所谓的“修复”,本质上是智能替换图像中的给定区域。假设你有一张你的地方的照片,但桌子上有一些脏盘子。只需选择该区域并描述您想要的东西:“一张空的木桌”或“一张没有盘子的桌子”,任何看起来合乎逻辑的东西。在几秒钟内,该模型将向您展示该提示的一些解释,您可以选择任何看起来最好的。
你可能熟悉 Photoshop 中类似的东西,“上下文感知填充”。但是该工具更多地用于填充更多相同的空间,例如如果您想在原本晴朗的天空中替换一只鸟并且不想打扰克隆冲压。 DALL-E 2 的功能要强大得多,能够发明新事物,例如不同种类的鸟或云,或者在桌子的情况下,花瓶或溢出的番茄酱瓶。不难想象对此有用的应用程序。
值得注意的是,模型将包括适当的照明和阴影等内容,或者选择正确的材料,因为它知道场景的其余部分。我在这里松散地使用“意识”——没有人,甚至它的创造者,都不知道 DALL-E 在内部是如何表示这些概念的,但对于这些目的而言,重要的是结果表明它具有某种形式的理解。
浮世绘风格的泰迪熊和古色古香的花店的例子。
第三个新功能是“变化”,它足够准确:你给系统一个示例图像,它会根据你的喜好生成尽可能多的变化,从非常接近的近似值到印象派的重做。你甚至可以给它第二张图片,它会在某种程度上对它们进行交叉授粉,结合每个最显着的方面。他们向我展示的演示中有 DALL-E 2 根据原件生成街头壁画,它确实在很大程度上捕捉了艺术家的风格,即使通过检查可能很清楚哪个是原件。
与我见过的其他生成器相比,很难夸大这些图像的质量。虽然几乎总是有你期望从 AI 生成的图像中得到的那种“告诉”,但它们并不那么明显,而且图像的其余部分比其他人生成的最好的要好得多。
几乎所有东西
我之前写过 DALL-E 2 可以绘制“几乎任何东西”,尽管实际上并没有任何技术限制可以阻止模型令人信服地绘制任何你能想到的东西。但 OpenAI 意识到深度伪造和其他滥用 AI 生成的图像和内容所带来的风险,因此对其最新模型增加了一些限制。
DALL-E 2 目前在托管平台上运行,这是一个仅限邀请的测试环境,开发人员可以在其中以受控方式进行试用。这部分意味着他们对模型的所有提示都会被评估是否违反了内容政策,正如他们所说,该政策禁止“非 G 级图像”。
这意味着不:仇恨、骚扰、暴力、自残、露骨或“令人震惊”的图像、非法活动、欺骗(例如假新闻报道)、政治人物或情况、医疗或疾病相关图像或一般垃圾邮件。事实上,这在很大程度上是不可能的,因为违规图像被排除在训练集中:DALL-E 2 可以在贝雷帽中做柴犬,但它甚至不知道导弹袭击是什么。
除了正在评估的提示之外,生成的图像(目前)都将由人工检查员进行审查。这显然是不可扩展的,但团队告诉我这是学习过程的一部分。他们不确定边界应该如何运作,这就是他们现在保持平台小型和自托管的原因。
随着时间的推移,DALL-E 2 可能会变成一个 API,可以像 OpenAI 的其他功能一样被调用,但团队表示他们希望在取消训练轮之前确定这是明智的。
您可以在 OpenAI 博客文章中了解有关 DALL-E 2 的更多信息并测试一些半交互式示例。