图片由Waifu Diffusion v1.2生成——绿色长发女孩身穿橙色和服,猫耳朵,夜间,许多烟花,节日,快乐幸福,美丽的风景,吉卜力工作室,禅门,阴阳,宝塔,五颜六色的天空, 宫崎骏, 星巴克
我在 Twitter 上看到很多评论,他们似乎完全误解了使用稳定扩散和 DALL-E 2 等 AI 生成器获得体面结果的过程。人们似乎认为这只是“按下按钮,收到培根”,没有任何等式中的真正创造力。作为在过去几个月中进行了大量此类实验的人,我想挑战这一断言,并向您展示获得体面结果的过程实际上涉及什么。
首先,你需要从你想要的愿景开始。我将拉出我虚构的世界 Malto,特别是一个名为 Kanar 的区域。这是一个非常绿色的地区,有很多竹子,当地的建筑也利用了它。该地区相当富裕,因为他们利用其怪异的土壤成分来生产植物,帮助他们制造一种全世界贵族都无法满足的酒精饮料。
从这里开始,我喜欢首先降低图像的“氛围”。我认为Waifu Diffusion会是一个很好的模型,主要是因为你可以给它提供 danbooru 风格的标签来提示你想要的图像。我也有点想要一种吉卜力工作室的感觉,而事实证明,Waifu Diffusion 非常擅长这一点。
我的第一次迭代从一些 512×512 的图像开始,并带有一些 vibe 提示关键字,以便在“画布”上获得基本的想法。
这是我的开始提示:
bamboo bamboo_forest grass studio_ghibli hayao_miyazaki happy peaceful summer
我不是这些的忠实粉丝。我想要一个风景,但它却从里面向我展示了一片竹林。在其中一些框架中也有一些主题。我们还没有专注于主题。让我们删除bamboo_forest
标签并添加landscape
和pagoda
标签:
bamboo landscape pagoda grass studio_ghibli hayao_miyazaki happy peaceful summer
这更接近我想要的。我也会坚持使用这个种子320353
。现在我们有了更好的种子,让我们将分辨率提高到 1280×512,看看它会如何改变事情。 AI 以 512×512 块的形式绘制图像,因此跳转到更大的图像有时会很奇怪。
结果比预期的要好得多!通常跳转到 1280×512 会导致一些被诅咒的结果和突变的地狱生物。这实际上有点体面,但我想要一些更有风格的东西。这与我脑海中的卡纳尔形象大致相关,但这看起来更接近于由局外人绘制的该区域,而不是他们如何描绘自己。我将添加一些样式关键字:
bamboo landscape pagoda grass studio_ghibli hayao_miyazaki happy peaceful summer ukiyo-e wood-block
您可以做一些有趣的事情是添加“杰作”以使图像看起来更好,并添加“虚幻引擎”来改善照明。让我们在这里搞砸:
bamboo landscape pagoda grass studio_ghibli hayao_miyazaki happy peaceful summer ukiyo-e wood-block unreal engine masterpiece very beautiful
你知道吗,我不喜欢那种木版画风格。让我们在下一轮删除它。接下来我们需要关注的主要内容是主题。卡纳尔的主要出口产品是一种以大米为原料的酒精饮料。我将在grass
后的提示中添加“rice_paddy”:
bamboo landscape pagoda grass rice_paddy studio_ghibli hayao_miyazaki happy peaceful summer ukiyo-e unreal engine masterpiece very beautiful
我认为最后一个将是我要使用的图像。让我们看看如果我们改变一天中的时间会发生什么:
…嗯,这根本没有改变一天中的时间。不过,我想我喜欢夜间结果,所以我要这么做。这是我们到目前为止的图像:
这里有点气势磅礴的感觉,可能就像一座城堡或者其他一些重要的建筑。也许这是他们领袖的私人宝塔。如果我们增加一些守卫呢?
nighttime bamboo landscape pagoda grass rice_paddy studio_ghibli hayao_miyazaki happy peaceful summer ukiyo-e unreal engine masterpiece very beautiful guards pikemen
我真的很喜欢这个。这就是我想要的那种氛围。我想要一些让我觉得我正在研究那个我只在描述段落和拓扑图中看到的区域的东西。这就是 Stable Diffusion 和类似模型让您作为作家可以做的事情:它们让您将图像从脑海中带出并放到画布上,这样您就可以让人们真正了解它的样子。如果我在这里写了一个更长的故事集,我可能会将这张图片和其他一些用不同种子生成的图片扔给艺术家,以帮助我制作书籍封面的图片。
我也不太清楚为什么人们称其为“即时工程”,我个人更愿意称其为“占卜”,但我可以理解为什么硅谷文化会将一切推向“工程”。在没有工程学位的情况下,我在加拿大不能合法地称自己为“工程师”。
这是我非常兴奋的那种技术,我迫不及待地想看看它是如何发展的。电脑有时很有趣。