我的猜测是,MidJourney 一直在根据人类反馈(“RLHF”)进行大规模的强化学习——这可能是有史以来规模最大的文本到图像。
当人类用户选择放大图像时,是因为他们更喜欢它而不是其他选择。如果不将其用作奖励信号,那将是一种巨大的浪费——收集起来很便宜,而且*完全*符合您的用户群的需求。
您拥有的用户越多,您可以做的 RLHF 就越好。然后你获得的用户越多。
—吉姆范
原文: http://simonwillison.net/2023/Apr/5/jim-fan/#atom-everything