引用 Jim Fan 的话 – 搞英语 → 看世界

我的猜测是，MidJourney 一直在根据人类反馈（“RLHF”）进行大规模的强化学习——这可能是有史以来规模最大的文本到图像。

当人类用户选择放大图像时，是因为他们更喜欢它而不是其他选择。如果不将其用作奖励信号，那将是一种巨大的浪费——收集起来很便宜，而且*完全*符合您的用户群的需求。

您拥有的用户越多，您可以做的 RLHF 就越好。然后你获得的用户越多。

—吉姆范

原文： http://simonwillison.net/2023/Apr/5/jim-fan/#atom-everything