在机器学习范式的先前迭代中,研究人员痴迷于清理他们的数据集,并确保他们的模型看到的每个数据点都是原始的、黄金标准的,并且不会干扰数十亿参数的脆弱学习过程。模型空间。许多人开始意识到,在深度学习领域,数据规模胜过大多数其他优先事项。利用允许模型与数据复杂性同步扩展的通用方法是一种优越的方法。现在,在法学硕士时代,研究人员倾向于将整山的几乎没有过滤、大部分未经编辑的互联网碎片倾倒到饥饿模型的渴望中。
—朗
原文: http://simonwillison.net/2022/Sep/12/roon/#atom-everything