许多人担心世界上的数据即将耗尽,这将成为迈向更智能的人工智能模型的障碍。事实上,一篇论文预测了我们何时用完的时间表。
人工智能研究人员正在寻找适应方法。 Nvidia 已经训练了一个特定模型来生成用于训练其他模型的合成数据。有些人使用这种方法,尽管使用人工智能生成的数据来训练人工智能并非没有风险。
其他人提出了一个更大的问题,即我们如此严重依赖数据的方法中是否从根本上缺少了一些东西。当然,惨痛的教训论文和杰弗里·辛顿(Geoffrey Hinton)长期倡导的立场主张采用数据优先的方法,并尽可能少地使用先验假设(尽管每个模型都有偏差)。
但目前尚不清楚仅添加更多数据和计算是否就能实现通用智能,或者是否还需要其他东西。神经符号方法正在以各种形式进行试验。但目前尚不清楚这些是否可以扩展到所需的水平。而专注于当前范式的前沿实验室可能没有足够的时间或资源来研究高风险/高回报的替代方案。
从理论角度来看,有时更多的数据是不够的。正如上一篇文章中所讨论的,数学和工程中的一些问题需要指数级的大量数据来训练神经网络模型。指数可以对你有利,但也可以对你不利(想想河内塔问题或小麦和棋盘问题)。某些模型上的一些问题无法通过整个宇宙中任何数量的可用数据来解决。
解决这些问题的需求的增长速度可能比预期快得多。神经网络的优势、灵活性、通用逼近性也可能是一个弱点。需要大量数据才能确定所有参数,以使模型完全没有错误。值得庆幸的是,人们想要解决的许多其他问题(例如人类语言建模)从根本上来说都是低维的,因此不太容易受到这个问题的影响。
我们只是不知道当前需要大量数据的方法是否足够,或者我们是否需要吸取另一个惨痛的教训。
帖子《人工智能模型能否推理:你需要的是数据吗?》首次出现在约翰·D·库克 (John D. Cook)节目中。
原文: https://www.johndcook.com/blog/2025/01/16/can-ai-models-reason-is-data-all-you-need-2/