随着 AI 模型变得越来越大,训练它们所需的金钱和精力已成为一个热点问题。一种重写该学科的基本构建块之一的新方法可以提供一种潜在的解决方法。
自从GPT-3展示了通过简单地增加模型大小即可实现性能的显着提升以来,人工智能行业的领导者一直在将资源投入到训练日益庞大的神经网络中。
但这需要大量的资金,需要大量的计算资源,并且使用大量的电力。这越来越被视为一个问题,不仅因为对环境的影响,还因为它使较小的人工智能机构难以竞争,并因此将权力集中在行业领导者手中。
不过,现在牛津大学的研究人员已经概述了一种新方法,可以潜在地将培训时间缩短一半。他们通过重写当今基于神经网络的人工智能系统中最基本的成分之一:反向传播来做到这一点。
神经网络如何处理数据取决于其各个神经元之间的连接强度。所以为了让他们做有用的工作,你首先需要调整这些连接,直到他们按照你想要的方式处理数据。为此,您可以使用称为反向传播的过程对网络进行与问题相关的数据训练,该过程分为两个阶段。
前向运行涉及通过网络提供数据并使其进行预测。在反向传播中,这些预测的准确性的测量被用来返回通过网络并计算出应该如何调整各种连接的强度以提高性能。通过使用大量数据多次重复此过程,网络逐渐朝着解决手头问题的最佳连接配置工作。
这种重复的过程是训练人工智能需要这么长时间的原因,但牛津大学的研究人员可能已经找到了一种简化事情的方法。在arXiv上发布的预印本中,他们描述了一种完全消除向后传球的新训练方法。相反,他们的算法会估计在前向传播中需要如何改变权重,事实证明这些近似值足够接近以实现与反向传播相当的性能。
研究人员表明,该方法可用于训练各种不同的机器学习算法,但由于它只涉及前向传递,因此能够将训练时间缩短一半。
英国埃克塞特大学的 Andrew Corbett 告诉《新科学家》杂志,这是一个简单的数学技巧,但可以帮助解决当今人工智能面临的最紧迫挑战之一。 “这是一件非常非常重要的事情要解决,因为它是机器学习算法的瓶颈,”他说。
不过,这种方法的适用范围有多大还有待观察。在他们的论文中,研究人员表明,随着神经网络中层数的增加,运行时成本的差异会缩小,这表明该技术在使用更大的模型时收益可能会递减。
然而,研究人员还指出,他们已经确定了许多机会来调整标准机器学习算法的工作方式,以更好地适应他们的方法,这可能会导致进一步的性能提升。
该研究还可能有助于人类智能的持续谜团。人工神经网络仍然是我们研究大脑如何学习的最佳工具之一,但人们早就知道反向传播在生物学上是不合理的,因为神经元之间缺乏任何反向连接。只需要向前传递的学习方法可能有助于阐明我们的大脑如何解决学习问题。
图片来源: Pexels / 9144 张图片