人工智能和传统计算机是天造地设的一对。
主要原因是目前硬件芯片的设置方式。该芯片基于传统的冯诺依曼架构,将内存存储与其主处理器隔离开来。每次计算都是周一早上通勤的噩梦,芯片不断地从每个隔间来回穿梭数据,形成了臭名昭著的“记忆墙”。
如果您曾经被堵在路上,您就会知道其中的挫败感:这需要时间和精力。随着人工智能算法变得越来越复杂,问题变得越来越严重。
那么为什么不设计一个基于大脑的芯片,与深度神经网络完美匹配呢?
输入内存计算或 CIM 芯片。忠实于它们的名字,这些芯片在同一地点计算和存储内存。忘记通勤;这些芯片是高效的在家工作替代品,解决了数据流量瓶颈问题,并有望提高效率和降低能耗。
理论也是如此。大多数运行 AI 算法的 CIM 芯片只专注于芯片设计,通过芯片模拟来展示其功能,而不是在成熟的硬件上运行任务。这些芯片还难以适应多种不同的人工智能任务——图像识别、语音感知——限制了它们与智能手机或其他日常设备的集成。
本月,《自然》杂志的一项研究从头开始升级了 CIM。由斯坦福大学神经形态硬件专家 HS Philip Wong 博士和加州大学圣地亚哥分校 Gert Cauwenberghs 博士领导的国际团队不仅专注于芯片设计,还优化了整个设置,从技术到架构再到校准硬件的算法.
由此产生的 NeuRRAM 芯片是一个强大的神经形态计算庞然大物,具有 48 个并行内核和 300 万个存储单元。该芯片用途广泛,能够以超过 84% 的准确率处理多项 AI 标准任务,例如读取手写数字、识别图像中的汽车和其他物体以及解码语音记录。
虽然成功率看似平庸,但它可以与现有的数字芯片相媲美,但大大节省了能源。对作者来说,这更接近于将人工智能直接带到我们的设备上,而不是需要将数据传送到云端进行计算。
“在芯片上完成这些计算,而不是向云端发送信息和从云端发送信息,可以实现更快、更安全、更便宜、更具可扩展性的 AI 进入未来,并让更多人获得 AI 能力,”Wong说。
神经灵感
人工智能专用芯片现在是惊人的一角钱。从谷歌的张量处理单元 (TPU) 和特斯拉的 Dojo 超级计算机架构到百度和亚马逊,科技巨头正在人工智能芯片淘金热中投资数百万美元,以构建支持日益复杂的深度学习算法的处理器。有些人甚至利用机器学习来设计为 AI 软件量身定制的芯片架构,从而使比赛圆满结束。
一个特别有趣的概念直接来自大脑。当数据通过我们的神经元时,它们通过称为突触的物理“码头”“连接”到网络中。这些结构像小蘑菇一样位于神经分支之上,是多任务处理者:它们通过改变蛋白质组成来计算和存储数据。
换句话说,与经典计算机不同,神经元不需要将数据从内存传送到 CPU。这为大脑提供了优于数字设备的优势:它具有很高的能源效率并同时执行多个计算,所有计算都被塞进了塞在头骨内的三磅重的果冻中。
为什么不重建大脑的各个方面?
进入神经形态计算。一种方法是使用 RRAM 或电阻式随机存取存储器设备(也称为“忆阻器”)。 RRAM 即使在断电时也可以通过改变其硬件的电阻来存储内存。与突触类似,这些组件可以在一个很小的区域内组装成密集的阵列,从而创建能够进行高度复杂计算的电路,而无需体积。当与 CMOS(一种用于在我们当前的微处理器和芯片中构建电路的制造工艺)结合使用时,这对组合在运行深度学习算法方面变得更加强大。
但这是有代价的。 “RRAM-CIM 架构中的高度并行模拟计算带来了卓越的效率,但使得实现与数字电路相同水平的功能灵活性和计算精度变得具有挑战性,”作者说。
优化精灵
这项新研究深入研究了 RRAM-CIM 芯片的每个部分,重新设计了它以供实际使用。
它从技术开始。 NeuRRAM 拥有 48 个并行计算的内核,RRAM 设备在物理上交织到 CMOS 电路中。就像神经元一样,每个内核在不使用时都可以单独关闭,从而在其内存存储在 RRAM 的同时保留能量。
这些 RRAM 单元(全部为 300 万个)相互连接,以便数据可以双向传输。作者解释说,这是一项至关重要的设计,使芯片能够灵活地适应多种不同类型的人工智能算法。例如,一种深度神经网络 CNN(卷积神经网络)在计算机视觉方面特别出色,但需要数据以单一方向流动。相比之下,LSTM 是一种经常用于音频识别的深度神经网络,它反复处理数据以将信号与时间匹配。与突触一样,该芯片对一个 RRAM“神经元”与另一个神经元的连接强度进行编码。
这种架构使得微调数据流以最大程度地减少交通拥堵成为可能。就像将单通道流量扩展到多通道一样,该芯片可以从大多数计算密集型问题中复制网络当前的“内存”,以便多个内核同时分析问题。
对以前的 CIM 芯片的最后修改是在类脑计算(通常是模拟)和数字处理之间架起了一座更强大的桥梁。在这里,该芯片使用了一个神经元电路,可以轻松地将模拟计算转换为数字信号。作者解释说,这比以前的“耗电和耗电”设置有了进步。
优化成功了。将他们的理论付诸实践,该团队制造了 NeuRRAM 芯片并开发了算法来为不同的算法对硬件进行编程——比如运行不同游戏的 Play Station 5。
在众多基准测试中,该芯片表现得非常出色。在芯片上运行七层 CNN,NeuRRAM 在使用流行的 MNIST 数据库识别手写数字时的错误率不到 1%。
它在更困难的任务上也表现出色。加载另一个流行的深度神经网络 LSTM,该芯片在接受 Google 语音命令识别挑战时的正确率约为 85%。该芯片仅使用 8 个内核,运行在另一种 AI 架构上,就能够恢复嘈杂的图像,将错误减少约 70%。
所以呢?
一个字:能量。
大多数人工智能算法都是耗能大户。 NeuRRAM 的运行能耗成本是以前最先进的 RRAM-CIM 芯片的一半,进一步将神经形态计算的节能承诺变为现实。
但这项研究的突出之处在于它的策略。在设计芯片时,科学家们常常需要平衡多项任务的效率、多功能性和准确性——这些指标往往相互矛盾。当所有计算都直接在硬件上完成时,问题变得更加棘手。 NeuRRAM 表明一次与所有野兽作战是可能的。
作者说,这里使用的策略可用于优化其他神经形态计算设备,例如相变存储器技术。
目前,NeuRRAM 是一个概念验证,表明物理芯片——而不是它的模拟——按预期工作。但仍有改进的空间,包括进一步扩展 RRAM 并将其尺寸缩小到有朝一日可能适合我们的手机。
“也许今天它用于执行简单的人工智能任务,例如关键字定位或人体检测,但明天它可以实现完全不同的用户体验。想象一下实时视频分析与语音识别相结合的一切都在一个微型设备中,”研究作者万维尔博士说。 “作为一名研究人员和工程师,我的抱负是将实验室的研究创新成果付诸实践。”
图片来源: David Baillot/加州大学圣地亚哥分校