大脑是一个异常强大的计算机器。长期以来,科学家们一直试图在机械思维中重建其内部运作方式。
IBM 的一个团队可能已经用NorthPole破解了密码,这是一种模仿大脑结构和效率的全数字芯片。当与最先进的图形处理单元 (GPU)(最常用于运行 AI 程序的芯片)进行比较时,IBM 的类脑芯片在多项标准测试中取得了胜利,同时能耗降低了 96%。
IBM 对类脑芯片并不陌生。从TrueNorth到SpiNNaker ,他们花了十年时间利用大脑的架构来更好地运行人工智能算法。
每个项目的目标都是一样的:我们如何构建更快、更节能的芯片,让更小的设备(比如我们的手机或自动驾驶汽车中的电脑)能够在“边缘”运行人工智能。边缘计算可以实时监控和响应问题,而无需向云中的远程服务器场发送请求。就像从拨号调制解调器切换到光纤互联网一样,这些芯片还可以以最低的能源成本加速大型人工智能模型的速度。
问题?大脑是模拟的。相比之下,传统计算机芯片使用数字处理——0 和 1。如果您曾经尝试过将旧 VHS 磁带转换为数字文件,您就会知道这不是一个简单的过程。到目前为止,大多数模仿大脑的芯片都使用模拟计算。不幸的是,这些系统噪音很大,很容易出现错误。
借助 NorthPole,IBM 实现了完全数字化。该芯片将 220 亿个晶体管紧密地封装在 256 个内核上,通过将计算模块和内存模块并排放置,从大脑中获取线索。面对一项任务,每个核心都会承担一个问题的一部分。然而,就像大脑中的神经纤维一样,远程连接链接模块,因此它们也可以交换信息。
博士说,这种共享是一项“创新”。加州大学洛杉矶分校 (UCLA) 的 Subramanian Iyer 和 Vwani Roychowdhury 没有参与这项研究。
鉴于人工智能模型成本越来越高、耗电越来越大,该芯片尤其重要。由于 NorthPole 是完全数字化的,因此它也与现有的制造工艺(晶体管封装和有线连接)相吻合,可能使其更容易大规模生产。
作者在《科学》杂志上发表的论文中写道,该芯片代表了“能量、空间和时间前沿的神经推理”。
心灵与机器
从 DALL-E 到 ChatGTP,生成式人工智能以其令人震惊的类似人类的基于文本的响应和图像席卷了世界。
但研究作者 Dharmendra S. Modha 博士认为,生成式人工智能正走在一条不可持续的道路上。该软件接受了数十亿个示例(通常是从网络上抓取的)的训练,以生成响应。创建算法和运行算法都需要大量的计算能力,从而导致高成本、处理延迟和大量碳足迹。
这些流行的人工智能模型大致受到大脑内部运作的启发。但它们与我们当前的计算机不能很好地配合。大脑在同一位置处理和存储记忆。相比之下,计算机将内存和处理划分为单独的块。这种设置会为每次计算来回传送数据,并且流量可能会堆积,从而导致瓶颈、延迟和能源浪费。
该团队写道,这是一场“数据移动危机”。我们需要“计算效率显着提高的方法”。
一种想法是构建类似于大脑功能的模拟计算芯片。这些芯片的功能更像是调光器,而不是使用离散的 0 和 1 系统(如开关灯开关)来处理数据。由于每个计算“节点”可以捕获多个状态,因此这种类型的计算速度更快、更节能。
不幸的是,模拟芯片也存在错误和噪声。与用调光器调节开关类似,即使是轻微的错误也会改变输出。尽管灵活且节能,但这些芯片在处理大型人工智能模型时很难使用。
在天作之合
如果我们将神经元的灵活性与数字处理器的可靠性结合起来会怎么样?
这就是 NorthPole 的驾驶理念。结果是一枚邮票大小的芯片可以在多项标准测试中击败最好的 GPU。
该团队的第一步是将数据处理分布在多个核心上,同时保持每个核心内的内存和计算模块物理上靠近。
以前的模拟芯片,如 IBM 的 TrueNorth,使用一种特殊材料将计算和内存结合在一个位置。 NorthPole 芯片没有使用非标准材料进行模拟,而是将标准内存和处理组件放在一起。
北极的其余设计借鉴了大脑更大的组织。
该芯片具有类似于大脑皮层的分布式核心阵列,皮层是大脑的最外层,负责感知、推理和决策。皮层的每个部分处理不同类型的信息,但它也在整个区域共享计算和广播结果。
受到这些通信通道的启发,该团队在芯片上构建了两个网络来实现内存的民主化。与皮层中的神经元一样,每个核心都可以访问自身内部的计算,但也可以访问全局内存。这种设置消除了数据处理中的层次结构,允许所有核心同时解决问题,同时共享结果,从而消除计算中的常见瓶颈。
该团队还开发了软件,可以巧妙地将空间和时间上的问题委托给每个核心,确保计算资源不会浪费或相互冲突。
他们在论文中解释说,该软件“利用了[芯片]架构的全部功能”,同时帮助将“现有应用程序和工作流程”集成到芯片中。
与IBM之前的类脑模拟芯片TrueNorth相比,NorthPole可以支持640倍大的AI模型,涉及3000倍的计算量。所有这一切只需要四倍的晶体管数量。
数字大脑处理器
接下来,该团队将 NorthPole 与多个 GPU 芯片进行了一系列性能测试。
当遇到同样的问题时,NorthPole 的效率提高了 25 倍。在两项困难的人工智能基准测试中,与 GPU 相比,该芯片处理数据的速度也快如闪电。
根据初步测试,NorthPole 已经可用于实时面部识别或破译语言。理论上,它的快速响应时间也可以指导自动驾驶汽车做出瞬间决策。
计算机芯片正处于十字路口。一些专家认为,摩尔定律(该定律规定芯片上的晶体管数量每两年增加一倍)已濒临死亡。尽管仍处于起步阶段,但替代计算结构(例如类脑硬件和量子计算)正在获得发展动力。
但 NorthPole 表明半导体技术仍有很大的发展空间。目前,芯片上每平方毫米有 3700 万个晶体管。但根据预测,该设置可以轻松扩展到 20 亿,从而允许更大的算法在单个芯片上运行。
“架构胜过摩尔定律,”该团队写道。
他们相信像 NorthPole 这样的芯片设计创新可以为开发日益强大但资源匮乏的人工智能提供近期解决方案。
图片来源:IBM
原文: https://singularityhub.com/2023/10/24/this-brain-like-ibm-chip-could-drastically-cut-the-cost-of-ai/