萨姆第一次将轻型相机绑在额头上时才六个月大。
在接下来的一年半里,镜头捕捉到了他生活的片段。他在家里的宠物周围爬行,看着父母做饭,在前廊上和奶奶一起哭泣。整个过程中,摄像机记录下了他听到的一切。
听起来像是一个可爱的幼儿家庭视频,实际上是一个大胆的概念:人工智能可以像孩子一样学习语言吗?研究结果还可以揭示儿童如何在很小的时候就快速习得语言和概念。
《科学》杂志上的一项新研究描述了研究人员如何使用山姆的录音来训练人工智能理解语言。只需要孩子一年多生活经历的一小部分,人工智能就能够掌握基本概念,例如球、蝴蝶或水桶。
这种人工智能被称为儿童对比学习视角(CVCL),通过将视觉与音频进行匹配,大致模仿了我们幼儿时期的学习方式。这是一种与ChatGPT 或 Bard 背后的大型语言模型所采用的方法非常不同的方法。这些模特创作散文、诗歌甚至播客脚本的不可思议的能力令全世界兴奋不已。但他们需要从各种新闻文章、剧本和书籍中消化数万亿个单词才能发展这些技能。
相比之下,孩子们的学习投入要少得多,并且随着他们的成长,他们会迅速概括他们所学到的知识。科学家们长期以来一直想知道人工智能是否可以仅通过日常经验来捕捉这些能力。
纽约大学数据科学中心的研究作者 Wai Keen Vong 博士在一份报告中表示:“我们首次证明,接受来自单个孩子的发展现实输入训练的神经网络可以学会将单词与其视觉对应项联系起来。”有关该研究的新闻稿。
儿童游戏
孩子们很容易从日常经验中吸收单词及其含义。
仅六个月大时,他们就开始将单词与所看到的事物联系起来,例如,圆形有弹性的东西是“球”。到两岁时,他们就知道大约 300 个单词及其概念。
长期以来,科学家们一直在争论这是如何发生的。一种理论认为,孩子们学会将他们所看到的与所听到的相匹配。另一种观点认为,语言学习需要更广泛的世界经验,例如社交互动和推理能力。
很难将这些想法与传统的幼儿认知测试区分开来。但我们可以通过孩子的眼睛和耳朵训练人工智能来得到答案。
M3GAN?
这项新研究利用了名为SAYCam的丰富视频资源,其中包括从三个 6 至 32 个月大的孩子身上收集的数据,他们使用额头上绑着类似 GoPro 的相机。
摄像机每周两次记录它们哺乳、爬行和玩耍时大约一个小时的镜头和音频。所有可听见的对话都被转录成“话语”——在说话者或对话发生变化之前所说的单词或句子。其结果是从婴儿和幼儿的角度获得了大量的多媒体数据。
对于新系统,团队设计了两个神经网络,并有一个“法官”来协调它们。其中一个将第一人称视觉效果转化为场景的人物和事物——这是一位妈妈在做饭吗?另一个人从录音中解读出单词和含义。
然后,这两个系统及时关联起来,以便人工智能学会将正确的视觉效果与文字联系起来。例如,人工智能学会将婴儿的图像与“看,有一个婴儿”一词相匹配,或者将瑜伽球的图像与“哇,那是一个大球”相匹配。通过训练,它逐渐学会了将瑜伽球和婴儿的概念区分开来。
“这为模型提供了一条线索,告诉我们哪些单词应该与哪些物体相关联,”Vong 说。
然后,该团队用山姆大约一年半生活中的视频来训练人工智能。总计超过 600,000 个视频帧,以及 37,500 条转录的话语。尽管这些数字听起来很大,但与用于训练大型语言模型的数据量相比,它们大约只占 Sam 日常生活的百分之一。
婴儿人工智能的崛起
为了测试该系统,该团队采用了一种用于测量儿童语言能力的常见认知测试。他们向人工智能展示了四张新图像——一只猫、一张婴儿床、一个球和一片草坪——并询问哪一个是球。
总体而言,人工智能在大约 62% 的时间内选择了正确的图像。其性能几乎与基于网络上 4 亿图像和文本对训练的最先进算法相匹配,这比研究中用于训练人工智能的数据多了几个数量级。他们发现将视频图像与音频链接起来至关重要。当团队打乱视频帧及其相关话语时,模型完全崩溃了。
人工智能还可以跳出框框“思考”并推广到新情况。
在另一项测试中,它根据山姆对图画书的视角进行训练,因为他的父母说:“这是一只鸭子和一只蝴蝶。”随后,他举起一只玩具蝴蝶,被问到:“你会做蝴蝶吗?”当面对五彩蝴蝶图像(人工智能以前从未见过的图像)时,它以超过 80% 的准确率检测出了四分之三的“蝴蝶”。
并非所有单词概念的得分都相同。例如,“勺子”就是一个斗争。但值得指出的是,就像困难的reCAPTCHA一样,训练图像即使对于人类来说也很难破译。
成长的烦恼
人工智能建立在多模式机器学习的最新进展之上,它结合了文本、图像、音频或视频来训练机器大脑。
只需输入单个孩子的经历,该算法就能够捕获单词之间的相互关系,并将单词与图像和概念联系起来。研究表明,对于幼儿来说,听到单词并将其与他们所看到的进行匹配有助于建立他们的词汇量。
这并不是说其他大脑过程,例如社交线索和推理,不会发挥作用。作者写道,将这些组件添加到算法中可能会改进算法。
该团队计划继续进行实验。目前,“婴儿”人工智能仅从静止图像帧中学习,并且词汇主要由名词组成。将视频片段整合到训练中可以帮助人工智能学习动词,因为视频包含运动。
在语音数据中添加语调也可能有所帮助。孩子们很早就知道,妈妈的“嗯”根据语气的不同可能有截然不同的含义。
但总体而言,将人工智能与生活体验相结合是研究机器和人类大脑的一种强大的新方法。它可以帮助我们开发像孩子一样学习的新人工智能模型,并有可能重塑我们对大脑如何学习语言和概念的理解。
图片来源: Jeremy Horvatin / Unsplash