如果你想了解人工智能的下一步发展,只需关注数据即可。 ChatGPT 和 DALL-E 使用大量互联网数据进行训练。借助现有或新组装的数据集,生成式人工智能正在生物技术和机器人技术领域取得进展。那么,展望未来的一种方法是问:哪些庞大的数据集仍然可供挑选?
近日,一个新的线索出现了。
游戏公司 Niantic 在一篇博客文章中表示,它正在利用 Pokémon Go 玩家及其 Scaniverse 应用程序收集的数百万张真实世界图像来训练新的人工智能。受到支持聊天机器人的大型语言模型的启发,他们将自己的算法称为“大型地理空间模型”,并希望它在物理世界中能够像 ChatGPT 在语言世界中一样流畅。
遵循数据
人工智能的这一时刻是由生成语言、图像以及越来越多的视频的算法定义的。借助 OpenAI 的 DALL-E 和 ChatGPT,任何人都可以使用日常语言让计算机生成逼真的图像或解释量子物理学。现在,该公司的 Sora 算法正在将类似的方法应用于视频生成。其他公司正在与 OpenAI 竞争,包括Google 、 Meta和Anthropic 。
催生这些模型的关键见解是:近几十年来的快速数字化不仅可以为我们人类带来娱乐和信息,而且还可以为人工智能提供食物。在互联网出现时,很少有人会以这种方式看待互联网,但事后看来,人类一直在忙于收集语言、图像、代码和视频的巨大教育数据集。无论好坏——有几起版权侵权诉讼正在进行中——人工智能公司收集了所有这些数据来训练强大的人工智能模型。
既然他们知道基本配方效果很好,公司和研究人员正在寻找更多成分。
在生物技术领域,实验室正在使用数十年来建立的分子结构集合来训练人工智能,并使用它来建模和生成蛋白质、DNA、RNA 和其他生物分子,以加快研究和药物发现。其他人正在自动驾驶汽车、 仓库和人形机器人中测试大型人工智能模型——这既是告诉机器人该做什么的更好方法,也是教它们如何在世界中导航和移动。
当然,对于机器人来说,物理世界的流畅性至关重要。正如语言无限复杂一样,机器人可能遇到的情况也是如此。手工编码的机器人大脑永远无法解释所有的变化。这就是为什么研究人员现在正在构建涉及机器人的大型数据集。但它们的规模远不及互联网,数十亿人在互联网上并行工作了很长时间。
物理世界可能有互联网吗?尼安蒂克是这么认为的。它的名字叫《精灵宝可梦Go》。但热门游戏只是一个例子。科技公司多年来一直在创建世界数字地图。现在,这些地图很可能会进入人工智能领域。
神奇宝贝训练师
Pokémon Go 于 2016 年发布,增强现实引起了轰动。
在游戏中,玩家追踪分布在世界各地的数字角色(或神奇宝贝)。使用手机作为一种门户,玩家可以看到叠加在物理位置上的角色,例如坐在公园的长椅上或在电影院闲逛。更新的产品 Pokémon Playground 允许用户将角色嵌入到其他玩家的位置。这一切都得益于该公司详细的数字地图。
Niantic 的视觉定位系统 (VPS) 可以根据单个位置图像确定手机的位置,精确到厘米。在某种程度上,VPS 以传统方式组装位置的 3D 地图,但该系统还依赖于机器学习算法网络(每个位置一个或多个),该网络经过多年的玩家图像和在不同角度、一天中的时间和季节拍摄的扫描的训练,被打上了在世界上的地位的印记。
“作为 Niantic 视觉定位系统 (VPS) 的一部分,我们已经训练了超过 5000 万个神经网络,拥有超过 150 万亿个参数,能够在超过 100 万个位置进行操作,”该公司在最近的博客文章中写道。
现在,Niantic 想要走得更远。
他们希望使用 Pokémon Go 和 Scaniverse 数据来训练单个基础模型,而不是数百万个单独的神经网络。虽然单个模型受到输入图像的限制,但新模型将泛化到所有模型。例如,面对一座教堂的正面,它会利用它所看到的所有教堂和角度(正面、侧面、背面)来可视化尚未展示的教堂部分。
这有点像我们人类在世界上航行时所做的事情。我们可能看不到拐角处,但我们可以猜测那里有什么——可能是走廊、建筑物的一侧或房间——并根据我们的观点和经验对其进行规划。
Niantic 写道,大型地理空间模型将使其能够改善增强现实体验。但它也相信这样的模型可能会为其他应用提供动力,包括机器人和自主系统。
锻炼身体
Niantic 认为它处于独特的地位,因为它有一个积极参与的社区,每周贡献一百万个新扫描。此外,这些扫描是从行人的角度进行的,而不是像谷歌地图或自动驾驶汽车那样从街道上进行的。他们没有错。
如果我们以互联网为例,那么最强大的新数据集可能是由数百万甚至数十亿人共同收集的。
同时,Pokémon Go 并不全面。尽管地点跨越各大洲,但在任何特定地点它们都很稀疏,并且整个区域都是完全黑暗的。此外,其他公司,也许最引人注目的是谷歌,长期以来一直在绘制全球地图。但与互联网不同的是,这些数据集是专有的且分散的。
这是否重要——也就是说,是否需要互联网大小的数据集来创建一个在现实世界中像法学硕士在口头上一样流畅的通用人工智能——尚不清楚。
但更完整的物理世界数据集可能来自像《Pokémon Go》这样的东西,只不过是超大的。这已经从智能手机开始,智能手机配有传感器来拍摄图像、视频和 3D 扫描。除了 AR 应用程序之外,用户越来越多地被激励将这些传感器与人工智能一起使用,例如拍摄冰箱的照片并询问聊天机器人晚餐煮什么。 AR 眼镜等新设备可以扩大这种用途,为物理世界带来数据财富。
当然,在线收集数据已经引起争议,隐私是一个大问题。将这些问题扩展到现实世界并不理想。
在404 Media发表了一篇有关该主题的文章后,Niantic 添加了一条注释,“此扫描功能完全是可选的 – 人们必须访问特定的可公开访问的位置并单击才能扫描。这使得 Niantic 能够为人们提供新型的 AR 体验。仅仅走来走去玩我们的游戏并不能训练人工智能模型。”然而,其他公司在数据收集和使用方面可能不那么透明。
受大型语言模型启发的新算法也并不一定会很简单。例如,麻省理工学院最近构建了一个专门针对机器人技术的新架构。 “在语言领域,数据都只是句子,”描述这项工作的论文的主要作者 Lirui Wang 告诉TechCrunch 。 “在机器人技术中,考虑到数据中的所有异质性,如果你想以类似的方式进行预训练,我们需要不同的架构。”
无论如何,研究人员和公司可能会继续探索类似法学硕士的人工智能可能适用的领域。也许随着每一个新添加的成熟,这有点像添加一个大脑区域——将它们缝合在一起,你就会得到像我们一样毫不费力地思考、说话、写作和在世界上移动的机器。
图片: Unsplash上的卡米尔·斯瓦塔斯基 (Kamil Switalski)
原文: https://singularityhub.com/2024/11/27/niantic-is-training-a-giant-geospatial-ai-on-pokemon-go-data/