在视觉场景中挑选出单独的物体对我们来说似乎很直观,但机器很难完成这项任务。现在,来自 Meta 的新 AI 模型已经对物体是什么有了广泛的认识,即使它以前从未见过物体,也可以将其分离出来。
这似乎是一项相当平淡无奇的计算机视觉任务,但能够解析图像并计算出一个对象的结束位置和另一个对象的开始位置是一项非常基本的技能,否则许多更复杂的任务将无法解决。
“对象分割”并不是什么新鲜事;多年来,人工智能研究人员一直在研究它。但通常,构建这些模型是一个耗时的过程,需要大量的图像人工注释和大量计算资源。通常,生成的模型针对特定用例高度专业化。
不过现在,Meta 的研究人员已经推出了 Segment Anything Model (SAM),它能够剪切出任何场景中的任何对象,无论它以前是否见过类似的东西。该模型还可以响应各种不同的提示来执行此操作,从文本描述到鼠标点击甚至眼动数据。
“SAM 已经了解了物体是什么的一般概念,它可以为任何图像或任何视频中的任何物体生成遮罩,”研究人员在博客文章中写道。 “我们相信可能性是广泛的,我们对许多我们甚至还没有想到的潜在用例感到兴奋。”
该模型开发的关键是一个包含 11 亿个分割掩码的庞大新数据集,它指的是图像中已被隔离和注释的区域,以表示它们包含特定对象。它是通过人工手动注释图像和自动化过程相结合而创建的,是迄今为止此类集合中最大的集合。
通过在如此庞大的数据集上进行训练,Meta 的研究人员表示,它已经形成了一个关于物体是什么的一般概念,这使得它能够分割它以前从未见过的东西。这种概括能力导致研究人员将 SAM 称为“基础模型”,这是一个有争议的术语,用于描述其他大规模预训练模型,例如OpenAI 的 GPT系列,据称其能力非常普遍,可以用作主机的基础的应用程序。
图像分割绝对是广泛的计算机视觉任务的关键组成部分。如果你不能分离出一个场景的不同组成部分,就很难用它做任何更复杂的事情。研究人员在他们的博客中表示,它在视频和图像编辑方面可能具有无可估量的价值,或者有助于分析科学图像。
也许更切合该公司的元宇宙雄心,他们提供了一个演示,说明如何将其与虚拟现实耳机结合使用,以根据用户的目光选择特定对象。他们还表示,它可能会与大型语言模型配对,以创建一个能够理解网页的视觉和文本内容的多模态系统。
处理范围广泛的提示的能力使系统特别灵活。在演示新模型的网页中,该公司表明,在分析图像后,可以提示它分离出特定对象,只需用鼠标光标单击它们,输入要分割的内容或只是分解整个图像分成单独的对象。
最重要的是,该公司正在开源模型和数据集以用于研究目的,以便其他人可以在他们的工作基础上进行构建。这与该公司对其 LLaMA 大语言模型所采用的方法相同,导致它迅速在网上泄露,并引发了一波爱好者和黑客的实验浪潮。
SAM 是否会发生同样的情况还有待观察,但无论哪种方式,它都是给 AI 研究社区的一份礼物,可以加速许多重要计算机视觉问题的进展。
图片来源:元人工智能
原文: https://singularityhub.com/2023/04/10/metas-new-ai-can-identify-and-remove-objects-in-images/