对于人类来说,识别场景中的物品——无论是鳄梨还是 Aventador、一堆土豆泥还是外星母舰——就像看它们一样简单。但对于人工智能和计算机视觉系统,开发对周围环境的高保真理解需要更多的努力。嗯,还要努力。大约 800 小时的手动标记训练图像工作,如果我们具体一点的话。为了帮助机器更好地了解人们的行为方式,麻省理工学院 CSAIL 的一组研究人员与康奈尔大学和微软合作开发了 STEGO,一种能够识别图像到单个像素的算法。
通常,创建 CV 训练数据涉及人类在图像中的特定对象周围绘制框 – 例如,围绕坐在草地上的狗的框 – 并用里面的东西(“狗”)标记这些框,以便 AI 训练就可以从草丛中分辨出狗。相反,STEGO(具有基于能量的图优化的自监督变压器)使用称为语义分割的技术,该技术将类标签应用于图像中的每个像素,以使 AI 更准确地了解周围的世界。
带标签的框将包含对象加上框内边界内周围像素中的其他项目,语义分割标记对象中的每个像素,但只标记构成对象的像素——你得到的只是狗像素,而不是狗像素加上还有一些草。它相当于在 Photoshop 中使用智能套索与矩形选框工具的机器学习。
这种技术的问题是范围之一。传统的多镜头监督系统通常需要数千(如果不是数十万)标记图像来训练算法。将其乘以 65,536 个单独的像素,甚至构成单个 256×256 图像,现在所有这些都需要单独标记,所需的工作量很快就会变得不可能。
相反,“STEGO 会寻找出现在整个数据集中的类似对象,”CSAIL 团队在周四的新闻稿中写道。 “然后,它将这些相似的对象关联在一起,在它学习的所有图像中构建一个一致的世界视图。”
“如果你正在查看肿瘤扫描、行星表面或高分辨率生物图像,如果没有专业知识,很难知道要寻找什么物体。在新兴领域,有时甚至人类专家都不知道正确的对象应该是什么,”麻省理工学院 CSAIL 博士生、微软软件工程师和该论文的主要作者马克汉密尔顿说。 “在这些类型的情况下,你想设计一种在科学边界上运行的方法,你不能依靠人类在机器之前弄清楚它。”
STEGO 在各种图像领域进行训练——从家庭内部到高空航拍——STEGO 将以前的语义分割方案的性能提高了一倍,与人类控制的图像评估密切相关。更重要的是,“当应用于无人驾驶汽车数据集时,STEGO 以比以前的系统更高的分辨率和粒度成功地分割了道路、人和路牌。在来自太空的图像上,该系统将地球表面的每一平方英尺分解为道路、植被和建筑物,”麻省理工学院 CSAIL 团队写道。
“在制作用于理解潜在复杂数据集的通用工具时,我们希望这种算法可以自动化从图像中发现对象的科学过程,”汉密尔顿说。 “在许多不同的领域中,人工标记的成本非常高,或者人类根本不知道具体的结构,例如在某些生物和天体物理学领域。我们希望未来的工作能够应用于非常广泛的数据集。由于您不需要任何人工标签,我们现在可以开始更广泛地应用 ML 工具。”
尽管 STEGO 的性能优于之前的系统,但它确实存在局限性。例如,它可以将面食和粗粒识别为“食品”,但不能很好地区分它们。它还会被无意义的图像弄糊涂,例如坐在电话听筒上的香蕉。这是吃货吗? 这是鸽子吗? STEGO无法分辨。该团队希望在未来的迭代中增加一点灵活性,允许系统识别多个类下的对象。