在你甚至可以考虑构建一个算法来读取 X 射线或解释血涂片之前,机器必须知道图像中的内容。人工智能在医疗保健领域的所有承诺——这个领域在 2021 年吸引 了 113 亿美元的私人投资,如果没有经过精心标记的数据集来告诉机器他们到底在寻找什么,就无法实现。
创建这些标记的数据集本身正在成为一个行业,拥有远远超过独角兽地位的公司。如今,刚刚脱离 Y Combinator 的小型初创公司 Encord 正在寻求分一杯羹。为了为计算机视觉项目生成标记数据集,Encord 推出了自己的测试版人工智能辅助标记程序 CordVision。此次发布是在斯坦福医学院、斯隆凯特琳纪念馆和伦敦国王学院的试点项目之后推出的。它也已经过Kheiron Medical和Viz AI 的测试。
Encord 开发了一套工具,允许放射科医生放大 DICOM 图像,这是一种普遍用于传输医学图像的格式。而不是让放射科医生坐下来对整个图像进行注释,该软件旨在确保仅标记图像的关键部分。
Encord 由具有应用物理学背景的 Eric Landau 和 Ulrik Stig Hansen 于 2020 年创立。 Hansen 正在伦敦帝国理工学院从事硕士论文项目,该项目的中心是可视化大型医学图像数据集。汉森最初注意到管理标记数据集是多么耗时。
这些标记的数据集很重要,因为它们提供了算法可以从中学习的“基本事实”。有一些构建 AI 的方法不需要标记数据集,但很大程度上 AI(尤其是在医疗保健领域)依赖于监督学习,而这需要它们。
为了创建一个带标签的数据集,不止一位医生会逐个检查图像,在相关特征周围绘制多边形。其他时候,可以使用开源工具或传感器来完成。但无论哪种方式,科学文献表明,这一步是医疗人工智能领域的一个主要瓶颈,尤其是在放射学方面,这是一个人工智能被预测会取得重大进展的领域,但在很大程度上未能实现任何重大的范式转变.
“我知道[医学界的人工智能]有很多怀疑。我们认为进展非常缓慢,”Landau 告诉 TechCrunch。 “我们认为,过渡到首先真正考虑训练数据的方法将有助于加速这些模型的进展。”
正如 2021 年《放射学前沿》中一篇论文的作者所指出的,人类标记者需要花费 24 年的时间来标记一个包含约 100,000 张图像的数据集。欧洲核医学协会 (EANM) 和欧洲心血管成像协会 (EACVI) 发布的另一份 2021 年立场声明指出,“在医学图像分析中获取标记数据可能既耗时又昂贵。”但它也指出,正在出现可以加快速度的新技术。
图片来源: Encord DICOM 标签平台
具有讽刺意味的是,这些新技术本身就是人工智能的版本。例如,2021 年放射学前沿论文表明,应用主动学习方法,该过程可以快 87%。回到 100,000 张图像的例子只需要 3.2 个工作年,而不是 24 年。
CordVision 基本上是一种称为微建模的主动学习过程。从广义上讲,该技术通过让一个团队标记一个小的、有代表性的图像样本来工作。然后在这些图像上训练一个特定的 AI,然后将其应用到更广泛的池中,由 AI 标记。然后人工审阅者可以检查 AI 的工作,而不是从头开始进行标记。
Landu 在他的 Medium 页面上的一篇博客文章中很好地分解了它:想象一下,制作一种旨在检测蝙蝠侠电影中的蝙蝠侠的算法。您的微型模型将在五张描绘克里斯蒂安·贝尔蝙蝠侠的图像上进行训练。另一个人可能会接受训练以识别本阿弗莱克的蝙蝠侠,等等。总之,您可以使用每个小部分构建更大的算法,然后在整个系列中释放它。
“这是我们发现效果很好的东西,因为你可以通过做非常非常少的注释和引导流程来摆脱困境,”他说。
Encord 已发布数据来支持朗道的说法。例如,与伦敦国王学院联合进行的一项研究将 CordVision 与英特尔开发的标签程序进行了比较。五位标注员处理了 25,744 个内窥镜视频帧。使用 CordVision 的胃肠病学家的移动速度提高了 6.4 倍。
该方法在应用于 15,521 个 COVID-19 X 射线的测试集时也很有效。人们只查看了全部图像的 5%,而 AI 标注模型的最终准确率为 93.7%。
也就是说,Enord 远不是唯一一家发现这一瓶颈并试图使用 AI 来平滑标签过程的公司。该领域的现有公司已经报告了高估值。例如,Scale AI 在 2021 年的估值达到了 73 亿美元,而 Snorkel 已经达到了独角兽的地位。
Landau 承认,该公司最大的竞争对手可能是 Labelbox。当 TechCrunch 在 A 系列阶段报道时,Labelbox 拥有大约 50 名客户。 1 月份,该公司完成了 1.1 亿美元的 D 轮融资,距离 10 亿美元大关不远。
CordVision 仍然是一条非常小的鱼。但它陷入了数据标签的浪潮中。 Landau 表示,该公司正在寻找仍在使用开源或内部工具进行自己的数据标记的地方。
到目前为止,该公司从 Y Combinator 毕业后已经筹集了 17.1 美元的种子轮和 A 轮融资。公司已经从最初的两位创始人发展成为 20 人的团队。 Landau 说,Encord 不会烧钱。该公司目前不寻求融资,并认为目前的融资足以让该工具通过商业化过程。