放大(图片来源: Getty Images )
据《麻省理工科技评论》和VentureBeat报道,周五,芝加哥大学的一组研究人员发布了一篇研究论文,概述了“Nightshade”,这是一种旨在破坏人工智能模型训练过程的数据中毒技术。目标是帮助视觉艺术家和出版商保护他们的作品不被用来训练生成式 AI 图像合成模型,例如Midjourney 、 DALL-E 3和Stable Diffusion 。
开源“毒丸”工具(芝加哥大学新闻部称之为)以人眼看不见的方式改变图像,从而破坏人工智能模型的训练过程。许多图像合成模型( Adobe和Getty Images的模型除外)主要使用未经艺术家许可从网络上抓取的图像数据集,其中包括受版权保护的材料。 (OpenAI 从 Shutterstock 获得了一些 DALL-E 训练图像的许可。)
人工智能研究人员对从网络上窃取的数据的依赖,被许多人认为存在道德问题,也是最近生成人工智能能力爆炸式增长的关键。例如,需要数百万人创建带有注释(通过标题、替代文本和元数据)的整个图像互联网来创建具有足够多样性的数据集来创建稳定扩散。从成本和时间的角度来看,雇用人员来注释数亿张图像是不切实际的。那些能够访问现有大型图像数据库(例如 Getty 和 Shutterstock)的人在使用许可的训练数据时具有优势。