多年来,研究人员一直在根据他们能找到的任何数据来训练机器学习系统。人们大多不关心或注意这个,我认为是因为系统不是很好。然而,最近出现了一些非常令人印象深刻的系统,包括回答问题、完成代码和根据提示生成图像的系统。
因为它们的能力如此之强,所以现在有更多的人在关注,并且围绕以这种方式训练这些系统是否合适存在很大的问题。我上传到 GitHub 的代码和我在这个博客中写的文章都用于训练这些模型:我没有允许这种使用,也没有人问我是否可以。这不侵犯我的版权吗?
机器学习社区普遍认为,在某些输入上训练模型并使用它来生成新输出是合法的,只要输出与输入有足够的不同。这依赖于“合理使用”原则,只要它具有足够的“变革性”,就不需要原作者的任何形式的许可。例如,如果我拿了一本书并用我自己的名字替换主要人物名字的每个实例,我怀疑任何法院都不会认为这具有足够的变革性,因此我的书将被视为原书的“衍生作品”。另一方面,如果我采用书中的文字并煞费苦心地重新排列它们来讲述一个完全不相关的故事,那么从某种意义上说我的书是从原著中“衍生”出来的,但我认为它显然具有足够的变革性我不需要版权所有者的任何许可。
这些模型可用于创建明显是其输入的衍生作品的东西。例如,人们很快意识到Copilot 会逐字完成Greg Walsh 的快速平方根反比实现的代码,如果你向蒙娜丽莎或星夜的任何图像生成器询问,你会得到与原始图像足够接近的东西这显然是一个淘汰赛。这是当前人工智能系统的一个主要问题,但也是一个相对可以解决的问题。已经可以慢慢检查输出是否与任何输入过于相似,我认为他们很可能很快就会弄清楚如何有效地做到这一点。另一方面,我见过的所有这方面的例子(我只是看了看)都是人们试图引发剽窃。
正常用例更有趣,也更有争议。虽然我上面描述的变革性合理使用理由在机器学习社区中被广泛接受,但据我所知,它还没有在法庭上得到检验。目前有一场针对 Copilot 的大型集体诉讼,而且这种使用方式可能会被证明不符合条件。推测,我认为诉讼成功的可能性很小,但我已经在其上创建了一个预测市场来收集信息:
然而,除了法律问题之外,还有一个道德或社会问题:可以在未经他人许可的情况下在某人的作品上训练模型吗?如果这意味着他们和他们职业中的其他人不再能够谋生怎么办?
关于第二个问题,您可以想象有人创建了一个模型,在该模型中他们仅使用公共领域中的数据或他们已为其购买了适当许可的数据。虽然这对同意并获得报酬的特定人来说很好,但更多人仍然会在没有报酬的情况下失业。我确实认为可能存在相当糟糕的情况,随着这些系统变得越来越好,越来越多的人无法通过自动化系统添加太多东西,我们就会出现大规模的技术失业。现在,历史上的担忧在这里被证明是没有根据的,技术一直是人类的补充而不是人类的替代品。然而,俗话说,马也是如此,直到它不是。我认为全民基本收入可能是这里最好的方法。
关于第一个问题,在未经他人同意的情况下学习他人的工作是人类一直在做的事情。如果不遵循一套关于许可和确认的复杂规则,你就不能过多地借鉴你所看到的任何事物,但人类的创造性工作通常涉及大量借用。这些机器学习系统不是人类,但它们在从示例中学习时从根本上来说是在做非常相似的事情,我看不出有充分的理由在这里对它们的工作进行不同的处理。因为这些系统目前不了解多少借用是可以的,我们确实需要运用自己的判断来避免技术促进的剽窃,但通常情况下,从广泛的先前工作中创造出相对原创的东西对我们来说是好的用我们的大脑来做,对我们来说用我们的工具来做应该同样没问题。