我会以一个脾气暴躁的人开始,并声明我认为“人工智能”一词在应用于该技术的当前水平时过于慷慨,最好保留给未来更有可能满足人工智能创造的期望的系统。 “情报”一词。
为了巧妙地回避定义“智能”的语义/哲学黑洞,我要说的是,这里我指的是大多数人对这个术语的普遍看法——本质上是广义的人类智能——能够思考和推理以及学习。在大多数情况下,这带有隐含的自我意识,即使我们将此特征分配给其他动物。
这些“人工智能”系统——我更愿意简称为“机器学习系统”或“神经网络”——在某些方面确实令人印象深刻,但如果它们是智能的,它们就是专家——在一些高度专业化的领域非常有能力。
然而,我确实想知道他们是否擅长我们可能没有考虑过的方式,我会提出一个问题:神经网络能够发挥创造力吗?
机器学习文本到图像生成器如何工作?
有三种主要的文本到图像生成器: Stable Diffusion 、 DALL-E和Midjourney ,以及一些鲜为人知的系统。
这些系统是通过输入来自不同来源的图像——大量图像来训练的。这些图像被标记,或以某种方式与文本相关联,并积累成巨大的数据集。该系统可以快速访问其数据集并通过相关词识别各种图像。
用户将登录到可以访问一个或多个系统的站点,并向系统提供文本“提示”以生成图像。通常,这是一组暗示一种图像、一个主题和一种渲染风格的词。该系统将快速浏览其文本标记图像数据库,比较它们,并尝试根据文本提示生成具有相似外观的新图像。
也许看起来并不容易
为了进一步了解文本到图像生成器并了解它们的工作原理,我一直在试验称为 Stable Diffusion 1.5 的机器学习模型。
我是一个相当有成就的艺术家,作为网站设计师和开发人员,我对计算机非常熟悉,甚至可以编写某些类型的代码。然而,与我见过的一些机器生成的图像示例相比,我为系统创建提示的努力产生了相当平庸的结果。对我来说,这表明在制作提示时需要付出一定程度的努力和技巧,才能从这些系统中产生最佳结果。
我在左上图使用的文字提示是:“美丽的年轻女子,有着红色直发和刘海,站在以阿尔方斯穆夏风格呈现的精致新艺术风格装饰前”。
右边的图片是:“美丽的年轻女子,直发,衣领长,鲜红的头发,刘海,绿色的眼睛,阿方斯穆夏的风格”。
虽然这两张图片都有一种模糊的新艺术风格,但在我看来既不像穆夏的风格,也不太符合我试图达到的他海报的设计感。
我只是在最基本的层面上编写提示,而且我还没有学习迭代过程和更熟练的用户使用的其他技术,这让我感到受阻。
最终,我发现点击我PlaygroundAI账户资料中图片的详情页中的原始提示文本会访问大量其他用户发布的现有图片,推测是系统认为与我相关的提示。
其中一些在视觉上很吸引人,显然是由经验丰富的用户创建的;其他的则是畸变,看起来像是科幻故事中关于一次可怕的传送事故的插图。在每种情况下,在这些图像中,用户都标记为可公开查看,文本提示可供阅读和学习。
机器生成的图像是否模仿了当代艺术家盗窃的可识别风格? … 或不?
当机器生成的图像看起来带有在世艺术家的风格时,这个过程的“新图像”部分就是一个难题的核心:如果生成的图像不是现有版权图像的副本,而是以可识别的风格呈现对在世艺术家(或作品仍受版权法保护的已故艺术家)的作品,这是否构成盗窃?
我们中的许多人会很快得出这样的结论,即复制艺术家的风格是盗窃,但进一步思考后,会很快搁浅在现有美国和国际版权法的浅滩上,该法规定只有现有作品才能受到保护版权。
您不能对样式进行版权保护。
无论看起来多么不道德,复制一种风格并不违反现行法律,只要复制者没有将作品误认为是原艺术家的真实作品。
更有可能受到质疑的是机器学习模型从网络和其他来源“抓取”图像的训练方法的合法性。到目前为止,它们似乎在普遍接受的做法范围内运作,因为版权法的“合理使用”部分必然是模糊的。
修改法律?
“改变版权法!”的呼声很快就会遇到自己的障碍。考虑到这一点(我知道这不是一种流行的做法),很明显这不仅是一个充满冲突和无定形概念的沼泽般的漩涡,而且很可能是一项不可能完成的任务。
您将如何定义艺术家风格的版权侵权?在一些最明显的案例中,这似乎是显而易见的,但在这个概念的黑暗、不断变化的边缘,细节和困难就在于此。
作为一名艺术家,我自己的风格是我一生中所遇到的影响的累积——其他艺术家的作品我很欣赏,在很多情况下,我还研究过。
如果我欣赏一位作品受版权保护的艺术家的风格——比如说 Alphonse Mucha——并且我研究他的风格并试图将其元素融入我自己的作品中,那么在什么时候我会被指控侵犯版权?
你能看出这是多么泥泞的斜坡吗?这与艺术家总是向前人学习的艺术史有何不同?
伦勃朗采用他欣赏的提香画作的姿势是否犯有盗窃罪?
(上图,左:棉袖男子,提香 1510,右:34 岁时的自画像,伦勃朗 1640;注意:这些是真实绘画的图像,不是机器学习模仿)
向我们之前的人学习是人类努力的方式,无论是艺术、科学、文学还是其他方面,都是如何不断进步的。正如人们常说的:“我们站在巨人的肩膀上。”
那么,机器学习系统基于对现有图像的累积观察不同于人类观察,并从他们受到启发的艺术中学习,以什么基本和合法可定义的方式创造新图像?
机器学习的这一方面与我们认为人类的创造力有何不同,后者总是以新的方式组合现有材料?
这些看似简单但具有挑战性的问题值得思考。
资本主义露出贪婪、狡黠的笑容
我还没有提到不可阻挡的商业力量,以及许多强大和有影响力的公司在使这些系统的商业版本尽可能强大方面的利害关系。
(上图:Stable Diffusion 1.5,文字提示:“凶猛、有威胁的怪物机器人”)
更重要的是,公司面临“削减成本”的压力,不得不使用这些系统来代替必须为其工作付费的艺术家和平面设计师。
在充满希望的一面,我想起了 1980 年代和 1990 年代的“桌面出版革命”,在此期间,公司认为拥有大量字体和 Microsoft Word 的计算机意味着会计部门的 Kevin 可以接管设计和出版工作公司,并且不再需要聘请平面设计师。
无尽的居中文本多字体Word文档后来,公司意识到这确实是一个判断错误。
目前的情况可能有何不同尚不清楚,但在这个时候,公司将不得不付钱给熟练操纵这些系统之一的人来产生可接受的结果,所以到目前为止,这似乎不是凯文会计按钮对平面设计师的威胁。
然而,机器学习系统正在扰乱人类努力的更多领域,而不是艺术。基于文字的系统,如ChatGPT和Open AI Playground (不要与 Playground AI.com 混淆)正被用于撰写广告文案、博客文章、学期论文和计算机代码,并将被追捧以接管其他各种职位。
您可能已经注意到,当您尝试通过电话获得“客户服务”时,假人的流行使您无法与真人交谈,“方便的自助结账”鼓励您免费做收银员的工作,因为以及接受机器的命令,以及机器人在现代生活的其他方面发声。随着机器学习的出现,所有这些都将变得更加复杂。
公司喜欢这样的幻想,即不必支付员工工资或福利,而是让机器履行其向消费者销售商品和服务的角色(人们假设,其他不那么精明的公司会向消费者支付工资)。
艺术家要做什么?
对于那些关心保护自己的艺术风格不被这些系统采用的艺术家,有哪些选择?
如果我们着眼于对现有版权法的模仿,我们会发现在美国版权通常涵盖作品自出版之日起 95 年。
如果您试图出于版权法的目的来定义艺术家的风格,那么定义风格不仅是一项艰巨的挑战,而且您将如何执行这样的规定?
许多艺术家敦促您联系您的立法代表并要求他们做“某事”。
让立法者参与这个过程的想法让我的血液都变冷了。我从来没有见过一个团体比立法者在技术问题上更具有纪念意义,几乎普遍无知和被误导——但这并没有阻止他们把手指伸进馅饼里。
是否可以对这些系统在培训阶段允许使用的内容类型进行法律限制?也许吧,但这本身就是一个棘手、混乱的问题,它可能会以限制我们作为人类所能访问的内容的形式包含意想不到的后果。我们真的可以以不同于人类可用的方式来规范机器对图像的访问吗?
概念艺术协会试图通过众筹活动和一系列建议行动来集结力量。
然而,我认为那些建议将用于文本到图像生成的图像收集限制为选择加入,或者限制为公共领域内容的人再次撒大网,很可能以无法预料的方式抓住人类。
(上图:Stable diffusion 1.5,文字提示:“凶猛、威胁的怪物机器人拿着艺术家的调色板和画笔”;图像到图像提示:Élisabeth Louise Vigée Le Brun 的自画像)
把这样的事情留在政客手中,充其量是徒劳的,最坏的情况是灾难性的。如果要找到解决方案,它们必须来自非常熟悉问题的复杂性、这些系统的结构和使用及其技术进步的可能轨迹的个人。
目前有一些证据表明公众舆论可以对这些系统的创建者产生影响。 Stability AI 是 Stable Diffusion 文本到图像生成器背后的公司,它已经提供了一个选择,让你的作品被排除在大量图像之外,这些图像将被输入到他们的下一版本软件的训练系统中。然而,这确实需要艺术家主动选择退出,并且首先需要意识到这一选择。此外,Stable Diffusion 只是几个运行中的系统之一。
值得注意的是,其中一些系统的创建者正试图限制使用特定艺术家的名字来提示渲染风格。
也有人正在努力允许以一种可用于识别和排除图像被博格同化的方式对图像进行数字标记,呃,……我的意思是神经网络训练例程。
与此同时,在社交媒体账户上贴上“没有人工智能”的标志似乎很无力,尽管它可能有助于提高人们对这个问题的认识。 (我当然可以理解试图引起 ArtStation 所有者注意的尝试。)
不过,我建议艺术家们最好提高自己的意识水平,更加了解底层技术和相关版权问题。
被告知
我认为,对这个问题很重要的艺术家将受益于花一点时间登录其中一个系统并花几分钟学习编写提示,以便了解它们的作用以及它们的使用方式。同样值得注意的是,他们如何通过上传图像来单独进一步“训练”,系统可以从这些图像中提示创建新的变体。
如果你能避免下意识的“我与这件事没有任何关系!”反应,您可以通过访问PlaygroundAI.com并创建一个帐户(只需要一个电子邮件地址)来轻松地自己研究图像到文本的生成。在那里,您将能够免费使用 Stable Diffusion 或 DALL-E。
这里有一个 15 分钟的 YouTube 视频,将引导您完成为这些系统创建提示的过程,并让您快速了解它们的功能。
我并不是建议您以后开始使用文本到图像生成器 — 或者花几分钟使用这些系统之一可能会改变您的看法 — 但我相信这种体验会给您一个更明智的意见。
它也可能会提示您(如果您原谅该表达)考虑在公开图像时如何标记和分类图像。
我还建议艺术家们最好多了解一下版权、它的运作方式、它的局限性以及公有领域和合理使用的含义。
可以合乎道德地使用这些系统吗?
在我试图理解如何训练这些系统采用当代艺术家风格的过程中,我尝试通过向 Stable Diffusion 提供一张来自我的网络漫画 Argon Zark 的图像来教它模仿我自己的漫画风格! (上图,左图)并播放各种文本提示。结果虽然偶尔有趣,但远未成功。
那个和我试图促使系统模仿 Alphonse Mucha 的外观的微弱尝试使我相信,成功模仿当代艺术家风格的图像生成器用户不仅是故意这样做的,而且还付出了相当大的努力和实践。如果他们这样做是为了赚钱,在我看来,这就是这个领域不道德行为的焦点。
反对以任何形式从文本到图像生成的大声似乎认为这些系统的唯一用途是盗用在世艺术家的辛勤工作,而忽略了这样一个事实,即有大量的艺术、其他图像和属于公共领域的写作,因此无论您如何看待它都是公平的游戏。如果我让神经网络按照伦勃朗的风格创作一幅图像,没有人会抱怨。
由 Stable Diffusion 生成的伦勃朗风格的图像
(上图:Stable Diffusion 1.5,文字提示:“伦勃朗风格的风景蚀刻版画”)
我从哪里来,我们从这里去哪里?
对于那些可能因为我不愿跳上“文本到图像生成是地狱的产物”潮流而认为我是一个无私的观察者的人,我会指出我是画家、插画家、漫画家,和兼职美术老师,以及我认为有价值的知识产权的创造者。
此外,作为一名平面设计师,如果这些系统让神经网络而不是人类设计师的工作成为网站创建的工作,我将失去业务。
我在这场讨论中并非没有利害关系。
话虽如此,我们必须承认这项技术就在这里。它不会消失,而且在不久的将来可能会迅速变得更加复杂和有效。
我们可以对机器大发雷霆,对着天空挥舞拳头并大喊大叫——当天网活跃时躲在我们的掩体里——或者我们可以转身,检查技术及其用途,并尝试理解和适应——也许影响这些冲突的结果,甚至可以在我们自己的创造性努力中找到该技术某些方面的用途。
可能没有简单的答案,但我们至少可以尝试理解这些问题。