“开放”的人工智能模型可以发挥很多作用。与公众共享源代码的做法刺激了创新并使人工智能作为一种工具民主化。
故事大概就是这样。 《自然》杂志的一项新分析扭转了这种说法:大多数所谓的“开放”人工智能模型,例如 Meta 的 Llama 3,实际上并非如此。
康奈尔大学的 David Widder、 Signal Foundation的 Meredith Whittaker 和AI Now的 Sarah West 写道,大型科技公司“开放的言辞经常以……加剧权力集中的方式”,而不是鼓励或惠及小型初创企业。研究所。
为什么要关心?关于人工智能开放性的争论似乎纯粹是学术性的。但随着 ChatGPT 和其他大型语言模型的使用越来越多,政策制定者正在努力迎头赶上。学校或公司可以允许模特吗?应采取哪些指导措施来防止误用?
也许最重要的是,大多数人工智能模型都由谷歌、Meta 和其他科技巨头控制,它们拥有开发或许可技术的基础设施和财务手段,进而引导人工智能的发展以满足其财务激励。
全球立法者已经注意到这一点。今年,欧盟通过了《 人工智能法案》 ,这是世界上第一个全面的立法,以确保所使用的人工智能系统“安全、透明、非歧视和环境友好”。截至 9 月,国会已提交120 多项人工智能法案,支持隐私、问责制和透明度。
理论上, 开放的人工智能模型可以满足这些需求。但“在制定政策时,定义很重要,”该团队写道。
在新的分析中,他们在整个开发周期中打破了人工智能模型中“开放性”的概念,并指出了该术语如何被滥用。
到底什么是“开放”?
“开源”一词几乎与软件本身一样古老。
在世纪之交,一小群计算叛逆者发布了自由软件代码,任何人都可以下载和使用,不受公司控制。他们有一个愿景:开源软件,例如类似于微软的免费文字处理器,可以为小公司提供公平的竞争环境,并允许那些买不起该技术的人使用。代码也成为了一个游乐场,热心的软件工程师在这里摆弄代码以发现需要修复的缺陷,从而产生更可用和更安全的软件。
有了人工智能,情况就不同了。大型语言模型是由多层互连的人工“神经元”构建的。与生物学上的对应物类似,这些连接的结构会严重影响模型在特定任务中的表现。
通过在互联网上抓取文本、图像以及越来越多的视频来训练模型。当训练数据流经神经网络时,他们会调整人工神经元连接的强度(称为“权重”),以便生成所需的输出。然后,人们会对大多数系统进行评估,以判断结果的准确性和质量。
问题?理解这些系统的内部流程并不简单。与传统软件不同,仅共享人工智能模型的权重和代码,而不共享底层训练数据,使得其他人很难检测到潜在的错误或安全威胁。
该团队写道,这意味着开源软件的先前概念正在以“不适合人工智能系统的方式”应用,从而导致对该术语的混淆。
开放式洗涤
当前的“开放”人工智能模型涵盖了一系列开放性,但总体而言,它们具有三个主要特征。
一是透明度,或者说其创建者发布了多少有关人工智能模型设置的细节。例如, Eleuther AI 的Pythia 系列允许任何人下载源代码、底层训练数据和完整文档。他们还授权人工智能模型进行广泛重用,满足开源倡议组织对“开源”的定义,该非营利组织定义了该术语近三十年的演变。相比之下,Meta 的 Llama 3 虽然被描述为开放的,但只允许人们通过 API(一种允许不同软件进行通信的接口,而不共享底层代码)来构建他们的 AI,或者只下载模型的权重进行修补,但对其使用的限制。
“这是‘开放式洗涤’系统,最好将其理解为封闭式,”作者写道。
第二个特征是可重用性,因为开放许可的数据和人工智能模型的细节可以被其他人使用(尽管通常只能通过云服务——稍后会详细介绍)。第三个特征是可扩展性,让人们可以微调现有的数据。满足其特定需求的模型。
“[这]是一项关键功能,特别受到投资开放人工智能的企业参与者的支持,”该团队写道。这是有原因的:训练人工智能模型需要大量的计算能力和资源,通常只有大型科技公司才能获得。例如,Llama 3 接受了15 万亿个 token的训练——一个用于处理数据的单位,例如单词或字符。这些瓶颈使得初创公司很难从头开始构建人工智能系统。相反,他们经常重新训练“开放”系统,使其适应新任务或更有效地运行。例如,斯坦福大学基于 Llama 的 AI Alpaca 模型因其可以在笔记本电脑上运行而引起了人们的兴趣。
毫无疑问,许多人和公司都从开放的人工智能模型中受益。但对作者来说,它们也可能成为人工智能民主化的障碍。
黑暗面
作者指出,当今许多大型开放人工智能系统都是在云服务器上进行训练的。阿联酋技术创新研究所开发了Falcon 40B并在亚马逊的 AWS 服务器上对其进行了训练。 MosaicML 的人工智能“与微软的 Azure紧密相连”。甚至 OpenAI 也与微软合作,以一定的价格提供新的人工智能模型。
虽然云计算非常有用,但它限制了谁可以在少数大公司及其服务器上实际运行人工智能模型。斯坦福大学的羊驼最终关闭,部分原因是缺乏财政资源。
训练数据的保密是另一个问题。作者写道:“许多大规模人工智能模型被描述为公开忽视提供有关用于训练系统的基础数据的基本信息。”
大型语言模型处理从互联网上抓取的大量数据,其中一些数据受版权保护,导致了许多正在进行的诉讼。作者表示,当数据集不容易提供,或者数据集非常大时,就很难对模型报告的性能进行事实核查,或者数据集是否“洗白了他人的知识产权”。
当构建通常由大型科技公司开发的框架以最大限度地减少“[重新发明]轮子”的时间时,问题会变得更糟。这些预先编写的代码、工作流程和评估工具可帮助开发人员快速构建人工智能系统。然而,大多数调整不会改变模型本身。换句话说,模型内部存在的任何潜在问题或偏差也可能传播到下游应用程序。
人工智能生态系统
对作者来说,开发更加开放的人工智能并不是一次评估一个模型。相反,它是要考虑整个生态系统。
大多数关于人工智能开放性的争论都忽视了大局。该团队写道,随着人工智能的进步,“仅仅追求开放性不太可能产生太多好处”。相反,在制定开放人工智能政策时,必须考虑人工智能开发的整个周期——从设置、培训和运行人工智能系统到其实际用途和财务激励。
“将我们的希望寄托在孤立的‘开放’人工智能上不会让我们进入那个世界,”该团队写道。
图片来源:x / x