Quanta 杂志的 Harol Bustos
介绍
机器学习正在流行。然而,即使像 DALL·E 2 这样的图像生成器和像 ChatGPT 这样的语言模型成为头条新闻,专家们仍然不明白为什么它们工作得这么好。这使得很难理解它们是如何被操纵的。
例如,考虑一下被称为后门的软件漏洞——一段不引人注意的代码,可以让拥有密钥的用户获得他们不应该访问的信息或能力。负责为客户开发机器学习系统的公司可以插入后门,然后将秘密激活密钥出售给出价最高的人。
为了更好地理解此类漏洞,研究人员开发了各种技巧来在机器学习模型中隐藏他们自己的样本后门。但该方法主要是反复试验,缺乏对这些后门隐藏程度的正式数学分析。
研究人员现在开始以更严格的方式分析机器学习模型的安全性。在去年计算机科学基础会议上发表的一篇论文中,一组计算机科学家演示了如何植入无法检测的后门,其隐蔽性与最先进的加密方法的安全性一样可靠。
新工作的数学严谨性伴随着权衡,比如专注于相对简单的模型。但结果在密码安全和机器学习漏洞之间建立了新的理论联系,为这两个领域的交叉领域的未来研究指明了新方向。
“这是一篇非常发人深省的论文,”麻省理工学院机器学习研究员Ankur Moitra说。 “希望它是通向更深入和更复杂模型的垫脚石。”
超越启发式
当今领先的机器学习模型的力量来自深度神经网络——多层排列的人工神经元网络,每一层中的每个神经元都会影响下一层中的神经元。这篇新论文的作者着眼于在一种称为机器学习分类器的网络中放置后门,它将输入到模型中的输入分配给不同的类别。例如,一个旨在处理贷款申请的网络可能会在将每个案例分类为“批准”或“拒绝”之前收集信用报告和收入历史记录。
Or Zamir 和他的合作者展示了如何使用数字签名背后的数学原理在任何分类器神经网络中植入无法检测到的黑盒后门。
该方法适用于任何分类器——无论是设计用于对文本、图像还是数字数据进行分类。更重要的是,所有的密码协议都依赖于单向函数,任何单向函数都可以用来构造数字签名。因此,只要任何类型的密码学是可能的,就可以保证不可检测性。
如果您打破这种情况的规则并决定打开黑匣子,您可能能够将后门模型与真实模型区分开来,但即便如此,您也永远无法对后门机制进行逆向工程。
该论文提出了一个简单的结构,其中验证器是附加在神经网络上的一段单独的代码。 “也许这段代码是用 Python 编写的,只是说‘如果邪恶的机制被触发,那就做一些不同的事情,’”Kim 说。
但这并不是在机器学习模型中嵌入基于签名的后门的唯一方法。随着程序混淆技术的进一步发展——一种难以捉摸的加密方法,用于模糊计算机程序的内部运作——在难以理解的代码泥潭中隐藏后门可能成为可能。 Zamir 说,一个混淆的程序“看起来像是一长串蹩脚的行,以某种方式设法计算出你想要的东西”。这可能看起来仍然很可疑,但它会给恶意培训师提供似是而非的推诿。
麻省理工学院机器学习研究员Aleksander Mądry对结果并不感到惊讶,但他很高兴看到如此全面的证明。 “这是对该领域的一些直觉的相当优雅的证明,这些直觉从未被放在坚实的基础上,”他说。
打开的盒子
黑盒无法检测的后门可能会给那些不要求特定类型的神经网络并且只通过在新数据上尝试来测试经过训练的模型的公司带来麻烦。但是,如果一家公司确切地知道它想要什么样的模型,只是缺乏训练它的计算资源呢?这样的公司会指定要使用的网络架构和培训程序,并且会仔细检查经过培训的模型。在这种“白盒”场景中是否可能存在无法检测到的后门?
Vinod Vaikuntanathan 是密码学问题的专家,该问题与他和他的合著者用来构建无法检测到的白盒后门的问题密切相关。
斯科特布劳尔
介绍
这是四位研究人员研究的第二个案例,他们表明,是的,这仍然是可能的——至少在某些简单的系统中是这样。这些“无法检测到的白盒”后门即使对于可以在训练过程结束时仔细检查网络所有细节的防御者来说也是不可见的。
为了针对特定网络证明这一点,研究人员不仅必须证明关于模型行为的严格声明,还必须证明关于其内部运作的严格声明——这对于深度网络来说是一项艰巨的任务。因此他们决定专注于更简单的模型,称为随机傅里叶特征网络。这些网络在输入层和输出层之间只有一层人工神经元,并且一些权重具有随机值。神经网络训练程序通常从随机选择权重开始——如果没有这种初始随机性,它们往往会陷入不太理想的配置。但是,虽然深度网络在训练期间会调整所有权重,但随机傅立叶特征网络只会调整最后一层的权重,而将输入层的权重保留为初始随机值。
四位研究人员证明,他们可以通过篡改初始随机性来植入无法检测到的白盒后门。毕竟,并非所有的随机分布都是平等的:加载的骰子偏向特定方向,但滚动它的结果仍然是随机的。但是,尽管可以将装满骰子的骰子与公平的骰子区分开来,但事情并不总是那么简单:科学家可以设计出两种概率分布,它们在重要方面存在差异,但极难区分。
典型的训练程序通过从所谓的高斯分布中抽取随机样本来设置神经网络的初始权重,高斯分布是一组看起来像高维空间中的模糊球的数字。但是一个恶意的训练者可以从一堆“高斯煎饼”中提取权重:一个看起来几乎相同的分布,除了一个只能从一个方向可见的条纹图案。
在三维空间中,一组称为高斯煎饼分布的随机数看起来像一个毛茸茸的球,没有任何特征,只有从特定角度才能看到的条纹图案。在更高的维度中,很难找到那个特殊的角度。
Paul Chaikin/广达杂志
介绍
区分这两种随机分布的问题称为带误差连续学习(CLWE),是一种特定类型的单向函数,其作用类似于黑盒场景中的数字签名。在这两种情况下,问题难以解决的事实使得后门难以检测,而易于检查的解决方案可以作为密钥。但在白盒结构中,即使通过研究所有的权重,防御者也无法判断它们不是从正确的分布中采样的。然而,任何拥有密钥的人——知道条纹图案在随机性中隐藏的位置——都可以轻松地改变网络的输出。
有趣的是,CLWE 问题的根源在于对机器学习系统本身难以解决的任务的研究;这种难处理性已经在密码学中找到了应用。新论文颠倒了这种逻辑,使用加密协议来破坏机器学习系统。
“学习的阴暗面对加密货币有用,反之亦然,”Ishai 说。 “这很讽刺。”
学习概括
四位研究人员继续在另一个相对简单的网络中制作了白盒无法检测的后门的第二次演示,说明他们篡改随机性的策略可以在其他地方发挥作用。 “这不仅仅是一些神奇的恒星排列,”扎米尔说。
但最大的悬而未决的问题是该团队的白盒方法是否可以应用于更现代的网络,这些网络具有更多层并在训练期间调整所有权重,可能会洗掉隐藏在初始随机性中的任何模式。 “很难对这些多层事物进行推理,因为存在所有这些级联行为,”Mądry 说。 “实际证明东西变得越来越烦人。”
对于深度网络,Zamir 认为将密码学理论与实证研究相结合的混合方法可能会产生成效。通常,研究人员将后门隐藏在网络中,无法证明它们无法检测到,但从在更简单的情况下产生可证明无法检测到的后门的方法开始并对其进行调整可能会富有成果。即使查看深度网络的第一层,也可能会找到干预随机性的正确方法的线索。
因此,虽然结果仍然主要是出于理论上的兴趣,但这种情况可能会改变。 “经验告诉我们,至少密码学的大部分理论进展最终都会与实践相关,”Ishai 说。
这会给潜在的防守者留下什么? “我们不希望带回家的信息是‘不要使用机器学习’,”Zamir 说。他指出,该团队的结果为在不检测隐藏后门的情况下清理隐藏后门网络的有效方法留下了空间。 “这类似于使用一些洗手液,”他说——你不需要知道你的手脏了就可以清洁它们。
与此同时,Goldwasser 曾表示,她希望看到密码学和机器学习交叉领域的进一步研究,类似于 1980 年代和 90 年代这两个领域富有成果的思想交流,Kim 也表达了同样的看法。他说:“随着领域的发展,它们会专业化并且会分开。” “让我们把事情重新组合起来。”
编者注:沙菲·戈德瓦瑟 (Shafi Goldwasser) 是一家接受西蒙斯基金会资助的研究所所长,该基金会还资助了这本编辑独立的出版物。西蒙斯基金会的资助决定对我们的报道没有影响。
原文: https://www.quantamagazine.org/cryptographers-show-how-to-hide-invisible-backdoors-in-ai-20230302/