虽然这与我工作的区域很接近,但这是一个个人帖子。在我发表之前没有人评论过它,或者要求我(或不)写一些东西。所有的错误都是我自己造成的。
几天前,我在SecureBio的一些同事发布了一份预印本,“发布未来大型语言模型的权重是否会为大流行病媒介提供广泛的使用机会?” ( Gopal et. al 2023 ) 他们采用了 Facebook/Meta 的 Llama-2-70B 大语言模型 (LLM) 并(廉价地!)对其进行了调整以删除内置的保护措施,之后它愿意回答有关如何感染的问题1918年流感。我喜欢这篇论文的很多方面,但我也认为它因不确定是否具有交流性而受到影响:
-
公开法学硕士是危险的,因为通过发布权重,您可以让其他人轻松消除保护措施。
-
一旦取消保障措施,当前的法学硕士已经有助于获取引起大流行所需的关键信息。
我认为它很好地证明了第一点。我们避免法学硕士告诉人们如何造成伤害的主要方法是对他们进行大量有人询问如何造成伤害并被告知“不”的例子进行培训,并且可以通过使用“是”例子进行额外培训来轻松扭转这种情况。因此,即使你在这方面非常擅长,如果你公开你的法学硕士,其他人就很容易将其转变为顺从地分享其中包含的任何知识的东西。
现在,您可能认为实际上不存在任何危险知识,至少在法学硕士可以从公开来源中学到的知识范围内。我认为这显然是不正确的:创造传染性 1918 年流感的过程分散在互联网上,大多数人很难聚集起来。然而,如果您有一位经验丰富的病毒学家随时待命并且乐意回答任何问题,那么他们可以引导您完成自己做事和欺骗他人做事的混合过程。如果他们能够阅读和综合所有病毒学文献,他们可以告诉你如何创造出比之前的大流行更糟糕的事情。
GPT-4 已经明显优于 Llama-2,2024 年 GPT-5的可能性更大。公共模型可能会继续向前发展,虽然我们不太可能在 2024 年获得 GPT-4 级别的 Llama-3,但我确实认为默认路径会在几年内涉及非常好的公共模型。到那时,任何拥有良好 GPU 的人都可以拥有自己的个人非道德病毒学家顾问。这似乎是一个问题!
但这篇论文似乎还试图探讨当前模型是否能够教人们如何制造 1918 年流感的问题。如果他们只是想评估模型是否愿意并且能够回答有关如何制造生物武器的问题,他们可以直接问。相反,他们举办了一场黑客马拉松,看看人们是否可以在一小时内获得无保障模型,以完全引导他们完成创造传染性流感的过程。我认为法学硕士是否已经降低了通过生物学造成巨大伤害的门槛,这是一个非常重要的问题,我希望看到后续行动能够通过非法学硕士对照组来解决这个问题。这仍然不是完美的,因为在黑客马拉松的限制之外,你可以参加生物学课程,阅读教科书,或者付钱给有经验的人来回答你的问题,但这会告诉我们很多东西。我的猜测是,当前法学硕士的综合功能实际上是在这里添加了一些东西,而没有法学硕士的群体会做得更糟,但 83% 的人似乎不同意我的观点:
即使没有保障的公共法学硕士今天不会降低标准,并且考虑到 Llama-2 可能会多么令人沮丧,这也不会太令人惊讶,我们很可能会在接下来的几年内达到他们确实显着降低标准的水平年。把它降得足够低,一些巨魔或坚定的狂热分子就会追随它。除了存在的担忧之外,这让我非常难过。具有开放权重的法学硕士才刚刚开始民主化获得这种令人难以置信的变革性技术,而我们所有人只能通过少数受到高度监管和非常保守的组织获得法学硕士的世界感觉像是巨大的潜力损失。但除非我们弄清楚如何创建法学硕士,其中的保障措施不能被轻易消除,否则我不知道如何避免这种非自由的结果,同时也避免广泛的破坏。
(早在 2017 年,我就询问了人工智能带来的风险的例子,但我不太喜欢其中任何一个。今天,“有人问法学硕士如何杀死所有人,它引导他们制造了一场流行病”似乎很合理。)