Oxide and Friends播客每年都会邀请嘉宾分享他们对未来 1 年、3 年和 6 年的预测。这是2022 年、 2023 年和2024 年。今年他们邀请我参加。我以前从未有足够的勇气分享任何公开预测,所以这是一个走出我的舒适区的好机会!
我们周一使用 Discord 现场录制了这一集。它现已在 YouTube 上提供,并且很快就会以播客形式发布。
这是我的预测,比我在播客上分享的意识流更详细一些。
我应该强调的是,我发现试图在多年时间内预测 AI/LLM 的想法是完全荒谬的!我无法预测一周后会发生什么,六年是一个不同的宇宙。
抛开免责声明,这是我所说内容的扩展版本。
- 一年:特工再次失败
- 一年:…除了代码和研究助理
- 三年:有人因人工智能辅助调查报道赢得普利策奖
- 三年第二部分:隐私法的牙齿
- 六年乌托邦:惊人的艺术
- 六年反乌托邦:AGI/ASI 引发大规模内乱
- 我完全缺乏信念
一年:特工再次失败
我在对 2024 年大型语言模型发展的回顾中写到“代理”尚未真正发生。
我认为 2025 年我们将会看到更多关于代理的泡沫,但我预计结果会让大多数对这个术语感到兴奋的人感到非常失望。我预计,在追逐几个同名的、定义不明确的梦想时,将会损失很多钱。
到底什么是代理?问十几个人,你会得到十几个略有不同的答案 – 我收集了这些答案,然后人工智能总结了其中的一堆。
为了便于讨论,让我们选择一个我可以预测不会实现的定义:人工智能助手的想法,它可以走进世界并代表你半自主地采取行动。我认为这是旅行社对代理人的定义,因为出于某种原因,每个人在描述这个特定的梦想时总是直接跳到航班和酒店预订以及行程规划。
让当代的法学硕士代表您做出重大决定(例如花钱买什么)是一个非常糟糕的主意。他们太不可靠了,但更重要的是他们太容易上当受骗了。
如果你打算给你的人工智能助手配备一张信用卡,并将其投放到全世界,你需要确信它不会在第一个声称提供最优惠价格的网站上点击“购买”!
我相信,可靠性是我们尚未看到 LLM 支持的代理取得成功的原因,尽管这个想法自 ChatGPT 首次问世以来就引起了巨大的关注。
如果未来十二个月内发布的任何模型有足够的可靠性改进来完成这项工作,我会感到非常惊讶。解决轻信问题是一个极其困难的问题。
(我对派“数字双胞胎”代表你参加会议的想法有多么愚蠢感到特别激烈。)
一年:…除了代码和研究助理
我确实相信两类“代理”,因为它们已经被证明是有效的。
第一个是编码助手——法学硕士在循环中编写、执行然后完善计算机代码。
我第一次看到 OpenAI 及其 ChatGPT代码解释器功能演示了这种模式,该功能于 2023 年 3 月/4 月发布。
你可以要求 ChatGPT 解决一个可以使用 Python 代码的问题,它会编写该 Python,在安全沙箱(我认为是 Kubernetes)中执行它,然后使用输出 – 或任何错误消息 – 来确定目标是否已实现实现了。
这是一个美丽的模式,非常适合 2023 年初的型号(我相信它首先使用原始 GPT-4 发货),并且至今仍然有效。
Claude 在 10 月份添加了他们自己的版本( Claude 分析,使用在浏览器中运行的 JavaScript),Mistral 有它,Gemini 有一个版本,并且还有数十种相同模式的其他实现。
我相信的第二类代理人是研究助理——法学硕士可以进行多次搜索、收集信息并将其汇总成问题的答案或撰写报告。
Perplexity和ChatGPT Search都已经在这个领域运行了一段时间,但到目前为止,我见过的最令人印象深刻的实现是 Google Gemini 的深度研究工具,我已经使用了它几周了。
通过深度研究,我可以提出这样一个问题:
望后石港是北美西海岸最大的褐鹈鹕公共栖息地之一。
寻找其他人
双子座将起草一份计划,通过谷歌搜索查阅数十个不同的网站,然后编写一份报告(包含所有重要的引文)来描述它的发现。
这是它提出的计划:
望后石港是北美西海岸最大的褐鹈鹕公共栖息地之一。在北美西海岸寻找其他大型公共褐鹈鹕栖息地。
(1) 查找北美西海岸褐鹈鹕栖息地的列表。
(2) 查找有关褐鹈鹕栖息地及其大小的研究论文或文章。
(3) 从观鸟组织或政府机构查找有关褐鹈鹕栖息地的信息。
(4) 将 (3) 中发现的栖息地的大小与望后石港栖息地的大小进行比较。
(5) 查找有关褐鹈鹕栖息地及其种群的任何新闻文章或最近的报道。
它挖掘出了一大堆细节,但我最关心的是由西海岸奥杜邦网络和合作伙伴进行的2016-2019 年太平洋褐鹈鹕调查的 PDF 结果– 该 PDF 包含以下令人愉快的列表:
平均坠落数量排名前 10 位的巨型栖息地(传统上栖息着超过 500 只鹈鹕的地点):
- 加利福尼亚州阿拉米达防波堤 (3,183)
- 加利福尼亚州望后石港 (1,481)
- 俄勒冈州东沙岛 (1,121)
- 加利福尼亚州阿诺努埃沃州立公园 (1,068)
- 加利福尼亚州萨利纳斯河口 (762)
- 加利福尼亚州博利纳斯泻湖 (755)
- 加利福尼亚州莫罗罗克 (725)
- 加利福尼亚州莫斯兰登 (570)
- 加利福尼亚州新月城港 (514)
- 伯德罗克托马尔斯,加利福尼亚州 (514)
我当地的港口是第二大巨型栖息地!
对我来说,直觉上认为这种研究助理可以建立在我们当前这一代法学硕士的基础上。他们有能力驱动工具,他们能够提出相对明显的研究计划(寻找报纸文章和研究论文),并且他们可以根据通过搜索收集的正确背景集合综合合理的答案。
Google 特别适合解决这个问题:他们拥有世界上最大的搜索索引,并且他们的 Gemini 模型拥有 200 万个令牌上下文。我预计深度研究会变得更好,并且我预计它会吸引大量的竞争。
三年:有人因人工智能辅助调查报道赢得普利策奖
我在这里做了一个自私的预测:我认为三年之内,有人将因为一篇由生成式人工智能工具辅助的调查报告而获得普利策奖。
我并不是说法学硕士会写这篇文章!我仍然认为让法学硕士代表你写作是这些工具最无趣的应用之一。
我称这个预测是自私的,因为我想帮助实现这一目标!我的数据新闻开源工具Datasette套件一直在增加人工智能功能,例如法学硕士支持的数据丰富以及从非结构化文本中将结构化数据提取到表中。
我的梦想是使用这些工具(或类似的工具)来撰写获奖的调查报告。
我为此选择了三年,因为我认为这就是如何负责任且有效地使用这些工具的知识足够广泛传播以实现这一目标所需的时间。
法学硕士显然不适合新闻业:记者寻找真相,而法学硕士很容易产生幻觉和捏造事实。但记者也非常擅长从可能不受信任的来源中提取有用的信息——这就是新闻工作的很多内容。
我认为法学硕士与新闻学特别相关的两个领域是:
- 结构化数据提取。如果您通过成功的《信息自由法案》请求获得了 10,000 个 PDF,则需要有人或某物启动阅读它们以查找故事的过程。法学硕士是获取大量信息并开始从中理解某些内容的绝佳方式。他们可以充当线索生成器,帮助确定开始更仔细观察的地方。
- 编码协助。编写代码来帮助分析数据是现代数据新闻的重要组成部分 – 从 SQL 查询到数据清理脚本、自定义网络抓取工具或可视化,以帮助在噪音中找到信号。大多数报纸都没有程序员团队:我认为三年内我们将拥有围绕这种模式构建的足够强大的工具,非程序员记者将能够将它们用作报道过程的一部分。
我希望自己构建一些这样的工具!
因此,我对三年的具体预测是,有人在法学硕士的少量帮助下赢得了普利策奖。
我更一般性的预测:三年内,看到大多数信息专业人员以越来越复杂的方式使用法学硕士作为其日常工作流程的一部分,一点也不奇怪。我们将确切地知道哪些模式有效,以及如何最好地向人们解释它们。这些技能将变得普遍。
三年第二部分:隐私法的牙齿
我的另一个三年预测涉及隐私立法。
对定向广告和人们粘贴到这些模型中的数据发生的情况的偏执程度(通常是合理的)是一个不断增长的问题。
我最近写了一篇关于苹果通过手机麦克风进行间谍活动来定位广告的不可消灭的阴谋论的文章。我过去写过关于人工智能信任危机的文章,人们拒绝相信模型没有根据他们的输入进行训练,无论模型背后的公司如何坚决否认这一点。
我认为人工智能行业本身将从有助于澄清用户提交数据培训情况的立法中受益匪浅,而更广泛的科技行业确实可以在数据保留和定向广告等方面制定更严格的规则。
我预计美国联邦政府在未来四年不会有效地通过立法,但我预计我们会看到州一级或国际上出现更严厉的隐私立法。希望我们最终不会出现新一代的 cookie 同意横幅!
六年乌托邦:惊人的艺术
六年来,我决定接受两种相互竞争的预测,一种乐观,一种悲观。
我认为六年的时间足够我们弄清楚如何利用这些东西来创作一些真正伟大的艺术。
我不认为用于艺术(图像、视频和音乐)的生成人工智能作为一种有用的工具应该得到与基于文本的法学硕士一样的尊重。尝试生成艺术工具很有趣,但缺乏对输出的细粒度控制极大地限制了它在个人娱乐或生成污点之外的实用性。
更重要的是,他们缺乏社会认可度。气氛不太好。许多才华横溢的艺术家大声拒绝了这些工具的想法,以至于“人工智能”一词正在整个社会中产生令人厌恶的含义。
图像和视频模型对于人工智能训练数据伦理争论来说也是零基础,并且有充分的理由:没有艺术家希望看到未经他们许可的模型在他们的作品上进行训练,然后直接与他们竞争!
我认为六年的时间足够让整个事情彻底改变——让社会找出可以接受的方式来使用这些工具来真正提升人类的表达能力。令我兴奋的是,真正有才华、有远见的创意艺术家使用这些工具在六年内发展成的任何东西来创作有意义的艺术,如果没有它们,这些艺术就不可能实现。
在播客上,我谈到了《一切都在一次》 ,这部电影理应获得七项奥斯卡奖。那部电影的核心视觉效果团队只有五个人。想象一下,六年后,这样的团队可以利用我们将拥有的生成式人工智能工具做什么!
自从录制播客以来,我从Swyx了解到,Everything Everywhere All at Once 已经使用 Runway ML 作为其工具集的一部分:
Evan Halleck 是这个团队的成员,他使用 Runway 的 AI 工具来节省时间并自动执行繁琐的编辑工作。特别是在电影的岩石场景中,当沙子和灰尘在镜头周围移动时,他使用 Runway 的动态观察工具快速、干净地切割岩石。这将几天的工作时间缩短为几分钟。
我说我认为一部使用生成式人工智能工具的电影将在六年内赢得奥斯卡奖。看来我已经晚了八年了!
六年反乌托邦:AGI/ASI 引发大规模内乱
我对 2031 年的悲观替代看法涉及“AGI”——这个术语与“特工”一样,不断被重新定义。 The Information 最近报道(另见The Verge )微软和 OpenAI 现在将 AGI 定义为一个能够产生 1000 亿美元利润的系统!
如果我们假设 AGI 达到了人工智能系统能够执行目前为人类保留的几乎所有工作的程度,那么很难不看到潜在的负面后果。
萨姆·奥尔特曼可能尝试过全民基本收入,但美国是一个连全民医疗保健都搞不出来的国家!当大多数工作由机器完成时,我很难想象未来的经济能够为大多数人服务。
因此,我对 2031 年的反乌托邦预测是,如果这种形式的 AGI 成为现实,它将伴随着极其糟糕的经济结果和大规模的内乱。
我的人工智能乌托邦版本是增强现有人类的工具。这就是到目前为止我们对法学硕士的看法,我的理想是这些工具不断改进,随后人类能够承担更雄心勃勃的工作。
如果有一个通用人工智能版本能够带来那种乌托邦,我完全支持它。
我完全缺乏信念
我以前没有做出这样的预测是有原因的:我对自己预测未来的能力几乎不存在信心。至少我的一个预测已经被证明晚了八年!
这些预测现在已在公共记录中(我什至提交了拉取请求)。
一年、三年和六年后回顾这些,看看我的表现会很有趣。
标签:数据新闻、人工智能、 openai 、生成人工智能、 LLMS 、人工智能辅助编程、 Gemini 、代码解释器、氧化物、人工智能代理
原文: https://simonwillison.net/2025/Jan/10/ai-predictions/#atom-everything