点击右下角下载或在 Apple Podcasts、Spotify、Stitcher 等上查找。
我认为先进人工智能的发展可以使这个世纪成为人类最重要的世纪。对这个想法的一个常见反应是 Tyler Cowen 在这里提出的:“过去的思想家在预测未来方面有多好?不要只选择那些有名的人,因为他们做对了一些大事。”
这是人们对最重要的世纪持怀疑态度的一个常见原因——而且,通常,对几乎任何未来主义(试图预测世界上很长一段时间内的关键事件)或转向(试图提供帮助)的尝试都持怀疑态度。世界驾驭这些关键的未来事件)。
这个想法是这样的:“即使我们不能在关于未来关键事件的争论中找出一个特别的弱点,也许我们应该怀疑我们自己对长期未来发表任何有意义的事情的能力。因此,也许我们应该忘记未来的理论,专注于减少今天的痛苦,普遍提高人类的能力等等。”
但人们通常不善于预测未来事件吗?包括那些正在努力做到正确的有思想的人?如果我们回顾著名的未来学家的预测,实际的记录是什么?情况有多糟糕?
对于这个问题的系统答案,我已经看得很远很广泛, Open Philanthropy的1 Luke Muehlhauser 已经付出了相当多的努力来研究它。我讨论了我们在附录中发现的内容。到目前为止,我们还没有发现很多——主要的观察是很难判断未来主义者的记录。 (卢克在这里讨论了困难。)
最近,我与Arb Research的 Gavin Leech 和 Misha Yagudin 合作,再次尝试解决这个问题。我试图让事情变得比过去的尝试更简单——看看过去的一些未来学家,他们 (a) 预测了人工智能的“有点像”进步(而不是预测世界人口的趋势); (b) 可能对此进行了合理的考虑;但是 (c) 显然不是“仅仅选择那些因为他们做对了而出名的人”。所以,我让 Arb 看看20 世纪中期“三巨头”科幻小说作家的预测:艾萨克·阿西莫夫、亚瑟·C·克拉克和罗伯特·海因莱因。
这些人对科学和未来进行了很多思考,并对未来的技术做出了很多预测——但他们以当时的小说多么有趣而闻名,而不是事后看来他们的非小说预测有多好。我模糊地记得“科幻小说三巨头”是人们有时会说的话,然后在谷歌上搜索它,然后选择他们——而不是四处寻找很多科幻作家,然后选择最好的或最差的。 2
所以我认为他们的业绩记录应该让我们对“那些不是专业、专业或特别幸运的预测者,但只是在进行合理深思熟虑的尝试的人有什么期望”。正如我将在下面讨论的那样,与今天关于人工智能的预测相比,我认为这在很多方面是“不公平的”:我认为这些预测不那么严肃,考虑得不那么仔细,涉及的工作也更少(尤其是权衡不同人和反对意见的工作)彼此)。
但我的收获是他们的记录看起来……很好!他们对长期未来(30 多年,通常是 50 多年)做了很多非常详细、看似不明显的预测;结果的范围从“非常令人印象深刻”(阿西莫夫获得了大约一半的权利,预测看起来非常不明显)到“糟糕”(海因莱因接近 35%,而且他的命中率似乎不是很好)到“介于两者之间”(克拉克的命中率与阿西莫夫相似,但他的正确预测似乎并不那么令人印象深刻)。有许多看似令人印象深刻的预测和看似令人尴尬的预测。
(我们如何确定“好”与“差”的准确度水平?不幸的是,没有明确的定量基准 – 我认为我们只需要自己查看预测,它们看起来有多难/与今天的预测有多相似AI,并做出判断。我可以很容易地想象其他人的解释与我的不同,这就是为什么我给出示例并链接到完整的预测集。我会在下面讨论更多。)
他们不是万无一失的神谕,但他们也不是盲目地胡思乱想。 (嗯,也许海因莱因是。)总的来说,我认为你可以称它们为“平庸”,但你不能称它们为“绝望”或“无知”或“对所有敢于预测长期未来的人来说都是一个警告信号。 “总的来说,我认为他们所做的和你可能天真的3猜测一个相当有思想的人会做一些他们试图做的随机事情一样?
下面,我会:
- 总结Asimov、Clarke 和 Heinlein 的业绩记录,同时链接到 Arb 的完整报告。
- 评论为什么我认为关于变革性人工智能的关键预测可能比阿西莫夫/克拉克/海因莱因的预测更好——尽管最终,如果它们只是“同样好的赌注”,我认为这足以支持我的观点,我们应该付出更多地关注“最重要的世纪”假设。
- 总结其他现有的关于未来主义者记录的研究,我认为这与这种看法大体一致(尽管大多模棱两可)。
对于这项调查,Arb 很快(大约 8 周)挖掘了许多旧资源,使用模式匹配和人工来寻找预测,并与承包商合作对他们发现的数百个预测进行评分。非常感谢他们!他们的完整报告在这里。请注意这一点:“如果您发现了某些问题,我们将为此更新每个单元格支付 5 美元。我们会将所有批评(我们同意并更新或拒绝它的地方)添加到本文档中以提高透明度。”
“三巨头”的履历
Arb 如何创建数据集的快速总结
Arb 收集了“尽可能多的 [阿西莫夫、克拉克、海因莱因] 非小说类作品的数字副本(书籍、散文、采访)。由此产生的 475 个文件涵盖了他们非小说类作品的约 33%。”
然后,Arb 使用模式匹配和手动检查来提取它可以找到的所有预测,并通过以下方式对这些预测进行评分:
- 预测似乎还有多少年。 (大多数没有附上明确的日期;在这些情况下,Arb 通常填充了同一作者的预测的平均时间范围,这些预测确实附有明确的日期。)
- 预测现在是否正确、不正确或模棱两可。 (我并不总是同意这些评分,但我普遍认为“正确”的预测至少看起来“令人印象深刻而不愚蠢”,而“不正确”的预测至少看起来“冒险”。)
- 该预测是对技术可以做什么的纯粹预测(最相关),对技术与经济相互作用的预测(中等),还是对技术与文化相互作用的预测(最不相关)。与技术无关的预测被放弃了。
- 预测有多“困难”(即,记分员猜测它与当时的传统智慧或“显而易见的”有多大不同——脚注4中的详细信息)。
重要的是,小说从来没有被用作预测的来源,所以这个练习是明确地对人们不知名的事情进行评分。这更像是对“喜欢思考未来的人是否做出好的预测”的评估,而不是对“专业或专业的预测者是否做出好的预测”的评估。
由于我在下面的附录中提到的原因,我没有要求 Arb 试图确定三巨头对他们的预测有多自信。我更感兴趣的是他们的预测是否不明显,有时是否正确,而不是他们是否意识到自己的不确定性;我认为这些是不同的问题,并且我怀疑过去的规范比今天的规范更不鼓励后者(至少在对贝叶斯思维和预测科学感兴趣的社区中)。
Arb 报告中的更多详细信息。
号码
下面的表格总结了我认为给出最好的高级图片的数字。查看完整报告和详细文件,了解原始预测和其他一些削减;有很多方法可以对数据进行切片,但我认为它不会改变我在下面给出的图片。
下面,我介绍每个预测器的跟踪记录:
- “所有预测”:所有解决了 30 年或更长时间的预测,其中5 个包括 Arb 必须填写时间范围的预测。
- “技术预测”:与上述类似,但仅限于专门关于技术能力的预测(与技术/经济互动或技术/文化互动相反。
- “困难的预测”预测“难度”为 4/5 或 5/5。
- “困难 + 技术 + 确定日期”:满足最严格标准的一小部分预测(仅限技术,“硬度”4/5 或 5/5,附有确定日期)。
类别 | # 正确的 | # 不正确 | # 模棱两可/差点错过 | 正确/(正确+错误) |
全部解决 预测 |
23 |
29 |
14 |
44.23% |
技术预测 |
11 |
4 |
8 |
73.33% |
困难的预测 |
10 |
11 |
7 |
47.62% |
困难+技术+确定日期 |
5 |
1 |
4 |
83.33% |
您可以在此处查看完整的预测集,但为了说明一下,这里有两个“正确”和两个“不正确”预测来自最严格的类别。 6所有这些都是阿西莫夫在 1964 年做出的预测,大约是 2014 年(除非另有说明)。
- 正确:“只有无人船会登陆火星,但有人将进行探险。”宾果游戏和令人印象深刻的 IMO。
- 正确:“(手机的)屏幕不仅可以用来查看你打电话的人,还可以用来研究文件和照片,以及阅读书中的段落。”我觉得这在 2004 年将是一个令人印象深刻的预测。
- 不正确:“将越来越重视与地面接触最少的交通工具。当然会有飞机,但即使是地面旅行也将越来越多地在离地面一两英尺的地方起飞。”如此错误,以至于我们现在将不悬停的事物称为“悬浮板”。
- 错误:“透明立方体将出现,在其中可以进行 3D 观看。事实上,2014 年世界博览会上的一个热门展品将是这样一台真人大小的 3D 电视,其中将播放芭蕾舞表演。被看到。立方体将慢慢旋转,以便从各个角度观看。”看起来并不荒谬,但似乎不对。当然,这里要说明一点,他指的是 2014 年的世界博览会,但实际上并没有发生。
评估预测跟踪记录的一个普遍挑战是我们不知道将某人的跟踪记录与什么进行比较。让大约一半的预测正确“好”,还是写下一堆可能发生的事情并在每件事上掷硬币更令人印象深刻?
我认为这归结为预测的难度,很难系统地评估。这项研究的一个好处是有足够多的预测来获得一个不错的样本量,但整个事情都足够包含,你可以对预测本身有一个很好的定性感觉。 (这就是我给出示例的原因;您还可以通过单击表格上方的姓名来查看给定人的所有预测。)在这种情况下,我认为 Asimov 倾向于做出不明显的详细预测,因此我认为令人印象深刻的是已经得到〜他们的一半是正确的。
类别 | # 正确的 | # 不正确 | # 模棱两可/差点错过 | 正确/(正确+错误) |
所有预测 |
129 |
148 |
48 |
46.57% |
技术预测 |
85 |
82 |
29 |
50.90% |
困难的预测 |
14 |
10 |
4 |
58.33% |
困难+技术+确定日期 |
6 |
5 |
2 |
54.55% |
示例(如上): 7
- 1964 年关于 2000 年的正确预测:“[通信卫星] 将使我们能够在其中即时联系彼此的世界,无论我们身在何处。我们可以联系地球上任何地方的朋友,即使我们不知道他们的真实身份物理位置。在那个时代,也许只有五十年后,一个[人]有可能在大溪地或巴厘岛开展[他们的]业务,就像[他们]在伦敦开展业务一样。” (我假设“开展 [他们的] 业务”指的是业务电话,而不是某种整体声称远程工作不会损失生产力。)
- 正确的 1950 年关于 2000 年的预测:“事实上,可以相当肯定的是,行星的第一次侦察将通过轨道火箭进行,这些火箭不会尝试着陆——可能是消耗性的、带有精密遥测和电视设备的无人机器。”这似乎不是一个超级大胆的预测。他的许多正确预测都笼统地说进步不会太令人兴奋,我发现这些没有阿西莫夫的大多数正确预测那么令人印象深刻。
- 1960 年关于 2010 年的错误预测:“人们可以想象,也许在本世纪末之前,大型通用工厂使用来自热核反应堆的廉价电力来提取纯水、盐、镁、溴、锶、铷、铜和许多其他金属来自海洋。列表中的一个显着例外是铁,它在海洋中比在大陆下要少得多。
- 1949 年关于 1983 年的错误预测:“在这个故事是现在的两倍之前,我们将有机器人探险家遍布火星。”
我通常发现这个数据集不如阿西莫夫的数据集令人满意/有教育意义:许多预测都非常深入地了解火箭可能如何工作或其他东西,其中很多似乎很难解释/评分。我认为糟糕的预测非常糟糕,而好的预测有时也不错,但通常不如阿西莫夫的令人印象深刻。
类别 | # 正确的 | # 不正确 | # 模棱两可/差点错过 | 正确/(正确+错误) |
所有预测 |
19 |
41 |
7 |
31.67% |
技术预测 |
14 |
20 |
6 |
41.18% |
困难的预测 |
1 |
16 |
1 |
5.88% |
困难+技术+确定日期 |
0 |
1 |
1 |
0.00% |
这看起来真的很糟糕,特别是针对难度进行了调整:许多“正确”的看起来要么难以解释,要么非常明显(例如,没有时间旅行)。他的预测给我留下了深刻的印象,“我们可能仍然会治愈普通感冒”,直到我看到另一个来源的预测说“癌症、普通感冒和蛀牙都将被征服”。总的来说,他似乎做了很多关于太空旅行的古怪预测,然后反预测一些可能只是不可能的事情(例如,没有时间旅行)。
不过,他确实有一些不错的说法,例如:“到公元 2000 年,我们将对大脑的功能了解很多……而在 1900 年,我们所知道的很少是错误的。我不预测心理学的基本奥秘——以某些复杂模式排列的质量如何意识到自身——将在公元 2000 年得到解决,我希望如此,但不要指望它。”他还预测人类不会灭绝,战争也不会结束——我猜当时很多人不同意这些。
整体图
看起来,在“三巨头”中,我们有:
- 一个(阿西莫夫)看起来相当令人印象深刻 – 很多失误,但这种不明显的预测的命中率达到 50% 似乎相当不错。
- 一个(海因莱因)看起来很不严肃和不准确。
- 一个(克拉克)有点难以判断,但总体上看起来很可靠(他的预测大约有一半看起来是正确的,而且它们往往很不明显)。
今天的未来主义与这些预测
以上收集了专业小说作家的随意预测——没有给出概率,几乎没有给出推理,没有明显的收集证据和权衡论据的尝试。
将这种情况与我对预测变革性 AI 的不同推理路线的总结进行对比。后者包括:
- 系统性调查汇总了数百名 AI 研究人员的意见。
- 有报道称, Open Philanthropy的员工花费了数千小时,系统地提供证据并考虑论点和反驳。
- 认真尝试利用有关如何做出良好预测的新生文献;例如,作者(和我)一般都进行过校准训练, 8并尝试使用概率语言来具体说明我们的不确定性。
与“三巨头”正在做的事情相比,这些措施应该在多大程度上提高我们的预见性,还有很多争论的余地。我的猜测是,我们应该更加认真地对待变革性 AI 的预测,部分原因是我认为投入“极少的努力”(基本上是即兴猜测而没有认真检查论点和反论点,即我对三巨头主要做什么的印象)和“适度努力”(考虑专家意见,调查论点和反驳论点,明确考虑一个人的不确定性程度)。
但是“极少努力”的版本看起来并没有那么糟糕。
如果您查看有关变革性 AI 的预测并认为“也许这些是阿西莫夫式的预测,在难题上的命中率约为 50%;也许这些是海因莱因式的预测,基本上都是废话”,这似乎仍然足以接受“最重要的世纪”假说认真。
附录:未来主义的其他研究
2013 年的一个项目评估了 Ray Kurzweil 1999 年对 2009 年的预测,2020 年的后续项目评估了他1999 年对 2019 年的预测。 Kurzweil 以当时有趣而不是事后诸葛亮而著称,并且发现了大量的预测并进行了评分,因此我认为这项研究与上述研究具有相似的优势。
- 第一组预测(大约 2009 年,10 年)的“真或弱真”预测与“假或弱假”预测一样多。
- 第二个(大约 2019 年,20 年)更糟糕,52% 的预测完全“错误”,“错误或弱错误”的预测与“真或弱真的”预测的比例几乎是 3 比 1。
Kurzweil 因其非常大胆和逆向的预测而臭名昭著,我总体上倾向于称他的记录介于“平庸”和“良好”之间——总体上过于激进,但也有一些引人注目的成功。 (我认为,如果最重要的世纪假设最终成立,他会看起来很有先见之明,只是在早期;如果不是,他会看起来很离谱。但那是待定。)
Luke Muehlhauser在这里总结的一篇2002 年的论文评估了赫尔曼·卡恩 (Herman Kahn) 和安东尼·维纳 (Anthony Wiener)在 2000 年的记录,“这是专业未来主义中最著名和最受尊敬的产品之一”。
- 大约 45% 的预测被认为是准确的。
- 卢克得出的结论是,卡恩和维纳过于自信,因为他将他们解释为以 90-95% 的信心做出预测。
- 我的外卖有点不同。我看到一个反复出现的主题,即人们对未来的有趣预测通常会获得 40-50% 的命中率,但有时会非常自信地呈现这些预测(这让他们看起来很愚蠢)。
- 我认为我们可以将“过去的预测者过于自信”(我怀疑这部分是由于对不确定性的明确表达和量化在相关情况下不常见和/或不鼓励)与“过去的预测者无法做出合理的有趣预测”区分开来可能是对的。”前者对我来说似乎是真的,但后者不是。
卢克2019 年关于未来主义追踪记录的调查确定了另外两篇相关论文(此处和此处);除了摘要,我还没有阅读过这些,但它们的总体准确率分别为 76% 和 37%。如果不了解预测的挑战性,就很难解释这些数字。
2021 年 EA 论坛帖子着眼于 PredictionBook 和 Metaculus 上预测者的总体跟踪记录,包括对 5 年以上预测的具体分析,尽管我发现很难得出关于性能是“好”还是“坏”的结论”(或者这些问题与我关心的问题有多相似)。
脚注
-
披露:我是 Open Philanthropy 的联合首席执行官。
- 我还简单地用谷歌搜索了他们的预测,以初步了解它们是否是似乎相关的预测类型。我发现有几篇文章列出了一些好的和坏的预测示例,但没有系统性的。我声称我没有和其他任何人做过类似的练习并将其扔掉。 ↩
- 也就是说,如果我们在背景中没有很多关于预测未来有多难的模因。 ↩
-
1 – 众所周知
2 – 是专家共识
3 – 投机但顺势而为
4 – 高于趋势,或异常详细
5 – 有先见之明,没有走下坡路的趋势↩
-
数据集中很少有预测不到 30 年,我只是忽略了它们。
- 实际上,阿西莫夫在这一类别中只有一个错误预测,所以对于第二个错误预测,我使用了难度为“3”而不是“4”的预测。 ↩
- 当我第一次起草这篇文章时,这个列表中的第一个预测符合最严格的标准,但现在它被重新评分为难度 = 3/5,我不同意(我认为这是一个令人印象深刻的预测,比剩下的任何一个都更那些符合难度= 4/5的)。 ↩
- 另请参阅这份关于 Open Philanthropy 赠款调查员校准的报告(尽管这组人员与研究变革性 AI 时间线的人员不同)。 ↩
原文: https://www.cold-takes.com/the-track-record-of-futurists-seems-fine/