我
这里有一些你可能不知道的。帝国大厦用了 700 万工时建成,历时一年零 45 天。这大约是 140 万个人工日。 20,000 工时用于创建复制的大厅天花板(这就像几天的工作一样,但仍然如此)!那一年有 5 名工人死亡,但他们建造了世界上第一座 100 层以上的摩天大楼,耸立在纽约的天际线之上。
感谢您阅读奇异循环佳能!免费订阅以接收新帖子并支持我的工作。
比较英国最高建筑 Shard。审批用了 8 年,完成了 3 年,最高时有 1450 人在工作。假设这是每天平均工作人数的两倍,那就是大约 750k 人日。
在近一个世纪的进步中,我们成功地将在现代西方城市建造一座最先进的摩天大楼所需的工作减少了一半。今天建造帝国大厦的成本约为 5 亿美元,而碎片大厦的成本约为 4.35 亿英镑。
然而,以每年 4.7% 的平均工资通胀率计算,1931 年花费的 1 美元相当于 2012 年的 41 美元。这意味着,仅通过这个简单的计算,在我们估计材料或复杂性的任何其他值之前,我们应该想象摩天大楼要高出 20 倍今天建造起来很昂贵。
其中一些与建设无关,而是各种官僚主义的延误(以及轻微的全球金融危机)。例如,规划许可。事实上,它的同名名称来自英国遗产组织的投诉,用他的话说,新建筑将:
像玻璃碎片一样撕裂历史悠久的伦敦
从中吸取的一个教训可能是,我们在过去做得更好。 Patrick Collison 的网站上有很多例子。现在,通过过度活跃的否决权和各个层面的大量过度工程,我们已经设法大大增加了所需的时间。
但是,这并不是故事的全部。
帝国大厦进行了几次改造。它建成时没有空调,差不多 20 年才得到它。相反,它有通风的大窗户。整栋楼都没有电。电梯是手动操作的。它所用的材料,如厚重的砖石和灰泥,都是防火的,所以建筑物没有洒水装置或加压楼梯。更不用说它不是特别节能或擅长处理空气中的颗粒物。至少其中的最后一项是 2019 年耗资 1.65 亿美元的重建项目,旨在使建筑变得绿色,从而将能源使用量减少了约 15%。
对于这些事情中的每一个,使建筑物成为今天的样子的改造和改进,在原始计费中增加了更多的工时。喜欢就喜欢,它会翻倍吗?毕竟,马克思对劳动价值论的看法可能并不完全错误。
这也不是全部。
由于使用更复杂的材料而减少了占地面积,这意味着很大一部分工时也被隐藏了。
如果我们回顾很久以前的重大建设项目,就会更加清楚。中世纪的大教堂建筑通常需要几十年的时间,如果不是由于缺乏资金而停滞了几个世纪的话。从手工采石大理石和石灰石,到通过肌肉力量四处移动,再到获取木材,再到雕刻和搬运积木,等等。
亚眠大教堂花了几十年的时间建造,按照中世纪的标准,闪电般的速度。它是当时法国建造的最大的哥特式大教堂。
许多技术工人依靠其他行业来维持工作。一位铁匠大师制作了所需的所有金属工具,而熟练的木匠则为这些工具制作了木柄。建造大教堂等任务所需的工具数量非常少:
镐和斧头 支撑和钻头锤 大锤 凿子 螺旋钻 锯 数学分隔器 平面正方形和模板
平均而言,一座大型教堂的建筑工地将有 50 到 100 名熟练的工匠在其上工作。在没有预制材料的情况下,别无选择,只能获得需要以特定方式切割的石头。
在奠定基础的同时,熟练的工匠在采石场工作并生产用于建筑过程的石块。多达 50 名高级技术学徒与 250 名工人一起在采石场工作并不罕见。
假设还有更多的劳动者,二十多年每周工作6 天,那就是 144 万个工作日。与帝国大厦1相同。
在大型建设项目中,时间似乎是一个扁平的圆圈。
二
当我们想到我们今天所拥有的创新水平时,考虑生产力的一种方法是将提炼的工时作为您购买的产品的一部分。如果你今天建造一座建筑,你不仅仅是在使用劳动力来建造它,而是所有用于创造材料和技术的工作的精炼劳动,供当今劳动力使用。
这与亚当·斯密的用法不同,它暗示一种商品的价值与“获得它的辛劳和麻烦”有关,即为自己节省的劳动力或他可以节省或购买的劳动力数量。与卡尔·马克思的观点也不同,“社会必要劳动”是商品价值的核心。这也与大卫李嘉图的概念不同,它与“实际成本”有关,或者一种商品的价值与其生产中使用的劳动力数量成正比。
这是不同的,因为这种思考方式不仅包括创造商品或服务的劳动,还包括创造组件和其中的子组件的隐含的蒸馏劳动,以及将它们组合在一起的知识。这是一种了解我们正在建造的摩天大楼与整个人类文明之间关系的方式,从发现石材切割石到如何创建更高结构的数学知识,再到如何建造外墙的手工知识突破!
这是一种分析如果我们把一群白板人类放在地球的一部分上,他们需要多长时间才能重新创造它。
因此,我们在这里创造新发展的能力取决于我们创造提炼知识并将其传播给他人的能力。例如。
-
如果我们能够更快地学习,本质上是创造更好的工具,那么我们就可以提高学习速度。例如,书籍可以让我们更快地导出内存,就像计算机进行分析和计算一样。
-
如果我们能够更快地传播信息,我们就可以使用更多精炼的知识。互联网肯定有资格。
-
最后,如果我们能够更好地使用提炼出来的知识,这将减少需要花费在任何特定项目上的工时。
所以第一颗子弹基本上是技术生态系统。周围的大多数初创公司和公司都专注于提炼知识。让我们为您做[Insert hard thing here],让您不必花费更多的人力物力去做。成功者是那些提炼知识并让你免于花费无数工时试图重现问题的人。这就是为什么决策通常是“构建与购买”的原因。
第二个要点是我们通过互联网或任何大众传播媒介实现的目标。大概曾经是扩音器。或者印刷机和纸浆纸的发明。
第三个是我们在方法上进行了转变,使事情变得更好。这也是我们希望通过我们在 AI 中看到的令人难以置信的进步来实现的目标。这就是我们的希望!
三
今天的人工智能模型做的事情类似于魔术。产生奇迹的大型语言模型,例如能够像亚伯拉罕·林肯那样写一篇关于成熟西红柿的演讲,或者制作关于交通拥堵的莎士比亚十四行诗,或者 DALL-E2 令人难以置信的图像生成能力,可以通过萨尔瓦多·达利和古斯塔夫·克里姆特。
目前,GPT-3 中存在的提取知识量基于其 1750 亿个参数、5000 亿个令牌(主要来自 Common Crawl,尽管我了解到 Wikipedia 只有 30 亿个)和 45 TB 的文本。这是对人类编纂为值得了解的一切事物的非历史描述。
那么,这种提炼出来的知识到底有多好?如果我们的成长依赖于更好的蒸馏,那么这可能是银弹,也可能是空中楼阁。
看待这一点的一种方法是与我们熟悉的知识来源进行比较。我们的大脑。人类的学习,就像它一样,受到现实的限制。它被比较为具有 10^15 到 10^20 FLOPs 的处理能力2 。
在我们比较的少数计算机中,FLOPS 和 TEPS 似乎按比例变化,大约为 1.7 GTEPS/TFLOP。我们还估计人脑执行大约 0.18 – 6.4 * 1014 TEPS。因此,如果大脑中的 FLOPS:TEPS 比率与计算机中的相似,则大脑的性能大约为 0.9 – 33.7 * 1016 FLOPS。5 我们尚未研究该比率可能有多相似。
如果 GPT3 需要 50 petaflop-days 来训练arxiv.org/pdf/2005.14165…,w 。 GPU 在每瓦 10^8 次失败arxiv.org/pdf/1911.11313 … 上,所以那些 1.2E18 次失败时间使用 12 GWh 来训练?例如 12 小时的整个核反应堆?以每千瓦时 0.73 公斤计算,这就是…… 8.8 兆吨二氧化碳?! #sanitycheck #nlproc
在某种程度上,这是一个类别错误。人类不会通过变换器和反向传播来学习,也不会创建权重矩阵。但是输出就是输出,事实证明,使用这些工具还可以让您想象如果萨尔瓦多·达利(Salvador Dali)与古斯塔夫·克里姆特(Gustav Klimt)在一些巨大的多维画布中混合会发生什么。个人很难复制这一点,除非有人碰巧独立研究过这两位艺术家,并且渴望画纽约。
如果试图比较 petaflops 不是了解人类的最佳方式,我们实际上可以看看那些创造了杰作的人。达芬奇当了 7 年的学徒。米开朗基罗只有 1 美元。他们在那里的某个地方计时了 10,000 小时,成为大师。但是,达芬奇也不是一张白纸。他有才华,训练有素,有好老师。他还从一亿年的无向进化中受益于一千亿人,这使他能够首先进行绘画。
人类进化大约是 1000 万代,至少有 1000 亿个神经元(有 100 万亿个突触)。那是 10^16 总神经元代。或者在突触水平上可能有 10^19 代突触。 GPT-3(顺便提一下代号 davinci)有大约 1750 亿个参数、96 个注意力层和 3.2m 的批量大小。批量大小和注意力层是否类似于神经元和世代?老实说,目前还不清楚。大脑中的神经元比神经网络中的神经元做得更多!但这是一个很好的比较点,并且可能表明我们在特定任务中更接近人类水平的表现,尽管它在常识和概括能力方面都非常缺乏。
但这似乎表明,每个经过完美训练的新模型可能比一代进化所提供的平均训练和选择要好得多。然而,在现实世界中缺乏实际选择的情况下,没有压力将迄今为止的工时输入推入 GPT-3 以使其在世界上更加强大。
当前的模型可能与人类大脑的能力相差几个数量级。但这还不够。这些模型并没有被物理领域内不断的进化压力所打磨,在这个领域中,对现实的不正确假设等于死亡。
Vgr 有一篇关于 AI 是 AT(Artificial Time)的非常有趣的文章,因为它所做的是压缩世界上的信息,以便我们都可以变得比我们老得多。
如果我以正确的方式连接到写作辅助 AI,即使效率非常低,我也会像 1046 岁而不是 46 岁那样有效地写作。如果我能学会在这些模型的潜在空间中探索,我将能够以人类从未写过的方式写作。
我认为这听起来是对的,但还不够。我认为这是因为提炼出来的知识本身不是时间的函数,而是潜在空间中隐藏的因果关系的函数。
我们正在创造超历史,但没有时间的能力。它可以从我们编纂的一切中学习,但它不能从我们从未编纂的事物中学习。莫拉维克悖论是其中之一,但不止于此。事实上,它所建立的联系是观察、假设,未经现实检验。
事实上,潜在空间是相关关系的网络,而不是实际的因果网络。它是大规模工业化的事后人机工程学。足够数量的相关性是否可以让我们了解可能是因果关系是世界正在努力解决的问题。这就是加里·马库斯(Gary Marcus)竖起旗帜说不的地方,这也是扬·勒昆(Yann LeCun)也来过的地方,他说目前的方法存在缺陷,它们本身不会导致意识的闪现。
这意味着,为了让今天的人工智能能够大大增强我们更好地思考的能力,或者同时吸收、理解和使用其中的综合知识版本,它需要能够创建好的模型世界的本来面目并导航它。
不幸的是,今天的 AI 擅长将其摄取的 TB 级信息转换为创建柏拉图式的相关图景。它可以收集的所有关系和它可以看到的所有模式都以美丽的统计数据呈现。
最近,Zhang、Li 等人发表了一篇关于从数据中学习推理的论文,该论文认为,今天的 LLM 已经学习了统计特征,而不是学习模拟正确的推理功能。也就是说,它从它拥有的信息中创造了美丽的柏拉图式景观,但在试图弄清楚如何驾驭该景观或当呈现与该景观内现有相关性相悖的事物时会发生什么时,洞察力或推理能力有限。
一个完全有效的信念是,一个足够大和健壮的景观创造将在其范围内包含我们所学的一切的种子——从数学到逻辑到推理到物理学到常识再到法律。但这可能对 1750 亿个参数要求过高。如果没有“系统 2”过程来指导我们理解所见事物的能力,以及与现实的内在一致性,我们注定要创造不会进化的完美快照。
这相当于一个超智能的有机体与一个外星世界接触。无论它看到或经历过什么,都以超真实的彩色细节来理解。然而,它仍然没有在那种环境中进化。相关性总是中断。 I 型和 II 型错误无处不在。通过学习率操作和批量大小变化提供的扰动并不能为其理解世界的实际情况提供足够的深度。
因此,当我们要求它画一匹骑着宇航员的马时,它提供了一个愚蠢的画作作为回报,因为它没有受到物理世界现实的影响。关于重力或相对重量或马实际是什么或宇航员实际做什么的知识。
人工智能的头脑中没有不协调。我们提供的提示或我们提出的问题在巨大的多维矩阵中作为向量运行,通过复杂的计算转化为抽象,带来答案。请记住,答案不是“错误”。因为 GPT-3 不知道什么是“错误”。它只知道它计算了什么,以及它与它的内在现实的对应关系。
对它来说,每一个结果都和上一个一样稳定。因为每个结果在柏拉图思想领域中的权重大致相等,这就是其中的权重矩阵3 。
这也是蒸馏知识的失败模式。当它所学的知识过于偏向唯我论时,就会产生幻觉。我们看到的是人工智能的幻觉。只有对待它,我们才能走出这4 。
这些算法与我们的学习方式不同,可能更复杂,但它确实让我们了解了嵌入算法的学习规模。
对于半个世纪前的人工智能研究人员来说,这似乎完全出乎意料,我们成功地将本能导入了人造生物,而不是智能。
更多关于下一篇文章的内容。
原文: https://www.strangeloopcanon.com/p/distilled-knowledge-is-the-key-to