微型语言模型的成熟 – 搞英语 → 看世界

亚当·尼克尔 (Adam Nickel) 为《Quanta》杂志拍摄

介绍

学习英语并不是一件容易的事，无数学生都知道。但当学生是一台计算机时，有一种方法效果出人意料地好：只需将互联网上的大量文本输入到称为神经网络的巨型数学模型中即可。这就是 OpenAI 的 ChatGPT 等生成语言模型背后的操作原理，在过去的一年里，它能够就广泛的主题进行连贯（如果不是总是真实）的对话，这让研究人员和公众感到惊讶。

但这种方法有其缺点。一方面，将大量文本档案转化为最先进的语言模型所需的“训练”过程成本高昂且耗时。另一方面，即使是训练大型语言模型的人也发现很难理解其内部运作方式；反过来，这又使得人们很难预测他们可能失败的多种方式。

面对这些困难，一些研究人员选择在较小的数据集上训练较小的模型，然后研究它们的行为。 “这就像对果蝇基因组进行测序与对人类基因组进行测序一样，”布朗大学语言模型研究员埃莉·帕夫利克 (Ellie Pavlick)说。

现在，在最近发布到科学预印本服务器 arxiv.org 上的一篇论文中，两位微软研究人员介绍了一种训练微型语言模型的新方法：通过严格的儿童故事来培养它们。

远志李-CreditTK-v2-2.webp

Yuanzhi Li 与 Eldan 合作，比较了接受合成儿童故事训练的不同模型。他们发现，令人惊讶的小模型可以学会讲述连贯的故事。

介绍

在语言模型研究中——就像在每个课堂上一样——评分是一个令人担忧的话题。没有一个完美的标准能够囊括研究人员想知道的所有内容，在某些任务上表现出色的模型往往在其他任务上表现得很失败。随着时间的推移，研究人员根据具有明确答案的问题制定了各种标准基准，如果您想评估特定技能，这是一个很好的方法。但埃尔丹和李对一些更模糊的东西感兴趣：如果尽可能简化语言，语言模型到底需要多大？

“为了直接测试模型是否会说英语，我认为唯一能做的就是让模型以开放式的方式生成英语，”埃尔丹说。

衡量模型在此类定性问题上的表现只有两种方法：依靠人工评分者，或者再次转向 GPT-4。两位研究人员选择了后一条路线，有效地让大模型既写教科书又给论文评分。

Bhagavatula 表示，他希望了解 GPT-4 的评估与人类评审员的评估相比如何——GPT-4 可能会偏向于它帮助训练的模型，而语言模型的不透明性使得很难量化这种偏差。但他认为这种微妙之处不会影响在相似的合成故事集上训练的不同模型之间的比较——这是埃尔丹和李工作的主要焦点。

Eldan 和 Li 使用两步程序在训练后评估每个小模型。首先，他们用与训练数据集中的故事不同的前半部分提示小模型，以便生成新的结局，并用 50 个不同的测试故事重复此过程。其次，他们指示 GPT-4 根据三个类别对每个小模型的结局进行评分：创造力、语法以及与故事开头的一致性。然后，他们对每个类别的得分进行平均，最终得出每个模型的三个最终成绩。

有了这个程序，埃尔丹和李终于准备好比较不同的模型并找出哪些是明星学生。

检测结果

经过一些初步探索，两位研究人员确定了包含大约 200 万个故事的训练数据集。然后，他们使用这个名为 TinyStories 的数据集来训练模型，参数大小从 100 万到 3000 万个参数不等，层数也不同。工作速度很快：仅使用四个 GPU，其中最大的模型训练时间不超过一天。

最小的模型也举步维艰。例如，一个测试故事以一个看起来很卑鄙的男人告诉一个女孩他会带走她的猫开始。一个百万参数模型陷入了一个循环，女孩反复告诉男人她想成为朋友。但较大的——仍然比 GPT-3.5 小数千倍——表现出奇的好。 2800 万参数的版本讲述了一个连贯的故事，尽管结局很残酷：“凯蒂开始哭泣，但那个男人不在乎。他把猫带走了，凯蒂再也没有见过她的猫。结束。”

除了测试自己的模型之外，Eldan 和 Li 还向 OpenAI 的 GPT-2 提出了同样的挑战，这是一个 2019 年发布的 15 亿参数模型。结果更糟——在故事戛然而止之前，男人威胁要带走女孩法庭、监狱、医院、太平间，最后火葬场。

梅里尔·谢尔曼/广达杂志

介绍

Nguyen 表示，令人兴奋的是，如此微小的模型如此流畅，但 GPT-2 难以完成这项任务也许并不奇怪：它是一个更大的模型，但距离最先进的水平还很远，而且它是在一个非常不同的数据集上进行训练的。 “一个只接受幼儿任务训练的幼儿，比如玩一些玩具，可能会比你或我做得更好，”他指出。 “我们并不专注于这个简单的事情。”

不同 TinyStories 模型之间的比较不会受到相同的混杂因素的影响。埃尔丹和李观察到，层数较少但每层神经元较多的网络更能更好地回答需要事实知识的问题；相反，具有更多层和每层神经元更少的网络更能更好地跟踪故事早期的人物和情节点。 Bhagavatula 发现这个结果特别有趣。他说，如果它可以在更大的模型中复制，“这将是一项非常酷的结果，可能源于这项工作。”

埃尔丹和李还研究了他们的小模型的能力如何取决于训练时间的长短。在每种情况下，模型首先掌握语法，然后才是一致性。对于埃尔丹来说，这种模式说明了奖励结构的差异如何导致神经网络和儿童之间语言习得模式的差异。对于通过预测单词来学习的语言模型来说，“‘我想要拥有’这个词的激励与‘冰淇淋’这个词的激励一样大，”他说。另一方面，孩子们“并不关心他们是说‘我想要一些冰淇淋’还是只是‘冰淇淋，冰淇淋，冰淇淋’。”

质量与数量

Eldan 和 Li 希望这项研究能够激励其他研究人员在TinyStories 数据集上训练不同的模型并比较它们的能力。但通常很难预测小型模型的哪些特征也会出现在大型模型中。

“也许小鼠的视觉模型确实是人类视觉的良好代表，但小鼠的抑郁症模型是人类抑郁症的良好模型吗？”帕夫利克说道。 “对于每种情况，情况都略有不同。”

TinyStories 模型的成功还提供了更广泛的教训。编译训练数据集的标准方法包括从互联网上清理文本，然后过滤掉垃圾。由大型模型生成的合成文本可以提供另一种方法来组装不必那么大的高质量数据集。

“我们有越来越多的证据表明这非常有效，不仅在 TinyStories 大小的模型中，而且在更大的模型中，”埃尔丹说。这些证据来自 Eldan、Li 和其他微软研究人员发表的两篇关于十亿参数模型的后续论文。在第一篇论文中，他们使用 GPT-3.5 生成的代码片段以及来自互联网的精心策划的代码训练了一个模型来学习编程语言 Python。在第二步中，他们用涵盖广泛主题的合成“教科书”增强了训练数据集，以训练通用语言模型。在他们的测试中，这两种模型都优于在更大数据集上训练的更大模型。但评估语言模型总是很棘手，而且合成训练数据方法仍处于起步阶段——需要更多的独立测试。

随着最先进的语言模型变得越来越大，它们的小表亲的令人惊讶的发现提醒我们，即使是最简单的模型，我们仍然有很多不了解的地方。 Nguyen 期望看到更多探索 TinyStories 首创方法的论文。

“问题是：规模在哪里以及为何重要？”他说。 “这应该是一门科学，这篇论文希望是一个丰富故事的开始。”

原文： https://www.quantamagazine.org/tiny-language-models-thrive-with-gpt-4-as-a-teacher-20231005/