Phi-4 是微软研究院最新的法学硕士。它拥有14B参数,号称是整个Phi系列的一大飞跃。 介绍 Phi-4:微软最新的专门从事复杂推理的小语言模型:
由于整个过程的进步,包括高质量合成数据集的使用、高质量有机数据的管理和训练后创新,Phi-4 在数学相关推理方面优于同类和更大的模型。 Phi-4 继续推动尺寸与质量的前沿。
该模型目前可通过 Azure AI Foundry获得。我不知道如何在那里访问它,但微软计划在未来几天内通过 Hugging Face 发布它。目前还不清楚他们将使用什么许可证 – 希望是 MIT,就像该系列之前的模型所使用的那样。
与此同时,非官方的 GGUF 版本已经出现在 Hugging Face 上。我得到了一个matteogeniaccio/phi-4 GGUF 与我的LLM工具和llm-gguf 插件一起使用,如下所示:
llm install llm-gguf llm gguf download-model https://huggingface.co/matteogeniaccio/phi-4/resolve/main/phi-4-Q4_K_M.gguf llm chat -m gguf/phi-4-Q4_K_M
这会下载一个 8.4GB 的模型文件。以下是我通过使用该模型收集的一些初始记录记录。
我在 Azure AI Foundry 页面上发现的一个有趣的细节是:
代码范围有限:大多数 phi-4 训练数据基于 Python 并使用常见的包,例如
typing
、math
、random
、collections
、datetime
、itertools
。如果模型生成的 Python 脚本使用其他包或其他语言的脚本,我们强烈建议用户手动验证所有 API 使用情况。
这就引出了该模型最有趣的事情:它在合成数据上的训练方式。技术报告对此有很多详细信息,包括关于为什么合成数据可以为模型提供更好指导的注释:
合成数据作为预训练的重要组成部分变得越来越普遍,Phi 系列模型一直强调合成数据的重要性。合成数据不是有机数据的廉价替代品,而是比有机数据有几个直接的优势。
结构化和渐进式学习。在有机数据集中,标记之间的关系通常是复杂且间接的。可能需要许多推理步骤才能将当前标记连接到下一个标记,这使得模型很难从下一个标记预测中有效学习。相比之下,语言模型生成的每个标记根据定义都是由前面的标记预测的,从而使模型更容易遵循生成的推理模式。
本节介绍他们生成该数据的方法:
我们为 phi-4 生成合成数据的方法遵循以下原则:
- 多样性:数据应全面涵盖每个领域内的子主题和技能。这需要从有机来源中挑选不同的种子。
- 细微差别和复杂性:有效的培训需要细致入微、重要的示例来反映该领域的复杂性和丰富性。数据必须超越基础知识,包括边缘案例和高级示例。
- 准确性:代码应正确执行,证明应有效,解释应遵循既定知识等。
- 思维链:数据应该鼓励系统推理,逐步教导模型解决问题的各种方法。
标签: llm 、 phi 、生成人工智能、训练数据、 ai 、微软、 llms 、人工智能辅助编程、 python
原文: https://simonwillison.net/2024/Dec/15/phi-4-technical-report/#atom-everything