semianalysis在其最新的报告中,深入探讨了Google的Gemini模型,以及它在与OpenAI的GPT-4竞争中的显着优势。以下是他们的主要观察和结论:
首先,半分析指出,Google 曾发布了 MEENA 模型,这是世界上最好的大语言模型。MEENA 的模型容量是 GPT-2 的 1.7 倍之一,并且使用了 8.5 倍的训练数据。然而,不久之后OpenAI 发布了 GPT-3,其参数量和标记计数分别超过 MEENA 65 倍和 60 倍,训练需要的 FLOPS 更是超过 4000 倍,性能差距显着。
然而,Google 并没有科幻不前。半分析认为,Google 已经醒悟过来,并以惊人的速度迭代更新,预计到今年年底,Gemini 模型的预训练 FLOPS 将超过 GPT-4 的 5 倍,明年年底有望达到20倍。
以下是 Google Gemini 在与 GPT-4 竞争中的一些显着优势:
- 模型训练速度和效率:Gemini 模型的训练速度和效率远超 GPT-4。据预测,到今年年底,Gemini 模型将把 GPT-4 的总预训练 FLOPS 提高 5 倍,明年年底可能提高到 20 倍。这种优势得益于Google强大的基础设施建设。
- GPU资源:Google拥有大量的GPU训练资源,这使得其在模型上有较大的优势。相比之下,许多公司和开源中心GPU因资源不足而面临困境。
- 模型创新:Google 拥有一批强大的研发团队,他们在模型创新上得到了积累。例如,Noam Shazeer,他是“Attention is All You Need”这篇原创 Transformer 论文的团队成员之一,他还参与有了Switch Transformer、Image Transformer 和 LaMDA 和 PaLM 等多个项目。
然而,半分析指出,许多公司和开源公司由于 GPU 资源有限,无法有效地进行大规模模型训练。他们在处理无法解决的问题时浪费了大量时间和精力,例如,他们在优化模型时,通常由于GPU的VRAM短缺而痛苦不堪。这些企业和预测通常会关注预数据集和IFT数据需要中断提升,从而促进小型开源模型在真实工作负载中的性能提升。
semianalysis进一步指出,这种GPU资源匮乏的问题并不仅仅局限于公司。一些知名的AI公司,如HuggingFace、Databricks(MosaicML)和Together,也面临着同样的问题。拥有世界级的思维,但由于系统能力的限制,他们的能力无法得到充分发挥。
不过,半分析认为 Google 有可能改变这种现状。Google 不仅在内部使用 GPU,而且通过 GCP 销售大量的 GPU。他们的 Gemini 模型和下一代模型已经开始训练,而他们最重要的优势相当于他们半分析认为,Google 的 Gemini 模型可能成为一个关键的转折点,帮助我们摆脱过度依赖 Nvidia 的困境。他们写道:“Google 的 Gemini 和下一代模型已经开始训练,他们最重要的优势在于他们无与伦比的基础设施。这可能是我们摆脱 Nvidia 依赖的高效救世主。”
这种观点揭示了Google在AI领域的潜力和影响力,尤其是在大语言模型的开发上。如果Google能够充分利用他们的优势,他们不仅有可能打破Nvidia的主导地位,还有可能引领整个大语言模型领域的发展方向。这会让整个AI领域产生影响,可能会改变我们对AI的应用和理解。
原文: https://atlassc.net/90798431be48/2023/08/30/google-gemini-eats-the-world