随着融资变得越来越困难,人工智能计算成本正在吞噬初创公司的跑道。初创公司如何应对短缺问题以获得所需的计算资源?他们应该如何跨不同云购买计算提供商?该行业如何才能满足需求而不加剧气候变化?
SignalFire 聚集了计算领域的领导者,在我们的旧金山总部举行了一场真实的讨论小组,阐述初创公司如何在不花太多钱的情况下利用人工智能进行构建。最重要的要点包括:
- AI 计算短缺的原因是需求突然激增、构建现代 GPU 的复杂性以及对提高效率的算法解决方案的需求
- 初创公司和其他计算买家应该使用多云方法,测试哪些用例与哪些提供商一起表现最佳,而不是试图使用“一云不适合”的方法来规避出口成本
- 人工智能对人类的贡献使计算“能源得到充分利用”,数据中心冷却和基于软件的效率改进的新方法将减少功耗和气候影响
以下是我们与 Nvidia 数据中心产品首席平台架构师 Robert Ober、Crusoe Energy 联合创始人兼首席执行官 Chase Lochmiller 以及 MosaicML 联合创始人兼首席执行官 Naveen Rao 讨论的关于 AI 计算的所有重要见解,由 SignalFire 的 AI 实验室负责人主持维罗妮卡·梅尔卡多。如果您正在构建人工智能领域的特殊产品,并希望获得计算、招聘、数据科学和营销方面的帮助,SignalFire 将很高兴与您交谈!
是否存在计算短缺?是的,但不是因为没有足够的 GPU
只是他们都被合同锁定了。 ChatGPT 和整个人工智能领域的曲棍球棒式增长给整个半导体行业和供应链带来了巨大的压力。这促使领先的公司保留任何可用的 GPU,自 2020 年以来,GPU 的价格已经翻了一番。因此,虽然您可能能够获得现货实例的定价,但供应商无法满足这些分配,并且无法获得集群如果没有内部联系,这几乎是不可能的。
从本质上讲,软件需求已经远远超过了我们用于生产硬件的物理基础设施。与此同时,芯片、高性能网络和封装的复杂性显着增加,导致价格和故障率上升,产量下降。
“你不能只按一个按钮就可以构建 10 倍以上”——Nvidia 的 Robert Ober
Nvidia 的 Ober 表示,大型云业务领导者要求突然将产量提高 10 倍,但他强调“这是真正的硬件。您不能只按一个按钮就可以构建 10 倍以上的产品。 。 。这些确实是有史以来最复杂的系统。”随着需求和复杂性的快速增长,扩大计算制造规模需要时间。我们需要通过优化 Mosaic 所谓的“模型触发器利用率”来提高最大性能——安全地混合用户,以便给定的硬件始终运行。
SignalFire 的 AI 计算活动小组成员(左起): Nvidia 首席平台架构师Robert Ober、Crusoe Energy 联合创始人兼首席执行官 Chase Lochmiller 以及 MosaicML 联合创始人兼首席执行官 Naveen Rao,由 SignalFire 的 AI 实验室负责人 Veronica Mercado 主持。
算法解决方案可能是我们缩小需求激增和供应滞后之间差距的最佳希望。当然,我们将继续需要先进的封装创新和更好的芯片,以便我们获得更高的每瓦性能并应用更多计算。但最近算法创新已经超过了硬件改进,考虑到硬件短缺,这是我们用更少的资源做更多事情的最佳机会。
客户如何优化他们的人工智能计算支出?跨多云环境进行实验
创始人可能会试图通过配置自己的计算来节省训练和部署模型的资金——构建和运行自己的迷你集群车库网络基础设施。相反,他们可能最好转向注重效率的供应商。但对自制计算的渴望表明了云生态系统的失败,在这种生态系统中,大型云应该获得如此大的规模效率,以至于没有人愿意自己做。不幸的是,一些大型云提供商捆绑了初创公司实际上并不需要的托管服务,并且它们的云出口成本可能令人望而生畏。
Crusoe 的 Lochmiller 表示,我们正在遭受“加州旅馆云模型”的困扰——您可以随时查看数据,但永远无法离开。令人讨厌的出口费用可能会迫使初创公司坚持使用一家云提供商。但针对不同用例使用不同的、较小的、专业的提供商所带来的改进的适应性和灵活性可能会超过这些出口费用。
“多云具有更大的价值”
–MosaicML 的 Naveen Rao
由于内部网络基础设施、控制平面和实例的差异,一个云可能最适合 CNN 推理,另一个云最适合大型语言模型推理,另一个云适合跨几个节点训练小型模型,另一个云适合需要 4000 个节点的情况。 GPU。您可以在不同的地方运行培训、工作负载和客户数据,以便为每个地方找到最佳的提供商。而且计算本身非常昂贵,因此增加的费用只是九牛一毛。初创公司还可以使用中介机构在提供商之间传输数据,以寻求最高的效率。 MosaicML 的 Rao 表示,它发现 Amazon S3 的价格比下一个竞争对手贵三倍,因此锁定单一品牌云的成本可能会非常高。
我们为 boba 提供服务,让大家在讨论人工智能热门话题时保持冷静
Rao 打破了出口和流传输成本的谬论,他说: “当你训练像 MPT-7B 这样的大型语言学习器时,它的计算成本为 200,000 美元。其中大约 800 美元是流媒体费用。没那么多,对吧?还不到百分之半。拥有多云的灵活性对您来说比失去流媒体具有更大的价值。”因此,您和您的初创公司应该四处寻找,检查您是否确实可以获得所承诺的实例,进行实验以了解什么在哪里可以获得最佳效率,并随着您的需求变化和扩展而重复该过程。
我们如何最大限度地减少人工智能计算对气候的影响?能源使用不错,但需要高效
“如果所有这些创新都加速了气候危机,那还有什么意义呢?”洛赫米勒宣称。
人工智能的计算和能源密集型性质引起了人们对其环境影响如何加速气候变化的担忧,这也有可能损害公众的看法并引发繁重的监管。
Lochmiller 表示,数据中心的能耗占当今全球能耗的 1% 到 1.5%。预计到 2030 年这一比例将增长至 8%,但随着人工智能的蓬勃发展,他表示这一比例可能会更快达到 10%。我们的小组成员一致认为,人工智能的需求每年持续增长约 10 倍,但我们仅将计算供应量提高了三倍。
边缘计算不太可能立即拯救地球。手机缺乏足够的计算能力来进行边缘学习,因此将数据标记化发送到云端进行处理仍将是常态。
“能源用得其所”——Nvidia 的罗伯特·奥伯 (Robert Ober)
幸运的是,人工智能具有延迟容忍能力,因为通过大型模型提供代币已经需要一些时间。这可能会导致更多的数据中心建在更靠近能源廉价且丰富的地方,因为增加的延迟不太明显。通过铜管运行冷水的新数据中心冷却系统也可以帮助更有效地传递芯片上的热量。此外,这还可以减少耗能 HVAC 装置和高故障率风扇的使用。将人工智能本身应用于设计更有效的硬件可以最大限度地减少电力消耗。
SignalFire 的 AI 计算活动发言人在小组讨论后(左起):Crusoe Energy 联合创始人兼首席执行官 Chase Lochmiller、MosaicML 联合创始人兼首席执行官 Naveen Rao、Nvidia 首席平台架构师 Robert Ober 和 SignalFire 的 AI 实验室负责人 Veronica Mercado。
但总的来说,重要的是要记住, “[为人工智能提供动力]能源是值得的,因为它使我们能够做以前不可能的事情”,从基因组学到自动驾驶汽车,奥伯坚持认为。
洛克米勒总结道: “人们常常将使用能源不好和我们应该少用能源这一观点混为一谈。事实上恰恰相反。如果你看看人类发展指数与能源使用量的相关性,就会发现更先进的社会会使用更多的能源,而且这种情况将会持续下去。更重要的是我们的效率有多高。”
SignalFire 是一家人工智能本土风险投资公司,十年来一直在构建和完善自己的模型。我们的Beacon AI 数据平台帮助我们的投资者发现出色的创始人,并帮助我们的投资组合公司招募最优秀的人才。除了我们的种子轮 B 轮投资实践之外,我们最近还推出了SignalFire AI 实验室,将技术领导者和行业专家与作为数据提供商、设计合作伙伴和初始客户的企业配对。我们很想听听您正在构建什么!