英伟达的投资者之前一直在山谷中:
不过,这张图表不是最近两年的,而是从 2017 年初到 2019 年初的;这是2017年到今天:
在过去三年中,英伟达的业务发生了三件大事,将价格推至前所未有的高度:
- 大流行导致个人电脑购买量激增,特别是游戏卡的购买量激增,因为客户既需要新电脑,又可自由支配收入大幅增加,除了更好的游戏体验外,无处可去。
- 在 Nvidia GPU 上训练的机器学习应用程序在超大规模计算机中爆炸式增长。
- 加密泡沫导致对 Nvidia 芯片的需求猛增,以解决以太坊工作量证明方程来赚取 – 即我的 – 以太币。
加密货币与其说是山谷,不如说是悬崖:以太坊成功地转变为权益证明模型,使由数千个 Nvidia GPU 构建的整个采矿作业一夜之间变得一文不值;鉴于比特币是另一个使用工作量证明的主要加密网络,几乎完全是在定制设计的芯片上开采的,所有这些旧 GPU 都充斥着二手市场。对于英伟达来说,这是一个特别糟糕的时机,因为在该公司试图满足其 3000 系列芯片的需求之际,大流行的购买热潮已经结束。不用说,过多的新库存加上过多的二手库存对公司的财务业绩来说是很糟糕的,尤其是当您试图为新系列清理渠道时:
Nvidia 首席执行官 Jensen Huang 上周在 Stratechery 采访中告诉我,该公司没有预见到这一点:
我不认为我们可以看到它。我不认为我会做任何不同的事情,但我从之前的例子中学到的是,当它最终发生在你身上时,只要把硬药放在你身后……我们有两个糟糕的季度和两个在公司的情况下,糟糕的季度让所有投资者感到沮丧,让所有员工都感到困难。
我们以前曾在 Nvidia 来过这里。
我们只需要处理它,不要过度情绪化,了解它是如何发生的,让公司尽可能保持敏捷。但是当事实出现时,我们只是做出了冷酷而艰难的决定。我们照顾我们的合作伙伴,我们照顾我们的渠道,我们确保每个人都有足够的时间。通过推迟 Ada,我们确保每个人都有足够的时间来重新定价所有产品,这样即使在 Ada 的背景下,即使 Ada 可用,重新定价后的产品实际上是一个非常好的价值。我认为我们尽可能多地处理了事情,这导致了两个相当可怕的季度。但我认为从大局来看,我们会马上回来,所以我认为这可能是过去的教训。
这可能有点大方; Tae Kim和Doug O’Laughlin等分析师预测今年早些时候股价会暴跌,尽管鉴于 Nvidia 订购了所有这些额外的 3000 系列 GPU大流行中期(黄还指出,芯片的交货时间增加是英伟达如此错误的一个重要原因)。
不过,对于英伟达来说,更令人担忧的是,虽然其库存和以太坊问题是其“相当可怕的季度”的最大驱动因素,但这并不是其游戏业务正在航行的唯一低谷。我想起了约翰班扬的朝圣者的进步:
现在克里斯蒂安在这屈辱谷里没走多远,就受到了严酷的考验,因为他注意到一个非常邪恶的恶魔从田野过来迎接他。他的名字是Apollyon [毁灭者]。
呼叫 Apollyon 库存问题;克里斯蒂安打败了他,英伟达最终也将如此。
现在在这个山谷的尽头,还有另一个地方,叫做死亡阴影谷。克里斯蒂安必须通过它,因为通往天城的路就是朝那个方向。现在这个山谷是一个非常孤独和寂寞的地方。先知耶利米将其描述为“旷野,沙漠和坑洼之地,干旱和死亡阴影之地,没有人”(除了基督徒)“经过,没有人居住的地方。”
上周 Nvidia 的GTC 主题演讲令人震惊的是,这个寓言似乎在多大程度上符合 Nvidia 的野心:该公司正在开启一段似乎相当孤独的旅程来定义游戏的未来,目前尚不清楚何时或是否其他行业将随之而来。此外,该公司在数据中心和元宇宙野心中也追求同样大胆的战略:在所有三个案例中,公司都在追求比过去两年更高的高度,但路径出人意料地不确定。
山谷中的游戏:光线追踪和人工智能
长期以来,3D 游戏的呈现依赖于一系列技巧,尤其是在照明方面。首先,游戏决定了您实际看到的内容(即渲染被另一个对象遮挡的对象是没有用的);然后将正确的纹理应用到对象(即一棵树、一棵草或任何您可能想象的其他东西)。最后,根据预先确定的光源的位置应用光照,并在其上添加阴影贴图。然后将完整的场景转换为单个像素并渲染到您的 2D 屏幕上;这个过程称为光栅化。
光线追踪处理光线的方式完全不同:光线追踪不是从预先确定的光源开始并应用光影贴图,而是从您的眼睛(或更准确地说,是您查看场景的相机)开始。然后它将视线追踪到屏幕上的每个像素,将其从该像素反弹(基于它所代表的对象类型),并继续跟踪该光线直到它击中光源(从而计算照明)或丢弃它。这会产生非常逼真的照明,尤其是在反射和阴影方面。仔细查看这些来自PC Magazine的图片:
让我们看看光线追踪如何在视觉上改善游戏。我在 Square Enix 的 PC 版《古墓丽影之影》中截取了以下屏幕截图对,它支持 Nvidia GeForce RTX 显卡上的光线追踪阴影。具体来说,看看地面上的阴影。
[…]与更粗糙的光栅化版本相比,光线追踪阴影更柔和、更逼真。它们的暗度取决于物体阻挡的光量,甚至在阴影本身内,而光栅化似乎给每个物体一个硬边。光栅化的阴影看起来还不错,但是在玩了带有光线追踪阴影的游戏之后,就很难回去了。
Nvidia 于 2009 年首次宣布 API 支持光线追踪;然而,很少有游戏使用它,因为它的计算成本很高(光线追踪在电影 CGI 中使用;然而,这些场景可以渲染数小时甚至数天;游戏必须实时渲染)。这就是为什么英伟达在其 2018 年推出的 GeForce 2000 系列显卡(因此被命名为“RTX”)中引入了专用的光线追踪硬件。AMD 采取了不同的方向,在其核心着色器单元中添加了光线追踪功能(它还处理光栅化);这比 Nvidia 的纯硬件解决方案慢,但它可以工作,而且重要的是,由于 AMD 为 PS5 和 Xbox 制造显卡,这意味着现在整个行业都支持光线追踪。越来越多的游戏将支持光线追踪,尽管由于性能问题,大多数应用程序仍然相当有限。
不过,关于光线追踪的重要一点是:通过动态计算光照,而不是通过光照和阴影贴图,开发人员可以“免费”获得它。完全依赖光线追踪的游戏或 3D 环境应该更容易、更便宜地开发;更重要的是,这意味着环境可以以开发人员从未预料到的动态方式发生变化,同时拥有比最费力的预绘制环境更逼真的照明。
这在两个新兴环境中尤其引人注目:第一个是在模拟游戏中,例如 Minecraft。通过光线追踪,拥有高度详细的 3D 世界将变得越来越现实,这些 3D 世界是动态构建并完美照明的。未来的游戏可以走得更远:主题演讲以一款名为 RacerX 的游戏开始,游戏的每个部分都经过完全模拟,包括物体;游戏中的物理也使用了相同类型的光计算。
第二个背景是我在DALL-E、元界和零边际成本内容中讨论的 AI 生成内容的未来。我上面提到的所有这些纹理目前都是手工绘制的;随着图形功能(主要由 Nvidia 推动)的增加,由于需要创建高分辨率资产,创建新游戏的成本也随之增加。可以想象一个未来,资产创建完全自动化并在运行中完成,然后通过光线追踪适当地点亮。
目前,尽管 Nvidia 已经在使用 AI 来渲染图像:该公司还宣布了其深度学习超级采样 (DLSS) 技术的第 3 版,该技术可以预测和预渲染帧,这意味着它们根本不需要计算(先前版本的 DLSS 预测和预渲染单个像素)。此外,Nvidia 与光线追踪一样,使用专用硬件支持 DLSS 以使其性能更高。这些新方法与英伟达 GPU 上的专用内核相匹配,使英伟达非常适合在游戏和沉浸式 3D 体验(如虚拟世界)中打造全新范式。
但问题是:所有这些专用硬件都是有代价的。 Nvidia 的新 GPU 是大芯片——顶级 AD102,以 RTX 4090 出售,是一款完全集成的片上系统,采用台积电 N4 工艺,尺寸为 608.4mm 2 ; 1相比之下, AMD 即将推出的 RDNA 3 图形系列中的顶级 Navi 31 芯片是一种小芯片设计,采用台积电 N5 工艺的 308mm 2图形芯片, 2加上台积电 N6 工艺的六个 37.5mm 2内存芯片. 3简而言之,Nvidia 的芯片要大得多(这意味着要贵得多),而且它采用的是稍微更现代的工艺(可能成本更高)。 Dylan Patel 在SemiAnalysis上解释了其中的含义:
简而言之,AMD 通过放弃 AI 和光线追踪固定功能加速器并转向采用先进封装的更小芯片,从而节省了大量芯片成本。 AMD 的 RDNA 3 N31 和 N32 GPU 的先进封装成本显着上升,但相对于晶圆和良率成本而言,小型扇出 RDL 封装仍然非常便宜。最终,AMD 增加的封装成本与他们通过分解内存控制器/无限缓存、使用更便宜的 N6 而不是 N5 以及更高的产量所节省的成本相形见绌……十年。
这就是英伟达正在进入的山谷。由于 4000 系列的高昂价格,在 Nvidia 的主题演讲之后,游戏玩家们立即站了起来,尤其是当 Nvidia 网站上的细则显示 Nvidia 宣布的二级芯片之一更类似于更名的三级芯片时芯片,怀疑是英伟达在玩营销游戏以掩盖价格的大幅上涨。 Nvidia 的显卡可能具有最佳性能,并且毫无疑问最适合未来的光线追踪和 AI 生成内容,但代价是成为当今游戏的最佳价值。要达到纯模拟虚拟世界的高度,需要通过一代人对大多数游戏玩家还不关心的功能的收费。
硅谷中的人工智能:系统,而不是芯片
对 Nvidia 在游戏领域的做法持乐观态度的一个原因是,该公司在发明着色器时对未来做出了类似的赌注。在去年的 GTC 之后,我在每日更新中解释了着色器:
Nvidia 首先凭借 Riva 和 TNT 系列视频卡而声名鹊起,这些视频卡经过硬编码以加速 Microsoft 的 Direct3D 等 3D 库:
不过,GeForce 系列可以通过一种称为“着色器”的计算机程序完全编程(我在本每日更新中详细解释了着色器)。这意味着即使在制造之后,GeForce 卡也可以通过编程新着色器(例如,可能支持新版本的 Direct3D)来改进。
[…]更重要的是,着色器不一定需要渲染图形;任何类型的软件——理想情况下是可以并行运行的简单计算程序——都可以编程为着色器;诀窍是弄清楚如何编写它们,这就是 CUDA 的用武之地。我在 2020 年的Nvidia 的集成梦想中解释了:
这种增加的抽象级别意味着底层图形处理单元可以更简单,这意味着图形芯片可以拥有更多的图形芯片。例如,Nvidia 刚刚发布的 GeForce RTX 30 系列的最先进版本拥有令人难以置信的 10,496 个内核。
这种级别的可扩展性对视频卡来说是有意义的,因为图形处理是并行的,令人尴尬:一个屏幕可以分成任意数量的部分,每个部分都可以同时单独计算。这意味着性能水平扩展,也就是说,每增加一个内核都会提高性能。然而,事实证明,图形并不是计算中唯一令人尴尬的并行问题……
这就是英伟达从模块化组件制造商转变为硬件和软件集成制造商的原因。前者是它的显卡,后者是一个叫CUDA的平台。 CUDA 平台允许程序员通过多种语言访问 Nvidia 显卡的并行处理能力,而无需了解如何对图形进行编程。
现在 Nvidia“堆栈”具有三个级别:
不过,要了解 CUDA 的重要一点是,它并不仅仅让外部程序员能够为 Nvidia 芯片编写程序。它启用了 Nvidia 本身。
这大部分是出于绝望。 Huang 在去年春天的 Stratechery 采访中解释说,引入着色器,他认为这对未来至关重要,几乎要了公司的命:
可编程性的缺点是效率较低。正如我之前提到的,固定功能的东西更有效。任何可编程的东西,任何仅仅根据定义可以做不止一件事的东西都会带来任何特定任务不需要的负担,所以问题是“我们什么时候做?”好吧,当时还有一个灵感,一切看起来都像 OpenGL Flight Simulator。一切都是模糊的纹理和三线 mipmap,没有生命,我们觉得如果你不给媒体带来生命,你不允许艺术家能够创造不同的游戏和不同的流派并讲述不同的故事,最终媒体将不复存在。同时,我们也被这种野心所驱使,即希望创建一个更可编程的调色板,以便游戏和艺术家可以用它做一些很棒的事情。同时,我们也被驱使有一天不会倒闭,因为它会被商品化。所以在那种汤的某个地方,我们创建了可编程着色器,所以我认为这样做的动机非常明确。后来的惩罚是我们没有想到的。
那是什么?
好吧,惩罚是突然的,所有我们对可编程性的期望和不必要功能的开销,因为当前的游戏不需要它,你为未来创造了一些东西,这意味着当前的应用程序不需要益处。在你有新的应用之前,你的芯片太贵了,市场竞争激烈。
Nvidia 幸存下来,因为他们的直接加速能力仍然是最好的。从长远来看,它蓬勃发展,因为他们自己构建了整个 CUDA 基础设施来利用着色器。这就是数据中心增长的来源;黄解释道:
在您成为处理器公司的那一天,您必须内化这种处理器架构是全新的。以前从来没有像这样的可编程像素着色器或可编程 GPU 处理器和编程模型,因此我们将其内部化。您必须内化这是一种全新的编程模型,并且必须创建与成为程序处理器公司或计算平台公司相关的一切。所以我们必须创建一个编译器团队,我们必须考虑 SDK,我们必须考虑库,我们必须接触开发人员并宣传我们的架构并帮助人们实现它的好处,如果没有,甚至接近通过创建新的库,让他们可以轻松地将他们的应用程序移植到我们的库中并看到它的好处,实际上是我们自己做的。
重述这个故事的第一个原因是要注意着色器复杂性的成本与当前游戏中光线追踪和人工智能的成本之间的相似之处;二是要注意,英伟达解决问题的方法一直都是自己做所有事情。那时这意味着开发 CUDA 来对这些着色器进行编程;今天,这意味着为人工智能构建整个系统。
黄在上周的主题演讲中说:
Nvidia 致力于通过加速计算推动科学和工业发展。无工作性能扩展的日子已经结束。如果成本不成比例地增加,未加速的软件将不再享受性能扩展。凭借近 30 年的单一专注,Nvidia 擅长加速软件并将计算机扩展 1,000,000 倍,远远超出摩尔定律。
加速计算是一个全栈挑战。它需要深入了解问题域,优化每一层计算,以及所有三个芯片:CPU、GPU 和 DPU。在多节点上跨多 GPU 进行扩展是数据中心规模的挑战,需要将网络和存储视为计算结构的一部分,开发人员和客户希望在许多地方运行软件,从 PC 到超级计算中心,企业数据中心、云、边缘。不同的应用程序希望在不同的位置以不同的方式运行。
今天,我们将讨论跨堆栈的加速计算。新芯片以及它们将如何提高性能,远远超出晶体管的数量、新库,以及它如何将关键工作负载加速到科学和工业、新的特定领域框架,以帮助开发高性能且易于部署的软件。以及新平台,让您可以安全、安全地部署软件,并获得数量级的收益。
在 Huang 看来,仅仅拥有快速芯片已不足以应对未来的工作负载:这就是 Nvidia 使用自己的所有设备构建整个数据中心的原因。然而,再一次,每家公司都需要加速计算的未来,英伟达专门为他们建造它——英伟达的天城——与目前数据中心中英伟达芯片的最大用户是拥有自己的超大规模用户的情况形成鲜明对比。自己的系统已经到位。
例如,像 Meta 这样的公司不需要 Nvidia 的网络;他们发明了自己的。他们确实需要大量可大规模并行化的芯片来训练他们的机器学习算法,这意味着他们必须向 Nvidia 支付高额利润。难怪 Meta 和他们之前的谷歌一样,正在构建自己的芯片。
这是所有大公司都可能遵循的过程:他们不需要 Nvidia 系统,他们需要一个可以在他们的系统中运行的芯片来满足他们的需求。这就是英伟达如此投入人工智能民主化和加速计算的原因:规模化的长期关键在于为除了最大玩家之外的所有人构建系统。穿越山谷的诀窍在于,在 Nvidia 目前的大客户停止购买 Nvidia 昂贵的芯片之前,看到生态系统的发展。 Huang 曾经看到 3D 加速器将被商品化,并在着色器方面实现了飞跃;人们会感觉到他对芯片有同样的恐惧,因此正在跳入系统。
山谷中的元宇宙:Omniverse Nucleus
在去年春天的采访中,我问黄英伟是否会构建云服务;
如果我们曾经提供服务,我们将在世界各地在每个人的云中的 GPU 上运行它,除了我们自己构建一些东西,如果我们必须这样做的话。我们公司的规则之一是不浪费我们公司的资源去做已经存在的事情。如果某些东西已经存在,例如 x86 CPU,我们将直接使用它。如果某些东西已经存在,我们将与他们合作,因为我们不要在上面浪费我们的稀有资源。因此,如果云中已经存在某些东西,我们只是绝对使用它或让他们这样做,这样会更好。但是,如果有些事情对我们来说有意义,而对他们没有意义,我们甚至会找他们去做,其他人不想做,那么我们可能会决定去做。我们试图对我们所做的事情非常有选择性,我们非常坚决不做其他人做的事情。
事实证明,没有其他人想做的事情,那就是为 3D 对象创建一个通用数据库,用于 Nvidia 所称的 Omniverse。这些对象可以是用于制造或供应链的高度详细的毫米精度对象,也可以是为虚拟世界生成的奇幻对象和建筑物;在 Huang 的设想中,任何在 Omniverse Nucleus 上构建的人都可以使用它们。
在这里,Celestial City 是一个跨行业和娱乐界使用的 3D 体验世界——如果你愿意的话,它是一个全方位的元宇宙,都连接到 Nvidia 的云——它的雄心壮志足以让马克·扎克伯格脸红!出于同样的原因,这个山谷似乎更加漫长和黑暗:不仅需要创造所有这些资产和 3D 体验,而且需要让整个市场相信它们的实用性和必要性。为一个尚不存在的世界建造一片云就是为了达到仍然看不见的高度。
毫无疑问,Huang 和 Nvidia 的雄心壮志,尽管有些人可能会质疑同时穿越三个山谷的智慧;股票本身处于山谷中,超越游戏中的完美风暴也许是合适的。
不过,值得考虑的是,Nvidia 客户(无论是在消费者市场还是企业客户)对公司感到沮丧的首要原因是价格:Nvidia GPU 价格昂贵,而且公司的利润——除了最后一对四分之一 – 非常高。然而,就 Nvidia 而言,定价权直接来自 Nvidia 自己的创新,无论是在既定工作负载的纯粹性能方面,还是在其对 CUDA 生态系统的投资为全新的工具创建工具方面。
换句话说,英伟达已经赢得了被憎恨的权利,因为它在过去承担了它现在开始的确切风险。例如,假设对未来所有游戏的期望不仅仅是光线追踪,而是对所有粒子的全面模拟:英伟达在硬件上的投资将意味着它像光栅化时代一样主宰这个时代。同样,如果人工智能应用程序变得民主化并且可供所有企业使用,而不仅仅是超大规模企业,那么英伟达将被定位为拿起整个长尾。而且,如果我们进入一个元节世界,那么 Nvidia 不仅在基础设施方面领先,而且在使这个世界成为现实所必需的基本对象库上(当然,这些对象将通过人工智能生成的空间中的光线追踪照明) ),将使其成为该领域最重要的基础设施。
这些赌注可能不会全都得到回报;不过,我确实欣赏这个大胆的愿景,并且不会嫉妒如果 Nvidia 穿过山谷,可能会导致天城的未来利润。