100 倍缺陷容忍度：Cerebras 如何解决良率问题

我从这篇文章中学到了很多关于芯片制造工作原理的知识，其中 Cerebras 透露了一些关于他们如何制造物理尺寸比 NVIDIA H100 大 56 倍的芯片的说明。

这里的关键思想是核心冗余：设计一种芯片，即使存在缺陷，最终产品仍然有用。这已经是几十年来的技术了：

例如，2006 年英特尔发布了英特尔酷睿双核——一种具有两个 CPU 内核的芯片。如果一个核心出现故障，该核心将被禁用，并且该产品将作为 Intel Core Solo 出售。 Nvidia、AMD 和其他公司在未来几年都接受了这种核心级冗余。

现代 GPU 特意设计有冗余核心：H100 需要 132 个核心，但晶圆包含 144 个核心，因此最多 12 个核心可能有缺陷，而芯片不会出现故障。

Cerebras 设计了他们的怪物（看看这个东西的大小），其核心非常小：“大约 0.05mm2”——整个芯片需要 970,000 个核心中的 900,000 个启用核心。这使得成品芯片中 93% 的硅面积保持活跃，这一比例非常高。