我从这篇文章中学到了很多关于芯片制造工作原理的知识,其中 Cerebras 透露了一些关于他们如何制造物理尺寸比 NVIDIA H100 大 56 倍的芯片的说明。
这里的关键思想是核心冗余:设计一种芯片,即使存在缺陷,最终产品仍然有用。这已经是几十年来的技术了:
例如,2006 年英特尔发布了英特尔酷睿双核——一种具有两个 CPU 内核的芯片。如果一个核心出现故障,该核心将被禁用,并且该产品将作为 Intel Core Solo 出售。 Nvidia、AMD 和其他公司在未来几年都接受了这种核心级冗余。
现代 GPU 特意设计有冗余核心:H100 需要 132 个核心,但晶圆包含 144 个核心,因此最多 12 个核心可能有缺陷,而芯片不会出现故障。
Cerebras 设计了他们的怪物(看看这个东西的大小),其核心非常小:“大约 0.05mm2”——整个芯片需要 970,000 个核心中的 900,000 个启用核心。这使得成品芯片中 93% 的硅面积保持活跃,这一比例非常高。
通过黑客新闻
原文: https://simonwillison.net/2025/Jan/16/cerebras-yield-problem/#atom-everything