将语言模型分解为可理解的组件

Anthropic 似乎在大型语言模型的可解释性方面取得了重大突破：

“[…]我们概述了证据，表明存在比单个神经元更好的分析单元，并且我们已经构建了机器，可以让我们在小型变压器模型中找到这些单元。这些单元称为特征，对应于模式（线性组合）神经元激活。这提供了一条将复杂的神经网络分解为我们可以理解的部分的途径”