Anthropic 似乎在大型语言模型的可解释性方面取得了重大突破:
“[…]我们概述了证据,表明存在比单个神经元更好的分析单元,并且我们已经构建了机器,可以让我们在小型变压器模型中找到这些单元。这些单元称为特征,对应于模式(线性组合)神经元激活。这提供了一条将复杂的神经网络分解为我们可以理解的部分的途径”
翻译英文优质信息和名人推特
Anthropic 似乎在大型语言模型的可解释性方面取得了重大突破:
“[…]我们概述了证据,表明存在比单个神经元更好的分析单元,并且我们已经构建了机器,可以让我们在小型变压器模型中找到这些单元。这些单元称为特征,对应于模式(线性组合)神经元激活。这提供了一条将复杂的神经网络分解为我们可以理解的部分的途径”