Brett Winton: 表明以 4 位精度推断的语言模型可以提供与 8 位模型相同的性能，而内存/延迟是 2 倍免费将您的 AI 性能翻倍 arxiv.org/pdf/2212.09720… 我想知道这是否广泛适用 Tesla FSD 使用 8 位精度的 iirc

Posted on 2023-02-22

原推：Suggests that a language model inferring at 4 bit precision can deliver ~same performance as an 8 bit model at 2x the memory/latency

Double your AI performance for ~free