Google DeepMind 刚刚发布了一篇新论文,通过可微缓存增强在潜在空间中进行深思熟虑。我认为这篇论文的可读性不是很好,但它似乎也很重要,所以我想花点时间来分解它,据我所知。
在本文中,他们选择了一个普通的、冻结的法学硕士,充当通才。然后他们附加一个协处理器法学硕士,充当特定领域的“专家”。协处理器专家通过添加额外的嵌入与通才法学硕士进行交谈。
您可以采用擅长进行逻辑推论的推理模型(如 o3),并将其与生物医学专家的协处理器模型相结合。他们共同组成了一支由博士级推理通才和博士级生物医学专家组成的团队,可以配对并应对艰巨的挑战,例如设计新药。专家没有接受过 o1/o3 风格推理的培训,但他们拥有大量的知识,不仅包括事实,还包括程序知识(“如何”做某事)。
等等,这不就是 RAG 吗?
这确实与 RAG 有很多重叠。
在 RAG 中,您使用嵌入模型,它也是一个提供嵌入而不是将其映射到令牌的 LLM,与此协处理器模型相同。事实上,他们经常建议对 RAG 使用特定领域的嵌入模型。
主要区别在于 RAG 集成在输入文本中,而协处理器提供的知识则被训练到模型中。因此,协处理器的创建和管理成本要高得多,但它提供的输入质量比 RAG 高得多。
潜在空间与文本
据我所知,本月的热门话题是法学硕士中的潜在空间与文本。讨论的全部内容都是关于使用 LLM 的内部表示(嵌入或隐藏层输出)与将其转换回文本。
我有一个宽松的理解,即潜在空间的信息密度比文本高得多。当我想到这一点时,我发现英语在清晰地交流方面确实很糟糕。有这么多不幸的歧义。所以从这个意义上说,其他任何事情似乎都更好。但是当我想到潜在空间如何更好时,我几乎不理解潜在空间到底是什么,它正在传达什么,或者有什么缺点。
对潜在空间的追求感觉很像魔法思维。它很可能 100% 与声称的一样好。我不明白为什么潜在空间是好的,我只理解为什么文本是不好的,这让我不太舒服。
从根本上说,其优势在于协处理器和通才法学硕士之间的共生关系是它们使用机器学习一起进行优化。通过使用数千个示例,他们能够优化两个模型之间的信息传输。然而,嵌入模型是完全独立优化的,并且对于更基本的任务(如相似性、聚类等)
这将如何使用?
如果这种方法取得成功,我认为它将与 RAG 结合使用。
法学硕士将变得更小,并且总是接受 o1 式推理的训练。专家协处理器将接受针对每个领域(例如生物医学、材料科学、天文学、诗歌等)的培训,并在运行时附加。起初,您将手动选择需要的专家,但随着时间的推移,系统也会自动选择。
甚至可能成为协处理器专家的市场。如果使协处理器适应通才法学硕士的行为就像训练 LoRA 一样简单,那么这确实可以取得成功。
RAG 也没有死。 RAG永远不会消亡,因为RAG只是一个数据库,你根本无法提供比数据库更便宜、更有效的实时新鲜数据。但这些潜在的太空专家将帮助解决 RAG 的许多问题。这看起来可能是一件好事。