
一位匿名读者引用了 Ars Technica 的一篇报道:周四,Anthropic 宣布了 Citations,这是一项新的 API 功能,可以通过将模型的回答直接链接到源文档来帮助 Claude 模型避免虚构(也称为幻觉)。该功能允许开发人员将文档添加到 Claude 的上下文窗口中,使模型能够自动引用用于生成答案的特定段落。 “启用引文后,API 会通过将用户提供的源文档(PDF 文档和纯文本文件)分成句子来处理它们,”Anthropic 说。 “然后,这些分块的句子以及用户提供的上下文将与用户的查询一起传递到模型。”该公司描述了引文的几种潜在用途,包括用源链接的关键点总结案例文件、通过可追踪的参考文献回答财务文档中的问题,以及为引用特定产品文档的支持系统提供支持。该公司在自己的内部测试中表示,与用户在提示中创建的自定义引文实现相比,该功能将召回准确率提高了 15%。虽然准确召回率提高 15% 听起来并不多,但这项新功能仍然吸引了 Simon Willison 等人工智能研究人员的兴趣,因为它基本集成了检索增强生成 (RAG) 技术。威利森在他的博客上发表了一篇详细的文章,解释了为什么引用功能很重要。 “检索增强生成 (RAG) 模式的核心是接受用户的问题,检索可能与该问题相关的文档部分,然后通过将这些文本片段包含在提供给法学硕士的上下文中来回答问题,”他写道。 “这通常效果很好,但仍然存在模型可能根据训练数据中的其他信息进行回答的风险(有时还可以)或产生完全错误的细节(绝对是糟糕的)。” Willison 指出,虽然引用来源有助于验证准确性,但构建一个能很好地做到这一点的系统“可能相当棘手”,但通过将 RAG 功能直接构建到模型中,Citations 似乎是朝着正确方向迈出的一步。 Anthropic 的亚历克斯·阿尔伯特 (Alex Albert) 澄清说,克劳德已经接受过引用来源的训练一段时间了。 Citations 的新功能是“我们正在向开发人员展示这种能力”。他继续说道:“要使用引文,用户可以在通过 API 发送的任何文档类型上传递新的‘引文 […]’参数。”
在 Slashdot 上阅读这个故事的更多内容。