一位匿名读者引用了 Ars Technica 的报道:周二,Hugging Face 研究人员发布了一款名为“Open Deep Research”的开源 AI 研究代理,由内部团队创建,作为 OpenAI Deep Research 功能推出 24 小时后的挑战,该代理可以自主浏览网页并创建研究报告。该项目旨在与 Deep Research 的性能相匹配,同时向开发人员免费提供该技术。 Hugging Face 在其公告页面上写道:“虽然强大的法学硕士现在可以免费开源,但 OpenAI 并没有透露太多有关深度研究背后的代理框架的信息。” “因此,我们决定开始一项 24 小时的任务,重现他们的结果,并在此过程中开源所需的框架!”与 OpenAI 的深度研究和谷歌使用 Gemini 实施自己的“深度研究”(在 OpenAI 之前于 12 月首次推出)类似,Hugging Face 的解决方案在现有的人工智能模型中添加了一个“代理”框架,使其能够执行多步骤任务,例如收集信息并构建最终呈现给用户的报告。开源克隆已经取得了可比的基准测试结果。仅经过一天的工作,Hugging Face 的开放深度研究在通用人工智能助手 (GAIA) 基准测试中的准确率就达到了 55.15%,该基准测试人工智能模型从多个来源收集和综合信息的能力。 OpenAI 的 Deep Research 在同一基准上单次响应的准确率达到 67.36%(当使用共识机制组合 64 个响应时,OpenAI 的得分高达 72.57%)。正如 Hugging Face 在其帖子中指出的那样,GAIA 包含复杂的多步骤问题,例如:“2008 年画作《乌兹别克斯坦的刺绣》中展示的哪些水果是 1949 年 10 月远洋客轮早餐菜单的一部分,该客轮后来被用作电影《最后的航程》的浮动道具?将这些项目作为逗号分隔的列表,根据它们在画作中的排列按顺时针顺序排列。从 12 点钟位置开始,使用每种水果的复数形式。”为了正确回答此类问题,人工智能代理必须寻找多个不同的来源并将它们组合成一个连贯的答案。 GAIA 中的许多问题都不是一件容易的事,即使对于人类来说也是如此,因此它们很好地测试了代理人工智能的能力。 Ars 指出,Open Deep Research“通过 API 建立在 OpenAI 的大型语言模型(例如 GPT-4o)或模拟推理模型(例如 o1 和 o3-mini)之上”。 “但它也可以适应开放权重的人工智能模型。这里的新颖部分是将所有这些结合在一起的代理结构,并允许人工智能语言模型自主完成研究任务。”该代码已在 GitHub 上公开。
在 Slashdot 上阅读这个故事的更多内容。