OpenAI正在推出一项新的合作伙伴计划,从第三方收集数据集,并打算用这些数据集来训练其人工智能模型。该倡议名为“OpenAI 数据合作伙伴”,将寻求大规模的私人和公共信息,据称“公众尚无法轻松在线获取”这些信息。该公司表示,它将收集的数据不一定是定量的或文本格式的——该程序还将接受图像、音频或视频。
值得注意的是,该公司表示,它正在寻找“任何主题”和“任何语言”的数据,只要它“表达人类意图”,它将这比作长篇文章或转录对话。 OpenAI 收集的以人为中心的数据预计将帮助该公司改进工具,例如用于转录口语的自动语音识别技术。这一举措也与 ChatGPT 最近的扩展相一致,支持语音查询以对话方式与用户互动。向其人工智能模型提供更多信息,教其如何进行类似人类的对话,只会进一步改进该功能以及后续功能的其他工具。
宣布建立 OpenAI 数据合作伙伴关系——通过与我们在公共和私人数据集上进行合作,帮助引导人工智能的未来。 https://t.co/4tbi5SZ6sS
— OpenAI (@OpenAI) 2023 年 11 月 9 日
在整个数据合作伙伴计划中进行的模型测试也将自然地扩展 OpenAI 面向消费者的GPT-4 Turbo的功能,该功能已经更新,可以为用户提供更复杂和更有意义的响应。 OpenAI 表示,它已经开始与感兴趣的组织合作,包括冰岛政府等权威机构。 OpenAI 表示,通过精选的数据集,它正在努力提高 GPT-4 理解冰岛语查询的能力。
如果私人或公共组织想要参与该计划,代表可以在公司网站上提交表格,并共享有关他们打算共享的数据类型和大小的信息。数据集有两种途径。第一个是开源存档,它非常适合与训练语言模型相关的数据集。但是,向其提交的内容将公开供任何人使用。另外,OpenAI 表示,公司可以通过其私有数据集路径提交信息,该路径将用于训练专有的人工智能模型,该公司表示,这些模型包括他们的“基础模型”和“微调和定制模型”。建议希望对其数据保密的公司或机构这样做。但在同一方面,OpenAI 表示它并不是在寻找包含敏感或个人信息的数据集。
ChatGPT 已经为其飙升的用户群创造了记录。它在全球拥有约1 亿每周活跃用户,这意味着隐私只会继续成为该工具的焦点。此前,三星员工因向人工智能模型泄露敏感数据而陷入困境。虽然OpenAI 声称它不会使用其 API 生成的数据来训练其模型,除非用户通过选择加入表单明确提交信息,但所有人的目光都将集中在该公司如何处理通过该计划收集的数据,尤其是私人数据集。
本文最初发表在 Engadget 上:https://ift.tt/2Vpw9aJ