OpenAI 希望与组织合作构建新的人工智能训练数据集

177c8aa0-7f3b-11ee-bbef-b39477072b84

OpenAI正在推出一项新的合作伙伴计划，从第三方收集数据集，并打算用这些数据集来训练其人工智能模型。该倡议名为“OpenAI 数据合作伙伴”，将寻求大规模的私人和公共信息，据称“公众尚无法轻松在线获取”这些信息。该公司表示，它将收集的数据不一定是定量的或文本格式的——该程序还将接受图像、音频或视频。

值得注意的是，该公司表示，它正在寻找“任何主题”和“任何语言”的数据，只要它“表达人类意图”，它将这比作长篇文章或转录对话。 OpenAI 收集的以人为中心的数据预计将帮助该公司改进工具，例如用于转录口语的自动语音识别技术。这一举措也与 ChatGPT 最近的扩展相一致，支持语音查询以对话方式与用户互动。向其人工智能模型提供更多信息，教其如何进行类似人类的对话，只会进一步改进该功能以及后续功能的其他工具。

宣布建立 OpenAI 数据合作伙伴关系——通过与我们在公共和私人数据集上进行合作，帮助引导人工智能的未来。 https://t.co/4tbi5SZ6sS

— OpenAI (@OpenAI) 2023 年 11 月 9 日

在整个数据合作伙伴计划中进行的模型测试也将自然地扩展 OpenAI 面向消费者的GPT-4 Turbo的功能，该功能已经更新，可以为用户提供更复杂和更有意义的响应。 OpenAI 表示，它已经开始与感兴趣的组织合作，包括冰岛政府等权威机构。 OpenAI 表示，通过精选的数据集，它正在努力提高 GPT-4 理解冰岛语查询的能力。

如果私人或公共组织想要参与该计划，代表可以在公司网站上提交表格，并共享有关他们打算共享的数据类型和大小的信息。数据集有两种途径。第一个是开源存档，它非常适合与训练语言模型相关的数据集。但是，向其提交的内容将公开供任何人使用。另外，OpenAI 表示，公司可以通过其私有数据集路径提交信息，该路径将用于训练专有的人工智能模型，该公司表示，这些模型包括他们的“基础模型”和“微调和定制模型”。建议希望对其数据保密的公司或机构这样做。但在同一方面，OpenAI 表示它并不是在寻找包含敏感或个人信息的数据集。

ChatGPT 已经为其飙升的用户群创造了记录。它在全球拥有约1 亿每周活跃用户，这意味着隐私只会继续成为该工具的焦点。此前，三星员工因向人工智能模型泄露敏感数据而陷入困境。虽然OpenAI 声称它不会使用其 API 生成的数据来训练其模型，除非用户通过选择加入表单明确提交信息，但所有人的目光都将集中在该公司如何处理通过该计划收集的数据，尤其是私人数据集。

本文最初发表在 Engadget 上：https://ift.tt/2Vpw9aJ

原文： https://www.engadget.com/openai-wants-to-work-with-organizations-to-build-new-ai-training-datasets-214548902.html?src=rss