ChatGPT 现在支持语音聊天和基于图像的查询

621d37f0-3bdc-11ee-a43f-30af0458ac79

ChatGPT正在进行一些重大更新，使聊天机器人能够处理语音命令和基于图像的查询。用户将能够在 Android 和 iOS 上与 ChatGPT 进行语音对话，并在所有平台上将图像输入其中。 OpenAI现已推出这些功能。它们首先可供 Plus 和 Enterprise 用户使用，其他人稍后也可以访问基于图像的功能。

如果您想尝试的话，您需要在 ChatGPT 应用程序中选择加入语音对话（依次转到“设置”和“新功能”）。通过点击麦克风按钮，您可以从五种不同的声音中进行选择。

OpenAI 表示，来回语音对话由新的文本转语音模型提供支持，该模型可以“仅从文本和几秒钟的样本语音中生成类似人类的音频”。它在专业演员的帮助下创造了五个声音。另一方面，该公司的Whisper 语音识别系统将用户的口语转换为文本。

使用您的声音与 ChatGPT 进行来回对话。随时随地与它交谈、要求听睡前故事或解决餐桌上的争论。

声音? pic.twitter.com/3tuWzX0wtS

– OpenAI (@OpenAI) 2023 年 9 月 25 日

基于图像的功能也很有趣。 OpenAI 表示，例如，你可以向聊天机器人展示你的烧烤架的照片，并询问它为什么无法启动，让它根据你冰箱里的食物的快照来帮助计划一顿饭，或者提示它解决你的数学问题。拍一张照片。碰巧的是，微软在上周的 Surface 活动中强调了 Copilot AI 在 Windows 中解决数学问题的能力。

OpenAI 使用 GPT-3.5 和 GPT-4 来支持图像识别功能。要使用 ChatGPT 基于图像的功能，请点击照片按钮（在 iOS 或 Android 上，您需要先点击加号按钮）来拍摄快照或选择设备上的现有图像。您可以向 ChatGPT 询问多张照片，并使用绘图工具来关注图像的特定部分。

OpenAI在宣布更新的博客文章中指出了潜在的危害。不良行为者有可能模仿公众人物（和普通人）的声音，并可能实施欺诈。这就是为什么 OpenAI 专注于使用该技术的 ChatGPT 语音对话，并与精选合作伙伴就其他有限的用例进行合作（稍后会详细介绍）。

至于图像，OpenAI 与Be My Eyes合作，这是一款免费应用程序，盲人和弱视人士可以使用该应用程序来帮助他们更好地了解周围环境，这要归功于志愿者与他们进行视频通话。 OpenAI 表示：“用户告诉我们，他们发现就背景中恰好包含人物的图像进行一般性对话很有价值，就像当你试图弄清楚遥控器设置时有人出现在电视上一样。”该公司指出，它还限制了 ChatGPT 对图像中出现的人进行分析和直接陈述的方式，“因为 ChatGPT 并不总是准确的，这些系统应该尊重个人隐私。”它发表了一篇关于基于图像的功能的安全特性的论文，将其称为具有视觉的 GPT-4。

ChatGPT 在理解图像中的英文文本方面比其他语言更有效。 OpenAI 表示，该聊天机器人目前在其他语言中“表现不佳”，特别是在使用非罗马文字的语言中。因此，它建议非英语用户暂时避免使用 ChatGPT 处理图像中的文本。

与此同时，Spotify 与 OpenAI 合作，将基于语音的技术用于一个有趣的目的。前者宣布为播客推出一款名为“语音翻译”的工具试点。这可以使用节目中出现的人的声音将播客翻译成不同的语言。 Spotify 表示，该工具可以在将原始说话者的声音转换为其他语言后保留其语音特征。

首先，Spotify 正在将精选的英语节目转换成几种语言。一些扶手椅专家和史蒂文·巴特利特的首席执行官日记的西班牙语版本现已推出，法语和德语版本也将推出。

您是否梦想有一个世界，一些顶级播客会用您的母语播放？嗯，现在这是可能的。我们很高兴能够试用语音翻译，这是一项由 AI 提供支持的突破性功能，可将播客翻译成其他语言 – 一切都在播客的… pic.twitter.com/7ebVwF99hD

— Spotify 新闻 (@SpotifyNews) 2023 年 9 月 25 日

本文最初发表在 Engadget 上：https://ift.tt/0ZjNbUV

原文： https://www.engadget.com/chatgpt-now-supports-voice-chats-and-image-based-queries-144718179.html?src=rss