鉴于周三的Gemini 2.0 Flash 音频和视频流演示给我留下了深刻的印象,公平地说,我强调 OpenAI 在周四的“12 天 OpenAI”系列的第 6 天,将其相当于该功能的功能交付给了生产中的 ChatGPT 。
今天早上我在 ChatGPT iPhone 应用程序中获得了访问权限。它同样令人印象深刻:在高级语音模式对话中,您现在可以点击相机图标开始与 ChatGPT 共享实时视频流。我把它介绍给我的鸡,并告诉它它们的名字,然后它就能在同一次对话中识别出每只鸡。显然,ChatGPT 桌面应用程序也可以进行屏幕共享,尽管该功能尚未向我推出。
(在十二月剩下的时间里,你还可以让它呈现出圣诞老人的声音和个性——我让圣诞老人用威尔士语给我读了俳句,告诉我他早些时候可以通过我的相机看到什么。)
考虑到这有多酷,令人沮丧的是没有明显的页面(除了这个常见问题解答)可以链接到该功能的公告!当然,这至少值得在OpenAI 新闻博客上发表一篇文章吗?
这就是为什么我认为给人们一些可以链接的东西很重要,这样他们就可以谈论你的功能和想法。
标签:视觉 LLMS 、 openai 、文本转语音、 chatgpt 、 ai 、 llms 、生成人工智能
原文: https://simonwillison.net/2024/Dec/13/openai-voice-mode-faq/#atom-everything