来自 Facebook/Meta AI 研究的新模型发布:“一种学习联合嵌入六种不同模式的方法——图像、文本、音频、深度、热和 IMU(惯性测量单元)数据”。非交互式演示展示了从图像开始搜索音频、从音频开始搜索图像、使用文本检索图像和音频、使用图像和音频检索图像(例如,吠叫声和海滩照片让狗上岸)海滩)并使用音频作为图像生成器的输入。
原文: http://simonwillison.net/2023/May/9/imagebind/#atom-everything
翻译英文优质信息和名人推特
来自 Facebook/Meta AI 研究的新模型发布:“一种学习联合嵌入六种不同模式的方法——图像、文本、音频、深度、热和 IMU(惯性测量单元)数据”。非交互式演示展示了从图像开始搜索音频、从音频开始搜索图像、使用文本检索图像和音频、使用图像和音频检索图像(例如,吠叫声和海滩照片让狗上岸)海滩)并使用音频作为图像生成器的输入。
原文: http://simonwillison.net/2023/May/9/imagebind/#atom-everything