一个令人难以置信的项目,但名称选择不当。沙特阿拉伯阿卜杜拉国王科技大学的一个团队将 Vicuna-13B(在 Facebook 的 LLaMA 之上微调的模型)与 BLIP-2 视觉语言模型相结合,创建了一个可以在周围进行 ChatGPT 式对话的模型一张上传的图片。该演示非常令人印象深刻,并且可以下载权重 – MiniGPT-4 为 45MB,但您还需要更大的 Vicuna 和 LLaMA 权重。
通过黑客新闻
原文: http://simonwillison.net/2023/Apr/17/minigpt-4/#atom-everything