另一种多模态模型结合了视觉模型(预训练的 CLIP ViT-L/14)和 LLaMA 衍生模型(Vicuna)。我从他们的演示中获得的结果比 MiniGPT-4 更令人印象深刻。
通过黑客新闻
原文: http://simonwillison.net/2023/Apr/19/llava-large-language-and-vision-assistant/#atom-everything
翻译英文优质信息和名人推特
另一种多模态模型结合了视觉模型(预训练的 CLIP ViT-L/14)和 LLaMA 衍生模型(Vicuna)。我从他们的演示中获得的结果比 MiniGPT-4 更令人印象深刻。
通过黑客新闻
原文: http://simonwillison.net/2023/Apr/19/llava-large-language-and-vision-assistant/#atom-everything