LLaVA：大型语言和视觉助手

Posted on 2023-04-19

另一种多模态模型结合了视觉模型（预训练的 CLIP ViT-L/14）和 LLaMA 衍生模型（Vicuna）。我从他们的演示中获得的结果比 MiniGPT-4 更令人印象深刻。