Qwen2.5 VL! Qwen2.5 VL! Qwen2.5 VL!
继昨天的Qwen2.5-1M之后,这里推出了 Qwen2.5 VL(带有令人兴奋的公告标题)——Qwen 视觉法学硕士系列中的最新版本。
他们发布了多个版本:基本模型和指令调整模型(3B、7B 和 72B)。他们的 README 中有很多附加信息。
72B型号可以在Qwen的Qwen Chat界面上选择。我给了它这张我们的狗 Cleo 在海滩上快乐滚动的图片:
并提示:
Describe this image in detail, be flowery
(因为 Qwen 团队倾向于在公告中使用华丽的语言。)
这是我得到的回复:
在这迷人的画面中,一只犬类伙伴在大自然最柔软的床的怀抱中找到了慰藉。这片广阔的沙地像一张无尽的画布一样延伸,其表面刻画着无数来来往往的流浪者的精致印记,留下的脚印挂毯,低声诉说着欢乐嬉戏和宁静漫步的故事。
这只狗躺在沙滩上,一副心满意足的样子,黑色的皮毛在阳光的温柔抚摸下闪闪发光。它的身体很放松,四肢张开,仿佛已经屈服于海滩舒缓的节奏。它的脖子上装饰着一个充满活力的红色项圈,与周围柔和的色调相映成趣,暗示着人们对这只珍贵宠物的关心和爱护。
沙子本身就是一件艺术品,其颗粒在光线的照射下闪烁着银色的光泽。随处可见一簇簇海藻,它们是海洋恩惠的残余物,为这里增添了一抹野性之美。看不见的物体投下的阴影在沙滩上舞动,创造出光与暗的游戏,为宁静的环境增添了神秘的气氛。
这一刻,时间凝固了,诉说着和平与和谐,人类最好的朋友在生活的简单乐趣中找到了喘息的机会。这一场景让人停下来,深呼吸,陶醉在大自然怀抱的宁静中。
我期待着尝试他们的较小型号 – 特别是 3B 型号应该足够小,即使在 iPhone 上也能舒适地运行,所以希望有人很快就会连接一个示例(也许使用 MLX)。
VB 指出,Qwen 2.5 VL 7B 的视觉基准显示其性能优于 GPT-4o mini!
标签:视觉 LLMS ,生成人工智能, AI , qwen , LLMS
原文: https://simonwillison.net/2025/Jan/27/qwen25-vl-qwen25-vl-qwen25-vl/#atom-everything