我以为我们已经完成了 2024 年主要模型发布的任务,但显然没有:阿里巴巴的 Qwen 团队刚刚放弃了 Apache2 2 许可的 QvQ-72B-Preview,“一个专注于增强视觉推理能力的实验研究模型”。
他们的博客文章标题为《QvQ:用智慧看世界》——与几周前 11 月的 QwQ 公告《QwQ:深入思考未知的边界》类似的华丽语言。
这是我之前写过的QwQ 的以愿景为中心的后续作品。 QwQ 是一个令人印象深刻的公开许可的推理扩展模型:给它一个提示,它会大声思考许多标记,同时尝试得出一个好的答案,类似于 OpenAI 的 o1 和 o3 模型。
新的 QvQ 为组合增添了视觉感。您可以在 Hugging Face Spaces 上尝试一下 – 它接受一张图像和一个提示,然后输出一个很长的响应,其中它会思考您提出的问题。没有发送后续提示的选项。
我已经尝试过很多东西,结果好坏参半——但看到它如何解决问题真的很有趣。
我最成功的提示是用这张图片“数鹈鹕”:
这是完整的回复。一些亮点:
我有一些鹈鹕的照片,我需要数一下它们。让我想想…首先,我知道鹈鹕是那些有着巨大喙的大鸟,对吗? […]
让我再试着数一下,这次更仔细一些。从左边开始:
- 第一只鹈鹕完全可见,站在前面。
- 在它后面稍稍偏右的地方,是第二只鹈鹕。
- 然后,再往后,还有第三只鹈鹕。
- 在那只鹈鹕旁边,还有第四只鹈鹕。
所以,总共有四只鹈鹕。但是,我注意到在图像的最右侧,有另一只鸟的一部分,可能是鹈鹕的背部或尾羽,但它没有完全在框架中,所以我认为我不应该将其算作整个鹈鹕。
它使用的语气有点让我发痒,“首先,我知道鹈鹕是那些长着巨大喙的大鸟,对吗?”。
我还在一张更难的图像上尝试过这个方法 – 它数到了 17,这对我来说看起来差不多,但说实话,我自己对这个图像有麻烦。
我输入了 o3 失败的ARC-AGI 谜题之一。
它产生了一个非常长的思想链,几乎完全不正确,但其中有一些有趣的“想法”:
[…] 让我尝试用细胞自动机规则来思考,比如康威的生命游戏。
在生命游戏中,下一代每个细胞的状态由其当前状态及其八个邻居的状态决定。
也许类似的规则也适用于此。
最后,我要求它根据这张图像“估计恐龙的高度”(正如它正确指出的那样,它实际上是一条充气龙):
鉴于框架中缺乏具有相当已知高度的物品,我不确定这项任务是否可能。不过它做得很好!我特别喜欢它的开头:
我有了这个充气圣诞装饰品,它是一条龙!但它不是普通的龙——它是一条戴着圣诞帽、戴着红白围巾的绿龙。瞧,它的背上有一只驯鹿,也戴着圣诞帽,握着龙的翅膀。它非常喜庆,色彩缤纷,有很多充满活力的绿色、红色和黄色。
龙有一双友善的大眼睛和一张微笑的脸,这使它看起来非常高兴。它的翅膀展开,脚上长着白色的爪子。驯鹿呈棕色,长着鹿角,似乎很享受骑在龙背上的样子。
现在的问题是,这条充气龙有多高?我需要估计它的高度。让我看看。我站在它旁边,身高大约 5 英尺 10 英寸。龙肯定比我高。也许大约8或9英尺高?但我应该尝试更精确。
我想知道它是如何决定自己的高度是5英尺10英寸的!
本地运行 QwQ
到目前为止,我的所有实验都使用了托管的 Hugging Face 演示。我希望尽快在我自己的笔记本电脑上尝试一下 – 我认为它应该适合 64GB 的 M2,也许量化较小。
现在的选项是:
- Hugging Face 上的Qwen/QVQ-72B-Preview具有 GPU 模型权重,可与 Hugging Face Transformers 和qwen-vl-utils Python 包一起使用。
- Prince Canuma已经在将模型转换为 Apple 的 MLX 框架– 希望它很快就能通过他优秀的mlx-vlm包提供。
作为 Ollama 的qwq 端口的快乐用户,我希望他们也能在某个时候添加 QwQ 版本。
标签: ai ,生成式人工智能, LLMS ,拥抱脸,视觉 LLMS , qwen ,推理缩放
原文: https://simonwillison.net/2024/Dec/24/qvq/#atom-everything