阿里开源首个视觉推理模型
过年了!阿里阿里今年送了最后一份礼物——
QVQ的开源“眼睛”模型,V代表视觉。首个视觉它可以通过阅读图像和指令来开始思考。推理

I’m watching you!模型
据报道,阿里这可能是开源世界上第一个视觉推理模型,也可以理解为阿里o1模型QWQ上个月开源的首个视觉视觉版本。

可以解决数物化生等各个领域的推理问题。

读梗图,模型数鸭子也不在话下。阿里

该模型目前正处于开放测试的开源实验阶段。

结果可能是首个视觉因为访问太多,网页一度还是推理404。

从性能上看,模型QVQ在性能上MMMU 上的得分为 70.3,超过GPT-4o、Claude 3.5 Sonnet,但是比o1模型还差一点。

阿里巴巴开源首个视觉推理模型
官方给了几个演示Demo,让我们好好感知一下它的推理能力。
让我们先来看看这个数学题。

再来一个几何题,算算这个沙发的面积。

高中化学问题:图片中的滤液E是什么化学物质?

答案是:硫酸亚铁溶液。
他们在四个数据集中评估了眼睛模型QVQ-72B-Preview,包括MMU、MathVista、MathVision、OlympiadBench,主要考察数学多模态推理和综合理解推理的能力。
QVQ-72B-Preview MMMU 在基准测试中得了70.3分,大大超过了前身 Qwen2-VL-72B-Instruct。
此外,在数学和科学问题的其他三个基准测试中,该模型也表现出了出色的性能,缩小了与o1模型的差距。

但目前该模型属于团队实验研究模型,不是特别稳定,需要注意几个限制。
语言混合和代码切换:该模型可能会意外地混合语言或在语言之间切换,从而影响答案的清晰度。
递归推理:模型可能会陷入循环逻辑模式,产生冗长的回复,无法得出结论。
考虑安全和道德:该模型需要加强安全措施,以确保可靠和安全的性能,用户在部署时应谨慎。
性能和基准限制:虽然该模型在视觉推理方面得到了改进,但它不能完全取代它 Qwen2-VL-72B-Instruct 功能。此外,在多步视觉推理过程中,模型可能会逐渐失去对图像内容的关注,导致幻觉。
好好预防针,那我们浅测一波。
比如这个考验谷歌版o1的题目:
如何将这些数字加起来等于30?

结果它识别了这些球对应的数字,没有意识到9号球可以翻转成6号球,然后陷入了无尽的思考。。。
在blog的最后,他们还透露了下一个目标——增强视觉语言的基本模型,使其具有基于视觉信息进行深入思考和推理的先进能力。
延长时间,他们计划将更多的模式集成到统一的模型中,以应对复杂的挑战,参与科学探索。
(模型的尽头是AI For Science?)
参考链接:
[1]https://x.com/Alibaba_Qwen/status/1871602879972405626
[2]https://qwenlm.github.io/blog/qvq-72b-preview/
来源:量子位








