QVQ-72B-Preview

2周前更新 35 0 0

阿里通义推出的开源多模态推理模型

收录时间：

2024-12-26

打开网站手机查看

AI训练模型

QVQ-72B-Preview

QVQ-72B-Preview是什么？

QVQ-72B-Preview 是由阿里通义团队开发的一款多模态视觉推理模型，基于 Qwen2-VL-72B 微调，拥有 73.4B 参数，专注于复杂的视觉理解和跨学科推理任务。QVQ不但能感知更准确的视觉内容，并据此作出更细致的分析推理，还会质疑自身假设，仔细审视其推理过程的每一步，经过深思熟虑后给出最后结论。面对数学、物理、化学等各科学领域难题，QVQ能像人甚至科学家一样，给出思考过程和准确答案。

多项评测数据显示，QVQ超越了此前的视觉理解模型「开源王者」Qwen2-VL，整体表现与「满血版」OpenAI o1、Claude3.5 Sonnet等推理模型相当。在基准测试如 MMMU 和 MathVista 中表现卓越，展现了处理数学、科学等高难度问题的能力。

QVQ-72B-Preview的核心亮点

卓越的视觉推理能力
- 基于先进的多模态设计，QVQ 能够准确理解图像内容，并进行复杂的逐步推理。
- 支持从图片中推断物体高度、数量等具体信息，还能识别图片的深层含义，如“梗图”内涵。
科学级推理表现
- MMMU测试：视觉推理得分 70.3，达大学水准。
- MathVista评测：超越 OpenAI o1，展现出强大的数学与图形推理能力。
- MathVision与OlympiadBench测试：在多学科广度和奥赛级难度测试中表现超越 GPT-4o 和 Claude 3.5。
全新技术突破：构建于 Qwen2-VL-72B 基础之上，QVQ 在视觉推理与逐步推理方面取得显著进步，可像科学家一样思考并给出准确答案。通过质疑假设和优化推理步骤，QVQ 提供了更可靠、更智能的结果。
开放生态支持：模型已在魔搭社区和 HuggingFace 平台开源，开发者可快速体验与集成。

QVQ-72B-Preview的模型表现

在考察模型视觉理解及推理的MMMU评测中，QVQ取得了70.3分，水平已达大学级别；在聚焦数学的视觉推理测试MathVista中，QVQ得分超过OpenAI o1，印证了其强大的图形推理能力；在更具多样性和学科广度的MathVison评测中，QVQ表现超越Claude3.5及GPT4o，说明QVQ更擅长解决真实数学问题；在奥赛级别的OlympiadBench基准测试中，QVQ也展现了出色的视觉推理能力。

QVQ-72B-Preview的局限性

语言混合与切换：模型可能会意外地混合语言或在语言之间切换，从而影响响应的清晰度。
递归推理：模型可能会陷入循环逻辑模式，产生冗长的响应而无法得出结论。
安全和伦理考虑：模型需要增强安全措施，以确保可靠和安全的性能，用户在部署时应保持谨慎。
性能和基准限制：尽管模型在视觉推理方面有所改善，但它无法完全替代 Qwen2-VL-72B 的能力。此外，在多步骤视觉推理过程中，模型可能会逐渐失去对图像内容的关注，导致幻觉。