QVQ-72B-Preview

2周前更新 35 0 0

阿里通义推出的开源多模态推理模型

收录时间:
2024-12-26
QVQ-72B-PreviewQVQ-72B-Preview
QVQ-72B-Preview
清影AI视频生成

QVQ-72B-Preview是什么?

QVQ-72B-Preview 是由阿里通义团队开发的一款多模态视觉推理模型,基于 Qwen2-VL-72B 微调,拥有 73.4B 参数,专注于复杂的视觉理解和跨学科推理任务。QVQ不但能感知更准确的视觉内容,并据此作出更细致的分析推理,还会质疑自身假设,仔细审视其推理过程的每一步,经过深思熟虑后给出最后结论。面对数学、物理、化学等各科学领域难题,QVQ能像人甚至科学家一样,给出思考过程和准确答案。

多项评测数据显示,QVQ超越了此前的视觉理解模型「开源王者」Qwen2-VL,整体表现与「满血版」OpenAI o1、Claude3.5 Sonnet等推理模型相当。在基准测试如 MMMU 和 MathVista 中表现卓越,展现了处理数学、科学等高难度问题的能力。

QVQ-72B-Preview

QVQ-72B-Preview核心亮点

  1. 卓越的视觉推理能力
    • 基于先进的多模态设计,QVQ 能够准确理解图像内容,并进行复杂的逐步推理。
    • 支持从图片中推断物体高度、数量等具体信息,还能识别图片的深层含义,如“梗图”内涵。
  2. 科学级推理表现
    • MMMU测试:视觉推理得分 70.3,达大学水准。
    • MathVista评测:超越 OpenAI o1,展现出强大的数学与图形推理能力。
    • MathVision与OlympiadBench测试:在多学科广度和奥赛级难度测试中表现超越 GPT-4o 和 Claude 3.5。
  3. 全新技术突破:构建于 Qwen2-VL-72B 基础之上,QVQ 在视觉推理与逐步推理方面取得显著进步,可像科学家一样思考并给出准确答案。通过质疑假设和优化推理步骤,QVQ 提供了更可靠、更智能的结果。
  4. 开放生态支持:模型已在魔搭社区HuggingFace 平台开源,开发者可快速体验与集成。

QVQ-72B-Preview的模型表现

在考察模型视觉理解及推理的MMMU评测中,QVQ取得了70.3分,水平已达大学级别;在聚焦数学的视觉推理测试MathVista中,QVQ得分超过OpenAI o1,印证了其强大的图形推理能力;在更具多样性和学科广度的MathVison评测中,QVQ表现超越Claude3.5及GPT4o,说明QVQ更擅长解决真实数学问题;在奥赛级别的OlympiadBench基准测试中,QVQ也展现了出色的视觉推理能力。

QVQ-72B-Preview

QVQ-72B-Preview的局限性

  • 语言混合与切换:模型可能会意外地混合语言或在语言之间切换,从而影响响应的清晰度。
  • 递归推理:模型可能会陷入循环逻辑模式,产生冗长的响应而无法得出结论。
  • 安全和伦理考虑:模型需要增强安全措施,以确保可靠和安全的性能,用户在部署时应保持谨慎。
  • 性能和基准限制:尽管模型在视觉推理方面有所改善,但它无法完全替代 Qwen2-VL-72B 的能力。此外,在多步骤视觉推理过程中,模型可能会逐渐失去对图像内容的关注,导致幻觉。

如何体验QVQ-72B-Preview

目前,开发者可在魔搭社区和HuggingFace平台上直接体验。

相关导航

暂无评论

none
暂无评论...