PaliGemma 2
Google 推出的新一代AI视觉语言模型
o3 是 OpenAI 最新推出的高性能 AI 推理模型,专注于数学推理、编程和科学问题解决,首次在多个领域超越人类专家水平。在数学竞赛和编程任务中表现卓越,支持复杂任务的透明推理和代码生成。此外,轻量版 o3Mini 提供高效、低成本的解决方案。o3 的发布标志着 AI 技术迈向更高智能的里程碑,适用于研究、开发和教育等多领域应用。
在 SWE-Bench Verified 上: o3比 o1 高出 22.8 个百分点 。在 Codeforces 上:o3 获得了 2727 分,超过了 OpenAI 首席科学家的 2665 分。
在 AIME 2024 上:o3 得分 96.7%,只漏了一个问题。在 GPQA Diamond 上:o3 达到了 87.7%,远高于人类专家的表现。
在 ARC-AGI 上:o3 在低计算能力上的得分是 o1 的三倍多,且超过了 87% 的得分。
在EpochAI Frontier Math上:o3 创下新纪录,解决了 25.2% 的问题,而其他模型都未超过 2% 。
目前,该模型还处于安全测试阶段,从今天开始o3 Mini 模型率先开放给外部安全研究人员进行测试,随后 o3 模型也将参与其中。研究人员可通过访问 OpenAI 的官方网站,填写申请表格参与测试。