Gemini-2.5-pro在MathArena评测中展现卓越数学能力 远超其他模型
2025年4月3日消息:根据MathArena最新发布的大语言模型数学能力评测结果显示,Google的Gemini-2.5-pro以绝对优势领跑,在未污染的高难度数学竞赛中展现出令人瞩目的表现。
突破性成绩
Gemini-2.5-pro在MathArena平台的严格评测中取得了24.40%的准确率,这一成绩不仅位居榜首,更是与第二名DeepSeek-R1 的4.76%形成鲜明对比,领先优势达到惊人的五倍之多。这一突破性成绩表明Gemini-2.5-pro在高级数学推理能力上实现了质的飞跃。
多项竞赛中的优异表现
特别值得关注的是,Gemini-2.5-pro在"AIME 2025 I"竞赛测试中取得了93%的惊人成绩,这是一项公认的高难度数学竞赛。同时,它在"USAMO 2025"中也达到了50%的表现,足以证明其解决超高难度数学问题的能力。
技术意义
MathArena评测的特殊性在于其严格性和公正性,仅使用模型发布后的数学竞赛题目进行测试,确保模型无法通过预训练材料获得优势。在这样的严苛条件下,Gemini-2.5-pro仍能保持如此高的成功率,反映了Google在大模型数学推理能力上的重大突破。
行业影响
Gemini-2.5-pro的卓越表现不仅证明了大语言模型在高级数学思维方面的巨大潜力,也为AI辅助教育、科研和复杂问题求解开辟了新的可能性。这一成绩也将进一步推动AI行业在推理能力和专业领域应用方面的竞争与创新。
对比其他模型如Claude-3.7-Sonnet (Think)的3.65%和o1-pro (high)的2.83%的准确率,Gemini-2.5-pro的领先优势更加突出,标志着大语言模型数学能力发展可能已进入新阶段。
数据来源:https://matharena.ai/
空空如也!