Gemini-2.5-pro在MathArena评测中展现卓越数学能力远超其他模型

2025年4月3日 216

2025年4月3日消息：根据MathArena最新发布的大语言模型数学能力评测结果显示，Google的Gemini-2.5-pro以绝对优势领跑，在未污染的高难度数学竞赛中展现出令人瞩目的表现。

Gemini-2.5-pro在MathArena评测中展现卓越数学能力远超其他模型插图

突破性成绩

Gemini-2.5-pro在MathArena平台的严格评测中取得了24.40%的准确率，这一成绩不仅位居榜首，更是与第二名DeepSeek-R1 的4.76%形成鲜明对比，领先优势达到惊人的五倍之多。这一突破性成绩表明Gemini-2.5-pro在高级数学推理能力上实现了质的飞跃。

特别值得关注的是，Gemini-2.5-pro在"AIME 2025 I"竞赛测试中取得了93%的惊人成绩，这是一项公认的高难度数学竞赛。同时，它在"USAMO 2025"中也达到了50%的表现，足以证明其解决超高难度数学问题的能力。

MathArena评测的特殊性在于其严格性和公正性，仅使用模型发布后的数学竞赛题目进行测试，确保模型无法通过预训练材料获得优势。在这样的严苛条件下，Gemini-2.5-pro仍能保持如此高的成功率，反映了Google在大模型数学推理能力上的重大突破。

Gemini-2.5-pro的卓越表现不仅证明了大语言模型在高级数学思维方面的巨大潜力，也为AI辅助教育、科研和复杂问题求解开辟了新的可能性。这一成绩也将进一步推动AI行业在推理能力和专业领域应用方面的竞争与创新。

对比其他模型如Claude-3.7-Sonnet (Think)的3.65%和o1-pro (high)的2.83%的准确率，Gemini-2.5-pro的领先优势更加突出，标志着大语言模型数学能力发展可能已进入新阶段。

数据来源：https://matharena.ai/

Comments | NOTHING

空空如也！