Meta被指AI模型"双标":评测版与公开版Maverick表现大相径庭

2025年4月7日 99

采集

Meta周六发布了其新旗舰AI模型Maverick，该模型在LM Arena评测中排名第二。LM Arena是一项依靠人类评分者比较不同模型输出并选择偏好的测试平台。然而，多位AI研究人员很快发现，Meta部署到LM Arena的Maverick版本似乎与开发人员广泛使用的版本存在显著差异。

Meta被指AI模型"双标":评测版与公开版Maverick表现大相径庭插图

Meta在公告中承认，LM Arena上的Maverick是一个"实验性聊天版本"。与此同时，Llama官方网站上的图表显示，Meta的LM Arena测试使用的是"针对对话性进行了优化的Llama4Maverick"。这种差异引发了研究社区的质疑。

AI研究人员在社交平台X上指出，公开可下载的Maverick与LM Arena上托管版本之间存在明显行为差异。LM Arena版本的特点是使用大量表情符号并提供冗长的回答，这在标准版本中并不常见。一位名为Nathan Lambert的研究人员在X上分享了这一发现，讽刺地评论道:"好吧，Llama4肯定有点煮熟了，哈哈，这是雅普城什么地方"，并附上了相关截图。

这种为特定基准测试定制模型然后发布"原始"版本的做法引发了严重问题，主要是因为这会使开发人员难以准确预测模型在实际应用场景中的表现。此外，这种做法也被认为具有误导性，因为基准测试的目的是提供单个模型在各种任务中优势和劣势的客观快照。

尽管LM Arena由于各种原因一直不被视为衡量AI模型性能的最可靠指标，但AI公司通常不会公开承认为了在评测中获得更好分数而专门优化模型。Meta的这一做法似乎打破了这一惯例，引发了对AI模型评测透明度的更广泛讨论。

Comments | NOTHING

空空如也！

Meta被指AI模型"双标":评测版与公开版Maverick表现大相径庭

蚂蚁集团医疗 AI 平台荣获 2025 世界人工智能大会 SAIL 奖

苹果 WWDC 2025:iOS 26升级视觉智能，AI 助力屏幕内容识别

英国图灵人工智能研究所面临资金危机与内部动荡

腾讯混元3D Studio 震撼登场:3D 创作从"天"级提速至"分钟"级

企业级 MaaS 来袭！硅基流动如何助力大模型产业化？

OpenAI星际之门项目首个数据中心将可容纳多达40万个英伟达芯片

Meta被指AI模型"双标":评测版与公开版Maverick表现大相径庭

​蚂蚁集团医疗 AI 平台荣获 2025 世界人工智能大会 SAIL 奖

苹果 WWDC 2025:iOS 26升级视觉智能，AI 助力屏幕内容识别

​英国图灵人工智能研究所面临资金危机与内部动荡

腾讯混元3D Studio 震撼登场:3D 创作从"天"级提速至"分钟"级

企业级 MaaS 来袭！硅基流动如何助力大模型产业化？

OpenAI星际之门项目首个数据中心将可容纳多达40万个英伟达芯片

蚂蚁集团医疗 AI 平台荣获 2025 世界人工智能大会 SAIL 奖

英国图灵人工智能研究所面临资金危机与内部动荡