Meta被指AI模型"双标":评测版与公开版Maverick表现大相径庭

Meta周六发布了其新旗舰AI模型Maverick,该模型在LM Arena评测中排名第二。LM Arena是一项依靠人类评分者比较不同模型输出并选择偏好的测试平台。然而,多位AI研究人员很快发现,Meta部署到LM Arena的Maverick版本似乎与开发人员广泛使用的版本存在显著差异。

Meta被指AI模型"双标":评测版与公开版Maverick表现大相径庭插图

Meta在公告中承认,LM Arena上的Maverick是一个"实验性聊天版本"。与此同时,Llama官方网站上的图表显示,Meta的LM Arena测试使用的是"针对对话性进行了优化的Llama4Maverick"。这种差异引发了研究社区的质疑。

AI研究人员在社交平台X上指出,公开可下载的Maverick与LM Arena上托管版本之间存在明显行为差异。LM Arena版本的特点是使用大量表情符号并提供冗长的回答,这在标准版本中并不常见。一位名为Nathan Lambert的研究人员在X上分享了这一发现,讽刺地评论道:"好吧,Llama4肯定有点煮熟了,哈哈,这是雅普城什么地方",并附上了相关截图。

这种为特定基准测试定制模型然后发布"原始"版本的做法引发了严重问题,主要是因为这会使开发人员难以准确预测模型在实际应用场景中的表现。此外,这种做法也被认为具有误导性,因为基准测试的目的是提供单个模型在各种任务中优势和劣势的客观快照。

尽管LM Arena由于各种原因一直不被视为衡量AI模型性能的最可靠指标,但AI公司通常不会公开承认为了在评测中获得更好分数而专门优化模型。Meta的这一做法似乎打破了这一惯例,引发了对AI模型评测透明度的更广泛讨论。

消息盒子
# 您需要首次评论以获取消息 #
# 您需要首次评论以获取消息 #

只显示最新10条未读和已读信息