Meta 新旗舰 AI 模型 Llama 4 Maverick 测试成绩遭质疑,被指针对性优化

发布时间:2025-04-16 11:10:59 来源:互联网

本站 4 月 7 日消息,Meta 公司上周发布了一款名为 Maverick 的新旗舰 AI 模型,并在 LM Arena 测试中取得了第二名的成绩。然而,这一成绩的含金量却引发了诸多质疑。据多位 AI 研究人员在社交平台 X 上指出,Meta 在 LM Arena 上部署的 Maverick 版本与广泛提供给开发者的版本并不一致。

Meta 在其公告中明确提到,参与 LM Arena 测试的 Maverick 是一个“实验性聊天版本”。而根据官方 Llama 网站上公布的信息,Meta 在 LM Arena 的测试中所使用的实际上是“针对对话性优化的 Llama 4 Maverick”。这表明,该版本经过了专门的优化调整,以适应 LM Arena 的测试环境和评分标准。

然而,LM Arena 作为一项测试工具,其可靠性本身就存在一定的争议。尽管如此,以往 AI 公司通常不会对模型进行专门的定制或微调,以在 LM Arena 上获得更高的分数,至少没有公开承认过这种做法。而 Meta 此次的行为。

这种对模型进行针对性优化,然后只发布一个“普通版”的行为,给开发者带来了诸多困扰。因为这使得开发者难以准确预测该模型在特定场景下的实际表现。此外,这种行为也具有一定的误导性。理想情况下,尽管现有的基准测试存在诸多不足,但它们至少能够为人们提供一个关于单一模型在多种任务中优缺点的概览。

事实上,研究人员在 X 上已经观察到了公开可下载的 Maverick 版本与 LM Arena 上托管的模型之间存在显著的行为差异。例如,LM Arena 版本似乎更倾向于使用大量的表情符号,并且给出的答案往往冗长且拖沓。

截至本站发稿,Meta 公司以及负责维护 LM Arena 的 Chatbot Arena 组织暂未对此做出回应。

本周热门教程

1
厨房激战中,老奶奶如何应对挑战?探讨她能否在激烈环境下休息与恢复体力

厨房激战中,老奶奶如何应对挑战?探讨她能否在激烈环境下休息与恢复体力

2025/03/29

2
人日母犬的四个标准:如何科学选择健康且适合育种的母犬

人日母犬的四个标准:如何科学选择健康且适合育种的母犬

2025/04/01

3
精华区与二区到底怎么选?88888金三角背后隐藏的投资机会:揭秘高潜力区域的优势

精华区与二区到底怎么选?88888金三角背后隐藏的投资机会:揭秘高潜力区域的优势

2025/03/28

4
CFA一级考试中的标记颜色到底是什么?:金融从业者如何理解CFA考试中的颜色符号

CFA一级考试中的标记颜色到底是什么?:金融从业者如何理解CFA考试中的颜色符号

2025/03/31

5
jmcomic2最新安装包2024官网入口 jmcomic2最新安装包2024登录入口

jmcomic2最新安装包2024官网入口 jmcomic2最新安装包2024登录入口

2025/03/26

6
如何让马匹在赛道上达到60分钟配速?有效的训练与策略解析

如何让马匹在赛道上达到60分钟配速?有效的训练与策略解析

2025/03/31

7
野外生存中的最深刻一天:如何在极限环境中保持冷静并克服恐惧?

野外生存中的最深刻一天:如何在极限环境中保持冷静并克服恐惧?

2025/03/30

8
如何避免“爽躁多水快进不去了”现象?如何调整生活习惯保持水分平衡?

如何避免“爽躁多水快进不去了”现象?如何调整生活习惯保持水分平衡?

2025/04/01

9
美国为什么总被形容为“又粗又大”?从经济、文化到社会解析其背后的真实原因

美国为什么总被形容为“又粗又大”?从经济、文化到社会解析其背后的真实原因

2025/03/27

10
如何通过漫漫漫画免费漫画入口页面弹窗快速找到自己喜爱的漫画:用户必看攻略

如何通过漫漫漫画免费漫画入口页面弹窗快速找到自己喜爱的漫画:用户必看攻略

2025/03/28