LLaMA4在LM竞技场作弊的事情暴露后,LM竞技场上线了个真实的LLaMA

护川士兵 2025-04-13 21:15:08

LLaMA 4在LM竞技场作弊的事情暴露后,LM竞技场上线了个真实的LLaMA 4的成绩,结果大跌眼镜,直接从第2名滑到第32名,甚至不如大半年前的DeepSeek 2.5。

LLaMA 4的作弊手法是搞了个符合LM竞技场用户偏好的特调模型,这个模型的特点是:输出长,全是emoji,然后俏皮话多。靠着这些偏好能力来拉高分数,但实际上性能很差。这件事证明了LM竞技场这种业余爱好者来打分然后排ELO的玩法有多不靠谱,因为选的实际上是喜欢的结果,而不是准确的结果。

0 阅读:4
护川士兵

护川士兵

感谢大家的关注