LLaMA 4在LM竞技场作弊的事情暴露后，LM竞技场上线了个真实的LLaMA

2025-04-13 21:15:08 护川士兵国际

LLaMA 4在LM竞技场作弊的事情暴露后，LM竞技场上线了个真实的LLaMA 4的成绩，结果大跌眼镜，直接从第2名滑到第32名，甚至不如大半年前的DeepSeek 2.5。

LLaMA 4的作弊手法是搞了个符合LM竞技场用户偏好的特调模型，这个模型的特点是：输出长，全是emoji，然后俏皮话多。靠着这些偏好能力来拉高分数，但实际上性能很差。这件事证明了LM竞技场这种业余爱好者来打分然后排ELO的玩法有多不靠谱，因为选的实际上是喜欢的结果，而不是准确的结果。