LLaMA 4在LM竞技场作弊的事情暴露后,LM竞技场上线了个真实的LLaMA 4的成绩,结果大跌眼镜,直接从第2名滑到第32名,甚至不如大半年前的DeepSeek 2.5。
LLaMA 4的作弊手法是搞了个符合LM竞技场用户偏好的特调模型,这个模型的特点是:输出长,全是emoji,然后俏皮话多。靠着这些偏好能力来拉高分数,但实际上性能很差。这件事证明了LM竞技场这种业余爱好者来打分然后排ELO的玩法有多不靠谱,因为选的实际上是喜欢的结果,而不是准确的结果。
LLaMA 4在LM竞技场作弊的事情暴露后,LM竞技场上线了个真实的LLaMA 4的成绩,结果大跌眼镜,直接从第2名滑到第32名,甚至不如大半年前的DeepSeek 2.5。
LLaMA 4的作弊手法是搞了个符合LM竞技场用户偏好的特调模型,这个模型的特点是:输出长,全是emoji,然后俏皮话多。靠着这些偏好能力来拉高分数,但实际上性能很差。这件事证明了LM竞技场这种业余爱好者来打分然后排ELO的玩法有多不靠谱,因为选的实际上是喜欢的结果,而不是准确的结果。
作者最新文章
热门分类
国际TOP
国际最新文章