说实话,我觉得这个 WeirdML(“旨在解决需要仔细思考和真正理解才能解决的怪异且不寻常的机器学习任务”,封闭式基准测试)的测试结果和平时用的体感才更一致。
今年下半年很多开源模型刷榜。
但是用下来就是有点什么问题。
而在这个测试里,今年下半年闭源模型的进展迅速,而开源模型实际上停滞不前了。
这个和真正使用的体感是吻合的。

说实话,我觉得这个 WeirdML(“旨在解决需要仔细思考和真正理解才能解决的怪异且不寻常的机器学习任务”,封闭式基准测试)的测试结果和平时用的体感才更一致。
今年下半年很多开源模型刷榜。
但是用下来就是有点什么问题。
而在这个测试里,今年下半年闭源模型的进展迅速,而开源模型实际上停滞不前了。
这个和真正使用的体感是吻合的。
