MathArena用最新的美国数学奥林匹克来考验大模型,结果还是比较惨淡。所有模

又仁看科技 2025-03-26 09:42:02

MathArena用最新的美国数学奥林匹克来考验大模型,结果还是比较惨淡。

所有模型的得分都不到 5% 。Deepseek-R1 相对最好。

ai创造营 ​​​

0 阅读:0
又仁看科技

又仁看科技

感谢大家的关注