MathArena用最新的美国数学奥林匹克来考验大模型,结果还是比较惨淡。
所有模型的得分都不到 5% 。Deepseek-R1 相对最好。
ai创造营
又仁看科技
感谢大家的关注
作者最新文章
热门分类
科技TOP
科技最新文章