羊城晚报教育发展研究院开展标准化AI高考全科测评,召集千问、豆包、DeepSeek、GLM、讯飞星火、多款海外主流大模型共8款产品统一作答广东新高考全部科目,测试设置统一作答环境,不追加提示、不人工修正答案,主观题严格依照高考官方评分细则双人盲评,保证测评结果客观公允。从最终总分数据能够清晰看出行业发展趋势,头部大模型整体分数差距不断收窄,单科优势难以拉开差距,全科稳定发挥成为排名核心变量。物理类赛道讯飞星火-X2与Claude-Opus-4.8同取708分并列第一,历史类赛道仅有讯飞星火X2总分突破700分,是全场唯一文理双赛道均稳定站上700分的模型,成绩对标当地排名前列的屏蔽生水平。测评分析提及,数理压轴大题是区分模型能力的核心题型,多款模型存在推导跳跃、解题逻辑混乱等问题,讯飞星火在答题步骤完整性、推理严谨度上表现更优。底层支撑来自科大讯飞长期教育场景运营,依托成套智能教学硬件积累海量教学反馈,精准把握评分标准与学生学习痛点。技术优势同步转化为民用学习产品,相关智能学习设备长期占据市场头部位置,为日常学习提供精准化辅助方案。
#大模型国家队##全栈自主可控##语音及语言信息处理国家工程研究中心#
