6月24日,广东高考放榜同日,一场面向8款国内外主流大模型的"高考全科"测评同步揭晓。据羊城晚报教育发展研究院测评,千问、讯飞星火、豆包、DeepSeek、GLM、ChatGPT、Claude、Gemini等模型同场应答语文、数学、英语及广东新高考"3+1+2"选考科目。所有模型均以网页端最优版本、相同提示词一次性生成答案,主观题由两名资深教师独立盲评并严格对标高考评分细则。

最终结果显示,在物理类总分中,Claude-Opus-4.8与讯飞星火-X2同为708分并列第一;而在历史类总分中,超过700分的仅有讯飞星火-X2。这意味着,讯飞星火成为唯一同时在物理类、历史类两条赛道均站上700分线的大模型。根据广东省公布的2026高考成绩,其成绩均进入屏蔽生行列。
测评同时指出,头部模型差距正在收窄,最终排名更多由全科稳定性决定。讯飞星火X2的优势并非来自某一科"极端拉分",而是在语文、数学、英语、物理、化学、生物以及历史、政治、地理等不同任务中保持相对均衡。尤其在数学、物理等理科科目中,压轴题和多步骤推导题成为区分关键,部分模型容易出现步骤跳跃、逻辑断裂甚至超纲解法,而星火在关键推导、过程规范和推理清晰度上表现更稳定。
这一成绩并不只是通用大模型能力的体现,更与科大讯飞长期深耕教育场景密切相关。高考不是普通知识问答,它背后是一整套教学目标、命题逻辑、评分标准和学生作答规律----数学不仅看答案,还看步骤是否完整、方法是否符合高中知识体系;作文不仅看语言是否流畅,还看审题、立意、结构、材料和思辨深度;英语应用文不仅看句式是否丰富,还看任务完成度、语法稳定性和表达规范。
科大讯飞在教育领域持续深耕二十余年,AI技术已深度应用于全国6万余所中小学,在真实课堂教学场景中完成亿万次与师生交互,积累了大量真实学情数据和教学反馈。从智慧课堂、区域因材施教解决方案到AI黑板、智能批阅机,再到讯飞易听说、AI学习机,讯飞形成覆盖"教、学、考、评、管、研"的软硬一体化教育生态。在课堂端,AI黑板通过3D动态学科工具、虚拟人情境互动、多智能体协同等方式,将抽象数理逻辑与跨学科知识转化为可视化学习体验;在作业与评价端,星火智能批阅机以"硬件终端+AI大脑"实现分步骤批改和错因诊断,识别错误发生在哪一步、为什么错,并据此生成个性化训练方案;在英语学科,讯飞易听说将评测技术与中高考同源标准结合,覆盖听、说、读、写全流程。

这些场景沉淀让星火大模型更理解"老师为什么给分、学生为什么出错、标准答案如何形成、不同学科如何评价能力"。它不是一个临时参加考试的模型,而是一个长期在真实教学、考试、评价和学习场景中持续训练、反馈、优化的教育大模型。今年618期间,科大讯飞AI学习机、智能办公本、翻译机、AI录音笔、AI会议耳机等产品实现高质量增长,拿下京东、天猫全周期5个品类销售额冠军;AI学习机连续4年居京东及天猫"学习机品类"618全周期销售额榜首,连续5年蝉联高端学习机市场销售额、销量双第一,NPS连续多年稳居行业榜首。

AI教育的竞争正从"有没有大模型"走向"模型是否真正懂教育、产品是否真正能提效"。讯飞星火物理类、历史类均超700分,不只是一次测评成绩,更是长期技术积累、教育场景深耕和软硬件一体化落地能力的集中体现。讯飞星火的高考成绩单,最终指向的不是"AI会考试",而是"AI正在更懂教育"。
#大模型国家队##全栈自主可控##认知智能全国重点实验室#