DC娱乐网

Agent填高考志愿,能对抗幻觉与数据陷阱?

图片由AI生成

如果说每年双11是阿里对电商业务的年度大考,那么,每年6-7月的高考志愿报告,便是其Agent年度算力峰值大练兵。

去年,阿里巴巴旗下夸克团队首次推出了“AI志愿报告”这一形式,最终数据显示,用户领取量将近1300万份。而AIAgent生成单份报告需5–10分钟,‌内部估算,一份报告相当于发起上万次搜索‌,对算力需求极高。

当时,为应对高考季(6月中下旬)集中使用,夸克‌将相关算力投入扩大100倍‌,并调用阿里巴巴集团资源保障服务,不过未披露绝对资源量。

今年6月10日,阿里旗下千问上线国内首个全周期高考志愿填报Agent。今年新推出的高考Agent,基于千问高考志愿大模型和夸克8年高考数据经验打造,具备“志愿报告”“志愿日历”“志愿问答”三项能力。

如果按千问这一次AI志愿填报单份15-40页A4纸的PDF的规模计算,对算力资源又是一次极大的消耗。不过,千问团队未公开回应具体算力消耗规模。

“在高考志愿这件事情上,从阿里全集团的角度上来看,是不做任何限制的,我们也得到了阿里云到全集团所有算力的支撑,这个我们可以直接作承诺。”发布会结束后,千问事业部产品负责人郑嗣寿说。

Agent填报机制与大模型应用本质不同

当前,全国各地高考战争已经结束,1290万人(2026年全国高考报名人数),或者说1290万个家庭的另一场战争已经开启——“志愿填报”正在进入白热化。

考生和家长们打开手机,各式各样的“AI志愿助手”的信息已然铺天盖地。它们号称能“一键生成完美方案”,能“精准预测录取概率”。然而,在这股看似繁荣的AI热潮背后,大家内心始终会有担忧:如果AI“一本正经地胡说八道”(产生幻觉),把前途算错了怎么办?

事实上,高考志愿填报,本质上是一个有限理性下的多属性风险决策模型。它是一次性的、结构不清晰、无现成标准答案的重大人生决策,无法靠固定程序来解决,需要个人的判断、创造力和大量信息处理。

考生能根据往年录取位次、线差等数据,大致估算出被某校某专业录取的概率,但信息并不完美,且存在“大小年”等波动。同时,填报需要权衡多个相互冲突的目标,比如,学校层次、专业实力与兴趣、所在城市、就业前景、学费等。无法用一个指标最优来简单决定,本质上是多目标决策。

现实中,考生和家长无法掌握所有信息,也不可能列出全部备选方案一一比较(“平行志愿”数量有限)。认知和时间都有限,所以人们通常寻找“足够好”的满意解,而非理论上的全局最优解。这个过程高度依赖启发式判断,并受情绪、社会比较等影响。

千问事业部AI算法负责人蒋冠军对作者分析道,高考志愿填报决策极其复杂,涉及院校、专业、地域、就业等十个核心维度,理论组合空间高达上亿种。面对这类复杂决策场景,缺乏领域知识的通用大模型不仅易出现事实错误,也缺少真实志愿填报中“如何平衡冲稳保”的专家经验。

为此,基于千问基础大模型,算法团队提取了志愿规划师的专家思考路径,将其转化为多轮对话与推理链训练数据,通过强化学习建模与监督微调,让模型形成“规划、执行、反思”的推理机制。千问构建了覆盖约40万种组合空间的“AI考生”体系对模型进行反复压测,确保模型对志愿填报的各种情况都能应对。

Agent机制跟传统的大语言模型的应用有何差异?

郑嗣寿解释道,传统大模型是用户问一个问题,模型直接给你答案,在这个过程中,模型会去搜索最新的资料,参考资料做总结和回答,但Agent有天然的不同,它得到问题后有一个复杂的从思考、规划、执行,再思考、再规划、再执行的这样一个反复循环过程。

在公共Agent部分,拿到问题,它先想的是,这个问题用户背后的真实意图是什么?有简单的,有复杂的,也有连续的。Agent如果判断是简单的,会直接给答案,如果是复杂的,需要架几个步骤,用几个工具组合起来回答的,那就开始规划各种工具。

此外,千问志愿的Agent组建了一个300多人的志愿填报专家团队,把专家思考一个具体的志愿问题的经验抽离出来数据让Agent掌握,结合志愿填报场景做深度的优化和建设,这是高考志愿Agent有别于其他Agent的地方。

不过,在千问的逻辑里,Agent不能盲目自信。对于那些“超出规则”的敏感问题,比如,“家里没背景别学金融”等带有主观色彩的经验之谈,千问采取了相对谨慎的策略。

“我们不会把这些抽象成通用规则让模型去死记硬背。”郑嗣寿对作者解释道,因为今年和去年,很多企业和行业规则可能就变了。对于这种动态的、语境化极强的信息,不做通用回答,而是引导用户去思考当下的具体情况。

千问是选择让AI扮演“辅助者”,在那些AI容易“翻车”的边缘地带,保留了人类的复核机制。

“归根到底,今天整个AI的发展,其实还是AI机器学人,但是有一些地方机器做得比人好,但是肯定还有很多的地方,机器是不如人的。”蒋冠军对作者表示。

在他看来,人类咨询师能够干的事情是“感同身受”,有人类的背景知识,这种同理心是天然“对齐”的,这是人比机器有优势的地方。而当用户去用Agent高考问题的时候,很多信息是没有那么对齐的,所以Agent要采取追问机制,要让用户提交资料,尽量做对齐。

那些“非AI”叙事的笨功夫

“坦率讲,我们在高考这件事情上没有竞品。”郑嗣寿对作者说。

但有意思的是,千问在高考领域积累了8年的护城河,一项关键的工作,其实是属于最“笨”的数据清洗工作。

据郑嗣寿透露,千问内部有一个数据团队全年做高考相关的数据,特别是基础数据,特别是招录数据的校验、补全。

为此,他们还投资了一家公司专门做与高考数据有关的事情。

数据清洗有非常多的苦活、累活。在高考志愿填报场景,除了大家已经都知道的,全国各地高考分数线不是统一公布的,它散落在各个学校的官网、考试院,甚至是一本本纸质的“大本”里的情况,过程中,团队也发现一些更难解决的问题。

比如说,有时候哪怕是标准本上的数据也可能有问题。如果把几年数据累加在一起,就更难了,因为专业改名了,专业做调整,两个专业合并了等,这些边界条件非常复杂。

因此,整个志愿回答里面,千问Agent会着重溯源的机制。这种设计在技术上增加了巨大的复杂度。通常大模型生成回答是一气呵成的,而千问则要求模型在生成每一个数据点时,都要“回头看”,都要绑定一个可信的源头。这相当于给AI套上了一副“脚镣”,让它每走一步都要“有据可查”。