开发新的课堂课程是一项复杂且耗时的工作。教师需要创建课程并在不同条件下对大量学生进行实验,以确保课程适合所有学习者。
斯坦福大学的学者们提出了一个有趣的问题:AI 能否改善这一过程?在最近发表的一项研究中,他们展示了大型语言模型(LLMs)如何模仿创建和评估新材料的专家,帮助课程设计者更快速地为学生提供高质量的教育内容。
“在传统方法中,教师需要设计每一个细节,从涵盖的主题到学生需要解决的示例问题,再到支持的视频和其他媒体。然后他们会在学生中测试这些材料,看看哪些是有效的,”斯坦福大学计算机科学博士生 Joy He-Yueya 说道,他是斯坦福 AI 实验室(SAIL)的一员。“这是一个缓慢且充满了挑战的过程。我们认为,也许有更好的办法。”
在多年期 Hoffman-Yee 研究资助的支持下,He-Yueya 和她的共同导师——斯坦福工程学院的计算机科学副教授 Emma Brunskill 和斯坦福人文与科学学院的心理学副教授 Noah D. Goodman——开始头脑风暴寻找替代方法。
此前,AI 研究人员曾尝试构建学生学习的计算模型,以优化教学材料;然而,由于难以建模人类学生的认知动态,这种方法未能成功。于是,这三人组想知道,能否训练一个模型,让其像教师一样使用自己的判断来评估新学习材料。
AI作为教师首先,学者们需要验证 LLM 是否能有效评估教育材料。在模拟专家评估中,学者们要求 GPT-3.5 考虑学生对数学概念的先验知识,以及一组特定的词题,并预测学生在课程后测试题上的表现。研究团队希望了解某些学习材料是否对不同的学生角色(如学习代数的八年级学生或苦苦挣扎于分数的五年级学生)有效。
为了评估模型作为模拟教育专家的能力,学者们决定运行一小组基本测试,看看模型的课程评估是否能重现教育心理学中的两个著名现象。第一个现象是随着学习者技能的发展,教学策略需要改变。初学者从结构化指导中受益,而更熟练的学生在最少指导下表现更好。斯坦福团队认为,如果 LLM 在其学习材料的评估中复制了这种“专业逆转效应”,这将是 AI 模仿人类教师潜力的良好指示。
第二个现象称为“变异效应”,即引入更多种类的练习题并不总是有助于学生掌握概念,因为这可能会超载他们的记忆容量。换句话说,少即是多。
当学者们让他们的模型评估涉及方程组和不同学生群体的数学词题时,结果再次呼应了已知的结果模式。
教学优化方法在确认 AI 教师评估新材料的潜力后,学者们开始探讨两个模型能否协同工作以优化教育内容的问题。他们提出了一种流水线方法,其中一个模型生成新的教育材料,另一个模型通过预测学生的学习结果来评估这些材料,以后测试分数为衡量标准。他们将这种教学优化方法应用于开发新的数学词题工作表。
总体而言,AI 方法表现良好:在一项涉及 95 名有教学经验的人的研究中,这些专家普遍认可 AI 评估器对哪些 AI 生成的工作表更有效的看法。学者们注意到一些例外情况,即教师们没有发现 AI 认为显著不同的工作表之间有显著差异。这项研究的结果详细记录在 2024 年教育数据挖掘会议上发表的论文《利用大型语言模型判断评估和优化教育内容》中。
“尽管 LLM 不应被视为替代教学专业知识或关于最佳支持学生的真实数据,但我们希望这种方法能帮助支持教师和教学设计者,”Brunskill 说道。