从理论到实践,中科大、讯飞发布SocraticLM:首个实现苏格拉底教学法的智能辅学大模型
大语言模型的迅速发展引起了人们对其在智能教育领域潜力的广泛关注。最近,中国科学技术大学和科大讯飞合作的认知智能全国重点实验室发布了一款名为 SocraticLM(苏格拉底教学大模型) 的新技术。这个模型通过引入“启发式提问”的教学方法,实现了教学模式的重大革新,并在多个评估指标上超过了 GPT-4,为智能教育带来了新的可能性。
这一研究成果被选入了 NeurIPS’2024 Spotlight。论文的第一作者是中国科学技术大学的刘嘉聿,他是2020级的硕博连读生,师从陈恩红教授和黄振亚副教授,主要研究方向包括知识学习、数学推理和大语言模型。他曾在 NeurIPS、KDD、AAAI 等顶级期刊和会议上发表过5篇论文。
这项研究的指导团队还包括中国科学技术大学的刘淇教授和认知智能全国重点实验室的副主任王士进等人。研究成果已经通过科大讯飞的星火认知大模型应用于多个教育产品中,支持AI答疑和辅助学习功能。
**论文地址:**https://openreview.net/pdf?id=qkoZgJhxsA
**代码地址:**https://github.com/Ljyustc/SocraticLM
苏格拉底教学法:被动问答与个性化教学的鸿沟
苏格拉底教学法是由古希腊哲学家苏格拉底创立的一种教学方式,其核心在于通过提问来引导学生进行思考和探索,而不是直接告诉他们答案。如图1所示,这种方法与传统的教学方式不同,它更注重对话和互动,通过培养批判性思维帮助学生更深入地理解问题。因此,苏格拉底教学法至今仍被认为是一种重要的个性化教学方法。 ▲ 图1. 传统教学与苏格拉底式教学对比
在当今的人工智能时代,如何利用人机交互技术来实现苏格拉底式教学,成为智能教育领域的一个重要目标。然而,目前的人机交互技术难以实现苏格拉底教学的核心理念,因为这些技术通常依赖于固定的规则和预设的应答逻辑,缺乏动态理解和灵活提问的能力。传统的人机交互更倾向于被动地传递信息,而不是通过启发式对话来主动引导学生发展认知和批判性思维。
受到当前大语言模型(LLMs)在高效交互和基础学科知识掌握方面的启发,本文提出了一种名为SocraticLM的苏格拉底教学大模型。这一创新首次将苏格拉底教学法从理论变为可以大规模、智能化实践的现实。
SocraticLM的核心理念是采用一种叫做“思维引导”的教学方法。这种方法不仅仅是给出问题的答案,更重要的是通过多轮对话与学生互动,逐步提出启发性的问题,比如“下一步该如何计算?”或者“这个答案合理吗?为什么?”。这种方式帮助学生参与到解决问题的思考过程中,培养他们真正的解决问题的能力。这种方法让学生在模型的指导下,能够自主解决问题,从而获得更扎实的学习效果和更深入的学习能力。
SocraticLM:思维引导与教学能力提升
SocraticLM的核心在于模拟苏格拉底的教学方法,通过灵活的对话和精准的思维引导,增强在教学场景中的适应性和互动能力。其构建过程有两个关键点:
- 模型需要具备清晰的思维引导能力,也就是说,SocraticLM在教学过程中,能够按照解题的思路链条,逐步对不同步骤进行详细的拆解、推导和解释,让学生理解每一步的逻辑和背后的原理。
- 在实际教学中,不同的学生会有不同的理解水平、表达方式和问题反馈。比如,在某个步骤的教学中,学生可能会打断提问、提出疑问,甚至给出错误的回答。SocraticLM需要能够动态理解这些复杂的互动情境,并灵活调整自己的教学内容。
▲ 图2. SocraticLM 教学过程示意图
为了实现这两个核心功能,SocraticLM设计了一系列关键技术。
在这篇研究中,我们探讨了如何通过逐步引导问题分解的方法来提升教学的逻辑性和一致性。
首先,在思维引导方面,我们提出了一种逐步引导问题分解的方法。这种方法的核心是将一个复杂的问题分解成一系列的小问题,每个小问题都是解决最终问题的一部分。比如说,如果我们要解决一个关于小明阅读的复杂问题,我们可以把它分解成几个简单的问题:小明今天读了多少页?小明明天需要读多少页?通过这样逐步引导的问题,我们能够保持教学内容的逻辑性和一致性。
其次,在自适应交互方面,我们设计了一种模拟真实教学过程的多智能体互动流程,称之为“教导主任-教师-学生”模型。在这个模型中,不同的智能体扮演不同的角色,模拟教学过程中的各个环节。这种方法不仅能够评估和改进教学过程,还能加强四种关键的教学能力。
通过以上的方法,我们创建了一个全新的大规模苏格拉底式教学对话数据集,名为SocraTeach。这一数据集的构建,旨在为教学过程提供更好的支持和优化。
总之,这项研究通过创新的方法和工具,致力于提升教学的效果和效率,使得教学过程更加清晰和有条理。
-
教导主任(Dean agent):在这个系统中,教导主任的角色就像是学校里的教学督导。他的主要任务是确保教学质量,特别是在每次对话中评估教师的教学方法是否符合苏格拉底式的教学风格。这个风格要求教师不要直接给出答案,而是通过提问来引导学生思考。如果教师的指导不符合这个标准,教导主任会对其进行调整,以确保教学对话始终保持高质量和一致性。
-
教师(Teacher agent):教师在这里的角色是通过苏格拉底式的教学方法与学生互动。他们不会直接告诉学生答案,而是通过一系列引导性的问题帮助学生理解问题、找到关键点并完成计算。这样,教师从传统的“知识传递者”转变为“学习引导者”。
-
学生(Student agent):学生的角色是模拟真实课堂中不同认知状态的学生,他们会对教师的指导做出反应。这种设计使得生成的对话能够涵盖各种教学场景,提高模型在复杂教学环境中的适应能力。
3. 教学能力强化
SocraTeach 不仅通过多轮对话模拟基本的教学过程,还通过数据增强方法在四个关键教学能力上进行了特别的强化。这种方法帮助模型更好地适应和处理不同的教学场景。
在教学中,老师需要具备几项重要的能力,以便有效地引导学生学习。以下是这些能力的简单解释:
-
识别无关问题的能力: 有时候,学生会在课堂上问一些和课程内容无关的问题,比如“今天天气怎么样?”老师需要能够识别这些问题,并把话题拉回到课程上,比如说“这个问题和我们现在讨论的不相关,我们先回到刚才的问题上。”为了研究这一点,我们收集了200个学生提出的无关问题,并把它们随机插入到对话中,让一个名为Teacher agent的系统生成回复,总共形成了2000条单轮对话数据。
-
回答学生提问的能力: 当学生问一些知识性的问题,比如“球体积的公式是什么?”时,老师需要提供清晰准确的回答。为此,我们让一个名为Student agent的系统在多轮对话的基础上提出3个不同的问题,再由Teacher agent进行回答,生成了6000条单轮对话数据。
-
识别错误答案的能力: 如果学生给出了错误的答案,老师需要能够识别并指出错误。我们通过结合规则和提示的方法,扩展了10,000个包含错误学生回答的样本,帮助模型学习如何纠正错误。
-
识别正确答案的能力: 除了识别错误答案,老师还需要能够识别学生的正确回答,并在此基础上继续教学,而不是一味质疑或重复提问。为此,我们在“识别错误答案”能力的对话基础上,额外构建了4000条正确的学生回复样本。
SocraticLM的能力提升,不仅让它能提供优质的教学指导,还能更好地应对复杂多变的课堂环境。这意味着在真实的教学任务中,它的适应能力得到了显著提高。最终,SocraTeach数据集包含了超过35,000条高质量的多轮教学对话和22,000条通过数据增强获得的单轮教学对话,总共有大约208,000条对话样本。▲ 表1. SocraTeach 数据集统计
SocraticLM的训练策略:兼顾教学和推理能力 直接用SocraTeach数据集对现有的开源大模型(比如ChatGLM3-6b)进行微调,可能会让数学推理能力明显下降。为了同时提升SocraticLM的教学和数学推理能力,研究团队设计了三种训练策略,以确保模型在这两方面都能保持平衡:
1. 分离训练(Separate Training) 如果直接把教学对话数据和推理数据混合训练,可能会削弱模型的推理能力。为了避免这个问题,研究团队采用了分离训练的方法:首先,用SocraTeach数据集来提升模型的教学能力,改善对话质量和教学水平。接着,用一小部分数学推理数据(来自GSM8K和MAWPS数据集)对模型进行微调,以恢复其原本的推理能力。
研究表明,当数学推理数据和教学对话数据的比例为1:10时,模型在教学和推理方面的能力达到了最佳平衡。
2. 指令微调
为了进一步提高模型在教学和推理任务上的表现,研究团队对训练过程中的指令进行了精细化设计。对于教学对话数据,指令要求模型采用苏格拉底式的教学风格,逐步提出引导性问题,与学生进行互动。对于推理数据,指令则要求模型按照思维链的方式,逐步解决问题。
这种差异化的指令设计能够有效避免模型在推理任务中采用冗长的教学风格,从而实现推理效率和教学质量的双向优化。
▲ 图4. 指令微调模板
3. 混合提示
研究团队进一步在训练过程中对推理数据应用了不同类型的提示设置(如零样本提示和单样本提示),以提升模型的泛化能力。最终发现,当零样本提示和单样本提示的比例为9:1时,模型表现最佳。
教学能力评估体系与实验结果
传统的评估方式主要依赖相似度指标(如BLEU和Rouge),通过计算模型生成的回答与标准答案的相似度进行评估。然而,在教学场景中,由于学生的需求和理解能力各不相同,教学对话的质量不能仅通过字面相似度来衡量。
为了更好地评估大语言模型在教学中的表现,我们设计了一套包含5个教育维度的综合评估体系,首次系统化地评估这些模型的教学质量:
1. 总体质量(Overall Quality) 在这一维度中,我们会给出一个教学对话的背景信息,然后让标注人员比较大语言模型和GPT4在相同条件下的回答,看看哪个更好。我们通过标准化的胜负率来衡量模型的教学质量。
2. 错误答案识别准确率(Incorrect Answer Recognition Accuracy, IARA) 一个合格的教师应该能指出学生的错误答案。为此,我们将这个任务变成一个简单的二选一问题,来测试大模型是否能准确识别学生的错误回答。
3. 正确答案识别准确率(Correct Answer Recognition Accuracy,CARA) 与IARA相对应,这个指标考察的是模型能否正确识别学生的正确回答。忽视这一点可能会导致模型误判所有学生的答案为错误。
4. 成功解释率(Successful Explanation Rate,SER) 当学生提出问题(比如“什么是球体积公式?”)时,好的教师应该能提供准确的解释。我们邀请人类专家对大模型的解释性回答进行评估,并计算出满意的比例。
5. 成功拒绝率(SRR)是什么?
成功拒绝率(Successful Rejection Rate,SRR)是一个用来衡量老师在面对学生提出的无关问题时,能够拒绝回答并将对话重新引导回到教学内容的能力。比如,当学生问“今天天气怎么样”这样的问题时,老师能够巧妙地回到教学主题。
▲ 表2. 教学质量评估结果
▲ 表3. 训练策略对教学质量和推理准确率的影响(分别针对 GSM8K、MAWPS 数据集)
实验结果解读:
-
SocraticLM 是一种通过在 SocraTeach 数据集上进行微调的模型,它显著提升了教学能力的各项指标。与 GPT4 相比,SocraticLM 在整体质量上提升了 12%。在识别错误(IARA)、识别正确(CARA)、成功解释率(SER)和成功拒绝率(SRR)方面,分别提升了 6%、7%、9% 和 23%。
-
关于训练策略的影响,如果不使用推理数据(即“w/o Problem”),模型在 GSM8K 和 MAWPS 数据集上的准确率会比原始的 ChatGLM3-6b 分别低 31.2% 和 9.7%。不过,本研究中采用的三种训练策略都有效,其中分离训练和指令微调对数学推理和苏格拉底教学的提升效果最大。混合提示设置可能在 LLM 预训练中已被广泛应用,因此其改进效果相对较小。
在解决数学问题的能力上,SocraticLM的表现超过了ChatGLM3-6b,特别是在MAWPS测试中。我们认为,这主要是因为SocraticLM经过在一个叫SocraTeach的数据集上的专门训练,学会了如何回答学生们针对一个问题提出的各种不同问题,比如每一步推理过程和相关知识点的解释。这种训练帮助SocraticLM更好地理解问题的解决过程,因此提高了它的准确性。
展望未来:从知识传授到认知编排的教学转型
SocraticLM不仅仅是一个教学工具,它实际上是帮助我们从传统的“知识传授者”角色转变为“学习编排者”的关键。它创新的教学方法和全面的评估体系为教育技术注入了新的活力。研究团队已经将相关数据和代码开源,希望未来能在物理、编程等学科中得到更广泛的应用。
不过,目前对苏格拉底教学方法的探索还在初级阶段。在实际应用中,我们会遇到许多复杂的问题,特别是在真实环境中的多样性和动态性,这对模型的适应能力提出了更高的要求。未来,我们将继续优化算法,提高模型的智能水平,以解决这些挑战,推动这种方法在更多领域的实际应用和普及。