国内首个教育大模型落地规避AIGC惰化学生思维能力

来源：21经济网2023-07-27 18:09:33

21世纪经济报道记者王峰北京报道大模型应用在生活助手、办公等领域应用褒贬不一，教育应用则出现契机。

闫妍是一名公司白领，她工作时用多个大模型写过文案，结果差强人意。“生成的内容虽然结构完整、条理清晰，但文字缺乏雕饰，过于空洞，引用的案例、名人名言也经常出现错误。”她说。

不过，工作之余，闫妍却已是另一个大模型应用——口语陪练的深度用户。“我主要为了练习英语口语，所以机器生成的内容倒是其次，即便‘尬聊’，学习的目的也达到了。”她说。

(相关资料图)

而实际情况是，人机对话十分顺滑，机器可以顺着闫妍的话题，把对话一步步引向深入。

7月26日，教育科技公司网易有道发布了国内首个教育领域垂直大模型“子曰”，以及六个基于“子曰”大模型的应用，其中包括此前已亮相的虚拟人口语教练。此前，科大讯飞已发布星火语伴App。

虚拟人口语陪练产品集成了大模型、虚拟人、语言识别和合成、口语测评等技术，虽然应用场景限于口语、翻译、作文等领域，但俨然已是虚拟教师的雏形。

能够自动生成教育资源和教学行为的虚拟教师，将对教育行业带来颠覆性影响。但同时，教育大模型应用更应注重伦理风险，尤其是自动生成答案导致学生惰性，以及通用大模型“一本正经地胡说八道”问题。

教育大模型应用落地

国内首个教育领域垂直大模型，都能做些什么？

网易有道一口气发布了六个应用，包括LLM翻译、虚拟人口语教练、AI作文指导、语法精讲、AI Box以及文档问答。

可以发现，“子曰”大模型的应用主要围绕自然语言处理这个大模型目前最具优势的领域展开。

网易有道CEO周枫说，“大模型给教育带来的最大机会是助力因材施教，首先是因为大模型能够助力个性化的分析和指导。”

大模型具有强大的语言理解和生成能力，能够更加深入地分析每一个学生的学情，进行定制化的反馈。

比如以前的AI技术只能对学生的作文进行批改，但大模型可以在学生写作之前就理解作文题目的含义，给出作文结构、素材方面的建议，还可以对学生的习作进行个性化点评，包括指出问题，给出改进意见。

“其次是因为大模型能够实现引导式的学习。不是直接告诉学生答案，而是通过不断提问，让学生培养自主学习能力，不但学到知识，而且提升批判思维能力。”周枫说。

7月26日发布会现场，有道词典业务负责人与虚拟人口语教练Echo进行了多组随机对话。Echo能迅速理解场景和上下文，并给出反馈。她的面部表情和口型生动自然，重音、弱读、升降调等细节处理得也很到位。

在对话过程中，Echo能够像真人老师一样进行启发式对话引导。对话结束后，Echo会从发音、语法等维度给出建议。

大模型出现以前，AI口语陪练产品就已大规模面世。两种不同AI技术路线的产品有何不同？

“以前AI口语陪练产品所给出的对话，是基于提前设定的模板，AI基于模板进行微调，给出对话内容。”网易有道首席科学家段亦涛告诉21世纪经济报道。显然，大模型的生成能力更强，并具有了一定的推理能力。

再以翻译产品为例，网易有道从2008年开始推出电子翻译产品，应用的引擎经历了统计机器、神经网络、Transformer的升级。

虽然有道翻译已达到亿级月活用户的规模，但用户的需求也水涨船高，不仅要翻译的结果能被看懂，还要专业文章也能被准确翻译，甚至翻译的结果要符合用户个人的语气习惯。

大模型具备至少两项原有模型不具备的能力。首先是知识能力，大模型能够整合全学科知识，能够进行跨学科搜索和语言生成，这让它具备背景知识，而不是仅根据要翻译的文本进行翻译。其次是语言能力，能将指代、引用等语言现象翻译得更自然，甚至风格化。

今年年初开始，网易有道开始研发大模型翻译，对于要不要更换引擎，“其实内部我们吵了一架”，周枫说，“2017年有道翻译上线神经网络引擎，六年过去产品性能提升必然进入一个平缓的过程，而大模型应用半年来，产品性能不仅超过了原有模型，还有很大的提升空间”。

“大部分的大模型都会免费”

正是因为颠覆性的技术创新，教育大模型有广阔的商业空间。

目前国内的英语口语学习市场规模高达数百亿，但免费或者低价的虚拟人口语教练很快将成为这个市场的竞争者。

教育大模型的应用还可以整合进教育硬件，科大讯飞已推出搭载大模型的AI学习机T20系列，上线了中英文作文类人批改、数学类人互动辅学、英语类人口语陪练等功能。网易有道也将推出搭载大模型的学习机、词典笔等硬件。

不过，大模型应用的算力成本极为昂贵。有道的大模型翻译目前仅支持中英文互译，尚未开发其他语言翻译。“很重要的原因是大模型引擎的计算量大，比原有引擎贵20倍。”周枫说。

“但世界上大部分的大模型都会是免费的”，周枫告诉21世纪经济报道，“因为它的边际成本非常低，复制模型其实不需要成本”。

近日，脸书母公司Meta宣布将推出开源大型语言模型Llama2，可免费用于研究和商业用途。

“大模型研发公司会从多个角度推动大模型免费、开源，比如为了增强公司影响力，或者为了构建生态，或者纯粹为了惠及公众。我们也会深度参与这样一个开放的过程。”周枫说。

但对于教育行业来说，现有的通用大模型无法支撑教育场景的特殊需求，所以仍需要专门的教育大模型。只不过，“不是所有公司都要去建世界上最大的大模型”，周枫说，“应用和场景才是应该及早去抓的”。

大模型并不是处处带来惊喜，它在语言处理方面的成绩尚未延展到其他教育领域。

据报道，近日，美国研究人员评估了ChatGPT模型在不同时期版本的表现能力，发现GPT-3.5和GPT-4在某些性能上正在变差，尤其是GPT-4求解数学问题的能力，GPT-4在3月表现出的97.6%准确率到6月降至2.4%。

这也给了教育科技公司对通用大模型弯道超车的机会。学而思就正在研发数学大模型MathGPT，以数学领域的解题和讲题算法为核心，计划年内推出基于该自研大模型的产品级应用。

“不把偷懒作为产品需求”

教育大模型应用面临特殊的教育伦理风险。

ChatGPT走红以后，教育界对其应用却褒贬不一。美国纽约市教育部门2023年1月宣布，禁止全市师生在学校的网络和设备上使用ChatGPT，澳大利亚新南威尔士州、昆士兰州、塔斯马尼亚州及西澳大利亚洲等相继出台类似措施，禁止在校内使用ChatGPT。

一个担忧在于，大模型能够理解题目、提供辅导，但是否会像“拍照搜题”那样，一旦学生缺乏自控力，就会惰化学生思维能力、影响学生独立思考。

21世纪经济报道记者体验发现，目前国内一款大模型产品中的数学解题助手，就提供了“拍照搜题”功能，用户上传题目照片，助手会生成解答过程和答案。

“学生写作业的时候，是不应该抄答案的，但是我们也要考虑到，大模型会对学习产生深远的影响，就像计算器出现以后，学生的计算能力就不需要那么高了，很多死记硬背的知识性学习需求会降低。”周枫告诉21世纪经济报道。

“所以产品研发过程中我们反复强调不直接给学生答案，不把偷懒作为产品需求。”周枫说。

为了避免惰化学生思维能力，目前的教育大模型应用除了改进算法，尽量提供过程性指导，还引入了家长控制功能，由家长决定是否在结果中显示答案。

“一本正经地胡说八道”也是目前通用大模型的短板之一。中国民办教育协会会长刘林告诉21世纪经济报道，虚拟教师拥有广阔的发展前景，可以弥补优秀师资不足的教育短板，但需要注意如何规范生成式AI的训练过程。

“什么样的数据训练出什么样的虚拟教师，我们肯定不希望训练出说脏话的虚拟教师。”刘林说。

对于大模型生成文本的知识准确问题，目前的教育大模型应用采取了谨慎的技术路线。比如，在利用大模型阅读文献、整理要点时，不让大模型联网，只对单篇文献或特定文献集进行阅读，从而保证生成内容的准确。

而论文也不是被机器识别之后就直接“投喂”给大模型进行分析，而是先经过线上数据库进行拆分，让文献可检索，从而保证大模型生成的内容可溯源。

“学习内容范围相对明确，使得大模型的准确率可以不断优化达到高质量。”周枫说。

国内首个教育大模型落地 规避AIGC惰化学生思维能力