当前位置: 首页 » 资讯 » 科技头条 » 正文

千人千面的真人级AI名师,劈开教育「不可能三角」

IP属地 中国·北京 量子位 时间:2025-12-30 14:19:26

Jay 发自 凹非寺量子位 | 公众号 QbitAI

注意看,这是一个教育领域的AI应用新物种——

咱就是说,这讲课节奏,这语气,这互动,也太自然了。

更重要的是,它不仅能「像老师一样讲课」,还能针对每一位学员进行一对一的个性化教学。

这位AI导师,出自一家名为「与爱为舞」的AI原生应用企业。自年初上线以来,已累计为百万级用户提供学习陪伴与一对一讲解服务。

教育行业,向来是个「规模、质量、成本」的不可能三角

既能做到千人千面,又能服务百万名学员,还几乎看不出是AI……更是难上加难。

它究竟是怎么做到的?

与爱为舞用来劈开这个不可能三角的,是一把硬核的技术巨剑

AI教育,要的不止「答案」

而铸造这把技术巨剑,有三块核心组成部件:「模型+语音+工程」。

先看模型

得益于CoT的Scaling,大模型解决复杂问题的能力指数级增长,「做题」水平突飞猛进,甚至能斩获「奥赛金牌」。

摘得奥赛桂冠,AI只需要给出标准答案。但搞教育不行。

先来看一个简单的英语语法题:

Lily expectsher grandparents in the countryside next month.A. visiting|B. to visit|C. to have visited|D. having visited

大模型给出的解答如下:

这道题的正确答案是B. to visit。核心考点解析:动词固定搭配,动词 expect(期望、预料)的常用用法是——expect to do sth.(期望做某事),后面需要接不定式(to + 动词原形)作宾语。B选项to visit是不定式的一般式,用来表示与谓语动词(expect)同时或之后发生的动作,符合 “下个月看望祖父母” 的将来时态逻辑。我可以帮你整理一份常见接不定式作宾语的动词清单,方便你记忆,需要吗?

答案是对了,看起来好像也讲了解题过程,但如果拿这套方法教学员,那肯定是要被家长投诉的啊……

完全没有引导学员思考,一上来就把答案透露了。就像个纯天赋型学霸,风驰电掣做完题,然后猛地丢给你一个结果,问你:「我说的对不对!」随后才给出一串看似头头是道的分析。

不过,硅基大佬,小弟我根本听不明白你在说什么啊!

最后还要给你一份「动词清单」,直接默认教学等于枯燥的背诵,而没去想怎样引导学员的主观能动性。



归根结底,通用大模型的设计初衷就不是教育。它拼尽全力,只想向用户证明一件事——「厉害吧,哥啥都知道!」

古人讲:授人以鱼,不如授人以渔。导师如果光顾着自己拿金牌,这师生关系就乱了套了。

想要成为一名好导师,AI需要学会放低姿态,真正关心学员的课堂体验。

首先,AI得明白各学科的核心知识图谱、关键考点和常见解题方法,这些才是学员能服用的,是最基本的「知」。

在此之上,AI还得学习名师是怎么设计讲解顺序的,并从中总结归纳出一套顶尖教师的授课方法论。这是更高维度的「知」。

陆游讲,「纸上得来终觉浅,绝知此事要躬行。」

「知」总是相对容易的,重点是如何把纸上谈兵那套,搬到现实世界里实践起来。

所幸,「行」方面,与爱为舞有相当充足的弹药。

据悉,他们已积累了约百万小时的音视频互动数据,特别是包含大量业内TOP级名师的授课视频。

在此基础上,团队又根据学员的认知水平与学习态度,构建出多类型的「虚拟学员」,让他们与AI导师进行「搏击」,每周又能收获数万小时的合成数据



这些数据在经过筛选与清洗后,会交由专业教研进行把关。

具体而言,教师们会把自己多年的「教学经验」,根据场景具象化为一条条思维链,最终汇集成一本「好老师红宝书」:

每个知识点该如何拆解,与学员互动时如何循循善诱……不止要让AI学会怎么讲课,更要明白「为什么要这么讲」。

这种手把手教的方式效果很好,但成本也相当高。

随着方法论逐渐成熟,团队索性将这一环节也自动化,让AI模仿专业教研参与数据标注。

备考资料准备就绪,下面就该着手训练了。

第一步,照猫画虎。

那些相对容易标准化的知识,已体现在标注数据之中。AI需要做的,是通过模仿专业教师的思维链,逐步摸索出每一个教学动作背后的真实意图。

这一微调过程,能大幅降低AI「自我发挥」带来的的幻觉率,同时培养更稳定的推理能力与泛化能力。

能做到这一点,就算是打牢了基本功。

最基本的教法、节奏和经验都已被「固化」,能以标准化形式面向所有学员输出,教学质量的下限得到保障。

但如果目标只是及格,这件事就没意义了。

师傅能陪伴的路程就到这。接下来,得能靠AI自己上路修行。

第二步,终于到了大家喜闻乐见的强化学习环节。

在教育这个场景下,与爱为舞的奖励函数围绕教学路径规划质量、教学有效性与教学灵活性等维度设计,通过GRPO给AI做强化。

这步结束,AI彻底出师——不仅能够完成授课任务,还能驾驭课堂节奏,提高趣味性,根据不同学员灵活调整教学策略。

那么接下来,就该真正走进「教师资格证考场」了。

不过,教育不是一个有标准答案的任务,Benchmark肯定是行不通。笔试应该如何设计?

与爱为舞的做法很简单,甚至有些「粗暴」——笔试啥,直接把AI丢到讲台上,看学员的真实反应。

第一步,是在模拟课堂中试水。

这个课堂由多类型的模拟学员组成,团队会按照真实分布规律注入一批线上数据,再由评分模型从多个维度对AI导师打分。

模拟课堂如果表现不错,AI会迎来更严苛的终极试炼场——直连真实教学一线

AI能否驾驭高度不确定的真实课堂?是否真的能摆脱照本宣科?答案,只能由学员来评判,再好的数据标注导师也帮不了。



即便成功拿下了「教师资格证」,但教学,依然是个终身学习的过程。

正式上线后,海量的学员数据会被持续建模,AI导师将基于每一位学员的专属档案库,为其定制个性化课程。

至此,AI导师才算具备了千人千面的能力。不仅下限有保障,上限也很高。

「真人级」AI导师

通过「知」与「行」的双重训练,与爱为舞得以将通用大模型,塑造成一个真正懂教学的名师AI模型。

然而,再聪明的模型,无法与学员真实互动,最终仍会沦为一颗「缸中之脑」。

AI导师需要「耳朵」。

作为导师,连学员的问题都听不清楚,最后聊的牛头不对马嘴。不仅显得导师呆若木鸡,学员的积极性也会大打折扣。

但现实是,课堂不是录音棚。真实环境往往充斥着噪音,如果有电视,甚至会出现多个人声掺杂在一块的情况。

即便能输入干净音频,中国有各种各样的方言,不同学员的咬字发音习惯也不同,识别难度相当高。

雪上加霜的是,在传统ASR范式下,输入模型的只是一段孤立的语音,基本没什么上下文。一旦放到教学场景下,AI很容易把同音字混淆。

例如,「极限」和「极线」。

前者是微积分中的核心概念,后者则属于二次曲线相关的几何术语。二者在语义上截然不同,发音却完全一致,如果没有上下文,仅凭语音几乎无法区分。

为解决这个问题,与爱为舞基于其长期积累的教育场景与课堂教学数据,自研了一套多模态语音理解大模型,让语音识别不再只「听声音」,而是能够理解所处的教学上下文。

在此基础上,团队进一步自研了声纹降噪模型,可以将学员和家长说话的声音区分开。

事实证明,凭借「上下文理解+声纹降噪」,ASR识别效果有了质的飞跃:句准确率从行业内开放API的80%左右的最好效果,大幅度提升至95%以上,接近真人理解识别水平。

听清楚学员的问题,思考完毕,下面就该导师开口指点迷津了。



目前,行业主流语音合成架构基本都是LLM或者LLM+Flow/Diffusion的方案。

真用到课堂里,会暴露出三个问题:人机味明显、不像在上课、不支持双向实时交互。

下面看看,与爱为舞是如何迈过这三道坎的。

先来最直观的——人机感

在底层架构上,团队采用了LLM+Flow方案,引入了两类speech token:一类负责声音本身的细节,一类负责语义和表达节奏。

在此基础上,结合强化学习,可以让AI学会正常说话应有的抑扬顿挫。

不过,光会说话可不行,老师上课得有个「老师」的样。

为此,团队拿出了大量真实课堂数据,对不同学科、不同导师的讲课方式进行了建模:有的导师说话像机关枪,有的导师则更慢条斯理。

落地时,团队还会为每位主讲名师单独设计录制脚本。这样,数据收集效率更高,还能最大程度还原名师声线,保证声音的「质感」。

具体效果如何嘛,我们可以一起听听下面这两段音频。

(文本:接下来我们看这个题,图中表示水蒸气直接变成冰的过程)

这是第三方TTS,不仅表现力较弱,还出现了发音错误,如果是上课很容易出戏。

相比起来,这段是不是「活人感」足了很多?

这正是自研模型的优势,发音更自然,更稳定,情感表现也更好。

至于双向实时交互,AI导师需要边说话边理解学员是否在主动打断询问导师问题,并且做出及时的响应,这是AI导师智能与否最重要的能力之一。

为此,团队研发流式语义VAD和打断模型,能够让AI导师实时识别学员是否有真实打断意图,识别准确度可以达到90%以上。

而为了让AI导师真正「站上讲台」,团队还为其配套设计了逼真的数字人形象:口型、面部表情与肢体动作高度同步,且支持实时互动。

这下,AI导师可算是凑齐了自己的莲藕肉身三件套——「耳朵+嘴巴+身体」。

当AI开始具备人的温度,信任才有可能建立,学员也更不容易分心。

百万AI学习原住民

话说回来,即便「大脑、耳朵、嘴巴」全部补齐,我们依然无法解释与爱为舞是如何实现规模化落地的。

毕竟,从语音识别,到模型思考,再到语音合成,最后还要驱动真人级数字人,这条服务链路相当长。

任何一个环节稍有迟滞,都会严重影响学员的课堂体验。

而当用户规模放大,「千人千面」会带来更高频的推理请求,一旦调度或资源分配稍有不慎,服务质量会迅速下滑。

想要实现大规模落地,AI导师还需要一颗能持续供血、且足够强健的「心脏」。

首先,得把这条冗长的服务链疏通,保证「血管」里不堵。

在《思考,快与慢》中,Daniel Kahneman提出,大脑为了偷懒,演化出了两套工作模式:靠直觉行事的「系统一」、调用认知资源的「系统二」

与爱为舞借鉴的,正是这一点。

当学员开口提问时,系统不会一股脑把问题全丢给大模型,而是先做一次判断:

能马上回答的,直接走快速通道;真正需要推理的,再交给大模型慢慢想。

具体而言,简单问题会先由快速回答系统给出反馈;与此同时,大模型已经在后台并行启动。等学员听完前半句,模型的「思考」也完成了一大半。

于是,模型回复的延迟可压缩到100ms以内,整条响应链路稳定在1–1.5秒

同理,如果学员在导师讲话时突然插话,AI也不会傻等学员全部说完再思考。而是立刻结合上下文判断学员的意图,提前开始构思。

这样响应时间仍可控制在100–200ms,整条链路不超过1.6秒

当然,遇到一些开放式问题,确实要多想一会儿。

但即便如此,AI导师也不会「卡住不动」,而是通过表情变化、过渡性话语告诉学员:我在想,你稍等。而不是空气突然安静,一人一AI面面相觑。

血管疏通之后,还可以通过「提前缓存」,让血液循环得更顺畅一些。

在真实教学中,同一堂课的核心知识点其实相对固定。哪怕学员的具体问题不同,总体来看仍有一定规律可循。

先从输入说起。

大模型在生成答案前,要先「读懂问题」(prefill),再「组织回答」(decode)。而前者非常吃算力,并且很耗时间。

团队的做法是,把Prompt结构化:在不影响回答质量的前提下,把同一类场景里老是出现的内容集中起来,从而让AI少做重复阅读。

再看输出

学员千差万别,但在具体知识点上,很多人其实都是在同一个地方「栽跟头」。既然如此,AI导师就没必要每次都从头生成一整套讲解。

因此,团队会以题目、引导方式和学员回答作为索引,把模型的讲解结果先存下来。一旦再次遇到相同情形,直接拿来用就好。

通过这套「链路优化+缓存」的组合拳,与爱为舞将整个流程控制在了1s-1.6s之间。

筋骨与脉络就位,接下来,该让心脏泵得更有力了,与爱为舞在大规模并发上也做了大量工作。

首先在单机上,为了榨干每一张GPU,团队在系统设计之初就完成了显存地址的统一规划,全程实现显存共享,尽量避免数据在不同计算与存储介质间反复搬运所带来的性能损耗。

与此同时,在GPU算子层面,团队又针对核心计算路径进行了专项加速,使单卡的有效吞吐能力提升约5倍,足以支撑起几十路真人级数字人的推理。

其次在集群上,资源的调度能力同样至关重要。团队又从五个层面,对整体系统做了进一步加固:

多数字人统一调度:同一个资源池中不同形象统一调度,从而更好的复用集群资源;系统抽象:对话轮次化、课节内容组件化、知识点任务化,让复杂流程标准化;并行计算:尽量不浪费任何空闲算力,AI导师还在讲上一题时,下一题的计算已经在后台悄然启动;预留容量:服务支持横向扩容,不同层级配有多种缓存与缓冲机制,一层层削薄高峰流量,避免高并发请求同时压向模型与数据库;保险机制:整个教学调度过程可恢复,即便遭遇网络中断或客户端异常退出,教学状态也不会丢失。



凭借一台全速运转的AI发动机,加上一张巨大的工程降落伞,与爱为舞得以把AI导师「空投」到全国各地,成为业界首个支持万人并发的真人级AI教学系统。

归根结底,与爱为舞从未将AI视作一个简单的辅助工具。

在他们看来,比起技术升级,AI更像一场关于个体工作逻辑与组织管理范式的深层重塑。

回头看今天的企业形态,其实很多都是工业时代的妥协产物:人的精力有限,只能把分工越拆越细,组织层级上层层加码。

一道道庞大的部门墙,虽防止了团队混乱,但也淹没了许多人才的主观能动性。

AI的出现,第一次让生产力得到完全释放,每个人都能担任「架构师」。

在此背景下,与爱为舞提出「全员皆超级个体」——只要有想法,任何人都可以手握数据与算力这两栋「粮仓」,调度一支由智能体组成的硅基军团,以极低的成本,快速实现抢跑。



而这一理念,也已在产品上得到验证——

至今,「爱学」已服务百万级用户,学员分布于全国342个城市:东至佳木斯,西达克孜勒苏,南抵三沙,北至大兴安岭。

关于AI原生的企业理念,市场已经给出了自己的判断。

而当AI真正开始惠及百万学员,我们或许终于有机会,兑现孔夫子两千多年前所期待的那个美好愿景——「有教无类、因材施教」

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。