![]()
这项由范德堡大学、Adobe Research、耶鲁大学、俄勒冈大学、加州大学圣地亚哥分校、杜比实验室、加州大学伯克利分校、思科AI研究院、南加州大学、德州农工大学、加州大学戴维斯分校等十余家机构联合开展的研究,以预印本形式于2026年4月27日发布在arXiv平台,编号为arXiv:2604.24977v1。这是一篇系统梳理"基于大语言模型的对话式用户模拟"领域进展的综述论文,对于任何关心AI如何理解、模仿和替代人类对话行为的读者而言,这份报告几乎是一张完整的地图。
一、为什么我们需要让AI"假扮"用户?
你有没有想过,当一个客服机器人在训练的时候,它怎么知道真实用户会问什么问题?难道真的要雇佣成千上万个真人来与它聊天吗?答案当然不是——这就是"用户模拟"技术存在的根本原因。
用户模拟,简单来说,就是用程序模拟真实人类的对话行为。这个需求由来已久,早在人们玩《模拟人生》这类游戏时,背后就有一套程序在模拟虚拟居民的喜好和行为。而在计算机科学领域,用户模拟一直是推荐系统、对话系统、人机交互研究的幕后功臣——每当一个AI系统需要在正式上线前反复练习,模拟用户就是那个陪它练习的"假想敌"。
然而,过去的模拟方法有一个严重的局限:它们太"死板"了。传统的统计模型,比如用来预测你下一步会点哪个商品的协同过滤算法,或者用来猜测你在搜索结果上会不会点击的点击模型,都需要大量真实用户数据来训练,而且每套模型只能用于特定场景。想换个场景?重新训练。想模拟更复杂的对话?对不起,超出能力范围。
大语言模型(LLM)的出现彻底改变了这一局面。这类模型——比如你可能听说过的ChatGPT——通过阅读海量的人类文字,学会了用自然语言进行对话。正因如此,它们天然具备了"模拟人类对话"的能力,而且不需要为每个场景单独训练。这就像一个演员,过去只能演固定的角色,现在突然获得了即兴创作的能力,可以扮演任何角色、应对任何场景。
这篇综述正是在这个背景下应运而生。研究团队注意到,虽然已经有大量研究在利用大语言模型模拟用户对话,但这个领域缺少一个系统性的框架来理解和整理这些工作。于是,他们从浩如烟海的文献中梳理出一套统一的分类体系,回答三个核心问题:模拟的是谁?模拟的是什么?用什么方法模拟?
二、模拟的是谁?从"大众脸"到"独一无二的你"
正如在现实生活中,"用户"这个词可以指代非常不同的人——有的人是随便逛逛的路人,有的人有鲜明的个性,有的人是某个历史人物,有的人就是你这个具体的个体——对话模拟也面临同样的分层需求。研究团队将模拟对象分为四个层次,从最笼统到最精细,构成了一个由浅入深的谱系。
最基础的层次是"通用用户模拟"。这种模拟不给AI任何特殊信息,就让它扮演一个普通用户——没有姓名、没有背景、没有特定偏好,就是一个"平均人"。这类模拟的优点是简单通用,缺点是缺乏个性。ChatGPT默认情况下扮演的就是这样一个角色。近年来,研究者们在这个方向上做了不少改进,比如通过多轮对话的优化策略让模拟更自然,或者通过"失败案例学习"让模拟更健壮。
更精细一层的是"人格级用户模拟"。这里,AI被赋予了一套具体的属性,比如年龄、职业、兴趣爱好、说话风格等。用一个类比来说:通用用户模拟像是用面粉加水做出的一块白面团,而人格级模拟则是在面团里加入了香料和色素,让它有了明确的味道和颜色。研究者们探索了多种赋予AI"人格"的方法,包括直接在提示词里描述人格特征、使用心理学量表(比如著名的"大五人格"模型)来量化人格、以及训练专门的模型来稳定表现特定人格特质。
然而,这条路并非坦途。研究发现,给AI赋予特定人格有时会带来意想不到的副作用:模拟某些敏感人口群体时,AI可能会放大偏见和刻板印象;模拟政治立场时,结果可能偏向某一方;更严重的是,某些人格配置甚至会导致AI产生更多有毒内容。这提醒我们,"人格模拟"不只是技术问题,更是伦理问题。
第三个层次是"角色扮演模拟"。与人格级模拟不同,这里模拟的不是一组抽象属性,而是一个具体的人物——可以是历史人物、小说角色,甚至是真实存在的公众人物。正如人格级模拟可以描述"一个20岁的程序员",而角色扮演则能呈现"20岁时的马克·扎克伯格",包括他当年的说话风格、思维方式和历史背景。AI在这里调用的是它在训练时积累的关于这个人物的隐性知识。
为了让角色扮演更逼真,研究者们开发了各种技术:有的通过精心设计的提示词来引导AI进入角色,有的通过微调训练让AI更稳定地保持角色特征,有的则通过"自我对弈"(让AI自己和自己对话)来强化角色一致性。但挑战也随之而来:当角色知识与训练数据不一致时,AI可能会产生"角色幻觉"——比如让一个莫扎特角色回答编程问题,AI可能会给出莫扎特绝不可能知道的内容。更危险的是,有研究者发现,角色扮演的漏洞甚至可以被用来绕过AI的安全限制,诱导它说出有害内容。
最精细的层次是"个体用户模拟",也是最接近"复刻真实的你"的尝试。这里,AI的依据不是泛泛的人格描述,而是某个具体用户留下的真实轨迹:聊天记录、文档、操作历史……总之,是那个人所有可以获取的个人上下文。这就像是用一个人的日记、照片和视频来训练一个"数字分身",它说话的方式、关心的话题都与那个真实的人高度吻合。实现这一目标的技术路径包括:直接将用户资料注入提示词、从对话历史中学习个人化表达习惯、以及跨多次对话会话维持长期记忆等。
在实践中,这四个层次往往并非泾渭分明。大型模型如GPT和LLaMA在使用时常常自然地混合了这些层次的特征——一个"通用"的ChatGPT在回答时,实际上可能已经在某种程度上展现了人格和角色的痕迹。研究团队将这种现象称为"混合用户模拟",并指出这种混合在多智能体交互场景中尤为常见,也尤为需要系统性的理论框架来加以理解。
三、模拟的是什么?四种对话剧本
确定了"模拟谁"之后,下一个问题是"模拟什么样的对话"。研究团队将对话模拟的目标分为四种基本范式,就像四种不同的剧本类型。
第一种是"人类与AI之间的对话模拟"。这是最常见的场景:一方是被模拟的人类用户,另一方是AI系统。模拟的目标通常是生成高质量的训练数据,或者测试AI系统的能力边界。一个典型的应用是生成"指令-回答"对,来训练更听话、更有用的AI助手。Self-Instruct、WizardLM等知名框架都属于这类应用的典型案例。此外,医疗领域的"模拟患者与医生对话"、博物馆的"AI导览对话"等,也都是这一范式的具体落地。
第二种是"人类与人类之间的对话模拟"。这里,两个对话方都是被模拟的人类,AI扮演的是幕后的"对话生成器"角色。这类模拟对于研究人类自然对话非常有价值,也被广泛用于构建对话数据集。著名的PersonaChat数据集就是让真实用户扮演带有具体人格特征的角色互相对话,而EmpatheticDialogues数据集则聚焦于情感共鸣的人际对话。除了人工采集,研究者们也探索了"自我对弈"策略,让系统自动生成大量模拟对话,从而降低对人工标注的依赖。
第三种是"AI与AI之间的对话模拟"。两个AI智能体在没有持续人类介入的情况下互相对话,只需要一个初始的"种子提示"来启动对话。这类模拟的最大价值在于规模和速度:AI可以不知疲倦地24小时生成对话数据,速度远超人工。更有趣的是,研究者们发现,当多个AI智能体在共享的虚拟环境中长期交互时,它们会自发地涌现出类似人类社会的行为模式——比如形成社会规范、建立合作关系、甚至展开策略性博弈。斯坦福大学著名的"Smallville"虚拟小镇实验就是这类研究的代表,25个AI智能体在一个虚拟社区里"生活",自发产生了令人惊叹的社交行为。
第四种是"多人类与AI之间的对话模拟"。这是前三种范式的进一步延伸:多个人类用户同时与一个或多个AI系统交互,形成群体性的协作对话。这类场景在现实中越来越普遍——比如多人参与的在线会议、团队协作工具、多人教育平台等。研究者们已经探索了AI作为团队成员参与软件开发协作、AI替代缺席的会议参与者等应用场景。
值得注意的是,在真实系统中,这四种范式往往会相互渗透和混合。就像Smallville虚拟小镇,从宏观上看是AI与AI的交互,但每个AI智能体的内部对话却呈现出人类对话的特征。研究团队将这种现象称为"混合模拟",并呼吁学界建立更系统的理论框架来理解和评估这类复杂场景。
四、用什么方法模拟?从提示词到强化学习的工具箱
知道了"模拟谁"和"模拟什么",剩下的关键问题是"怎么做"。研究团队梳理了四大类核心技术方法,从最简单到最复杂,构成了一个完整的技术工具箱。
最直接的方法是"基于提示词的模拟"。这就像是给AI下达工作指令——你告诉它"你现在是一个20岁的大学生,对篮球感兴趣,语气要随意",然后让它生成对话。根据提示词的详细程度和格式,这类方法可以分为几个子类型。零样本提示(不给任何示例,直接描述要求)和少样本提示(提供几个示例对话作为参考)是最简单的形式,适合快速生成大量多样化的对话数据。思维链提示则更进一步,要求AI在生成对话之前先展示自己的推理过程,就像让学生先打草稿再写答案,这样生成的对话逻辑更严密。人格和角色扮演提示则专门用于赋予AI特定的身份特征,让生成的对话更有个性。任务特定提示则针对特定领域(比如医疗咨询、技术支持)定制对话生成规则。
第二类方法是"检索增强生成(RAG)"。单靠AI自身的知识有时候不够用,于是研究者们给AI配备了一个"外挂搜索引擎"——在生成每一轮对话之前,先从外部知识库里检索相关信息,再把这些信息喂给AI来生成更准确、更有信息量的回复。这就像一个演员在表演前先快速查阅角色的背景资料。根据检索的触发机制,这类方法又可以细分为三种变体:始终触发型(每一轮对话都检索),自适应触发型(由一个学习到的分类器决定什么时候需要检索,从而避免无谓的检索浪费),以及目标/状态驱动型(根据用户当前的目标和记忆状态来决定检索什么内容)。
第三类方法是"微调"。这相当于从头开始培训一个专门的演员,而不是临时找一个通用演员来客串。具体做法是:收集一批真实的用户对话数据,然后用这些数据对预训练的大语言模型进行再训练,让它专门学会如何像真实用户那样说话。根据训练方式的不同,微调技术又分为全量参数微调(把整个模型都重新训练一遍,效果好但成本高)、参数高效微调(只调整模型中一小部分参数,成本更低,常用LoRA等轻量化方法),以及交互式/自我对弈微调(让模型在与系统的交互反馈中不断优化自己)。SoulChat用这种方法在240万轮同理心对话数据上训练出了一个擅长情感支持的对话模型,DAUS则通过微调将对话系统的幻觉率降低了一半。
第四类方法是"强化学习与直接偏好优化(RL/DPO)"。这是最复杂也最强大的一类方法。与微调不同,强化学习不是告诉AI"应该怎么说",而是通过奖励和惩罚来让AI自己摸索出最优的对话策略。就像训练小狗:做对了给零食,做错了不给。在用户模拟领域,这类方法被用来训练能够主动探索用户偏好、长期规划对话策略、或者精准识别用户意图的模拟器。ArCHer系统就是这类方法的代表,它采用分层强化学习,一个高层策略负责规划宏观对话目标,一个低层策略负责生成具体的词语,两者协作来优化跨越数十轮的长对话。
在实践中,最先进的系统往往综合运用多种方法。检索增强的微调(在训练时就把检索到的知识注入进去,而不只是在推理时用),提示词到微调的流水线(先用提示词生成大量合成数据,再用这些数据微调模型),RAG与强化学习的循环(检索机制和策略优化相互协作)……这些混合方法代表了该领域目前最前沿的技术状态。
五、如何判断模拟做得好不好?评估的三把尺子
做出了用户模拟,怎么评价它做得好不好?这看似简单的问题,其实是研究中最棘手的挑战之一。
最传统的评估手段是用各种计算指标来量化对话质量。比如BLEU和ROUGE,这两个指标通过比较生成的对话与参考对话之间的词语重叠程度来打分,就像用相似度来衡量两篇文章有多像。槽位F1(Slot-F1)则专门用于任务型对话,检查AI有没有正确理解和完成用户的具体请求,比如订餐时有没有正确记录"不放辣"这个条件。这类指标的优点是快速、可重复,缺点是只能捕捉对话的表面特征,无法评估对话是否真正自然、是否真正符合人类的说话方式。
正因如此,人工评估在高要求场景下仍然是黄金标准。评估者会直接阅读对话记录,从自然度、连贯性、人格一致性、任务完成度等多个维度打分,或者在两个系统之间做AB测试。虽然耗时费力,但这种评估方式能捕捉到那些数字指标无法衡量的细腻维度——比如"这句话听起来像真人说的吗?"
近年来兴起的"LLM作为评判者"(LLM-as-Judge)方法则代表了一种折中方案:让另一个强大的AI来自动评估模拟对话的质量。实际操作中,评估者通常会先定义评估维度和打分量表(比如1到5分的李克特量表),再提供几个校准示例,然后让AI评判者在给出最终分数之前先解释自己的推理过程。这种方法的优点是速度快、成本低;缺点是AI评判者本身也有局限性,容易受提示词措辞的影响,并且可能带有自己的偏见。为了解决这个问题,研究者们探索了对称提示(同时从两个方向评估)、多评判者投票、以及用人工评分来验证AI评分可靠性等方法。
除了这三类主流评估方法,研究团队还特别强调了"可信赖评估"和"因果/离线评估"的重要性。这类评估不只关注对话质量,还要检验模拟系统在面对不确定性时是否可靠,在遇到分布偏移(即实际使用环境与训练环境不同时)时是否依然稳健,以及能否在不同话题和用户群体之间保持一致性。
六、这些技术用在哪里?从推荐系统到课堂教学
用户模拟不是一项自说自话的研究,它的价值在于能够服务于多样化的现实应用。研究团队梳理了这一技术目前最主要的几个落地领域。
在推荐系统领域,用户模拟帮助开发者在不需要大量真实用户参与的情况下,测试和优化推荐算法。通过配置不同偏好和行为模式的模拟用户,研究者可以系统地评估推荐系统在各种场景下的表现,包括那些真实用户很少遇到的极端情况。CSHI框架就是专门为对话式推荐系统设计的可控可扩展模拟工具,它能够模拟用户的偏好记忆和实时反馈,让推荐系统的测试更全面也更真实。
在教育领域,用户模拟正在开启一种全新的教学辅助方式。模拟学生可以帮助教师或教学AI在上岗前反复练习,就像飞行员在模拟器里练习起降,教师也可以在模拟课堂里练习应对各种学生反应,而不必担心影响真实学生。另一方面,模拟教师和智能辅导系统也在不断发展,为学生提供个性化的学习支持。模拟"不同认知水平的学生"——包括那些常犯的错误和典型的误解——是这个方向的重要研究前沿。
在人机交互和界面设计领域,用户对话模拟提供了一种低成本的早期测试手段。一个简单的现实是:很多公司的用户研究团队严重不足,研究员与设计师的比例有时低至1:5。在这种资源约束下,模拟用户可以帮助设计团队在真实用户测试之前发现大量潜在问题,大幅节省时间和成本。一项有趣的研究甚至发现,AI模拟对话有时被人类评估者认为比真实用户的回应"更像人"——这固然令人惊讶,但也说明模拟技术已经达到了相当的逼真程度。
在视频理解领域,用户对话模拟开始承担全新角色。VideoAutoArena框架利用模拟用户来生成开放式的、针对视频内容的自适应问题,然后用这些问题来评估AI的视频理解能力。相比传统的静态选择题测试,这种模拟用户驱动的评估更能反映真实用户在观看视频时的信息需求。
七、还有哪些没解决的难题?
说完了成就,研究团队也坦诚地列出了这个领域目前面临的主要挑战,这些挑战揭示了从"能用"到"好用"之间还有多远的距离。
长对话的一致性问题是最突出的挑战之一。模拟系统在短对话中表现不错,但一旦对话延伸到数十轮乃至更长,问题就开始涌现:人格开始漂移(前几轮说自己是素食主义者,后来又说喜欢吃烤肉)、目标开始模糊(忘记了最初的对话目的)、甚至出现自相矛盾的陈述。更根本的问题是,模拟用户往往"太配合"——真实用户会拒绝、会走神、会改变话题,而模拟用户则倾向于一路配合到底,显得不够真实。解决这些问题需要更强的记忆机制、更好的话语规划能力以及更真实的"用户行为模型"。
多样性不足是另一个深层挑战。现有的模拟系统倾向于复现训练数据中占主流的文化和语言模式,导致生成的对话过于礼貌、过于同质化,缺乏真实用户群体中那种丰富的个体差异。虽然提示词技术可以在一定程度上引导模拟产生不同的情绪、详细程度和表达策略,但这种控制能力仍然有限。大多数研究还停留在单用户场景,对多用户动态交互和群体行为的模拟几乎还没有成熟的方法。
偏见和有害内容的风险则是最需要认真对待的挑战。当模拟涉及敏感人口群体或公众人物时,大语言模型可能将训练数据中的偏见放大,生成带有歧视性刻板印象的内容,甚至在某些角色扮演配置下产生有毒输出。这类风险不仅会影响研究本身的可靠性,更会在实际部署时造成真实的社会危害。目前,提示词过滤和模型对齐技术提供了部分防护,但针对模拟场景的专门安全协议仍然缺失。
评估标准不统一是贯穿整个领域的横向问题。不同研究使用不同的评估维度、不同的打分量表、不同的评判者,导致结果之间几乎无法比较。建立一套标准化的、多层次的评估流程,是这个领域走向成熟的必要条件。
此外,角色扮演中的知识更新问题也日益突出。模拟静态的历史人物或虚构角色相对容易,但如果要模拟一个活跃的现实人物——比如某位CEO或科学家——就需要AI随着那个人的公开行为和知识不断更新,同时又要保持角色的一致性。如何在"与时俱进"和"保持角色稳定"之间取得平衡,目前还没有成熟的解决方案。
归根结底,这份报告是一张既展示了成就、也诚实标注了空白地带的地图。大语言模型确实给对话式用户模拟带来了革命性的提升,让研究者们能够以前所未有的规模和灵活度生成高质量的模拟对话。但距离真正逼真、真正可信、真正公平的用户模拟,这个领域还有相当长的路要走。
对于普通人来说,这项研究的意义也许在于:当你下次与一个客服机器人、教育AI或智能推荐系统交互时,你可以思考一下——它对你行为的理解,有多少来自对真实人类的观察,又有多少来自某个模拟系统生成的"假想用户"?模拟的越来越像真的,真的和假的之间的界限在哪里?这或许是值得我们每个人去思考的问题。
有兴趣深入探索的读者可以通过arXiv编号2604.24977查阅完整论文,原文包含了超过300篇参考文献的完整索引和数十张分类表格,是深入了解这一领域的极佳起点。
Q&A
Q1:大语言模型用户模拟和传统用户模拟方法有什么主要区别?
A:传统用户模拟需要大量真实用户数据训练,而且只能用于特定场景,换场景就得重新训练。大语言模型用户模拟依赖模型在预训练阶段积累的海量语言知识,不需要为每个场景单独训练,也不需要大量领域数据,还能通过提示词灵活调整模拟对象的特征,适应范围更广,成本也更低。
Q2:角色扮演模拟中提到的"角色幻觉"是什么意思?
A:角色幻觉是指AI在扮演某个角色时,生成了与该角色真实特征不符的内容。比如让AI扮演莫扎特,它可能会给出莫扎特不可能知道的现代编程知识。更严重的是,这种角色扮演的漏洞有时会被利用来绕过AI的安全限制,诱导它说出在正常情况下会拒绝说的内容,是当前角色扮演研究中需要重点防范的安全问题。
Q3:对话式用户模拟技术在教育领域具体是怎么用的?
A:在教育领域,用户模拟主要有两种用途。一是模拟学生,帮助教师或教学AI在上线前练习应对各种学生问题和反应,类似飞行模拟器的作用,让教学者在低风险环境下反复练习。二是模拟教师或辅导员,为真实学生提供个性化的学习支持和问题解答。目前研究前沿是如何让模拟学生更真实地呈现不同认知水平下的典型错误和误解,从而让教学练习更有针对性。





京公网安备 11011402013531号