当前位置: 首页 » 资讯 » 科技头条 » 正文

UC圣芭芭拉分校与亚马逊LikeBench:AI助手"讨喜度"评测基准

IP属地 中国·北京 科技行者 时间:2025-12-25 22:13:01


这项由加州大学圣芭芭拉分校的Md Awsafur Rahman与亚马逊研究团队共同开展的研究发表于2025年12月。有兴趣深入了解的读者可以通过arXiv:2512.13077查询完整论文。研究团队包括亚马逊的Adam Gabrys、Doug Kang、Jingjing Sun、Tian Tan和Ashwin Chandramouli等资深研究员。

当你跟AI助手聊天时,有没有感觉到有些回复让人觉得很舒服,而有些却让人感到不自在?这就像跟朋友聊天和跟客服说话的区别一样。目前的AI评估系统就像只关心学生的考试成绩,却忽略了他们是否受同学欢迎。现有的AI评估主要关注两个方面:AI能否记住用户告诉它的信息,以及能否在后续任务中正确运用这些信息。但这就像只看一个人是否有好记性和执行力,却不关心这个人是否让人愿意继续交往。

研究团队发现了一个关键问题:即使AI的记忆力很好,能准确回忆用户的偏好并在任务中运用,但如果它的回应方式让人感觉生硬、不合适,用户仍然不会喜欢它。就像一个店员能准确记住你的购买历史,但说话方式让人不舒服,你还是不愿意再去那家店。这种"讨人喜欢"的能力,研究团队称之为"likability",是个性化AI系统中一个被严重忽视但极其重要的维度。

为了填补这个空白,研究团队开发了LikeBench,这是第一个专门评估AI助手"讨人喜欢"程度的综合测试平台。这个平台就像是为AI助手设计的"魅力测试",通过多轮对话来观察AI是否能在交流中变得更受欢迎。与以往只看AI能否记住和执行的测试不同,LikeBench关注的是AI的回应是否让用户感到舒适、自然和愉快。

一、测试设计:七个维度衡量AI的"魅力指数"

LikeBench的设计就像是一个复合型的社交能力测试。研究团队认为,AI的讨人喜欢程度不是一个简单的分数,而是由多个因素组成的复杂能力。他们将这种能力拆解为七个具体的维度,就像把"受欢迎"这个抽象概念分解成可以观察和测量的具体行为。

情感适应能力是第一个维度,考察AI是否能识别并适应用户的情绪状态。当用户兴奋地说"我终于考上MIT了!"时,一个好的AI应该表现出相应的兴奋,而不是冷冰冰地回复"那是一所很好的学校"。这就像朋友之间的互动,你的快乐需要得到对方的共鸣,你的沮丧需要得到对方的理解。

正式程度匹配是第二个维度,观察AI是否能匹配用户的说话风格。如果用户说"lmao这电影太搞笑了",AI最好也用相对轻松的语调回应,而不是用学术论文的口吻分析电影的艺术价值。这就像在不同场合穿合适的服装一样,跟朋友聊天时的随意和在正式会议上的严肃应该是不同的。

知识适应能力是第三个维度,评估AI是否能根据用户的背景调整解释的深度。对博士生解释量子物理时可以用专业术语,但对小学生就需要用更简单的比喻。这就像一个好老师,会根据学生的水平调整教学方式,既不会过于简化让人觉得被小看,也不会过于复杂让人听不懂。

引用理解能力是第四个维度,检验AI是否能理解用户提到的文化引用、梗或暗示。当用户说"给这个多比一只袜子吧"时,AI需要理解这是《哈利波特》中的引用,表示想要自由。一个能接上这种梗的AI就像一个有共同语言的朋友,让对话变得更有趣。

对话长度适配是第五个维度,考察AI的回复长度是否符合用户的期望。有些人喜欢简短直接的回答,有些人则希望得到详细的解释。当用户只是简单问候"嗨,最近怎么样?"时,一个合适的回复应该是同样简短的问候,而不是一大段关于生活状况的详细汇报。

幽默匹配能力是第六个维度,评估AI使用幽默的时机和方式是否恰当。不是所有用户都喜欢幽默,而喜欢幽默的用户对幽默类型的偏好也不同。有些人喜欢双关语,有些人喜欢自嘲,还有些人完全不希望AI开玩笑。

回调能力是第七个维度,观察AI是否能在合适的时候提及之前对话中的个人细节。当用户之前提到妻子Sarah在找工作时,AI在后续对话中能够自然地问起"Sarah的求职进展如何?"就体现了这种能力。这就像老朋友见面时会关心你之前提到的事情,让人感到被关注和重视。

二、模拟用户:心理学支撑的虚拟角色

为了测试AI的表现,研究团队需要创造出足够真实和多样的模拟用户。传统的评测通常使用简单的用户标签,比如"外向"或"内向",但这就像用"高"或"矮"来描述一个人的全部特征一样粗糙。LikeBench采用了更加细致的方法,基于心理学研究构建了复杂的虚拟用户角色。

每个模拟用户都有35个详细的性格特征,这些特征基于著名的"大五人格模型"以及其他心理学理论。大五人格模型包括开放性、责任心、外向性、亲和力和神经质这五个主要维度,每个维度又被细分为6个具体方面。比如开放性不仅包括对新体验的接受度,还包括想象力、艺术兴趣、情感丰富度、冒险精神、智力好奇心和价值观开放度等具体方面。

除了性格特征,每个虚拟用户还有9个对话风格维度,包括直接程度、正式程度、偏好的回复长度、引用使用习惯、主动性偏好、澄清偏好、结构偏好、回顾偏好和反馈风格。这就像为每个人定制了一套独特的交流"指纹",确保测试的多样性和真实性。

研究团队特别设计了两种类型的用户:社交型和反社交型。社交型用户就像那些外向、合作、情感表达丰富的人,他们的兴趣往往与性格特征相符。反社交型用户则更像那些分析型、目标导向、情感相对内敛的人,他们的兴趣可能与性格特征没有明显关联。这种设计确保了测试能够覆盖不同性格类型的用户,更加贴近真实世界的多样性。

每个虚拟用户还有完整的背景故事,包括年龄、文化背景、经济状况、地理位置、兴趣爱好、生活经历等。这些背景不是随机组合的,而是基于心理学原理设计的连贯人物画像。就像小说中的人物一样,每个虚拟用户都有自己的动机、偏好和行为模式。

三、动态评测:跨会话的适应性观察

LikeBench最创新的地方在于它不是一次性测试,而是跨越多个会话的动态评估。这就像观察一段友谊的发展过程,而不是只看第一次见面的印象。每个用户档案需要经历10个不同的对话会话,每个会话包含5轮交互,总共50轮对话。

每个会话都有隐藏的"先验条件",也就是对话的背景和目标。这些先验条件只有模拟用户知道,AI并不知道,就像现实生活中你不知道对方今天心情如何或有什么特殊需求。先验条件可能是基于话题的(比如讨论机器学习),基于场景的(比如刚看了一部搞笑电影想分享),基于目标的(比如同时想要旅行规划和餐厅推荐),或者是引导式的(自然对话中包含特定元素)。

为了测试AI的适应性,研究团队精心设计了会话之间的依赖关系。后面的会话会自然地引用前面会话中的内容,就像现实中朋友见面时会问起上次聊到的事情。比如第三个会话可能会提及第一个会话中的某个笑话,第五个会话可能会询问第二个会话中给出建议的执行情况,第十个会话可能会回顾整个关系的发展历程。

这种设计让研究团队能够观察AI是否具有真正的适应性。一个好的AI应该能够在多次交互中逐渐了解用户的偏好,并在后续对话中体现这种了解。这不仅包括记住事实信息,更重要的是学会用用户喜欢的方式交流。

四、测试结果:记忆力好不等于受欢迎

研究团队测试了五个当前最先进的AI模型:GPT-5、Claude 4 Sonnet、Claude 3.7 Sonnet、DeepSeek R1和Qwen3 235B。测试结果揭示了一个令人意外的发现:记忆力最好的AI并不是最受欢迎的。

GPT-5在综合讨人喜欢程度上获得了最高分3.94分(满分5分),成为最受欢迎的AI助手。Claude 4 Sonnet紧随其后,获得3.83分。但最令人惊讶的是DeepSeek R1的表现。尽管它的记忆准确率只有86%,平均每个用户档案只能记住17个事实,但它在讨人喜欢程度上得到了3.67分,超过了记忆准确率高达93%、平均能记住43个事实的Qwen3(只得到2.87分)。

这个结果就像发现一个记忆力一般但很会聊天的朋友,比一个记忆力超强但说话无趣的人更受欢迎。这说明AI的个性化能力不能简单地等同于信息记忆和执行能力,用户的主观体验同样重要。

在具体的讨人喜欢维度上,各个AI模型表现出不同的特点。幽默匹配和正式程度匹配是所有模型都感到困难的维度,这反映了理解和适应用户的幽默风格以及交流风格的复杂性。知识适应能力是表现最好的维度,大多数模型都能较好地根据对话内容调整解释的深度。

有趣的是,GPT-5虽然在大部分维度上表现优秀,但在对话长度适配上却落后于Claude 4 Sonnet。研究人员发现,GPT-5倾向于生成长而全面的回复,虽然展现了强大的知识适应能力,但当用户偏好简短交流时,这种详尽的回应反而降低了用户满意度。这说明AI需要在展示能力和满足用户偏好之间找到平衡。

五、适应性表现:短期有效,长期乏力

LikeBench的动态评估还揭示了一个重要发现:大部分AI模型在短期交互中能够适应用户偏好,但在长期、复杂的对话中表现不稳定。

在前三个会话中,大多数模型都表现出了"蜜月期"的上升趋势。Claude 3.7 Sonnet和DeepSeek R1甚至表现出近乎线性的提升,相关系数接近0.98。这说明在相对简单、独立的早期会话中,AI能够较好地学习和适应用户偏好。

但是从第三到第六个会话,所有模型都出现了下降趋势。这个阶段引入了跨会话协调、对话噪音和情感上更深层的询问,大大增加了对话的复杂性。就像朋友关系从最初的客气阶段进入了需要处理复杂情况的阶段,AI的表现开始出现问题。

在后期会话(第6-10个),各模型的表现轨迹开始分化,可预测性大幅下降。只有GPT-5表现出了强劲的反弹能力,改善率达到0.038。研究人员分析发现,GPT-5能够利用其强大的长文本处理和多步推理能力,在这个阶段重新校准用户偏好,而其他模型要么继续下降,要么只有轻微改善。

但即使是表现最好的GPT-5,其整体平均改善也只是勉强维持正数。这表明当前的AI系统虽然能在短序列中适应用户偏好,但在扩展的、有噪音的交互中仍然脆弱。在实践中,这意味着最佳表现的模型能够避免在长对话中的明显退化,但要在扩展的、类似真实世界的交流中保持高度的讨人喜欢程度,仍然是一个未解决的挑战。

六、记忆类型分析:显式与隐式的差异

研究团队还深入分析了AI模型在处理不同类型记忆时的表现差异。他们将用户分享的信息分为显式记忆和隐式记忆两类。显式记忆是用户直接陈述的事实,比如"我是一名教师"或"我住在西雅图"。隐式记忆则是从用户行为、偏好或对话模式中推断出的信息,比如"偏好随意交流"或"似乎懂技术"。

GPT-5在这个分析中再次表现突出,它提取的用户事实数量最多,而且大部分是显式事实。它采用保守策略,只有在高度确信时才推断隐式信息,结果其隐式记忆的准确率达到了98%。这就像一个谨慎的朋友,只在确定的时候才对你的想法进行推测,因此很少出错。

相比之下,Qwen3在推断隐式记忆方面更加积极主动,通常提取的隐式记忆数量在所有模型中最多,但这种积极性带来了准确性的代价,隐式记忆准确率为93%。这就像一个热心但有时过度解读的朋友,会对你的话进行很多推测,有时候猜对了,有时候会误解你的意思。

更重要的是,研究发现GPT-5不仅记忆能力强,而且几乎完全利用了提取到的记忆。它在对话中使用了80-100%的显式记忆和几乎100%的隐式记忆,有些用户档案在需要时甚至引用了超过15个隐式事实。这表明有效的个性化不仅需要准确回忆相关信息,还需要熟练地、根据具体情境使用显式和隐式用户知识。

七、用户类型差异:社交型与反社交型的对比

LikeBench的另一个重要发现是不同用户类型对AI表现的影响。研究团队设计的社交型用户是那些情感合作、表达丰富的角色,他们的兴趣与性格特征高度相关。反社交型用户则是分析导向、情感相对冷静的角色,他们的兴趣刻意与性格特征解耦,以增加不可预测性。

最强的AI系统(GPT-5和Claude 4 Sonnet)在两种用户类型上都表现出了显著的稳定性,中位数相似且四分位距紧密。这表明它们的策略能够从合作型用户迁移到冷静型用户,不会因为用户的性格差异而出现明显的表现波动。

有趣的是,不同模型对用户类型的偏好并不一致。DeepSeek R1在反社交型用户上表现更好,Claude 3.7 Sonnet在这类用户上表现下降,而Qwen3虽然整体得分最低但在反社交型用户上缩小了差距。这种不对称性证实了性格特征——即用户如何进行交流(语调、情感立场、话语纪律)——比话题对齐更能驱动讨人喜欢程度。将兴趣与特征解耦确实改变了难度,但并不主导结果。

八、实验改进尝试:动态用户画像

研究团队还尝试了一种改进方法:动态用户画像。他们观察到,随着对话的进行,模型很难追踪和遵守用户偏好,显著信号容易被累积的上下文和偏离主题的噪音冲淡。为了缓解这种漂移,他们引入了显式的、逐轮的推断偏好追踪。

在动态用户画像模式下,模型在每轮对话后都会提取和更新一个简洁的偏好摘要,涵盖性格维度(如健谈vs保守、分析深度偏好、幽默偏好)和对话风格模式(如直接程度、正式程度、对话长度)。"动态"是从模型角度来说的:LikeBench中的真实用户角色是固定的,但模型必须从对话证据中推断出不断演化的近似值。

这种改进为表现最好的两个模型带来了收益:GPT-5从3.939提升到4.055(提升2.95%),Claude 4 Sonnet从3.828提升到3.914(提升2.25%)。但其他模型并没有从中受益。这些结果表明,轻量级的、基于模式引导的偏好追踪可以通过减少跨会话的校准错误来明显增强感知的讨人喜欢程度。

九、研究意义:从技术指标到用户体验

这项研究的意义远超出了AI技术本身。它首次系统性地证明了一个重要观点:AI系统的个性化能力不能简单地用记忆准确性和任务执行能力来衡量。用户的主观体验——即AI是否让人感到舒适、自然和愉快——是一个独立且重要的评估维度。

这个发现对AI产品开发有着重要的指导意义。许多AI系统的开发者可能过分关注提高记忆能力和任务准确性,却忽略了用户的情感体验。但正如这项研究所显示的,一个记忆力稍差但交流方式更自然的AI,可能比一个记忆完美但交流僵硬的AI更受用户欢迎。

LikeBench提供的七维度评估框架也为AI系统的改进指明了具体方向。开发者可以针对情感适应、正式程度匹配、知识适应等具体维度进行优化,而不是盲目地提升整体性能。这就像医生可以针对患者的具体症状开药,而不是只给通用的补药。

研究还揭示了当前AI系统的一个普遍局限性:它们在短期交互中表现良好,但难以维持长期的高质量交流。这提醒我们,真正的AI个性化不仅需要在单次对话中表现出色,更需要在长期的、复杂的交互中保持一致性。这对于那些希望AI成为长期伴侣或助手的应用场景尤其重要。

说到底,这项研究提醒我们,AI的最终目标不应该只是变得更聪明,而是变得更人性化。在追求技术突破的同时,我们不能忘记技术服务于人的根本宗旨。一个真正成功的AI助手,应该既能记住你说过的话,也能理解你没说出口的需求,既能完成你交代的任务,也能让你在交流中感到舒适和愉快。

LikeBench为这个目标提供了一个重要的测量工具。通过它,我们可以更准确地评估AI系统的用户体验质量,推动AI技术向着更加人性化、更加贴心的方向发展。对于普通用户来说,这意味着未来的AI助手将不仅更能干,也更可爱。对于整个AI行业来说,这开启了一个新的竞争维度:不仅要比拼技术能力,更要比拼用户体验和情感连接能力。

Q&A

Q1:LikeBench是什么?

A:LikeBench是由UC圣芭芭拉分校和亚马逊联合开发的AI评估系统,专门测试AI助手的"讨人喜欢"程度。它通过七个维度(情感适应、正式程度匹配、知识适应、引用理解、对话长度适配、幽默匹配、回调能力)来评估AI在多轮对话中是否能让用户感到舒适和愉快。

Q2:为什么记忆力好的AI不一定更受欢迎?

A:研究发现,DeepSeek R1虽然记忆准确率只有86%,但讨人喜欢程度超过了记忆准确率93%的Qwen3。这说明AI的个性化能力不等于记忆能力,用户更关心AI的交流方式是否自然、是否能适应自己的情绪和偏好,而不仅仅是它能否准确记住事实信息。

Q3:LikeBench如何测试AI的适应性?

A:LikeBench设计了跨越10个会话的动态测试,每个会话有5轮对话。后续会话会自然引用前面的内容,就像朋友间的连续交流。通过观察AI在长期交互中的表现变化,研究团队发现大多数AI在短期内能适应用户偏好,但在长期复杂对话中表现不稳定。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。