![]()
这项由香港大学黄超教授团队联合阿里巴巴集团、上海交通大学和香港城市大学共同完成的研究发表于2025年10月,论文编号为arXiv:2510.07861v1,为理解和评估新兴的DeepResearch系统提供了全新视角。有兴趣深入了解的读者可以通过该编号在学术数据库中查询完整论文。
当下,我们正见证人工智能从简单的问答助手向真正的研究伙伴转变。就像从查字典进化到拥有一个博学的研究助理一样,这些被称为DeepResearch的系统能够独立完成复杂的研究任务。然而,如何评估这些智能助手的真实能力,一直是个令人头疼的难题。
考虑这样一个场景:如果你要评判一个侦探的能力,你不会只看他能否找到单个线索,而是要看他能否将所有线索串联起来,写出一份完整的破案报告。同样的道理,评估DeepResearch系统不能仅仅测试它们回答简单问题的能力,而应该看它们能否像真正的研究者那样,收集信息、分析证据、得出结论,并将这一切整理成一份有条理的研究报告。
传统的AI评估方法就像考察侦探能否在档案室找到特定文件,而DeepResearch系统需要的是能够处理复杂案件、撰写详细报告的综合能力。这就是为什么香港大学团队决定通过研究报告来评估这些系统——报告就像侦探的破案总结,能够全面反映整个调查过程的质量。
研究团队分析了超过15万个真实用户查询,发现科技类问题占了37.3%,商业经济类占17.2%,这些领域天然需要系统性的研究方法。用户提出的不再是"今天天气如何"这样的简单问题,而是"固态锂电池的产业化现状如何,相比传统电池有什么优势,面临哪些挑战"这样需要深度调研的复杂问题。
一、像裁判评分一样给AI报告打分
评估一份AI写的研究报告,就像给奥运会比赛打分一样,需要建立标准化的评分体系。研究团队设计了一套三维度评估框架,每个维度都像比赛中的不同评分项目。
第一个维度是质量评估,这就像评判一场演讲的综合表现。团队将质量分解为五个具体方面:全面性考察报告是否遗漏重要信息,就像检查侦探是否忽略了关键线索;连贯性评估报告的逻辑结构是否清晰,像看故事是否讲得通顺;清晰度检查语言表达是否流畅准确,如同评判演讲者的口才;洞察力判断报告是否有独到见解,而非简单罗列信息;整体质量则是前四项的综合印象。
第二个维度是冗余度评估,这个问题在AI生成的长文本中特别突出。就像一个健谈的朋友可能会反复讲同一个故事,AI系统也容易在不同段落中重复相似内容。研究团队开发了一套巧妙的检测方法:将报告分解成段落,然后让AI系统两两比较每对段落,判断它们之间是否存在内容重复。这个过程类似于让一个公正的第三方逐一检查证据,确保没有重复计算。
第三个维度是事实准确性,这可能是最关键的评估标准。毕竟,一份充满错误信息的报告再流畅也没有价值。研究团队采用了"证据对照"的方法:将报告中的每个具体声明与其引用的原始资料进行逐一核对,判断声明是否得到充分支持。这个过程就像法庭上的举证环节,每个论点都需要可靠的证据支撑。
为了确保评估标准的可靠性,研究团队进行了大量的人机对比实验。他们邀请专业评估员对120份报告进行评分,然后反复调整AI评估系统的评分标准,直到两者的评分高度一致。这个过程类似于培训新裁判:先让经验丰富的老裁判打分,然后根据这些标准答案训练新裁判,直到他们的判断基本一致。
最终的测试结果显示,AI评估系统与人类专家的评分差异极小,在排名一致性测试中达到了61.11%的准确率。这意味着这套评估系统已经具备了相当可靠的判断能力。
二、四大AI助手的"破案"能力大比拼
研究团队选择了四个目前最具代表性的商业化DeepResearch系统进行对比测试:OpenAI、Perplexity、Gemini和Qwen。这就像邀请四位不同风格的侦探来破解同样的案件,看看他们各自的特长和短板。
测试采用了100个精心设计的查询问题,涵盖科技、医疗、商业、政治、历史等12个不同领域。这些问题都具有典型的研究特征:需要收集多方面信息、进行深度分析、得出有价值的结论。
OpenAI系统展现出了均衡的能力特征。它生成的报告平均长度约6900字,在综合质量方面表现优异,得分3.28分(满分4分)。这个系统就像一位经验丰富的研究员,能够在各个方面都保持较好的水准,特别是在全面性和洞察力方面表现突出。在事实准确性方面,OpenAI也表现不俗,平均支持率达到71%,说明其引用的证据大多数都是可靠的。
Perplexity系统选择了一条截然不同的路线——追求简洁高效。它生成的报告平均只有1245字,是四个系统中最短的。这种设计哲学带来了明显的优势:报告结构清晰(连贯性得分3.60分),表达简洁明了(清晰度3.46分),冗余度最低(3.71分)。但这种"极简主义"也带来了代价:在全面性(3.16分)和洞察力(2.96分)方面得分相对较低。这就像一位讲求效率的侦探,能够快速抓住要点,但可能会错过一些微妙的细节。
Gemini系统走的是"详尽分析"路线,生成的报告平均长度超过9200字,是所有系统中最长的。在全面性方面,它取得了最高分3.65分,说明它确实能够涵盖问题的各个方面。然而,过长的篇幅似乎影响了整体质量的把控,综合质量得分只有2.93分。这种现象揭示了一个有趣的问题:并非越详细就越好,如何在全面性和可读性之间找到平衡点是个技术挑战。
Qwen系统在这次比拼中表现最为突出,在多个关键指标上都取得了最高分:全面性3.80分、洞察力3.38分、综合质量3.54分。报告平均长度约5467字,恰好处在"适中偏详"的范围。更令人印象深刻的是,它在事实准确性方面也表现最佳,平均支持率达到69%,完全支持率达到55%。这表明Qwen不仅能够产生高质量的分析内容,还能确保大部分论断都有可靠的证据支撑。
从报告长度与质量的关系来看,研究揭示了一个重要发现:并非越长越好,也非越短越好,而是存在一个"最佳长度区间"。过短的报告往往缺乏深度,过长的报告则可能影响可读性。这就像烹饪一样,火候的把握至关重要。
三、AI研究助手的三大挑战
通过深入分析这些系统的表现,研究团队发现了当前DeepResearch系统面临的三个核心挑战,每个挑战都像是阻碍AI成为完美研究伙伴的技术难题。
第一个挑战是"查询精炼的艺术"。就像一个好律师知道如何向证人提出关键问题一样,优秀的研究助手需要能够将模糊的用户需求转化为明确的研究目标。研究团队通过分析发现,系统在交互阶段提出的澄清问题质量,与最终报告质量之间存在显著的正相关关系。
这个发现其实揭示了一个深层问题:大多数用户最初的查询都相当模糊。比如用户问"我想了解人工智能",但实际上可能想知道的是"人工智能对我的工作有什么影响"或者"人工智能的最新技术突破是什么"。一个优秀的研究助手需要像经验丰富的图书馆员一样,通过巧妙的提问帮助用户明确真正的需求。
第二个挑战是"搜索思维的转变"。传统的搜索系统就像在图书馆找特定的书,目标明确、答案唯一。但研究型搜索更像是在进行一项考古发掘,需要从多个角度收集证据,寻找不同观点,甚至发现矛盾的信息。
当前的搜索技术在传统任务上表现优异,但在研究场景下却显得力不从心。研究场景需要的不是"最正确的答案",而是"多角度的证据收集"。系统需要能够识别观点的多样性,收集相互对立的证据,理解信息的可信度差异。这就像要求一个习惯了找标准答案的学生,突然去完成一项需要批判性思维的研究作业。
第三个挑战是"评估体系的局限性"。虽然这项研究通过报告评估取得了突破,但这种方法也有其局限性。就像仅仅看破案报告无法全面了解侦探的工作过程一样,仅凭最终报告也难以评估系统在中间环节的表现。
研究团队建议建立更加多元化的评估指标体系。除了报告质量,还应该关注搜索深度(系统查阅了多少资料)、处理速度(完成研究需要多长时间)、工具使用效率(是否合理利用了各种信息源)等指标。这就像评估一个厨师,不能只看最终的菜品,还要看备菜过程是否规范、时间安排是否合理、食材利用是否充分。
四、智能研究伙伴的未来图景
这项研究不仅提供了评估现有系统的工具,更为DeepResearch系统的未来发展指明了方向。研究团队描绘了一幅令人兴奋的未来图景:AI将从被动的信息检索工具演进为主动的研究伙伴。
未来的DeepResearch系统将具备更强的主动性。就像一个优秀的研究助理会主动提醒你关注相关的新发现一样,AI系统将能够持续跟踪用户感兴趣的领域,主动推送相关的重要进展。当某个领域出现突破性发现时,系统会第一时间整理相关信息并推送给用户。
系统的可信度判断能力也将大大提升。未来的AI将能够为每条信息标注可信度分数,标识可能存在争议的观点,甚至主动提醒用户某些信息可能过时或存在偏见。这就像拥有一个具备批判性思维的研究伙伴,不会盲目接受所有信息,而是会帮你识别哪些信息更可靠。
个性化定制将成为另一个重要发展方向。系统将能够接入用户的私有数据库,利用专业领域的特定工具,根据用户的研究习惯和偏好调整输出格式。这就像拥有一个完全了解你工作方式的助手,知道你喜欢看图表还是文字描述,习惯详细分析还是要点总结。
说到底,这项研究最重要的贡献是建立了一套科学、可靠的评估标准。就像有了统一的考试标准才能公平比较学生水平一样,有了这套评估框架,我们就能客观地比较不同DeepResearch系统的能力,识别它们的优势和不足,进而推动整个领域的发展。
研究团队公开了包含100个查询问题的标准测试集和相应的评估代码,这为学术界和产业界提供了宝贵的研究工具。任何想要开发或改进DeepResearch系统的团队,都可以使用这套标准来测试自己的系统,就像运动员可以使用标准化的训练设备来提高成绩一样。
更重要的是,这项研究为我们理解AI能力提供了新的视角。它告诉我们,评估AI不应该只看它能否回答问题,而应该看它能否像人类研究者那样思考问题、收集证据、得出结论。这种评估思路的转变,对于推动AI向更高层次的智能迈进具有重要意义。
随着技术的不断发展,我们有理由相信,DeepResearch系统将在不久的将来成为各行各业不可或缺的智能助手。从学术研究到商业分析,从政策制定到个人决策,这些AI研究伙伴将帮助我们更高效地处理信息、发现洞察、做出明智决策。而这一切的实现,都离不开像这项研究这样扎实的基础工作。
有兴趣深入了解这项研究的读者,可以通过论文编号arXiv:2510.07861v1在相关学术数据库中查询完整论文,研究团队也在GitHub上公开了相关代码和数据集,为后续研究提供了宝贵的资源。
Q&A
Q1:DeepResearch系统与普通AI助手有什么区别?
A:DeepResearch系统就像从查字典升级到拥有专业研究助理。普通AI助手主要回答简单问题,而DeepResearch系统能够独立完成复杂研究任务,包括收集多方信息、深度分析、得出结论并撰写完整的研究报告,就像真正的研究员那样工作。
Q2:这套评估框架如何确保评分的准确性?
A:研究团队采用了类似训练裁判的方法,先邀请人类专家对120份报告评分,然后反复调整AI评估系统的标准,直到两者评分高度一致。最终AI评估系统与人类专家的排名一致性达到61.11%,确保了评估的可靠性。
Q3:四个测试系统中哪个表现最好?
A:Qwen系统在综合表现上最为出色,在全面性、洞察力、整体质量和事实准确性等多个关键指标上都取得最高分。不过每个系统都有自己的特色:Perplexity追求简洁高效,Gemini注重详尽分析,OpenAI保持均衡水准,用户可根据具体需求选择合适的系统。





京公网安备 11011402013531号