当前位置: 首页 » 资讯 » 科技头条 » 正文

UCSD首个智能体浏览器发布!多页面设计,颠覆传统交互

IP属地 中国·北京 编辑:陆辰风 新智元 时间:2025-09-03 14:24:13


新智元报道

编辑:LRST

加州大学最新推出Orca浏览器,把拥挤标签页变成可随意拖拽、并排比较的无限画布,让AI替你同时点按钮、填表单。你只需像指挥家一样扫一眼全局、下指令,就能让上百个网页和智能体自动完成搜索、整理、汇总,全程可控。

我们早已习惯那排拥挤的标签页,这种线性堆叠在信息发现与跨页整合时不仅加重负担,也制造了高昂的管理成本。


预订旅行酒店便是例子:用户需在多个选项间权衡比较、了解均价,并结合机票与活动随时调整计划,而单页式浏览器迫使用户反复切换界面,频频丢失上下文。

即便是基于传统范式的AI浏览器,如Arc的Dia或Perplexity的Comet,也只是在单页框架下加入了智能体功能。

用户一次只能启用、控制并追踪一个智能体,难以真正扩展为成规模的网页自动化工作流。

AI智能体的最大潜力,就是将我们从细节性的任务中解放出来(点按按钮、填写表单),从而在复杂的信息空间和工作中纵览全局,操控成百上千的智能体为我们收集、整理、汇总信息,生成报告并完成任务。

然而,现在还没有一个为此而设计的交互界面。


那么,我们应该怎样重新定义浏览器的界面,让用户可以纵览、比较多个网页之中的信息,同时调度指挥多个AI智能体?

为调度智能体而生的浏览器

为此,加州大学圣地亚哥分校的研究者设计了Orca浏览器,把视角拉远,让用户可以在无限的画布空间中浏览、管理网页,并部署、调度自动化智能体来提取相关的信息并完成具体的操作。


论文链接:https://arxiv.org/pdf/2505.22831

项目链接:https://orca.jiang.pl

Orca最核心的设计探索,就是将网页不再看作我们只能浏览、操作的固定界面,而是人人可以根据自己的任务和需求实时并行查看、灵活提取、动态重组的可塑材料(malleable materials)。

而浏览器也不再仅是渲染网页的容器,而是可以根据用户现实的需求动态变化的可塑空间(malleable space)。在这个环境中,用户和AI可以协作,将这些「网页材料」组合成一个定制化的工作区。

在这种理念下,用户可以对多个网页同时进行导航、操作和整合。研究者将这一过程定义为「编排」(orchestration)。


在这个过程中,AI扮演着促进者的角色:它加速重复性工作,成倍地拓展用户可接触的信息,并帮助他们理解;而用户可以选择性地深入研究、监控把关AI的执行。

最终的控制权始终掌握在用户手中,从而让用户真正实现大规模浏览(browsing at scale)。

Orca如何实现大规模浏览?

基于新的空间化的浏览范式,研究者设计了一整套针对复杂信息空间中各种信息任务的交互原型。

大规模查看

Orca提供一个空间化的网页画布:把多个网页当成可拖拽/缩放的对象,就像在Figma里排版。用户可并排对照、按任务分簇,随探索范围扩大而能够在缩放中纵览全局。

大规模管理

用户可将网页按网格或堆栈排列,或是把一组网页转换成表格以提取最重要的信息,比如酒店价格、设施的结构化对比。


大规模导航

Orca提供两种快速而规模化探索网页的方式。


对搜索结果等密集链接页,用户可以通过LLM一次性「批量打开」多个符合条件的链接。


或者,Orca可以基于当前页语境给出自动的「情境扩展」建议(如在订酒店时建议查机票、跨平台同店比较),用户可以通过拖拽灵活地控制打开多少页面。

大规模提取

用户可以用自然语言同时从多页抽取关键信息(如Wi-Fi、价格、营业时间),并把答案以统一小卡片显示在每页上面,便于快速扫过所有网页。


大规模操作与汇总

最后,用户可以便捷地在每个页面中部署调度不同的智能体以完成情境下的任务。每个智能体通过不同颜色的虚拟光标来显示,以方便用户追踪和查看。


和许多其他AI浏览器一样,用户也可以选择单个或多个网页,并对它们进行提问,如果当前页信息没有办法回答用户的问题,Orca 将会自动部署智能体进行探索并找到答案。

用户实验

「再也不怕打开大量页面了」

研究团队对8名参与者进行了一项初步的实验室研究,以评估Orca的有效性。结果非常积极:

激发更强的探索欲

由于Orca显著降低了管理和导航多页面的成本,参与者表示更愿意探索更多内容。一位用户评价道,「现在的一次点击相当于过去的很多次点击」。尤其是页面提取功能,让用户「再也不怕一开始就打开一大堆页面」,因为它能帮助快速筛选信息。

空间布局直观易用

所有参与者都认为空间画布易于使用,无论其经验如何。他们喜欢这种「鸟瞰图」式的体验,认为这有助于清晰地掌握自己的探索进度。

增强控制权与信任感

与全自动 AI 搜索引擎相比,用户在使用 Orca 时感觉对信息来源有更强的控制力,因此更信任其结果。

他们可以亲自验证 AI 的发现,并主导研究过程,而非「盲目」接受摘要。

例如,用户可以指定 AI 仅从其信任的社区页面中生成摘要。

总结

Orca 项目展示了一种与当前主流的全自动化AI智能体不同的发展方向。它没有将用户从浏览过程中「移除」,而是通过AI赋能,将用户提升为一位「指挥家」,在可塑的浏览器空间中,大规模地「编排」海量网页信息。

这项研究为未来浏览器的设计指明了一个充满希望的方向:将AI能力深度整合到个人化、用户驱动的信息任务中,在降低认知与交互成本的同时,保留并增强用户的自主权、参与感和创造力。

Orca 原型将会开源,以促进社区对大规模网页浏览和并行智能体自动化的进一步探索。想查看更多信息及加入等候名单可前往https://orca.jiang.pl。



作者信息

江沛岭,目前博士就读于加州大学圣地亚哥分校。本科毕业于纽约大学。他的研究广泛地将新颖的交互设计应用于复杂多变的信息系统与任务之中。


个人主页:https://jiang.pl

夏海峻,目前任教于加州大学圣地亚哥分校认知科学系,领导 Foundation Interface 实验室,研究人机交互并探索以可塑的信息与界面为基础的人机协作新范式。本科毕业于清华大学。


个人主页:https://haijunxia.ucsd.edu

参考资料:

https://arxiv.org/pdf/2505.22831

https://orca.jiang.pl


免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。