当前位置: 首页 » 资讯 » 科技头条 » 正文

00后大模型实习生“扒光”豆包手机!千字实测揭秘

IP属地 中国·北京 编辑:胡颖 新智元 时间:2025-12-10 14:09:30

新智元报道

编辑:桃子 好困

爆火的「豆包手机」,到底藏了什么狠活?一篇热帖,LLM工程师通过黑盒测试和论文推演,扒出了它的技术机密。

一部AI手机,火爆全网。

张嘴一句话,它在短短几秒内,就完成了跨APP自动比价下单、回微信、预约机票、规划旅行路线......

海外创业大佬Taylor Ogan惊呼,「这简直是另一个DeepSeek时刻!这是世界上第一款真正的智能手机」。

不用多说,它就是最近一机难求的——「豆包手机」。

B站博主「六分超超」体验后大感惊艳,赞叹「是今年令自己印象最深的产品」。

更猛的是,即便是在锁屏的情况下,「豆包手机」也能在后台丝滑操作。

在「电丸科技AK」的测试中,「豆包手机」不仅可以轻松通过B站「大考」,而且速度奇快——

3秒答完1道题,5分钟100道题!

那么问题来了,到底是什么黑科技让「豆包手机」,一夜之间火遍了全世界?

正巧,我们在小红书上吃瓜的时候,意外发现了一篇十分有趣的帖子——《我没有逆向「豆包手机」,但我想说点什么》。

小红书原帖地址:http://xhslink.com/o/93GCQttMFgO

更新版博客地址:

https://www.notion.so/GUI-Agent-2c17a860b5e680e3b6e4efece19d1457

一篇爆帖,工程解密「豆包手机」

这篇帖子的博主「宵逝」,目前是大模型方向的实习工程师,纯从学术角度聊了聊感受。

他上手测试后,通过黑盒测试和arXiv逻辑推演,从工程学角度给出了比较科学的解释。

一上来,他便戳中了「豆包手机」的核心:

这不仅仅是一个App,字节是在Android Framework层做了一套OS级的影子系统。

接下来,博主从以下七个方向,给出了自己的洞察。

1. 两套模式:System 1(直觉)vs. System 2(推理)

字节将Agent拆分成两套栈(Stack):一个是标准模式,另一个是Pro模式。

这不仅仅是模型大小的区别,而是两套完全不同的Pipeline,类似于人类认知中的System 1和System 2。

这里,作者在测试中,设下一个「陷阱」——

选择一张京东首页全屏截图,给豆包下达指令「点击搜索按钮」。

标准模式(快):Naive Simulation

它主要依赖浅层视觉语言模型(VLM),响应极快,体感延迟小于500ms。

他推测,可能使用了Doubao-1.5-UI-TARS蒸馏版,Prompt简短可通过压缩IO token实现更快效果。

不过,缺陷在于它的典型「直觉」反应,会傻傻地点击图片中的按钮。

Pro模式(慢且鲁棒):深度推理+工具调用

在同样的测试中,Pro模式明显会有一个「暂停+思考」的过程——拒绝点击,建议切换浏览器。

他推测,这可能走的是Doubao-1.5-UI-TARS完整版路线,并且做了更多后训练对齐。

同时,也说明Planner进行了介入,且具备了自我反思能力。

并且,只有在Pro模式下,才能观察到复杂的多跳检索和System API的直接调用。

补充信息:据我们最新了解,豆包手机助手使用了UI-TARS 2.0闭源版本,性能大幅优于开源版,且针对手机使用场景进行了专门优化。

2. 混合感知路由(Hybrid Perception Router)

环境噪声的干扰,是当前Agent落地的核心挑战。

XML+Vision动态路由,不管是UI-TARS的标准版还是Pro,是豆包给出的最直接的解法。

在高德/百度地图首页,呈现了多种复杂图标/道路状态情况下,博主要求豆包「点击深红色最堵路段旁边的施工图标」。

这是一个在OpenGL渲染界面中,执行复杂指令的测试场景。

令人欣喜的是,AI优雅地完成了这个任务。

在这种场景下,安卓的「无障碍树」往往是空的,或只有一个SurfaceView容器,且不包含任何子节点信息。

这就坐实了,背后视觉路线的存在,因为VLM具备像素级的「开放词汇定位」的能力。

它真正理解了「深红色、旁边、施工图标」,包含了颜色语义、空间关系、物体检测复杂信息。

由此,他推测这可能构成「路由动态」选择:标准UI走XML,非标UI走视觉(截屏但费电)。

3. OS级的虚拟化:并行运行时(Parallel Runtime)

这一点,想必许多上手实操过的网友,都已有深刻的体会——

一边让豆包比价购物,另一边刷视频、接电话照样不误。

Agent可以在后台跑长任务,即便手机切换到别的应用也不会中断。

博主推测,Agent极有可能跑在「影子屏幕」上,实现了「输入隔离」:物理屏打电话,逻辑屏在跑Agent。

这种「双并行宇宙」结构,彻底解决了Agent抢前台,手机卡死的痛点。

4. 启发式工程:提示「等等」

Agent会在每一操作结束后,无论当前页面渲染多快,都会在系统Prompt中强制引入1000ms~5000ms的固定延迟。

这种设计,类似于Cursor CLI中「等待轮询」。

从工程学角度看,这种做法是为了对抗APP中常见的异步加载/骨架屏,用时间换取「成功率」,妥协但有效。

5. 隐私设计的「物理隔离」:任务层级(Activity Hierarchy)

回到多数人最关切的隐私问题,担心豆包Agent会24小时录屏监控,但博主测试后发现——

视觉管道是过滤的。

若是豆包真的在用VLM分析屏幕,恐怕手机早就烫到不能用了。

他开启了B站画中画模式,然后让Agent操作主屏,中途再截屏,结果发现,AI截到的画面只有主应用的界面,完全没有悬浮窗。

这证明了,它不读物理屏幕输出流,而是基于「任务层级」针对性抓取。也就是说,从物理层面上,豆包隔离了视频通话、金融APP安全键盘,是一种精心设计的安全功能。

博主认为,豆包手机助手的代码逻辑是安全、可靠的设计,其包含了隔离机制、熔断策略和本地化处理。

代码可以透明,但编写与掌管代码的人呢?这种担忧,可以理解。

但这个问题本真难以彻底解决。在博主看来,如果Agent可以代替自己解决80%日常琐事,是可以交出经脱敏、不涉及核心隐私的数据。

6. 记忆与工具使用:关于MCP协议的猜想

在Pro模式下,数据的调用精准。

工具调用架构

测试中,博主给出一个模糊指令「验证码有什么数学特征」,Agent没有暴力做OCR全屏,而是Client向Server发起请求,整个系统授权部分,可能形成了一个RAG-MCP。

列表记忆(Sliding Window)

在滚动长列表(List View)时,Agent行为非常像E2E测试框架Playwright: 滚屏→DOM Diff→提取增量信息→拼接。

这种方式,解决了跨屏上下文的问题。

7. 韧性(Resilience)

最后一个测试中,博主让Agent读取Outlook最新邮件,结果失败。

此时,Agent没有报错退出,而是自动降级读取第二封,并尝试提取第一封在列表页的预览信息,然后做出合并汇报。

这说明了,它的规划器关注的是「任务目标」,而不是规定的操作序列。这种动态规划的能力,才是推理应做的事儿。

博主体验后道出了真实的感受——它让我真切地感受到「推理」走出了论文。

当看到Agent在Outlook闪退后,自行思考片刻,转而读取邮件列表预览时,那种感觉很奇妙。

它不再是一个机械执行click(x, y) 的简单脚本,而是开始展现出某种韧性。

他表示,对于做研究的人来说,这台手机更像一份来自工业界的SOTA级Demo。它并不完美,但真正跑起来了。

总而言之,「豆包手机」在速度上做了很多妥协,但从架构角度看,可能是目前移动手机最靠谱的解法。

从博主的这篇分析中,让我们对「豆包手机」背后工程实现获得了关键一瞥。

当我们再扒开字节开源库,发现「豆包手机」助手GUI操作能力,已经通过UI-TARS模型的开源版本开放给业界。

开源地址:https://github.com/bytedance/UI-TARS

简单来说,UI-TARS是一个将屏幕视觉理解、逻辑推理、界面元素定位和操作整合在一个模型中。

它能实现搜集信息、处理文档、订票、比价等各种复杂操作,甚至能在游戏中进行思考和行动。

值得一提的是,UI-TARS的更新速度超快,光今年一年就迭代了三次:

2025年1月,第一代UI-TARS;

2025年4月,UI-TARS-1.5;

2025年9月,UI-TARS-2。

GUI Agent觉醒,「努比豆」重写未来

豆包AI助手,是当前GUI Agent浪潮的典型代表。

GUI Agent代表着AI与人类交互的「新前沿」,可以让模型看屏如人,操作如手。

在不需要切换API的情况下,可自动化一切GUI软件。

在早期,API和GUI是分化的两派。比如OpenAI Tools提供的API速度快,但不适应动态的UI。

传统的GUI虽可视化强,但对于大模型来说,描述UI信息噪声大,理解成本高,还不稳定。

因此,早期阶段的LLM要么走API路线,要么走GUI路线,难以统一。

而端侧小模型的出现,让GUI可以被结构化理解,再与API融合,就出现了「统一的智能交互层」。

几个月前,苹果团队曾发布了Ferret-UI Lite,一款GUI Agent小模型,实现了精准的控件定位能力。

论文地址:https://arxiv.org/pdf/2509.26539

真正让GUI Agent走向大众的,还是得益于近两年,多模态原生大模型跃迁式的迭代升级。

诸如Gemini 3、GPT-5.1等顶尖AI模型,都在朝着多模态方向发展。

这意味着,LLM不仅可以看文字,还能看懂图片、视频、UI元素。同时,LLM具备了更长上下文,可以记住跨越多步的任务。

大模型Agent开始用多模态感知界面,再配上RL,可以在GUI、网页等真实环境中,操作游刃有余。

在题为「Large Language Model-Brained GUI Agents: A Survey」的论文中,团队做了一个直观的GUI Agent流程:

Agent在接收指令后,会在多个应用程序中无缝协作。

它会从文档中提取信息,在Photos中观察内容,在浏览器中总结网页,在Adobe Acrobat读取PDF,并在PPT中创建文件,最后通过Teams发送。

论文地址:https://arxiv.org/pdf/2411.18279

2023年之前,以OpenAI WebGPT为代表。从2023年之后,类似的GUI Agent全面爆发。

这一年最具代表性,当属OpenAI Operator和字节UI-TARS。

真正高阶的基操,是把Agent深入嵌入OS系统级的能力。

「豆包手机」便可以照见行业脉络,让Agent从可操作界面,迈向了深度的系统集成。

这种OS级的植入,必须处理巨大的隐私、安全、权限问题,这是系统级GUI Agent向前迈进不可避免的阵痛。

字节虽未明确具体工程细节,从博主「叠甲」分析中,可以得知他们采用了「任务级过滤」(Activity-level Filtering)机制。

也就是说,系统会把每一次Agent行为抽象成一个「任务」,进行逐一过滤。

因此,Agent截图才不会截到「画中画」浮窗。本质上,这就像是OS级的权限中间层。

Hugging Face亚太生态负责人Tiezhen Wang点评,它证明了手机使用可以成为OS级原生能力,并将定义下一代AI手机

「豆包手机」的出现,证明了OS级可行性,真正定义了AI原生手机的形态。

昔日针锋相对的宿敌,老罗和王自如在「豆包手机」上,立场罕见地一致。

不得不说,在GUI Agent时代,「豆包手机」才是划时代的标志。

参考资料::

http://xhslink.com/o/93GCQttMFgO

https://www.notion.so/GUI-Agent-2c17a860b5e680e3b6e4efece19d1457

标签: 手机 豆包 模型 博主 能力 视觉 任务 信息 问题 定位 工程 彻底解决 动态 浏览器 模式 路线 地址 开源 论文 助手 系统 精准 比价 工程师 时间 典型 代表 视频 网页 场景 情况 逻辑

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。