00后大模型实习生“扒光”豆包手机！千字实测揭秘

IP属地中国·北京 编辑：胡颖新智元 时间：2025-12-10 14:09:30

新智元报道
编辑：桃子好困
爆火的「豆包手机」，到底藏了什么狠活？一篇热帖，LLM工程师通过黑盒测试和论文推演，扒出了它的技术机密。
一部AI手机，火爆全网。
张嘴一句话，它在短短几秒内，就完成了跨APP自动比价下单、回微信、预约机票、规划旅行路线......
海外创业大佬Taylor Ogan惊呼，「这简直是另一个DeepSeek时刻！这是世界上第一款真正的智能手机」。
不用多说，它就是最近一机难求的——「豆包手机」。
B站博主「六分超超」体验后大感惊艳，赞叹「是今年令自己印象最深的产品」。
更猛的是，即便是在锁屏的情况下，「豆包手机」也能在后台丝滑操作。
在「电丸科技AK」的测试中，「豆包手机」不仅可以轻松通过B站「大考」，而且速度奇快——
3秒答完1道题，5分钟100道题！
那么问题来了，到底是什么黑科技让「豆包手机」，一夜之间火遍了全世界？
正巧，我们在小红书上吃瓜的时候，意外发现了一篇十分有趣的帖子——《我没有逆向「豆包手机」，但我想说点什么》。
小红书原帖地址：http://xhslink.com/o/93GCQttMFgO
更新版博客地址：
https://www.notion.so/GUI-Agent-2c17a860b5e680e3b6e4efece19d1457
一篇爆帖，工程解密「豆包手机」
这篇帖子的博主「宵逝」，目前是大模型方向的实习工程师，纯从学术角度聊了聊感受。
他上手测试后，通过黑盒测试和arXiv逻辑推演，从工程学角度给出了比较科学的解释。
一上来，他便戳中了「豆包手机」的核心：
这不仅仅是一个App，字节是在Android Framework层做了一套OS级的影子系统。
接下来，博主从以下七个方向，给出了自己的洞察。
1. 两套模式：System 1（直觉）vs. System 2（推理）
字节将Agent拆分成两套栈（Stack）：一个是标准模式，另一个是Pro模式。
这不仅仅是模型大小的区别，而是两套完全不同的Pipeline，类似于人类认知中的System 1和System 2。
这里，作者在测试中，设下一个「陷阱」——
选择一张京东首页全屏截图，给豆包下达指令「点击搜索按钮」。
标准模式（快）：Naive Simulation
它主要依赖浅层视觉语言模型（VLM），响应极快，体感延迟小于500ms。
他推测，可能使用了Doubao-1.5-UI-TARS蒸馏版，Prompt简短可通过压缩IO token实现更快效果。
不过，缺陷在于它的典型「直觉」反应，会傻傻地点击图片中的按钮。
Pro模式（慢且鲁棒）：深度推理+工具调用
在同样的测试中，Pro模式明显会有一个「暂停+思考」的过程——拒绝点击，建议切换浏览器。
他推测，这可能走的是Doubao-1.5-UI-TARS完整版路线，并且做了更多后训练对齐。
同时，也说明Planner进行了介入，且具备了自我反思能力。
并且，只有在Pro模式下，才能观察到复杂的多跳检索和System API的直接调用。
补充信息：据我们最新了解，豆包手机助手使用了UI-TARS 2.0闭源版本，性能大幅优于开源版，且针对手机使用场景进行了专门优化。
2. 混合感知路由（Hybrid Perception Router）
环境噪声的干扰，是当前Agent落地的核心挑战。
XML+Vision动态路由，不管是UI-TARS的标准版还是Pro，是豆包给出的最直接的解法。
在高德/百度地图首页，呈现了多种复杂图标/道路状态情况下，博主要求豆包「点击深红色最堵路段旁边的施工图标」。
这是一个在OpenGL渲染界面中，执行复杂指令的测试场景。
令人欣喜的是，AI优雅地完成了这个任务。
在这种场景下，安卓的「无障碍树」往往是空的，或只有一个SurfaceView容器，且不包含任何子节点信息。
这就坐实了，背后视觉路线的存在，因为VLM具备像素级的「开放词汇定位」的能力。
它真正理解了「深红色、旁边、施工图标」，包含了颜色语义、空间关系、物体检测复杂信息。
由此，他推测这可能构成「路由动态」选择：标准UI走XML，非标UI走视觉（截屏但费电）。
3. OS级的虚拟化：并行运行时（Parallel Runtime）
这一点，想必许多上手实操过的网友，都已有深刻的体会——
一边让豆包比价购物，另一边刷视频、接电话照样不误。
Agent可以在后台跑长任务，即便手机切换到别的应用也不会中断。
博主推测，Agent极有可能跑在「影子屏幕」上，实现了「输入隔离」：物理屏打电话，逻辑屏在跑Agent。
这种「双并行宇宙」结构，彻底解决了Agent抢前台，手机卡死的痛点。
4. 启发式工程：提示「等等」
Agent会在每一操作结束后，无论当前页面渲染多快，都会在系统Prompt中强制引入1000ms~5000ms的固定延迟。
这种设计，类似于Cursor CLI中「等待轮询」。
从工程学角度看，这种做法是为了对抗APP中常见的异步加载/骨架屏，用时间换取「成功率」，妥协但有效。
5. 隐私设计的「物理隔离」：任务层级（Activity Hierarchy）
回到多数人最关切的隐私问题，担心豆包Agent会24小时录屏监控，但博主测试后发现——
视觉管道是过滤的。
若是豆包真的在用VLM分析屏幕，恐怕手机早就烫到不能用了。
他开启了B站画中画模式，然后让Agent操作主屏，中途再截屏，结果发现，AI截到的画面只有主应用的界面，完全没有悬浮窗。
这证明了，它不读物理屏幕输出流，而是基于「任务层级」针对性抓取。也就是说，从物理层面上，豆包隔离了视频通话、金融APP安全键盘，是一种精心设计的安全功能。
博主认为，豆包手机助手的代码逻辑是安全、可靠的设计，其包含了隔离机制、熔断策略和本地化处理。
代码可以透明，但编写与掌管代码的人呢？这种担忧，可以理解。
但这个问题本真难以彻底解决。在博主看来，如果Agent可以代替自己解决80%日常琐事，是可以交出经脱敏、不涉及核心隐私的数据。
6. 记忆与工具使用：关于MCP协议的猜想
在Pro模式下，数据的调用精准。
工具调用架构
测试中，博主给出一个模糊指令「验证码有什么数学特征」，Agent没有暴力做OCR全屏，而是Client向Server发起请求，整个系统授权部分，可能形成了一个RAG-MCP。
列表记忆（Sliding Window）
在滚动长列表（List View）时，Agent行为非常像E2E测试框架Playwright：滚屏→DOM Diff→提取增量信息→拼接。
这种方式，解决了跨屏上下文的问题。
7. 韧性（Resilience）
最后一个测试中，博主让Agent读取Outlook最新邮件，结果失败。
此时，Agent没有报错退出，而是自动降级读取第二封，并尝试提取第一封在列表页的预览信息，然后做出合并汇报。
这说明了，它的规划器关注的是「任务目标」，而不是规定的操作序列。这种动态规划的能力，才是推理应做的事儿。
博主体验后道出了真实的感受——它让我真切地感受到「推理」走出了论文。
当看到Agent在Outlook闪退后，自行思考片刻，转而读取邮件列表预览时，那种感觉很奇妙。
它不再是一个机械执行click(x, y) 的简单脚本，而是开始展现出某种韧性。
他表示，对于做研究的人来说，这台手机更像一份来自工业界的SOTA级Demo。它并不完美，但真正跑起来了。
总而言之，「豆包手机」在速度上做了很多妥协，但从架构角度看，可能是目前移动手机最靠谱的解法。
从博主的这篇分析中，让我们对「豆包手机」背后工程实现获得了关键一瞥。
当我们再扒开字节开源库，发现「豆包手机」助手GUI操作能力，已经通过UI-TARS模型的开源版本开放给业界。
开源地址：https://github.com/bytedance/UI-TARS
简单来说，UI-TARS是一个将屏幕视觉理解、逻辑推理、界面元素定位和操作整合在一个模型中。
它能实现搜集信息、处理文档、订票、比价等各种复杂操作，甚至能在游戏中进行思考和行动。
值得一提的是，UI-TARS的更新速度超快，光今年一年就迭代了三次：
2025年1月，第一代UI-TARS；
2025年4月，UI-TARS-1.5；
2025年9月，UI-TARS-2。
GUI Agent觉醒，「努比豆」重写未来
豆包AI助手，是当前GUI Agent浪潮的典型代表。
GUI Agent代表着AI与人类交互的「新前沿」，可以让模型看屏如人，操作如手。
在不需要切换API的情况下，可自动化一切GUI软件。
在早期，API和GUI是分化的两派。比如OpenAI Tools提供的API速度快，但不适应动态的UI。
传统的GUI虽可视化强，但对于大模型来说，描述UI信息噪声大，理解成本高，还不稳定。
因此，早期阶段的LLM要么走API路线，要么走GUI路线，难以统一。
而端侧小模型的出现，让GUI可以被结构化理解，再与API融合，就出现了「统一的智能交互层」。
几个月前，苹果团队曾发布了Ferret-UI Lite，一款GUI Agent小模型，实现了精准的控件定位能力。
论文地址：https://arxiv.org/pdf/2509.26539
真正让GUI Agent走向大众的，还是得益于近两年，多模态原生大模型跃迁式的迭代升级。
诸如Gemini 3、GPT-5.1等顶尖AI模型，都在朝着多模态方向发展。
这意味着，LLM不仅可以看文字，还能看懂图片、视频、UI元素。同时，LLM具备了更长上下文，可以记住跨越多步的任务。
大模型Agent开始用多模态感知界面，再配上RL，可以在GUI、网页等真实环境中，操作游刃有余。
在题为「Large Language Model-Brained GUI Agents: A Survey」的论文中，团队做了一个直观的GUI Agent流程：
Agent在接收指令后，会在多个应用程序中无缝协作。
它会从文档中提取信息，在Photos中观察内容，在浏览器中总结网页，在Adobe Acrobat读取PDF，并在PPT中创建文件，最后通过Teams发送。
论文地址：https://arxiv.org/pdf/2411.18279
2023年之前，以OpenAI WebGPT为代表。从2023年之后，类似的GUI Agent全面爆发。
这一年最具代表性，当属OpenAI Operator和字节UI-TARS。
真正高阶的基操，是把Agent深入嵌入OS系统级的能力。
「豆包手机」便可以照见行业脉络，让Agent从可操作界面，迈向了深度的系统集成。
这种OS级的植入，必须处理巨大的隐私、安全、权限问题，这是系统级GUI Agent向前迈进不可避免的阵痛。
字节虽未明确具体工程细节，从博主「叠甲」分析中，可以得知他们采用了「任务级过滤」（Activity-level Filtering）机制。
也就是说，系统会把每一次Agent行为抽象成一个「任务」，进行逐一过滤。
因此，Agent截图才不会截到「画中画」浮窗。本质上，这就像是OS级的权限中间层。
Hugging Face亚太生态负责人Tiezhen Wang点评，它证明了手机使用可以成为OS级原生能力，并将定义下一代AI手机
「豆包手机」的出现，证明了OS级可行性，真正定义了AI原生手机的形态。
昔日针锋相对的宿敌，老罗和王自如在「豆包手机」上，立场罕见地一致。
不得不说，在GUI Agent时代，「豆包手机」才是划时代的标志。
参考资料：：
http://xhslink.com/o/93GCQttMFgO
https://www.notion.so/GUI-Agent-2c17a860b5e680e3b6e4efece19d1457

标签：手机豆包模型博主能力视觉任务信息问题定位工程 彻底解决 动态 浏览器 模式路线地址开源论文助手系统精准比价 工程师 时间典型代表视频网页场景情况逻辑

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

动员人海入局，京东意在“炼丹”具身数据

最高涨34％！阿里云、百度智能云同时宣布：涨价

算力需求持续攀升，百度智能云AI算力相关产品服务最高涨价30%

网易回应“网易互娱用AI替代所有外包岗位”：不实，系部分业务项目调整，属正常人员优化

阿里巴巴重磅，阿里云AI算力和存储产品最高涨价34%！港股科技、云计算再度上涨！

2000万只“龙虾”进入企业，阿里的新企业Agent故事 | 最前线

全站最新

动员人海入局，京东意在“炼丹”具身数据

最高涨34％！阿里云、百度智能云同时宣布：涨价

算力需求持续攀升，百度智能云AI算力相关产品服务最高涨价30%

网易回应“网易互娱用AI替代所有外包岗位”：不实，系部分业务项目调整，属正常人员优化

热门推荐

动员人海入局，京东意在“炼丹”具身数据

最高涨34％！阿里云、百度智能云同时宣布：涨价

算力需求持续攀升，百度智能云AI算力相关产品服务最高涨价30%

网易回应“网易互娱用AI替代所有外包岗位”：不实，系部分业务项目调整，属正常人员优化

阿里巴巴重磅，阿里云AI算力和存储产品最高涨价34%！港股科技、云计算再度上涨！

2000万只“龙虾”进入企业，阿里的新企业Agent故事 | 最前线

全国网络法治宣传新征程开启

我翻到一条十年前的知乎问答，发现网友都是预言家。

腾讯电话会：马化腾首谈“养虾”构想，今年AI投资至少翻倍，智能体将催生去中心化新生态

全新车色、第二代VLA来了！新款小鹏P7发布，只要20.38万起

华为乾崑智驾公开赛今启报名，ADS V4.1车型可参与

微盟集团2025年来自AI收入破亿，SaaS商业化找到新路径｜最前线

别克至境世家纯电版上市，重塑纯电豪华MPV标杆

极氪又一爆款潜质车型来袭，预售38分钟订单破万辆

中外科学家成功构建可编程细胞分化与比例控制平台