听潮Ti2024 郭佳哿
发布仅一周时间,豆包手机助手就已经引来舆论层面的几轮冲击。
12月5日,豆包团队发布公告,称为了让技术发展与行业接受度良性适配,将对AI操作手机的能力进行规范化调整。其中包括限制金融类应用和部分游戏的使用。
图/豆包手机助手官微
此前12月1日,字节跳动豆包团队发布豆包手机助手技术预览版,是在豆包大模型基础上和手机厂商在操作系统层面合作的AI助手软件,并官宣率先落地中兴旗下的努比亚M153,这款真正接近AI手机的产品,3499元的价格一度在二级市场炒至万元高价。
随后不少业内人士抨击,豆包拥有的跨应用操作能力,是因为获取了一项操作系统高危权限INJECT_EVENTS,直接引来抖音副总裁李亮的公开发声:只要是用户许可就不存在侵犯隐私的行为。豆包手机助手是经过用户授权,才能完成操作手机的任务。
图/@抖音集团李亮个人微博
短短一周,这一系列喧嚣不仅将系统级AI推上风口,也让外界看清了AI Agent在终端上的潜力与局限让每个用户真正拥有自己的贾维斯,远比想象中要难。
一个无限接近AI Agent的产品
豆包手机助手的直观功能并不复杂。
除了基础的多模态能力和本地工具调用,它最核心的能力其实是跨应用自动执行和全局记忆功能。
在豆包最早发布的演示视频中,在不同电商平台比价下单、调取用户放进微信、小红书、大众点评等App收藏夹的地点,并在地图上进行标注,都是典型案例。
类似早期单个AI搜索软件中的上下文感知能力,豆包手机助手的全局记忆相当于把这种记忆能力扩展到用户平时对手机的所有操作上:你保存的某个日程、关注的某家餐厅、记录的某人生日,全局记忆让助手能够把分散在不同应用或时间点的任务整合在一起,实现跨应用的连续操作,比如通过唤醒记忆帮你订餐厅、订机票等。
如果说早期的豆包像个聪明的语音助手,如今却更接近直接把你的秘书塞进了系统里。它能理解屏幕内容、判断界面状态、自己寻找任务路径,而非依赖某个插件或API。以往的语音助手只是替你发出指令,豆包开始替你实际动手。
某种程度来说,它其实是一个无限接近AI Agent的产品。
但从技术层面来看,豆包手机助手的核心功能逻辑不外乎两部分:读取屏幕+模拟用户操作。
即它可以通过操作系统提供的无障碍接口获取当前屏幕的界面结构和元素信息,换句话说,它能看到屏幕上每个可交互元素的位置、属性和文本信息。
图/微信安全中心官微
这也能解释为何此次微信动作跟进得如此迅速的原因,这个窗口一旦打开,便意味着潜在的滥用可能。对于微信等核心应用,它们必须重新评估每一个外部调用行为的安全性与可信度,这也是为何会选择直接阻断的原因。
这种担心并非微信独有。对整个App生态而言,当外部助手掌握了系统级操作能力,就意味着任何应用的控制权都有可能被分流或代替。
这也是豆包手机助手面临的行业级矛盾:入口之争必然带来动作边界之争。
用户想象中的便利,对应用开发者而言可能是潜在的安全漏洞或者运营风险。无论是社交、支付还是电商应用,每一次操作都可能牵扯到账户安全、交易完整性、用户体验等多重考量。
从市场角度看,这类限制也揭示了决策权的归属无论系统权限多么高,最终能否执行任务,取决于App是否允许。
即使系统层的AI助手具备多高的系统权限,最终能否真正执行任务,仍要看各个App是否在业务链路、相应接口与风控体系上给予可被自动化的空间。如果没有应用方的配合,AI助手的全局执行就会遇到天花板。
更广义地说,这种冲突反映了整个行业在系统级AI入口上的博弈。大厂都希望保留对用户操作链路的掌控权,因为这是流量、数据、风控与用户体验的根基。
一个简单的例子,如果豆包这类系统层智能体能够代替用户在多个应用之间直接执行操作,意味着用户不再需要进入各个平台完成这些动作。原本打开ABC平台→搜索关键词→浏览、比价商品→完成下单的传统路径,变成只需要说一句帮我买一包50元以内、销量高、明天能送达的猫粮,AI助手就会自动去各电商平台比价、选品并完成下单。
用户不再进入平台首页,平台就会失去搜索入口的流量;AI抽取内容后,平台本身的推荐流不再是用户入口,内容价值链被上游截断;而用户浏览时间下降,广告曝光就会减少;平台的货架逻辑和推荐流量分发也会失效。
当AI助手尝试跨越应用边界,它实际上挑战的是现有App生态的权力分布。豆包手机助手的尝试虽然显示了技术可行性,但真正能否长期运行,取决于能否在在系统权限与App生态之间找到商业操作上的平衡点。
软硬一体才是真正入口
AI发展了近3年,从算力到多模态能力,再到AI硬件落地,产业格局逐渐回到可持续性商业模式的考量上。
正如豆包明知跨应用自动执行存在隐私合规与平台关系的多重风险,却仍要执意往前推进,原因非常直接:跑马圈地之后,入口之争进入了新的阶段,AI 厂商和手机厂商都意识到,未来真正能沉淀商业价值的,不是一个个独立的 AI 服务,而是真正与用户场景相关的超级入口。
AI Agent的发展初期,豆包、元宝、Kimi、通义千问等产品都曾试图通过嵌入应用内功能占据用户场景。
豆包初期曾嵌入到抖音、今日头条等应用内,提供智能推荐、内容生成等功能;今年初腾讯甚至在微信里几乎能放广告的所有地方,都给元宝上了广告位
而AI搜索软件和手机厂商上一次深度合作还是Deepseek爆火后,华为、荣耀、小米等主流国产手机厂商都先后宣布在其原有的语音助手中接入DeepSeek。
事实上,系统级AI也并非豆包首发。
早在今年6月华为开发者大会上,鸿蒙系统6展示的AI智能体验,就已出现系统级AI的雏形,但当时华为强调的仍是调度多个智能体协同完成任务。
苹果方面,Siri正在向系统层执行能力升级,未来的Apple Intelligence同样瞄准跨App协作和操作路径重构。小米、华为、OPPO等厂商也在持续改进语音助手的全局操作能力,逐步向中心化、一体化方向靠拢。
硬件端同样在布局未来入口,从早前的网红AI穿戴设备Humane的AI Pin,到阿里在11月最新发布的夸克AI眼镜,都曾被视作可能的替代入口。但至少目前尚未获得用户心智占领,手机仍是最稳定、使用频次最高的终端。因此,大部分厂商仍将手机作为核心入口下注。
这也是为什么各大厂在AI生态布局中,软硬件同步推进:软件确保系统级操作能力落地,硬件探索未来交互形态,二者结合才可能形成对用户行为路径的长期控制。
AI的洪流滚滚向前,当技术变得愈加通用,企业要么上车,要么被抛弃。





京公网安备 11011402013531号