AI 助手正在从“只会动嘴”向“替你动手”完成跨越。
近日,谷歌 正式在 Pixel10Pro 和 Galaxy S26Ultra 上推出了 Gemini 的任务自动化功能(Task Automation)。这标志着 AI 助手正式从“对话工具”进化为“执行代理(Agent)”,不仅能回答问题,还能直接接管手机屏幕替你办事。
实测体验:全程“无人驾驶”,但需要点耐心
在 OSCHINA 披露的实测案例中,如果你想点一份 DoorDash 外卖,只需对 Gemini 下达自然语言指令,接下来的操作堪称“科幻”:
后台代操: AI 会自动打开应用、识别界面元素、填写表单并选择选项,最后确认订单。
异步运行: 执行过程中,屏幕底部会实时滚动“正在选择目的地”等进度。最酷的是,你可以切换去刷视频或回邮件,AI 会在后台持续运行直至任务完成。
速度瓶颈: 目前的缺点是“慢”。由于 AI 需要逐帧识别界面并进行云端推理,手动操作只需2分钟的任务,AI 可能需要9分钟。
技术破局:打破“信息查询”的十年天花板
过去十年,从 Siri 到 Google Assistant,语音助手始终停留在定闹钟、查天气的浅层交互。Gemini 任务自动化的核心突破在于其具备了复杂的长链条任务规划能力,让“发令-等待结果”成为了可能。
生态局限:仍处于“概念产品”阶段
尽管前景诱人,但目前的自动化功能仍面临不少挑战:
适配范围窄: 目前仅支持 Uber、DoorDash 等流程高度标准化的应用。
容错率待提升: 界面识别错误或支付环节的安全限制,仍是阻碍其大规模普及的硬伤。
巨头暗战:2026开启“AI Agent”元年
随着 OpenAI 的 Operator 和苹果 Apple Intelligence 的相继发力,谷歌 此次抢先在移动端切入,意在依托 Android 生态抢占高频生活场景。
虽然现阶段的 Gemini 任务自动化看起来还有些“笨拙”,但技术进步往往遵循指数曲线。当 AI 能够以人类的速度流畅操作任意 App 时,我们与手机的交互方式将被彻底改写。这场“虽慢但酷”的进化,正是通往通用人工智能(AGI)的关键一步。





京公网安备 11011402013531号