一手实测 | 智谱AutoGLM开源： AI手机的「安卓时刻」正式到来

IP属地中国·北京 机器之心Pro 时间：2025-12-10 14:17:45

机器之心报道
编辑：冷猫、Panda
「安静！吵到我用 TNT 了！」

长期关注科技圈的朋友们都知道，罗永浩的锤子科技落幕已经七年。七年间，仍有无数锤科粉丝保留着旧手机备用，怀念手机圈当年的「锐利异类」，以至于锤子手机仍然有百万日活用户。
而锤子科技，罗永浩最大的愿景和遗憾，莫过于号称「重新定义下个十年的个人电脑」，以及闹出了科技圈永生梗「理解万岁」的 TNT。
给不熟悉的读者朋友们简单介绍下：TNT 全称 Touch&Talk，通过触控 + 语音的方式操作设备。
在那个 AI 尚显稚嫩的年代，这被视为一种激进的赌博；但在大模型爆发的今天，我们惊讶地发现：最高效的手机操作方式，恰恰就是 TNT 构想的那样：按住屏幕把需求说出来，设备自动完成一切。
近些天，豆包手机（豆包手机助手技术预览版）爆火，让能够操作手机的 AI Agent 走入了大众视野。Agent 借助大模型和自动操作系统的设计，让用户凭借自然语言和语音输入，就能自然实现通用的、跨任务的复杂操作。
也因此，人们在震惊于现今大模型 GUI Agent 能力强大之余，也不禁担心个人数据上云的隐私权限问题，几大国民级 App 也都限制了豆包手机助手的访问，再加上搭载豆包的手机一机难求……
除了被大厂生态裹挟，我们有没有另一种选择？有没有一个既能一句话搞定繁杂任务，又能将隐私握在自己手里，甚至人人都能 DIY 的 GUI Agent？
有的兄弟，有的，而且是来自深耕智能体的智谱的明星项目：AutoGLM
就在前天，AutoGLM 正式全面开源
豆包手机之所以遭到所有大厂围剿，因为 AI 手机很可能是下一个时代的流量入口。智谱这波开源直接把能力交给了所有人手上，一己之力把 AI 原生手机的门槛给打平了。
为开源精神点赞！
具体来说，Open-AutoGLM 由一个手机端智能助手框架Phone Agent和一个 9B 大小的模型AutoGLM-Phone-9B共同组成。

开源地址：https://github.com/zai-org/Open-AutoGLM
从第一个 AI 发出的红包说起
这次开源对行业的影响力，核心来自这次智谱开源的不是一个普通的 GUI agent 模型，而可能是行业最好的模型。
智谱是第一个开始可操作智能体研究的厂商。
时间回到 32 个月前的 2023 年 4 月，智谱就已经开始从零探索 AutoGLM，目标是打造一个不仅能「说」，还能「做」的智能体模型。
2024 年 10 月，AutoGLM 面世爆火，被业界公认为是全球第一个可以真正操控手机的 Agent，迄今也是全球完成度最高的 GUI Phone Use 模型。不是模拟，不是脚本，而是像人一样去「看屏幕」，去分析 UI 布局，然后模拟手指进行点击与滑动。AutoGLM 这个 Phone Use 能力的诞生，是「AI 会用工具」的关键里程碑。
一个月后，它做了一件前所未有的事情：AutoGLM 完成了人类历史上第一个由 AI 全自动发出的红包。

这个红包意味着大模型「从 Chat 到 Act」的范式转变，语言不再停留在语言本身，而能驱动行动、执行任务。
但我们很快意识到：会动手的 AI，就像刚拿到第一部智能手机的小孩 —— 强大，但也危险。如果它在不该点的地方乱点怎么办？如果某个用户的真实手机被误触隐私应用怎么办？
于是到了 2025 年 8 月，智谱做了一个关键决定：先把 AutoGLM 放进云端的「虚拟手机」里
AutoGLM 2.0 云机版，把 AI 的行动舞台与用户真实手机完全隔离。它看到的屏幕、能执行的点击，都发生在一台安全的虚拟设备上。涉及隐私的 App，比如微信，则选择不开放 —— 不是做不到，而是智谱希望它「先学会规则，再学本事」。
Phone Agent 的实现，依赖于 AutoGLM 的视觉-语言模型。通过理解手机屏幕内容、解析 UI 状态，结合智能规划能力，它能自主完成整套操作流程。
这背后的实现说简单也简单，说复杂也复杂。它由三大核心技术组成：
1.ADB（Android Debug Bridge）：手机的「控制器」
AutoGLM 接入安卓系统的 ADB 开发者调试，负责把控制信号送到设备上，实现基本的点按滑动等操作。
2.视觉-语言模型（VLM）：AI 的「眼睛 + 大脑」
它能理解手机屏幕上的文本、按钮、图标，识别，操作和实时反馈。
3.智能规划：任务拆解的「策划师」
它能将自然语言任务拆解为可执行步骤，你说一句「发红包给小李」，AI 会自动补全背后的十几步操作链：打开 App、找到联系人、选择金额、确认支付……
AutoGLM 把这三项能力打包成一个完整执行框架，「AI 会用手机」的概念已经在诸多测试中保证了稳定和实用。
一手实测
Open-AutoGLM 究竟有多强？
理论说得再多，不如实战。下面我们就来看看开源版的 AutoGLM 表现究竟如何。
首先，来一个简单任务：发微信。发送以下指令：
给 wupan 发个微信，就说 Panda 的生日快到了，准备个蛋糕，多点水果。

可以看到，系统启动后，Open-AutoGLM 首先进行了一波「自检」，确认 API 和系统权限无误。在这里，我们可以看到智谱给 Phone Agent 的描述：「AI-powered phone automation」，即「AI 赋能的手机自动化」。
接下来，AutoGLM 会回到任务本身。思考为了完成这个任务，第一步应该执行什么。在终端界面，我们能清晰地看到它的思维链（CoT）：
观察：当前在桌面。思考：任务是发微信，第一步需要找到并打开微信。行动：点击微信图标。观察：进入微信列表页。思考：需要找到 wupan，点击搜索框……
如此迭代进行，直到完成任务。整个过程行云流水，最后它还会像模像样地汇报：「任务已完成」。
而在以上任务执行的同时，我们的手机端则经历了以下过程。很显然，AutoGLM 非常出色地完成了这个初始任务。

下面，为了更好地展示，我们将使用 scrcpy 将手机投屏到 PC 上，将前后端情况一并录制。此外，为了方便，我们将上面略显繁琐的命令定义为一个 Function，并把它放进 PowerShell 配置文件 (Profile) 里。下面我们只需简单地输出「run "提示词"」即可向 AutoGLM 发送指令。（当然，你也可以 Vibe Code 一个更好看或直观的交互 UI。）
接下来试试 AutoGLM 与小红书的交互。
run "打开小红书，看看有什么有趣的疯狂动物城周边"

同样，执行非常顺畅，并且在执行过程中，我们还看到 AutoGLM 能够正确地识别和处理弹窗提醒。更让人惊喜的是它的总结能力。它没有机械地罗列标题，而是像个真正的浏览者一样，理解了屏幕上的内容。在最终的反馈中，它汇总了前四个结果：发圈、毛绒公仔、圆珠笔、泡泡玛特盲盒。这说明它不仅「看」到了像素，还「懂」了商品。
AutoGLM 还可以根据用户指令执行连续多步操作，比如你可以让它「先打开维基百科找到五月天的第一张专辑是什么，然后打开 QQ 音乐播放它」：

我们还能让 AutoGLM 帮助完成一些重复性的繁琐任务，比如应用宝软件更新。当你有一大堆软件需要更新时，加上不时的弹窗，这会变成一个几乎让人有些火大的过程。而如果你有 AutoGLM 这样的 AI 助手，也就是一句话的事儿。
run "打开应用宝，把我的软件更新一下"

哇哦！真省心。简直是「懒人福音」。面对一大堆待更新的 App 和时不时的弹窗，AutoGLM 耐心地一个个点击。
有趣的是，在更新过程中，AutoGLM 还遭遇了一次「误触」。根据对话记录可以看出，当时弹出了请求更新哔哩哔哩的许可申请，而此时百度地图又刚刚更新完成，于是 AutoGLM 本来打算点击的「更新」变成了「打开」，它也因此意外打开了百度地图。
如果是传统的自动化脚本，这时候已经卡死报错了。但 AutoGLM 展现出了惊人的临场反应：
感知错误：它发现屏幕画面变成了地图，而不是应用宝。自我修正：它没有由于结果超出预期而自乱阵脚，而是分析当前状况，执行了「返回/退出」操作。回到正轨：重新回到应用宝界面，继续未完成的更新任务。
这种稳健性才是 Agent 走向实用的关键。
实测过程中，我们发现 AutoGLM 的执行逻辑是通过分析屏幕截图来确定下一步。也因此，AutoGLM 具有非常高的通用性和普适性，并不局限于智谱官方推荐的应用。事实上，只要它能理解手机屏幕截图，便能够执行一步步地完成任务。
举个例子，我们甚至能让 AutoGLM 调用其它 AI 助手来帮助完成更加复杂的任务。
run "打开 Gemini，让它搜索并整理一下智谱的发展历史，最后出具一份深度报告"

结果堪称完美！Open-AutoGLM 成功打开了 Gemini ，将我们的自然语言指令输入进去，等待 Gemini 生成长文报告，最后将报告内容提取回来。
这一刻，手机里的 App 不再是孤岛。AutoGLM 像是一层「超级胶水」，将本地应用、云端大模型无缝粘合在了一起。这或许就是未来「超级 App」的雏形 ——App 本身不再重要，服务才是核心。
全面开源
人手一个 AI 手机
智谱选择了和封闭生态完全不同的方向。
Open-AutoGLM 的全面开源，意味着开发者、研究者与个人爱好者，都可以沿用 AutoGLM 的执行框架，在自己的产品中复现或延展这个「能动手的 AI」。
此次开源显得诚意十足：
核心模型与推理代码：毫无保留。工具链：完整的 Phone-Use 框架。开箱即用：支持 50 多款常用中文 App 的 Demo。协议友好：模型采用 MIT 协议，代码采用 Apache-2.0 协议。完善的文档和快速上手指南。
无需担忧的隐私问题
开源彻底改变了隐私的博弈关系。当模型、框架、适配层全部公开后，我们能做的最重要一件事，就是把 AI 完整地搬回到用户的本地设备上运行。
数据无需上云，所有操作记录、App 使用习惯甚至输入内容都能在本机完成处理 —— 没有上传，自然也就没有泄露风险。同时，代码完全透明，任何人都可以验证它是否联网、是否收集数据、是否写入日志，比任何口头承诺都更可靠。
在 AI 手机的概念被炒得火热的今天，我们需要的不是又一个窃取数据的云端黑盒，而是一个透明、可控、私有的智能管家。
行业平等的模型底座
在不远的未来，AI 助手最终会普及到每个用户。而没有人希望，这个能够帮助人们操作手机的助手，一个能够掌控各大应用的入口，是某一个平台独占的资源。豆包手机助手目前被各大 App 限制的现状，已经给出了信号。
这是一次新的人机交互革命，AutoGLM 开源，把 AI 助手的能力彻底开放，变成全行业的公共底座。
Open-AutoGLM 的出现，或许就是 AI Agent 领域的「安卓时刻」：它为那个罗永浩曾梦想过的、动动嘴就能搞定一切的 TNT 时代，铺下了第一块坚实的开源基石。
正如智谱所言：「把我们已经走过的路，变成接下来 Agent 爆发时代大家的起跑线。
未来已来，而且这次，它听你的。
文中视频链接：https://mp.weixin.qq.com/s/ub9_3OETxNjA7NbSrXdW6Q

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

联想YOGA Air 14新增英特尔酷睿Ultra 5 228V版本，7999元

科技周报｜阿里平头哥上线自研AI芯片；亚马逊开启新一轮裁员

布米普特拉北京投资基金管理有限公司：亚马逊或重注OpenAI 人工智能竞赛格局生变

从加挂牌子到单列机构，长三角AI治理为何需要“专属管家”？

雷军回应小米汽车交付量环比下降：Q1是传统淡季，以YU7交付为主

雷军：下一辆车要买新一代小米SU7，目前常开影青色YU7

全站最新

联想YOGA Air 14新增英特尔酷睿Ultra 5 228V版本，7999元

科技周报｜阿里平头哥上线自研AI芯片；亚马逊开启新一轮裁员

布米普特拉北京投资基金管理有限公司：亚马逊或重注OpenAI 人工智能竞赛格局生变

从加挂牌子到单列机构，长三角AI治理为何需要“专属管家”？

热门推荐

联想YOGA Air 14新增英特尔酷睿Ultra 5 228V版本，7999元

科技周报｜阿里平头哥上线自研AI芯片；亚马逊开启新一轮裁员

布米普特拉北京投资基金管理有限公司：亚马逊或重注OpenAI 人工智能竞赛格局生变

从加挂牌子到单列机构，长三角AI治理为何需要“专属管家”？

雷军回应小米汽车交付量环比下降：Q1是传统淡季，以YU7交付为主

说法丨规范二手交易打通流通堵点

说法丨规范二手交易打通流通堵点

雷军：下一辆车要买新一代小米SU7，目前常开影青色YU7

NVIDIA发福利：突袭发售原价RTX 50公版卡！几分钟即被秒光

腾讯元宝10亿红包刷爆朋友圈，已有19人抽到万元小马卡

1月新势力销冠之争：问界千辆优势险胜小米

直播电商常态化监管需紧抓重点

AI数据中心致美国天然气发电大增，全球温室气体排放或破纪录

H200松绑无人在意，国产芯片接棒主力

国内首个！东南大学发布混凝土材料垂类大模型，南京北站已应用