当前位置: 首页 » 资讯 » 科技头条 » 正文

两个95后华人,搞出硬件版Clawdbot,售价1700元

IP属地 中国·北京 编辑:赵磊 量子位 时间:2026-02-01 16:09:43

Jay 发自 凹非寺

量子位 | 公众号 QbitAI

OpenClaw(原名Clawdbot)爆火,「贾维斯」狂潮席卷全球。

刚看了下京东,本地Agent甚至已经成了Mac mini的广告语……

最近硅谷的一个本地Agent项目也很有关注度,而且是软硬件打包好,买回来就能直接用的那种。

长这样子,卖250美元(折合人民币约1700元),买来插上电就能当OpenClaw用。

对,硬件版的OpenClaw……

硬件版OpenClaw

名字叫Distiller Alpha,一款Linux硬件,核心计算模块基于树莓派CM5,8GB内存,64GB存储

在此基础上,还集成了墨水屏、麦克风、扬声器、摄像头……

特别小一个,手掌一半都不到,整体尺寸比手机还小,感觉能直接揣裤兜。

所有都提前在这块硬件里部署好了,扫下墨水屏上的二维码,就能直接进入交互界面,和一个叫Pamir的Agent对话。

OpenClaw能干的都能干,整理文件、翻阅X、发邮件……理论上,只要能通过「点击」解决的事情,都没问题。

同样是一个24小时待命的贾维斯,可以随地大小Code。

这些都不是重点。

上面这些事情,OpenClaw都能做,甚至能更夸张。

Pamir最不一样的地方,是它竟然还可以给硬件Vibe coding……

有人给扫地机器人装了根机械臂,现在不仅能扫灰尘了,遇到大点的垃圾也能顺手捡起。

自动播放

有个老哥在家里搭了一套赛车模拟器,把Pamir当「副驾驶」用。

每次他跑完一圈后,这个「副驾驶」会自动帮他回顾和分析驾驶数据,然后把这些数据实时展示在他接上的一堆小显示屏上。

自动播放

就连这个8×8的LED灯阵都能玩出花来,只需要一句话就能搞出各种炫酷的特效。

自动播放

如果你想,甚至能在这上面玩贪吃蛇……

自动播放

各种离谱的demo见得多了,能给硬件Vibe coding的Agent倒还是第一次见。

正好最近本地Agent火,相信大家心里多少都有不少困惑:

这条路到底和其他Agent有什么不同?

类似的创业者如何看OpenClaw?

用户又该如何更好地打造自己的「贾维斯」?

带着这些问号,量子位找到了这家硬件版OpenClaw,Pamir的两位创始人之一——叶天奇,聊了聊他们在本地Agent这条赛道上的想法。

采访原文超1.2万字,信息密度很高,其中有不少有趣的观点。

为了完整呈现叶天奇的思考,我们决定不做过多处理,直接把全文端上来。

在这场对话里,你会看到:

软硬一体的Agent,会有什么不一样?

OpenClaw到底做对了什么,火了之后为什么又迅速暴露出一堆安全问题?

为什么Mac mini并不是最适合部署Agent的硬件?

那些提前半年就体验过OpenClaw这种能力的人,现在都怎么用本地Agent?

为什么对初创公司来说,硬件是一条更合适的路径?

AI时代下,电脑的最终形态可能会长什么样?

以下附上访谈全文,为提升可读性,量子位在不改变原意的前提下,对内容进行了适当调整和删减。

请享用。

OpenClaw、本地Agent,以及电脑的下一步

Pamir是什么?

Q:Pamir现在做的Distiller Alpha是什么?它能干些什么?

叶天奇:Distiller Alpha本质上是一台Linux的mini PC,一台非常小的Linux小电脑。

我们把传统电脑里一些最基础的元件单独拎出来,配上小屏幕、LED灯、麦克风、扬声器,以及各种各样的IO接口,把它做成了一个非常紧凑的形态,整体尺寸比手机还小。

在系统层面,我们给这台设备预装了Agent,目前主要用于跑Claude Code。基本上,只要是Linux+Docker能做的事情,它都能做。

最典型的场景是Vibe coding。现在有一批开发者非常痴迷Vibe coding,希望随时随地都能写代码,他们会通过手机远程操作我们的设备。

除此之外,还有一批用户会把我们的设备接到各种各样的硬件上,通过Vibe coding的方式来开发和控制这些硬件。

Q:「Vibe coding+硬件」的组合听起来挺新鲜的,可以展开讲讲吗?

叶天奇:这个方向其实并不是我们一开始有意设计的。从用户角度来看,会购买我们设备的人,往往本身就很喜欢玩硬件。

很多设计师,他们很懂电子产品设计,但并不擅长编程。过去他们使用的往往是比较简单的开发板,如果要做原型,就需要雇电子工程师帮忙。

现在他们会直接把Distiller Alpha接到硬件上,把自己的想法描述出来,系统就可以自动帮他把对应的逻辑和代码生成出来。

还有一些用户,会用它去「接管」已经存在的设备,比如蓝牙设备。

很多蓝牙设备其实并不需要额外的密码,只要发送一串正确的二进制指令,就能完成控制。

他可以直接对系统说:「帮我扫描一下附近有哪些蓝牙设备」「帮我把这盏灯关掉」。

很多智能家居都是自己独立的一套App,非常零散。用Distiller Alpha就能一个页面里,控制家里所有的智能设备。

再比如打印机,你不需要安装官方App,只要知道它内部使用的是什么芯片,就可以让Agent写代码、做简单的逆向工程,让这台打印机工作起来。

Q:如果不靠Distiller Alpha,极客通常是怎么完成这些操作的?

叶天奇:这个问题其实挺有意思的。

我之前也问过一些用户,发现主要取决于技术水平。

技术能力强的人一直都是手写。他们会先去读硬件的说明书,搞清楚芯片型号、通信方式和编程方法,然后直接写代码、烧录。

但对技术能力没有那么强的人来说,过去的主流方式,其实是用ChatGPT。他们会把需求丢给ChatGPT,让它生成一段代码,然后复制粘贴到硬件的编辑器或烧录工具里,点一下烧录,再测试。

如果发现不work,就把报错信息再反馈给ChatGPT,让它改一版代码,再复制粘贴、再烧录。

有了我们的硬件之后,整个链路被闭环了。Agent可以自己写代码、自己烧录到硬件上、自己读取报错信息、再根据结果修改代码并重新烧录。不再需要在中间反复做人肉中转。

Q:为什么Distiller Alpha会出现这么多偏硬件的玩法?

叶天奇:核心的原因在于出发点不一样。

OpenClaw是从软件方向起步。即使你买了一台Mac mini,也很少想到把它当成嵌入式设备,塞进另一个硬件里。

一方面体积摆在那里,另一方面它的IO接口数量有限,也不太容易激发用户在硬件层面进行二次开发的欲望。

而且OpenClaw本身更偏向于为知识工作者设计交互。对开发者来说,如果要写软件,不太可能通过WhatsApp、Telegram这种聊天气泡式的方式,那会非常痛苦。

本质上还是面向的人群不同。我们早期的定位就是remote——一个让你随时随地都能接触到自己Claude Code的设备。最早购买我们的,基本都是Early adopter型的开发者。

后来随着Vibe coding这个概念被更多人接受,有开始有越来越多非开发者、甚至传统意义上的知识工作者购买我们的设备。

有的用户在自己买了之后,还会再给父母买一台。而这些非开发者用户,往往会把我们的产品当成一种「智能硬盘」来用。

Q:Distiller Alpha本身的硬件由哪些组件构成?

叶天奇:我们在设计这款产品时的一个原则是:在体积允许的情况下,把能装的能力尽量都装上。

比如灯带,它的核心作用是显示Agent的工作状态。比如Agent在思考时,会显示黄色灯光;当Agent需要用户介入时,会闪烁绿色灯光。我们希望通过这种比较克制的方式,把Agent的状态融入到设备本身。

现在很多程序会用消息通知或者声音提醒,但我们觉得,用一种更偏「环境感」的方式,通过视觉氛围来反映Agent状态,会更自然一些。

而且,通过环境光来传递状态的信息方式,本身就很极客。这点可以类比喜欢装机、玩电脑的人,会很热衷RGB灯效。

屏幕的设计思路同样比较极客。我们用的是一块墨水屏。一方面,墨水屏显示效果很好,很多开发者本身就对这种屏幕有偏好;另一方面,它的功耗非常低。

有些用户会把这块屏幕改造成自己的Personal dashboard,比如显示股票信息、未读邮件数量,或者当天还有多少任务需要处理。这类信息不需要频繁刷新,墨水屏非常合适。

还内置了麦克风和扬声器。有的用户会设定:每天早上醒来时,让设备从自己的音乐列表里挑一首最喜欢的歌来叫醒自己。

另外,我们还内置了一个摄像头,主要是给开发者使用。有人会用它来远程看看家里的猫狗,或者用来监控另一台电脑的屏幕状态。这些都属于比较自由的开发用途。

Q:算力配置是什么水平?

叶天奇:目前是8GB内存、64GB存储的CPU平台。

这个配置其实不是一开始就想清楚的,你需要积累很多真实使用的know-how,才能知道跑一个Agent到底需要多大的内存、多少存储。

我们会从几个维度去看,比如:一个普通用户通常会同时跑多少个Agent;这些Agent的知识资产大概会增长到什么规模;一个用户大概用多久,设备里的存储就会被填满;Agent的运行上限在哪里,瓶颈会出现在内存、存储还是IO上。

一个很有意思的发现是,我们一开始低估了知识资产的增长速度。

之前没想到会有这么多知识工作者,有些用户会长期给设备外接一块SSD,把每一次对话、每一次任务执行的记录全部存下来,在他们看来,这些是非常重要的个人资产。

这类需求很难在产品设计阶段预判。但一旦接触到用户,就会意识到存储本身,是Agent产品里一个非常关键的维度。

Q:Pamir的技术原理是怎样的?

叶天奇:我们在产品路径上,和很多AI公司不太一样。我们是先做硬件和系统,再在探索过程中不断摸索软件形态。

一开始,我们在设备里直接内置了VSCode。我们的判断是,VSCode基本可以覆盖大多数软件开发和交互需求。后来随着产品迭代,我们不断做减法,把界面逐渐收敛,最终拆掉了传统意义上的「GPT对话界面」。

软件交互主要基于内网直连。只要这台设备是开机状态,无论你在什么地方,用电脑也好、手机也好,都可以直接访问到它。有点像一个ChatGPT式的入口,不同终端之间是完全同步的。

硬件交互方面,设备上有一个小的显示模块,会实时显示当前设备的连接状态。比如我们会展示一个二维码,任何人用手机一扫,就可以直接进入这台设备,向Agent发送指令。

Pamir的差异点在哪?

Q:Distiller Alpha和OpenClaw有什么区别?

叶天奇:在我看来,OpenClaw更像是一个「软件傻瓜包」。

它本质上像一层胶水,把很多已有的能力粘合在一起,解决的是可用性和易用性。这有点像当年大家对原生安卓系统不满意,于是会去刷各种第三方ROM,比如MIUI。

OpenClaw刻意简化了很多复杂的项目管理流程,把所有交互都集中在一个Chat session,同时在记忆持久化上做了大量工作,让普通用户更容易使用Agent。

其实类似OpenClaw的项目以前也不少,没有十个也有五个,只是今年OpenClaw跑出来了。我认为一个重要原因在于,它「胶水粘得足够多、足够好」。

我们更关注另一层问题:如何让用户快速、安全地访问Agent?当Agent出错时,如何在系统层面进行回滚?

围绕这些问题,我们把自己正在做的事情统称为Agent runtime。

除此之外,我们还把麦克风、扬声器、灯带等硬件能力全部打包成SDK,再进一步抽象成Skills,原生地放进Agent体系里。

这样一来,Agent在运行时,就不只是「生成文本」,而是可以通过硬件去表达状态、反馈和意图。

Q:把硬件能力打包成Skills,解决了什么痛点?

叶天奇:一个很直接的痛点是,非技术用户如何快速上手硬件。

我们在卖产品时,会附赠一个硬件小玩具。哪怕你完全不懂技术、不懂编程,拿到产品之后也可以立刻开始玩。只需要开机,把这个硬件插上,就可以直接用,不需要理解它的工作原理。

这个过程其实不需要我们在Agent层或者模型层投入特别大的精力。

因为硬件是通过USB和设备通信的,只要插上,Agent就能立刻识别你连接了什么设备。比如你插的是一块基于ESP32的LED模块,这个信息会直接在系统里被识别出来。

当你再去和Agent交互时,Agent会先检查当前的USB端口上连接了什么设备。它会发现这是一个基于ESP32的、具体型号是什么的硬件,然后再去查看:当前项目目录里,是否已经存在这个硬件对应的说明书。

然后Agent就会知道,如果要给这个硬件写程序,需要用什么工具、通过什么方式刷进去;如果过程中遇到问题,它也知道该如何提示用户,比如提醒你去按一下设备上的reset按钮进行排错。

Q:Pamir能做OpenClaw能做的事情吗?

叶天奇:可以的。因为Distiller Alpha本身也是一台完整的电脑,和买一台Mac mini来跑是同一种性质。

只要是那种长期、可重复利用知识资产的工作,都可以直接放在我们的设备上去运行。

有一位用户是网络安全专家,他积累了非常多年的安全经验,自己整理了一大批网络安全相关的资料和方法论,全都记录在文档里。他把这些文档交给Agent,相当于把自己的经验沉淀成一套可以执行的SOP。

在网络安全领域,有一种常见的工作方式叫做漏洞赏金,安全研究者会到各个网站上寻找漏洞,找到之后网站会支付报酬表示感谢。

这个用户就是把自己的经验交给Agent,让Agent 24小时不间断地在各类网站上寻找漏洞。

Q:Pamir的自研硬件,和Mac mini这种通用电脑有什么区别?

叶天奇:Mac mini有点太奢侈了,如果你的需求只是检查一下Gmail、看看Slack消息,那其实没必要花这么多钱买一台Mac mini。

更重要的是,Mac mini并不是一个原生为Agent设计的系统。

今天不管是电脑厂商还是手机厂商,本质上做的还是「给人用的设备」。他们并没有在系统层面,专门为Agent预留一套执行、行动、回滚的机制。

所以Mac mini开箱之后,你需要自己做大量setup,这也是为什么像OpenClaw这类方案,在真实生产环境中会遇到很多问题。

当然,从纯性能角度来说,Mac mini的硬件上限很高。但我认为,决定一个系统是否能真正投入生产的,不是性能上限,而是系统层面的下限和鲁棒性。

Mac mini加OpenClaw的方案是没法真正投入生产的,原因就在于它的不可控性太强,它不是原生的Agent系统。

Q:那Pamir为了做一个「原生Agent硬件」,相比Mac mini砍掉了哪些功能?

叶天奇:首先,我们没有桌面,也没有传统意义上的屏幕系统。

如果你从第一性原理去思考,Agent的工作时长会越来越长,能力也会越来越强,最终它更像是你的一个同事。而你不会和同事共用一台电脑。

这也是为什么我们没有给Distiller Alpha做桌面系统和屏幕。Agent当然可以在内部使用虚拟桌面、虚拟浏览器,但这些并不需要被人看到。

Q:围绕这种第一性思考,你们增加了什么原生能力?

叶天奇:我们非常重视安全性。

一个很重要的能力是自修复。如果你把一个OpenClaw交给非技术用户,玩一天之后,很有可能就把系统搞坏了,因为Agent本身是可以修改自己代码的。

进Windows时,你可以按F12进入恢复模式,我们认为原生的Agent电脑也应该有这样的机制,不过是由Agent自己来完成。

我们的设备里有一个watchdog系统。当系统出现问题时,它会先进行自检,然后告诉你:比如某个关键文件被误删,导致系统异常。你只需要确认一次,系统就会在几分钟内完成自修复,重启后回到正常状态。

在这种情况下,我们甚至不需要提供什么售后支持。如果你的电脑坏了,让它自己修自己就好。

另外,硬件本身也是一个物理层面的沙盒。

有些安全问题,在软件层面很难彻底解决,但通过硬件就轻松很多。比如你在使用Mac时,会用到指纹解锁。

还有一个很重要的点,我们的每台设备都有一个独一无二的ID。在硬件层面,我们可以加入专门的加密芯片,用来存储这个Agent的ID。这个ID只能通过物理层面的方式进行暴力破解才能拿到。

Agent所绑定的高敏感个人信息,是可以直接和硬件捆绑在一起的,这对于防范围绕Agent的攻击非常重要。

Q:OpenClaw社区最近反馈了很多安全问题,比如擅自重构文件夹,甚至有用户的钱全被转走了,这是怎么回事?

叶天奇:这和OpenClaw的设计取向有关。

它为了追求便捷性和自动化,希望创造更多「hands off」的惊喜时刻,因此在系统里加入了非常多的自动执行逻辑。比如它内部有类似「心跳机制」的设计,每隔一段时间就会主动去寻找可以做的事情。

但它的下限和系统鲁棒性不足,这种过强的主动性和自动性,会直接带来不稳定性。

在我看来,OpenClaw更像是一种新的软件范式。如果你去看它生成的代码,会发现整体结构非常混乱,有不少bug。

这种产品会越来越多,而且也会继续有人使用。但它和我们这种有专业团队、一步一步从系统层和硬件层进行设计、开发的产品,在本质上还是不同的。

我们不会像OpenClaw那样,为了让Agent能一直跑,就不断给它叠加各种Skills。在权限和安全设计上,我们更强调引入人的监管。

Q:所以还是OpenClaw的上限更高?

叶天奇:我纠正一个容易被误解的点,并不是说OpenClaw本身的软件或架构决定了它的上限更高。

更多是因为外部条件:它跑在Mac mini这种性能很强的硬件上,同时又调用了当前最好的模型。

Q:有人把OpenClaw能做的事情从简单、中等到高难度分了几个级别,你能给Pamir做个类似的分级吗?

叶天奇:很多知识工作者买我们的设备,做的事情其实非常简单。他们把它当成一个「聪明的硬盘」。

比如有一位律师用户,有一个项目涉及两百多份文件。我一开始也很疑惑他为什么要买我们的设备,后来发现他之前一直用ChatGPT,但没办法一次性把这么多文件交给它。

我们的设备刚好解决了这个问题。对他来说,它就是一块可以被Agent理解、可以直接操作的移动硬盘。

再比如,有些用户会把U盘插到设备上,然后直接对Agent说:「这个U盘里有个文件,你帮我改一下。」Agent可以自己进入U盘目录,找到文件、修改、再告诉用户已经完成。

这一层的本质就是文件系统级能力。

再往上一层,就涉及真实的「电脑行为」。

比如让设备去查看Twitter、订餐厅、处理网页上的事务。这类事情如果放在纯云端环境,其实并不好做。但我们的设备本身就是一台真实的电脑,有自己的浏览器、桌面和网络环境。

举个例子,我之前想订一家餐厅,一直订不到位置。我就让设备去盯着网页。银行卡信息是存在设备里的,一旦有空位出现,它就可以立刻帮我完成预订。

过去类似的事情,大家通常是写脚本来做,但很容易被网站的「机器人检测」拦下来。现在你可以让Agent像人一样打开网页、浏览、点击,这种行为很难被识别为自动化。

再往上一层,往往和你个人的技术能力或知识资产高度相关。

比如有程序员用户,白天在公司上班,家里放着我们的设备,把自己的「第二份工作」相关内容全部交给Agent。他会在中午休息或者空闲时间,通过设备检查第二份工作的进度、下达接下来的任务,相当于同时做两份工。

类似的情况也出现在电气工程师、维修技工身上。他们过去要带着电脑去现场检修设备,现在只需要带这台设备,把可复用的维修流程和知识资产都交给Agent,再连接服务器就行,能显著加快检修效率。

再往上走,就是偏极客的高级玩法了。

比如之前说的逆向打印机、强行控制硬件。如果你的技术背景足够扎实,只需要把这些知识交给Agent,它就可以很快帮你写出一份Linux驱动,直接控制设备。

为什么要自研硬件?

Q:Pamir是在用一台硬件去替代原本的电脑。另一种是Manus路线,让Agent操纵云端的虚拟计算机。如果看便携性,这种方式岂不是连额外硬件都不用带,只需要一部手机就可以了?

叶天奇:对,从技术上来说,这是另一种解法。

我认为这两种形态在未来都会长期存在,只是它们适合的任务类型不一样。

云端虚拟计算机更适合做一次性的任务,比如调研、科研相关工作。这类任务往往是one-shot的,不太强调长期运行和状态持久化。

但如果你需要的是长期持久化的Agent,问题就来了。这些信息要不要一直放在云端?那是不是意味着你要持续付费?而且很多高度个人化的信息,大家也不太愿意长期放在云上。

这其实和人们买电脑是一样的逻辑。理论上,很多文件都可以放在云端,但真正和你每天工作强相关、需要随时访问的东西,你还是会更希望它在自己身边、随手可用。

另外一个差别点是,硬件更容易通过USB和硬件打交道。尤其是知识工作者,会大量使用U盘、SD卡,实体设备在这种场景下更顺手。

Q:除了刚刚提到的这些功能性价值之外,从你的个人体验来看,这种实体硬件在情绪价值上,能带来什么?

叶天奇:情绪价值其实非常多。

在早期阶段,如果你想用纯软件去「惊艳」开发者,其实是很难的一件事。通过硬件形态,反而更容易让他们产生情感连接。

比如Distiller Alpha,外壳表面覆了一层特殊的手感漆,整体是偏柔软的触感。很多用户第一次拿到设备时,都会觉得这是一个远远超出预期的体验,因为他们从没见过一台「软的」的电脑。

这会让他们意识到:这不是一个Mac mini的替代品,而是一个全新的品类。

产品形态如果不够创新,用户第一句话一定会问:「这和手机有什么区别?」「这和电脑有什么区别?」

我觉得在做面向未来的产品时,很重要的是,要主动打破用户已有的认知框架,消解他们的疑虑,让他们来不及问出这些问题。

此外,当你通过硬件设计、材质、触感,让用户意识到这是一个从未见过的形态时,产品的情绪价值就会被显著放大,这对To C产品来说非常重要。

Q:这也是为什么你们一开始会选择线下销售的原因吗?

叶天奇:对。我们会去参加各种黑客松、线下活动。

你问的很多问题在线下也经常被问到,比如:为什么不直接跑在云上?为什么不直接用ChatGPT?

但现在问这些问题的人越来越少了。我觉得这和OpenClaw的走红也有关系,如果OpenClaw是四个月前发布,很多人可能根本不知道它是什么。但现在,市场对Agent、以及「Agent需要自己一台电脑」这个概念的接受度提高得很快。

Q:你们在黑客松遇到消费者,会怎么说服他购买?

叶天奇:我一般会先问一个很简单的问题:「你平时用不用Claude Code?」

如果对方说用,那其实已经基本落在我们的目标用户范围里了。

接下来我会继续问他:「你现在有没有在写代码?」

通常他说没有。我就会接着说:

「你其实应该在写代码,现在写不了,是因为你把你的电脑合上了。」

这时候他往往会愣一下,然后觉得你说得有点道理。

然后我会直接掏出手机,给他看我正在用手机远程Vibe coding。

这一刻通常就已经完成了认知转变。

还有一些不是当场发生的。有一个极客,平时用机械键盘,晚上敲代码声音很大,女朋友嫌他太吵,不让他继续敲。

但那天晚上他的灵感还没断。他回到床上,突然想起了我们的设备,于是直接给设备发消息,继续推进他的项目。

那一刻他觉得特别爽。后来他在社交平台上发了很多帖子,主动推荐大家买我们的产品。

我觉得本质上,我们打动的,是那些不希望被打断心流的人。

Q:那假设我已经被说服了,也花了250美元买了这个设备,我拿到设备后要做些什么?

叶天奇:首先你需要有一个Claude账号。大部分购买我们设备的人其实已经有了。

拿到设备之后,你只需要插上电,它会先显示一个二维码。扫这个二维码之后,会进入Wi-Fi连接页面,设备连上网之后,会再生成一个新二维码。

你再扫一次这个二维码,就可以进入设备页面,登录你的Claude账号,然后就可以开始对话了。

在最开始的阶段,我们会给用户准备一些「玩具级」示例。

比如我们会引导你创建一个个人主页,这个主页直接跑在这台小电脑上。它可以每天帮你抓取你感兴趣的论文、新闻或信息更新。

硬件这块,我们会附赠一个硬币大小的8×8的LED灯阵。拿到这个小玩具后,有些顾客会描述自己喜欢的游戏角色,说:「你帮我把这个角色展示出来。」

然后设备会自己去网上查这个角色的形象,下载需要的依赖,生成对应的程序。

两分钟左右,这个LED灯阵上就会开始播放他喜欢的角色动画。整个过程用户什么都不用做。

Q:在部署成本这件事上,Pamir的优势主要体现在哪里?

叶天奇:我们其实准备了两套使用方式。

对技术人员来说,你可以直接在电脑上打开,用的就是VSCode这一套熟悉的IDE体系。这一类用户几乎是零门槛,他们本来就在用这些工具。

对非技术人员来说,他们完全不需要碰电脑,可以直接用手机。手机端是一个和ChatGPT很像的网页界面,通过对话的方式来使用。

当然,非技术用户也不是完全不需要学习,只是学习成本会低很多。我也承认,OpenClaw在这一点上做得很好,它通过集成到用户已经熟悉的聊天工具里,对非技术用户来说,几乎是「天然可用」的。

所以两者最大的差别,其实是在交互路径上。

Q:刚才聊了很多新用户的体验,但你应该算最老的用户,用了这么久本地Agent,它对你个人的生活和工作习惯,带来了哪些变化?

叶天奇:变化其实非常大。

我们是深度用户,现在大家对OpenClaw的体验,我们在半年前就已经经历过了。

到现在,我们公司内部已经开始出现一种现象——

传统电脑的存在感越来越低,很多工作,用设备+手机+iPad,甚至再加一个AR眼镜,就已经足够了。

现在我们在打开电脑之前,都会先问自己一个问题:我现在要做的这件事,能不能交给设备?

如果答案是肯定的,那这件事可能已经不需要人去做了。

所有人的角色,几乎都被迫「往上提了一级」。以前你可能还是一个主要负责写代码的角色;现在你更像是一个架构师,需要决定方向、拆解问题、设计系统。

Q:当Pamir帮把很多工作自动化后,你把时间花在了什么地方?

叶天奇:学习,读书。当然,作为CEO,我更多的时间会放在判断接下来几个月可能发生什么,以及应该围绕这些变化去设计怎样的软件架构。

真正花时间的地方,已经从「执行」,转移到了Review和思考上。

过去,行动比想法更有价值。公司之间的差距,主要来自工程能力和工程时间的堆积。

但现在,行动本身的价值在下降,因为Agent可能十分钟就把事情做完了。反而是你的思考、你的判断、你的愿景,变得越来越重要。所以我们现在会花大量时间去复盘、讨论、对齐方向。

Q:这种转变,会对公司的组织形式和工作范式带来什么影响?

叶天奇:我觉得这种变化带来的冲击会非常大,很多公司可能还没真正意识到这一点。

如果把今天的大厂,尤其是一些Frontier Lab,和普通创业公司放在一起看,会发现差距非常明显。

原因在于,模型厂商掌握着模型本身的控制权。

用户在使用过程中遇到的所有问题,都可以被他们捕捉到。这些问题会直接进入下一轮后训练,模型的下限会不断被抬高,鲁棒性会越来越强。

这意味着他们是可以形成闭环的,模型和Agent可以一起成长,产品会越用越好,内部效率也会越来越高。这也是为什么Claude产品会越用越好。

相比之下,如果你只做Agent layer,就算你把Agent写得再好,它也没法把反馈「喂」回模型。你只能不断用人力去维护规则、修补边界。

我觉得今天的创业要想清楚一件事:自己的真正优势和差异化到底在哪里?

一定要做那些别人暂时做不了的事情,主动避开不公平竞争。

Q:如果Claude下场做类似的事情,你们的护城河在哪?

叶天奇:对我们来说,就是系统层和硬件层。

硬件意味着供应链、生产、真实用户交互、物理世界里的反馈,这些并不在模型到Agent的闭环之中;系统层的沙盒、安全、回滚机制,同样是在模型和Agent之上的一层。

说实话,今天软件层面的护城河已经非常薄了,而且只会越来越薄。就算你做出来一个新功能,别人可能花两天就能把复现出来。

真正的护城河,更多集中在硬件本身,以及软硬件的深度集成上。

能耗、芯片选型、内存和存储的配比、Agent能跑到什么边界、供应链周期,这些都需要大量经验和时间去一点一点堆出来。

核心还是两点。

第一,是你对Agent的认知深度。

这个领域变化太快了,几乎每天醒来都会出现新的东西。如果你对Agent的理解没有至少几个月的前瞻优势,很容易就会陷入被动追赶。

第二,是你能不能做出10倍、20倍级别的用户体验差异。

如果只是1.2倍、1.5倍的改进,在今天的软件竞争环境里,很快就会被淹没。

你看现在Claude产品确实已经很好用了,但真正的非技术用户有多少人在用Claude Code?

在我看来,这个体验距离「我爸妈也能用」之间,依然存在明显的gap。而这个gap,恰恰是本地Agent和软硬件结合还有机会去填补的地方。

Q:有没有一些关于使用Agent的小tips,能让普通用户用得更高效一些?

叶天奇:我觉得可以先假设一个前提。如果大家用的都是顶尖模型、顶尖Agent layer,那么最终效果的差异,很大程度上并不来自「模型聪不聪明」,而是你如何和它沟通。

一个很常见的问题是,很多人一上来就把一个很大的任务一次性交给Agent。这种情况下,Agent做不好是非常常见的。

我自己的习惯是先和Agent一起做计划。但我也不会让它一次性把所有事情规划完,然后直接Kick off全流程。那样在执行过程中,几乎一定会出错。

我倾向于把任务切割成足够小、足够清晰的步骤,再告诉Agent把这套计划存下来。

这样一来,它在后续执行时,可以不断回访「自己该做什么」,整个过程会更有条理,执行的鲁棒性也会更高。

还有一个很多人容易忽略的点:如何把一次对话,转化成可复用的知识资产。

很多人Vibe coding完了就结束了,这个过程中产生的大量经验,并没有被保存下来。

比如你在调一个蓝牙模块,怎么都连不上,最后发现是因为某种芯片只接受特定格式的消息。这本身就是一个非常有价值的知识点,在之后的项目里,很可能会反复用到。

所以我会建议用户,在使用过程中有意识地引导Agent把这些错误、踩坑、解决路径,总结成可复用的Skills或规则。

不要用完就结束,记得持续积累属于你自己的知识资产。

本地Agent的创业感悟

Q:能跟我们讲讲你的创业故事吗?最开始做这个项目的时候,起心动念是怎样的?

叶天奇:说实话,这个项目里,运气的成分挺大的。

我们一年半以前就开始做Pamir。那个时候,很多人连Agent是什么都不知道。当时Pamir也不是现在这个形态,我们最开始做的是端侧AI,To B业务。

我和联创张城铭毕业后,大概在大厂工作了两年。那段时间,我们白天上班,晚上和周末就尝试各种各样的项目,但一直没有真正做出什么特别大的东西。Pamir对我们来说,算是一次孤注一掷。

在这之前,我们一直都是边上班、边做项目。但做Pamir的时候,我直接搬到联创家里,睡在他家的沙发上。那段时间其实挺糟的,全职工作也做不好,项目也做不出来。想着「要么成、要么就算了」。

当时做Pamir的判断是:如果你要做嵌入式系统,就一定需要一个端侧的硬件板子。所以一开始我们是在卖开发板,面向的是硅谷一小撮在做对话式AI和硬件结合的极客。

不过,联创和我都是技术出身,对融资一无所知,也不知道应该怎么讲故事,基本就是硬着头皮做。

花了几周时间把原型做出来之后,就直接拿到硅谷去卖。

Q:最开始卖给硅谷,顺利吗?

叶天奇:比我想象中要顺利。

当时正好有两个非常有名的AI硬件项目,一个是Rabbit,另一个是Humane,带起了一波AI硬件创业的热潮。那个时间点,市场是被充分教育过的,我们本身的产品也很有优势。

当时很多做语音交互的AI公司都非常「笨重」:用树莓派,加USB麦克风,再加USB扬声器,拼成一个很大的盒子。

我们给他们展示的,是一个非常小的板子,却能完成他们现有方案里大部分的功能。这对他们来说吸引力非常大。

Q:当时和你们在同一批起跑的竞争对手,现在都是什么状态?

叶天奇:很多都选择All-in端侧模型,甚至是Double down在端侧这条路上,但基本都转去做To B业务了。

从市场上看,To B这几年是有增长的。端侧模型越做越小、越做越轻,在一些明确的落地场景里是成立的,比如车机系统、企业内部的私有化部署,都会有需求。只不过,这条线的增长速度,明显赶不上Agent相关的公司。

我们也不太适合做To B生意,坦白说,我们不太喜欢和B端客户打交道。

一是交期要求非常严格,二是很难发挥想象力。

好不容易从大公司出来创业,结果折腾一趟后,发现自己又在给别人打工。

有一次我在给产品写代码,让Agent跑任务。我盯着屏幕看了大概两分钟,什么都没做,只是在发呆。

突然一个念头闪过——为什么我的Agent在工作,而我却要盯着它看?

从这个体验出发,我们推导出一个结论:未来一定需要一种Agent自己的、独立的计算设备。

想清楚这一点之后,我们几乎是立刻决定把所有端侧相关的方案全部删掉,全面接入当时最新的大模型,彻底转向To C。

之后的事情就比较顺了。

我们开始正式卖产品,开始大量做线下展示。后来Vibe coding开始流行,然后Claude Code火起来,我们又继续往这个方向演进。

Q:你觉得现在更幸福,还是之前在公司上班的时候更幸福?

叶天奇:这是个好问题。

其实我之前也被朋友问过类似的问题,问我理想的生活状态是什么样的。我想了很久,发现现在的生活基本就是我理想中的状态。每天都有新的挑战,还能和志同道合的人一起解决问题。

你可能听说过「传教士」和「雇佣兵」的说法。我们更像传教士,是在为一件高于自我的事情工作,即使短期没有物质回报也愿意坚持。

一开始做Agent电脑,很多人根本理解不了,觉得不可理喻。但我们自己是信的,甚至觉得这件事情的意义,高于我们个人本身。

我们现在创业在做的,就是把它带到这个世界上。我很享受这个过程。

Q:你有没有更宏大的愿景?AI电脑这件事,最终会走向哪里?

叶天奇:我们希望替代现在意义上的电脑,更准确地说,是替代笔记本电脑。

今天人的大量时间,还浪费在极低价值的操作上,比如在不同系统、不同表格之间手动搬运数据。我们希望把这些工作彻底自动化,让人把精力用在真正需要思考、判断和创造的事情上。

也有一点很个人的动机。我其实非常想挑战苹果。

我现在对苹果的态度是复杂的。一方面我很依赖它的生态;另一方面,我对它当前定义「个人计算」的方式感到不满意。公司里很多人也有类似的感受。

手机厂商当然知道自动化、智能体是趋势,他们也会往这个方向走。但路径有根本差异。

他们做的是前台,所有能力最终都要回到屏幕、交互界面和注意力占用上;我们做的是后台,很多任务不需要屏幕,也不需要人持续盯着。

我们认为这是一次非常难得的机会,终于可以不再需要围绕「屏幕」去设计产品。

Q:最近OpenClaw把Mac mini又带火了一波,你什么感受?

叶天奇:这确实是我们很难在短期内追平的一点。

苹果在处理器、硬件整合上的能力,几乎没有对手。这也是我们后面考虑逐步引入高通芯片、一点点缩短硬件差距的原因。

但从另一个角度看,在Agent成为主导范式之后,硬件参数的重要性在相对下降。苹果依然可以继续做极其强大的通用计算设备,这件事不会消失。但它是否一定是Agent的入口,这件事并不确定。

历史上类似的情况其实反复出现过。早期个人计算时代,也有像IBM这样的巨头存在,但形态、入口和主导权依然发生过转移。

我觉得今天是又一次轮回,只是这一次的核心变量变成了Agent。

标签: 硬件 用户 叶天奇 电脑 系统 能力 方式 产品 层面 信息 软件 手机 大量 时间 问题 状态 大家 形态 屏幕 公司 事情 价值 过程 体验 文件 原因 芯片 代码 个人 技术 厂商 项目 对话

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。