当前位置: 首页 » 资讯 » 科技头条 » 正文

小米前高管唐沐创业咖啡机器人,完成数亿融资,张小龙、黎万强投过

IP属地 中国·北京 编辑:李娜 36氪 时间:2026-07-03 16:08:35

本文约3300

字,建议阅读7分钟

作者 | 邱晓芬

编辑 | 袁斯来

硬氪获悉,通用餐饮具身机器人公司「影智XBOT」连续完成数亿元两轮融资——其中,A轮的2亿元融资由香港简坤资本GPTX出资,B轮融资为3-5亿元人民币,由多支政府基金、美元基金和产业投资方共同参与出资。

这是目前餐饮垂直机器人领域规模最大的一笔融资之一。

在此之前,「影智XBOT」还完成了一轮天使融资,出资人阵容豪华——包括腾讯高级副总裁张小龙、小米联合创始人黎万强、黄江吉、林斌、洪锋、以及港科大首席副校长郭毅可等。

「影智XBOT」成立于2022年,其创始人唐沐称得上机器人圈的“异类”——是机器人圈CEO中罕见的产品经理出身。

(图源/企业)

在此之前,他历任金山软件、腾讯CDC总经理,负责QQ、QZone等产品的体验设计;后又担任小米生态链副总裁,先后主导推出小米路由器、小爱音箱等千万出货量的标杆爆品,做产品的经验累计达25年。

只是,当整个具身智能赛道都在为人形进家庭和工厂的叙事而疯狂时,「影智XBOT」却选择了一条看起来不那么“酷”,却能快速产品化和商业化落地的路径——让机器人在商场角落做咖啡。

与多数主流人形机器人公司不同,「影智XBOT」的技术架构围绕餐饮垂类场景设计,并以“XOS 3.0具身操作系统”为核心,采用了一脑多形的架构。

据唐沐介绍,该系统分为三层——

大脑层:负责高层认知与任务规划,搭载知味餐饮大模型,基于DeepSeek基座训练,融合了400万杯咖啡的真实出品数据;

小脑层:负责将语义指令转化为关节级控制信号,响应时间小于10毫秒,已沉淀50多种餐饮动作原子技能。

本体适配层:实现了跨形态复用,支持“一次研发,万形复用”,可将咖啡臂的控制逻辑迁移至「影智XBOT」的冰淇淋、调酒等其他机器人上。

(图源/企业)

这种架构帮助机器人规避了当前VLA(视觉-语言-动作)模型泛化难的行业痛点。

唐沐向硬氪指出,行业内普遍认为VLA泛化能力差,是因为试图让一个模型同时完成叠衣服和做饭等截然不同的任务。而「影智XBOT」的策略是限定场景,仅在异常处理时调用VLA模型作为兜底,以此节省算力并保证稳定性。

此外,「影智XBOT」还搭建了一套完整的数据飞轮。

这一系统在实验室进行仿真预训练,并在真实商业场景中进行在线强化学习,依托400万杯以上的真实作业数据持续优化;同时,通过RLHF(人类反馈强化学习),对齐300万次以上的人类偏好数据,不断提升模型表现。

而在搭好了模型、数据的基础设施底座之后,「影智XBOT」近期发布了四条产品线,覆盖不同层次的餐饮具身需求。

XBOT C3咖啡机器人:占地面积1.83平方米,采用6轴机械臂,重复定位精度±0.02毫米,每小时可出品80杯咖啡,满电状态下可连续制作150杯,配备43英寸数字人屏及“爱宝店长”Agent,售价21.9万元;

XBOT I3冰淇淋机器人:体积更小,每小时可出品60杯以上,制作失败率低于千分之五,设计寿命达25万杯,支持4种酱料和4种脆粒添加,售价17.9万元;

XBOT X1通用餐饮人形机器人:配备7轴双臂,双臂协同精度≤±1毫米,搭载单颗辉羲R1芯片,提供500TOPS本地算力,计划于2026年底量产,可实现拿取、制作、放置、递送全链路闭环,预计2026年底发售;

XBOT CUBE机器人快餐车:搭载20度电池,占地8平方米,支持咖啡、冰淇淋、调酒及烤肠等功能,上市时间待定。

唐沐向硬氪判断,由于人形和半人形并非所有场景的最优解,在未来,专用单臂机型与通用半人形机型将并行发展。

而为了保障未来的产能,目前,「影智XBOT」在南京、岳阳、上海、北京亦庄的基地年产能达2万。

不过,技术必须服务于商业闭环,唐沐用“跑滴滴”来类比「影智XBOT」的商业模式。

据其介绍,以浙江义乌某商场投放的Lite系列咖啡机器人为例,设备售价十余万元,日均出杯量约200杯,客单价约20元,单月累计营收可达6万元以上,净利润超过3万元。算下来,回本周期仅仅为6至8个月——机器设计寿命为5年,扣除回本周期后,剩余时间基本为纯利期。

(图源/企业)

唐沐以滴滴作类比:滴滴司机花费十几万元购车,还需全天绑定在车辆上,而同等价格的机器人仅需每天进行一次补料维护。从商业逻辑上看,咖啡机器人本质上是一台更高效的生产资料。

基于此,XBOT没有采用行业常见的租赁模式。唐沐认为,租赁并不适合机器人时代,为此,「影智XBOT」推行RaaS模式(Robot as a Service,机器人即服务),

据唐沐介绍,未来加盟商支付机器成本后,还需按月缴纳三项费用,包括物料订阅费(咖啡豆、奶制品等)、Agent Token费(爱宝店长数字人服务)、以及维修保养费。

值得注意的是,目前,行业内仅有「影智XBOT」持有“全国全品类食品经营许可证资质”,这使得公司能够合法合规地控制供应链,从而锁定RaaS闭环。

在客户结构方面,「影智XBOT」锁定了非咖啡连锁的异业客户,比如奢侈品店、家居店、4S店等。

同时,「影智XBOT」也为京东七鲜咖啡、亦庄机器人、菲柯机器人(FICO咖啡)、吉旅控股(吉林冰雪文旅)、博物天行(文博场馆)提供解决方案,并与拥有四千多家门店的亚洲咖啡品牌共同探索海外市场。

截至目前,「影智XBOT」的咖啡机器人已在全球100+城市落地1000+台,产出咖啡超过400万杯。2025年,「影智XBOT」营收已突破1亿元。唐沐向硬氪表示,2026年,「影智XBOT」手握的订单金额已接近3-5亿元。

而在成立短短四年内快速跑通技术、产品和商业闭环,有赖于「影智XBOT」核心团队“铁军”。

有意思的是,「影智XBOT」团队配置不同于典型的机器人公司,更像是一家成熟消费品公司与AI公司的结合。

据介绍,「影智XBOT」的机器人技术板块由王嘉力主导,作为哈工大机电博士,他曾任航天科工、三一集团、新松机器人等企业高管。

「影智XBOT」的运营板块则由“瑞幸系”班底组成,其中包含曾负责大区超高体量门店连锁运营、品牌标准化体系、连锁培训体系搭建相关工作的曹锐锟、于涛等人。

以下是硬氪与唐沐的对话节选:

硬氪:选择切入商业场景,是基于什么考量?

唐沐:这个推导过程非常线性。第一步,我会首先排除toC家庭场景,当时观察行业趋势,很多团队前赴后继地训练机器人叠衣服、煮饭,钱烧了但结果不尽如人意,结论是除了扫地机器人这种用途被严格圈死的品类,通用家庭机器人短期内并不可行。

第二步,排除toB工业场景。黑灯工厂里传统的机械臂已经足够高效、稳定,根本没有空间让一个步履蹒跚、行为不可预测的人形机器人进去拖慢速度。工业场景不需要人形,需要的是效率。

第三步,锁定toB商业场景。既然家庭和工厂都不合适,那就在商业里寻找最大、最高频刚需且在增长的生意。推演下来,咖啡是最优解——它是全球通用的高频饮品,标准化程度高,且正处于快速增长期。所以,我们做咖啡机器人不是拍脑袋的灵感,而是排除了错误答案后,逻辑推导的必然产物。

硬氪:今年以来人形机器人估值飙升,而你们坚持做非人形垂类,你怎么看待这种形态选择?

唐沐:马斯克说人形符合第一性原理,但在很多工作场合,人形其实是累赘。长腿本身就要消耗大量算力和电力,站起来只为“看起来像人”,并不解决实际需求。我们的逻辑是,非人形在很多场合能完成人干不了的事,反而更重要。

硬氪:在硬件选型上,你们坚持用六轴工业臂、夹爪、谐波减速器这些成熟的供应链产品,为什么?

唐沐:商业场景的第一准则是稳定,不是炫技。五指灵巧手标称能开合10万次,但在商场里,一旦抓空导致咖啡洒了,当天经营就会受影响,所以我们只用工业验证过的夹爪。关节也是同理,行星减速器只适合“摆大致动作”,而谐波在重复定位精度、量产成本和使用寿命上都赢。商业不接受实验室里的“大概齐”,必须追求确定性的“精准”。

硬氪:现在很多公司都在讲“通用具身智能”,你们却把场景限定在餐饮,这会限制未来的想象力吗?

唐沐:想象力不在于场景宽不宽,而在于能不能打透。过去有一段时间大家觉得“VLA已死”,是因为想让它既叠衣服又做饭,这在通域里确实难。但在垂域里,把活限定死,它就会好用。就像黑灯工厂里的机械臂,连眼睛都不用长,单一活低成本干好就行。

我们甚至大部分时候连VLA都不想触发,只在异常处理时才调用,省算力。将来几乎所有产品都会具身化,但不可能都变成机器人。所以,「影智XBOT」的目标是把餐饮这个垂直场景打透,通过“作业-数据-模型”的飞轮,成为具身智能时代的SaaS公司。

首页图源 | 企业供图

排版|范馨雅

标签: 机器人 咖啡 唐沐 影智 人形 场景 公司 餐饮 小米 商业 企业 数据 模型 产品 基金 算力 技术 逻辑 家庭 工厂 团队 亦庄 动作 图源 关节 滴滴 张小龙 资本 饮品 创业 门店 品牌 成本

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新