当前位置: 首页 » 资讯 » 科技头条 » 正文

发布多模态交互开发套件,发力硬件抢占入口!阿里云已兵分两条路布局AI手机

IP属地 中国·北京 时代财经 时间:2026-01-09 00:13:47

本文时代财经 作者:郭美婷

2026年开年,阿里云的“第一枪”打响在硬件。

1月8日,阿里云通义智能硬件展在深圳举办,阿里云发布多模态交互开发套件,该套件集成了千问、万相、百聆三款通义基础大模型,并预置十多款生活休闲、工作效率等领域的Agent和MCP工具,可应用于AI眼镜、学习机、陪伴玩具、智能机器人等硬件设备。

阿里云通义大模型业务总经理徐栋在接受时代财经等采访时表示,该多模态交互开发套件的核心是为开发者一站式降低门槛,具备四大特点:一是集成丰富模板,支持拖拉拽开发及自有SDK接入,大幅降低开发门槛;二是将按Token计量的计费模式改为按硬件终端的License模式,便于硬件厂商控制成本、匹配商业逻辑;三是通过工程最佳实践保障模型调用的速度、性能与可扩展性,提升使用体验;四是整合阿里生态能力,助力开发者实现更低成本开发、适配多元售卖逻辑、便捷开发及生态对接等需求。


徐栋,图源:时代财经摄

在流量红利逐渐见顶的当下,硬件入口已成为了互联网大厂们争相抢夺的“香饽饽”。大厂们试图通过硬件入口突破增长瓶颈,将软件生态的优势延伸至物理世界,以构建起硬件、软件、服务的商业闭环。

“今天大模型跟硬件结合,它确实就会带来新的流量。”徐栋表示,硬件有助于实现消费者体验的完整闭环,例如AI眼镜。“如今,众多厂商都在探索如何借助这类硬件入口,将更多服务融入自身生态,从而为用户提供更完整、连贯的体验。我认为这是目前行业内许多企业正在重点思考的方向。”

去年底,豆包和中兴(000063.SZ,00763.HK)合推的“AI手机”nubia M153引发广泛关注和讨论。在该款手机上,豆包将能够在多款应用间自动跳转,完成类似查票订票、商品下单、批量下载文件、多软件物流进度一键查询等任务。这条技术捷径,既引发了关于隐私、数据和安全的讨论,也冲击着布局AI的智能手机厂商们。

“从广义上看,手机的定义正经历显著变化,这一点我们早在多年前便已有所预见。”徐栋提到,许多手机厂商强调其“超级助手”功能,但该概念长期以来并未形成足够清晰的界定。当前,不少互联网厂商正试图通过接入手机系统权限来获取更多流量,但总体而言,这一趋势仍处于发展的早期阶段。

他表示,目前AI手机有两条路线,一条路线是GUI(图形用户界面),一条路线是A2A(Agent To Agent,应用间自动化交互)。据透露,目前阿里云在这两条路线上均有所布局,去年底,通义实验室多模态交互团队就宣布开源了其通用GUI智能体基座模型MAI-UI。

他进一步补充,GUI与A2A两条路线当前尚处于早期阶段,正在并行发展。“短期来看,我认为A2A的发展速度较快,其体验更优、响应更快,且模型运行成本较低。如果完全依赖GUI路线,以一部手机日均使用量计算,长期累积的成本可能更高。此外,通过多模态视觉交互完成一次操作,所涉及的计算资源也值得考量。总体而言,这些方向都颇具探索价值,也十分有趣。”徐栋称。

去年,阿里启动“千问”项目,基于Qwen模型打造千问APP,并称要全面对标ChatGPT。此举被业内认为是阿里转战C端的关键落子。

徐栋谈到,阿里云正尝试将在ToC产品中积累的部分能力,通过ToB合作形式向企业开放,同时也在ToC业务中探索拟人化交互的实现,并为企业客户降低开发门槛与成本。

1月8日,阿里云还宣布了与乐聚机器人的全栈AI合作,双方将基于阿里云算力、AI平台、千问模型,共同开展人形机器人训练场合作,以及探索基于千问模型的具身智能联合解决方案和人形机器人产品的开发。


图源:阿里云官方公众号

据徐栋介绍,目前阿里云在具身智能领域主要探索的合作方向有两个:其一是多模态交互。即基于千问Omni多模态模型与多家机器人公司开展合作,主要应用于低延时、拟人化的交互场景,并具备支持出海的多语言能力。该方向已相对成熟,但受限于机器人市场规模,目前应用规模尚有限;其二是VLA技术,目前阿里云正开展相关研究,预计2026年下半年可见初步进展,但实现高度泛化的VLA仍需时间。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。