当前位置: 首页 » 资讯 » 科技头条 » 正文

阿里云发布多模态交互开发套件 助力硬件实现“能听、会看、会交互”

IP属地 中国·北京 环球网资讯 时间:2026-01-08 18:18:45

环球网

1月8日,在阿里云通义智能硬件展上,阿里云正式推出多模态交互开发套件。该套件集成了千问、万相、百聆三款通义基础大模型,并预置生活休闲、工作效率等领域的多款智能体与工具,旨在为AI眼镜、学习机、陪伴玩具、智能机器人等硬件设备赋予更强的感知、理解和交互能力。


随着多模态大模型技术逐渐成熟,硬件设备通过接入大模型提升交互体验已成为行业趋势。然而,单一基础模型往往难以兼顾低成本、低时延、功能丰富与高质量效果等多元需求。阿里云此次发布的开发套件,致力于为硬件企业与解决方案商提供低门槛、快响应、多场景的开发支持。

在芯片适配方面,该套件已兼容30多款主流的ARM、RISC-V及MIPS架构终端芯片平台,覆盖大多数硬件设备的接入需求。未来,通义大模型还将与玄铁RISC-V进行全链路协同优化,实现在该架构上的高效部署与推理。

模型层面,阿里云不仅提供通义系列模型,还针对多模态交互场景推出专用模型,支持全双工语音、视频、图文等多种交互方式。据称,其端到端语音交互时延可降至1秒,视频交互时延不超过1.5秒。

此外,套件预置了涵盖生活、工作、娱乐、教育等场景的十余款智能体与工具,并接入阿里云百炼平台生态,支持调用第三方模板及兼容多方智能体协议,进一步拓展了功能边界与应用灵活性。

展会现场,阿里云展示了基于该套件的多项解决方案。在AI眼镜场景中,融合千问VL、百聆CosyVoice等模型,实现了同声传译、拍照翻译、多模态备忘等一体化功能;在家庭陪伴机器人方面,则可实现异常监测、告警推送、视频定位及人机对话等综合服务。

根据国际研究机构Gartner发布的生成式AI技术创新指南报告,阿里云在云基础设施、工程、模型及知识管理应用四大维度均入选“新兴领导者”象限,成为亚太地区唯一在此四项均获评的领导厂商,与谷歌、OpenAI等国际企业并列。(勃潺)

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。