7月22日,腾讯混元宣布其自主研发的ASR(语音识别)大模型正式应用于ima平台,首次在手机App端实现了语音输入功能,为用户带来了“出口成章”的便捷体验。用户现在可以通过语音直接输入问题或记录灵感,无需手动敲击键盘,极大地提升了输入效率。
腾讯混元ASR大模型以其敏锐的听觉和智能的理解能力脱颖而出,在复杂环境下依然能够准确识别语音,每分钟可识别300字,速度比手动输入快4倍,且识别结果更加精准自然。该模型采用业界首个基于双编码器的流式ASR架构,相比传统ASR技术,在语义理解能力上有了显著提升,尤其在中英文混杂等场景中表现更为出色。
此次ima平台引入的语音输入功能,覆盖了知识库问答、笔记创作等多个应用场景。用户在进行知识库查询或首页问答时,若问题较长,可直接通过语音输入;在撰写笔记时,ima则像一位会听音的笔记小助手,帮助用户进行创作,并能根据旧笔记快捷续写,实现无缝衔接。此外,iOS用户还可以通过添加桌面小组件,实现更快速的提问体验。
腾讯混元团队表示,未来将继续优化ASR大模型,提升方言识别和多语言识别能力,不断扩充支持的语言类型,以满足不同场景下的使用需求。此次语音输入功能的上线,不仅展示了腾讯混元在语音识别领域的技术实力,也为用户带来了更加高效、便捷的输入方式,开启了智能交互的新篇章。