当前位置: 首页 » 资讯 » 科技头条 » 正文

微软解锁AI配音新技能:最长90秒多角色叙述,语音更像真人

IP属地 中国·北京 编辑:郑浩 IT之家 时间:2025-08-30 16:10:29

IT之家 8 月 30 日消息,科技媒体 Windows Latest 昨日(8 月 29 日)发布博文,报道称微软在 Copilot Labs 推出全新 AI 语音生成工具 Copilot Audio Expressions,可通过 Emotive 和 Story 两种模式生成更具情感的英文语音。

IT之家注:Copilot Audio Expressions 是一款 AI 语音生成工具,功能是让输出的音频更接近真人,并可根据需求加入创意润色。用户无需注册即可直接体验,并可下载 MP3 格式音频,方便在任何设备播放。

该工具目前提供 Emotive(情感表达)和 Story(故事创作)两种模式。

该媒体在测试 Emotive 模式后,选用“Oak”音色和“narration”叙述风格,将模拟火车站的脚本输入系统。

生成的音频不仅朗读了文字,还自动增添细节、调整措辞,让表达更生动。单段音频最长 59 秒,支持十余种声音与风格组合。

在 Story 模式下,系统自动选择音色和风格,用户仅需提供主题提示。

例如输入“讲一个猫在暗处潜行觅食的故事”,AI 就生成了一个长达 90 秒的多角色叙述:旁白用美式口音,猫的对白则为英式口音,并巧妙穿插互动,形成自然流畅的对话效果。

测试结果表明,Story 模式在情节构建、角色区分及声音融合度方面表现出色,输出的成品不像单调的机器朗读,更像是一次配音合作,让该工具不仅适用于简单朗诵,也可胜任有多角色的创意作品制作。

该工具目前仅支持英文,中文及其他语言用户暂无法直接生成母语音频,微软尚未透露后续是否会增加多语言支持。

标签: 语音 音频 用户 角色 模式 系统 口音 声音 真人 无法 工具 融合度 配音 区分 风格 表现出色 结果表明 媒体 英文 细节 措辞 方面 单调 火车站 语言 音色 中文 情感 科技 效果 成品

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。