阿里发布两款语音新模型，可定制角色及模拟背景音

IP属地中国·北京 贝壳财经 时间：2026-03-02 14:10:47

新京报贝壳财经讯（记者罗亦丹）3月2日，阿里发布两款语音新模型，基于参考音频的声音克隆模型Fun-CosyVoice3.5和无参考音频的音色设计模型Fun-AudioGen-VD。两款模型均引入了强大的“指令遵循”能力，自由控制声音的情感、语速、场景等，可用freestyle（自由风格模式）定制角色，适用于有声书、游戏、客服、播客、教育、直播等多个场景。
在Seed-TTS基准测试的中文“困难案例”指标中，Fun-CosyVoice3.5表现抢眼，词错误率（Word Error Rate, WER）和说话人相似度（Speaker Similarity, SSIM）均为最佳。同时，因为优化了“困难案例”的发音，生僻字句错率由15.2%降低到5.3%。
Fun-CosyVoice3.5支持自由风格模式指令控制，解决了传统克隆模型只会模仿不能指定角色的痛点。比如录制一个人的声音后，可以输入指令，假设其是一位资深客服，正在面对极度愤怒客户，回复的语气需要柔软、真诚、充满愧疚，并对客户的情绪感同身受。
Fun-AudioGen-VD则专注“从无到有”的音色设计，其不仅能根据描述定制音色和情感，还能同步模拟复杂的听觉环境，如在生成人声时，可添加指定类型的背景声音，如城市车流、雨声、风噪、战场炮火、警报声、无线电杂音、咖啡馆人声、俱乐部音乐、图书馆翻书声等。
编辑杨娟娟
校对陈荻雁

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

华尔街解读Kimi K3算力需求：内存依旧吃紧，推动基础设施建设

国内AI行业罕见一幕！月之暗面回应马斯克：欢迎“掰手腕”

科大讯飞WAIC发布智能交互Agent GuideX 支持3000余项服务技能

美国制裁反而帮了大忙！德银披露：国产芯片今年要卖500万颗

DIY装机越来越不现实：DDR5价格飙至去年7月的448%！所有型号都在涨

英伟达推出合成视频检测器NIM：逐帧揪出AI生成视频，准确率可达92%

全站最新

华尔街解读Kimi K3算力需求：内存依旧吃紧，推动基础设施建设

国内AI行业罕见一幕！月之暗面回应马斯克：欢迎“掰手腕”

科大讯飞WAIC发布智能交互Agent GuideX 支持3000余项服务技能

美国制裁反而帮了大忙！德银披露：国产芯片今年要卖500万颗

热门推荐

华尔街解读Kimi K3算力需求：内存依旧吃紧，推动基础设施建设

国内AI行业罕见一幕！月之暗面回应马斯克：欢迎“掰手腕”

科大讯飞WAIC发布智能交互Agent GuideX 支持3000余项服务技能

网宿科技与深度动力联合发布全链路优化解决方案，提升每瓦Token效率

美国制裁反而帮了大忙！德银披露：国产芯片今年要卖500万颗

DIY装机越来越不现实：DDR5价格飙至去年7月的448%！所有型号都在涨

英伟达推出合成视频检测器NIM：逐帧揪出AI生成视频，准确率可达92%

保障算力底层安全！中国首款一体化抗量子机密计算平台面世

AI走出聊天框，搬进手机、眼镜、机器人的身体里

FSD自动驾驶超速被交警拦下开罚单！车主抱怨特斯拉亲删了一项好用功能

国产空气悬架塌陷引热议奕境汽车高管：X9标配铝合金焊接成型气室

用字节Seedance 2.0生成！《第九区》导演发布其首部AI短片《阴兵》

英伟达与Meta押注AI材料联合发力半导体底层基材研发

丰田章男称公司危机感“似乎很强”，工程师称“正在输给中国”

抖音生活服务上线直播间消费者被动入镜保护功能，面部自动模糊