阿里巴巴推出新款 Qwen 模型，三秒音频即可克隆声音

IP属地中国·北京 编辑：沈瑾瑜 Chinaz 时间：2025-12-24 12:28:24

近日，阿里巴巴云计算的 Qwen 团队发布了两款全新的人工智能模型，旨在通过文本指令生成或克隆声音。其中，Qwen3-TTS-VD-Flash 模型允许用户根据详细描述生成声音，用户可以精确定义声音的特征，如情感和说话节奏。
例如，用户可以请求生成一个 “中年男性，洪亮的男中音 —— 充满活力的广告解说，快速的语速，夸张的音调变化，充满销售魅力的声音”。根据制造商的说法，该模型在性能上超过了 OpenAI 最近推出的 GPT-4o mini-tts API。
第二款模型 Qwen3-TTS-VC-Flash，则可以仅通过三秒的音频复制声音，并能在十种语言中进行复现。Qwen 声称，该模型的错误率低于竞争对手，例如 Elevenlabs 或 MiniMax。
此外，该 AI 还能够处理复杂的文本，模仿动物声音，并从录音中提取声音。两款模型均可通过阿里巴巴云的 API 访问，用户还可以在 Hugging Face 平台上尝试设计模型和克隆模型的演示。
划重点:

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

苹果iPhone17封进美国250周年时间胶囊 2276年挖出开机希望渺茫

2026工业互联网大会召开　中国电信硬核AI夯实工业底座

扎根雄安：拼多多为“数字新城”注入人才动能

宇树科技IPO最新重大进展

腾讯寻求出售快手股份最高套现约16亿美元

上市降本攻略，就在小红书

全站最新

苹果iPhone17封进美国250周年时间胶囊 2276年挖出开机希望渺茫

2026工业互联网大会召开　中国电信硬核AI夯实工业底座

扎根雄安：拼多多为“数字新城”注入人才动能

宇树科技IPO最新重大进展

热门推荐

苹果iPhone17封进美国250周年时间胶囊 2276年挖出开机希望渺茫

2026工业互联网大会召开　中国电信硬核AI夯实工业底座

扎根雄安：拼多多为“数字新城”注入人才动能

宇树科技IPO最新重大进展

腾讯寻求出售快手股份最高套现约16亿美元

上市降本攻略，就在小红书

近期大厂事儿：菜鸟组织调整已生效，蚂蚁正在接触薄荷健康

腾讯寻求出售快手股份，最高套现约16亿美元

用夸克竟多出超4万陌生人账号信息？客服回应

2026年上半年保险罚单透视：910多张罚单、超1.6亿罚金、40人禁业，指向行业返佣、数据造假乱象

2026新青年创投大会在沪举行：00后登场，创投新周期开启

索尼把刀递给了Steam

优必选开启的，可能是「残暴的欢愉」？

波司登活成老登消费股

众擎冲刺港股，离第二个宇树还差什么？