当前位置: 首页 » 资讯 » 科技头条 » 正文

阿里巴巴推出新款 Qwen 模型,三秒音频即可克隆声音

IP属地 中国·北京 编辑:沈瑾瑜 Chinaz 时间:2025-12-24 12:28:24

近日,阿里巴巴云计算的 Qwen 团队发布了两款全新的人工智能模型,旨在通过文本指令生成或克隆声音。其中,Qwen3-TTS-VD-Flash 模型允许用户根据详细描述生成声音,用户可以精确定义声音的特征,如情感和说话节奏。

例如,用户可以请求生成一个 “中年男性,洪亮的男中音 —— 充满活力的广告解说,快速的语速,夸张的音调变化,充满销售魅力的声音”。根据制造商的说法,该模型在性能上超过了 OpenAI 最近推出的 GPT-4o mini-tts API。

第二款模型 Qwen3-TTS-VC-Flash,则可以仅通过三秒的音频复制声音,并能在十种语言中进行复现。Qwen 声称,该模型的错误率低于竞争对手,例如 Elevenlabs 或 MiniMax。

此外,该 AI 还能够处理复杂的文本,模仿动物声音,并从录音中提取声音。两款模型均可通过阿里巴巴云的 API 访问,用户还可以在 Hugging Face 平台上尝试设计模型和克隆模型的演示。

划重点:

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。