能够完整保留原说话者的语调和节奏,让翻译后的声音听起来更自然。
该模型响应速度更快、语音更自然,对复杂指令的处理能力也更强
真正的语音交互,核心不是“Voice”,而是“Sound”(声音)。
这一研究突破不仅是关于面部动画的,它是朝向实时互动的音频视觉AI角色迈出的一步。
07/09 12:20
07/09 12:19
07/09 12:18