真正的语音交互,核心不是“Voice”,而是“Sound”(声音)。
该模型支持视频内容结构化推理生成匹配音频。
这一研究突破不仅是关于面部动画的,它是朝向实时互动的音频视觉AI角色迈出的一步。
07/09 12:20
07/09 12:19
07/09 12:18