这部分由一个特殊设计的多模态扩散模型(MMDiT)承担,它负责将「系统 2」的高层文本规划与「系统1」的底层音频信号(用于口型同步等)完美融合,生成最终视频。 为了让文本(系统 2 规划)和音频(系统 1 …
07/09 12:20
07/09 12:19
07/09 12:18