针对AI语音合成领域长期存在的效率瓶颈,苹果公司近日联手特拉维夫大学发表了一项名为“原则性粗粒度”(PCG)的创新研究。这项技术通过改变AI对声音预测的验证方式,成功实现了在保证音质“零损耗”的前提下,将语音生成速度提升了约40%。
目前主流的文本转语音(TTS)模型大多采用“自回归”机制,即像串珠子一样逐个预测接下来的声音片段。然而,这种模式对结果要求极其刻板,模型往往会因为预测结果与预设数据存在极微小的听感差异而强行纠错,这不仅消耗了大量算力,更严重拖慢了生成速度。
苹果研究团队提出的PCG技术打破了这一僵局。该技术的核心逻辑在于“求同存异”:研究人员发现,许多细微差异的声音片段在人类听觉中几乎完全一致。因此,PCG引入了“声学相似组”概念,将传统的“精确点验证”升级为“范围验证”。只要AI生成的预测值落在合理的声学范围内,系统就会直接予以采纳。
在实际测试中,PCG表现惊人。即使将91.4%的语音片段替换为同组相似音,人耳也几乎无法察觉差异,模型自然度评分高达4.09分。此外,PCG作为一种“推理阶段”的优化方案,无需对现有模型进行重新训练,且仅需额外占用约37MB内存,这为未来在各种移动终端上普及高质量、低延迟的AI语音服务铺平了道路。
划重点:





京公网安备 11011402013531号