2026-02-04 09:04:11

苹果公布 PCG 技术:质量零妥协、AI 语音生成提速 40%

摘要
苹果公司与特拉维夫大学合作,发表了一篇论文,提出一种名为“原则性粗粒度”(PCG)的语音生成新方法,以解决AI文本转语音技术的速度瓶颈

苹果公司与特拉维夫大学合作,发表了一篇论文,提出一种名为“原则性粗粒度”(PCG)的语音生成新方法,以解决AI文本转语音技术的速度瓶颈。

苹果公布 PCG 技术:质量零妥协、AI 语音生成提速 40%

目前,在生成语音方面,行业主流采用的是“自回归模型”,通过逐个预测的方式基于已有tokens来预测下一个。然而,这种机制要求预测结果必须精确匹配预设的tokens,导致模型常常拒绝实际上听感差异极小、完全可用的预测结果,从而拖慢了整体生成速度。

苹果公布 PCG 技术:质量零妥协、AI 语音生成提速 40%

为了解决这个问题,研究团队提出了“原则性粗粒度”技术。该技术的核心在于认为不同的声学token往往能产生几乎相同的听觉效果。因此,PCG不再将每个声音视为完全独立的个体,而是建立了“声学相似组”。只要模型生成的预测token落在正确的“相似组”范围内,系统就会采纳。这种灵活的验证机制将严苛的“单点验证”升级为了容错率更高的“范围验证”。

苹果公布 PCG 技术:质量零妥协、AI 语音生成提速 40%

在具体操作中,PCG引入了“投机解码”策略,构建了一套双模型协作架构。一个轻量级的小模型快速猜测并提出候选语音token,随后由参数更大的“裁判模型”进行审核。如果候选token属于正确的声学组,大模型便会放行。这种方式不仅保留了小模型的速度优势,也利用大模型保证了输出质量,有效平衡了效率与准确性。

实验数据显示,应用PCG技术后,语音生成速度提升了约40%,且未牺牲音频质量。在自然度评分中,该模型取得了4.09分的高分。此外,在极限压力测试中,研究人员发现即使将大部分语音token替换为同组的其他token,词错率和说话人相似度的变化也非常微小,几乎无法被人耳察觉。

PCG作为推理阶段的优化方案,意味着无需对现有模型进行重新训练即可直接应用。存储声学相似组仅需额外约37MB内存。

科技趋势
时事资讯
回顶部