当前位置: 首页 » 资讯 » 科技头条 » 正文

亚马逊突破:比特预测法实现图像生成高效加速

IP属地 中国·北京 科技行者 时间:2026-02-12 00:03:14


这项由亚马逊FAR(前沿AI与机器人)部门领导的研究发表于2026年2月,论文编号为arXiv:2602.09024v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

在人工智能图像生成领域,一直存在着两大技术流派的激烈竞争。就像烹饪界的中西餐之争一样,一种是"连续派"(类似西餐的精确测量),另一种是"离散派"(类似中餐的适量调味)。长期以来,连续派凭借其精细的处理方式占据主导地位,而离散派总是被认为质量不够好。然而,亚马逊的研究团队通过深入调查发现,这种差距的真正原因并非技术路线本身的优劣,而是资源分配的不均。

研究团队提出了一个全新的解决方案——BAR(masked Bit AutoRegressive modeling,掩码比特自回归建模)框架。这套系统就像一个聪明的画家,不是一口气画完整张图,而是先画出轮廓,再逐步填充细节。更重要的是,它用一种全新的"比特预测"方法,让计算机能够处理超大规模的图像词汇库,同时保持极高的生成速度和质量。

传统的图像生成就像用固定大小的颜料盒画画,颜色种类有限,画出来的图自然不够丰富。而BAR系统相当于给AI提供了一个可以无限扩容的调色盘,不仅颜色更多,调色过程还更加高效。实验结果显示,BAR在ImageNet-256数据集上创下了新的记录,生成图像的质量评分达到0.99分,超越了所有现有的连续和离散方法。

一、传统认知的颠覆:离散不等于低质量

长期以来,AI图像生成领域存在一个根深蒂固的观念:离散方法天生不如连续方法。这就好比人们一直认为数字相机永远比不上胶片相机一样。连续方法像胶片相机,能捕捉到细腻的色彩过渡和光影变化。而离散方法像早期的数字相机,图像看起来总是有些生硬和不自然。

但是,亚马逊研究团队决定彻底搞清楚这种差距的真正原因。他们没有急着改进算法,而是先做了一项基础性的比较研究。研究团队创造性地提出了"比特预算"这个统一标准来衡量两种方法。这就像用同样的预算去比较不同品牌汽车的性能一样,只有在公平的条件下,才能得出客观的结论。

比特预算的计算方式很直观。对于离散方法,如果图像被分成16×16个小块,每个小块用16384种可能的代码表示,那么总的比特预算就是256×14=3584比特(因为16384≈2^14)。对于连续方法,如果每个小块用16个浮点数表示,每个浮点数占16比特,那么总预算是256×16×16=65536比特。

当研究团队在相同比特预算下比较两种方法时,惊人的发现出现了:离散方法的表现并不逊色于连续方法。更进一步,当给离散方法分配更多比特预算时,它的表现甚至超过了连续方法。这就像发现数字相机在像素足够高的情况下,画质完全可以媲美甚至超越胶片相机。

研究团队用BAR-FSQ离散标记器进行了系统性实验。他们将编码书大小从2^10逐步扩展到2^256,对应的比特预算从2560增加到65536。结果显示,随着比特预算的增加,离散方法的重建质量持续改善。当比特预算达到65536时,离散方法的重建保真度(rFID为0.33)明显优于广泛使用的SD-VAE连续方法(rFID为0.62)。

这一发现彻底改变了人们的认知。原来离散方法并非天生inferior,而是一直以来都在"营养不良"的状态下工作。当给它们充足的"营养"(比特预算)时,它们展现出了惊人的潜力。研究团队得出了一个重要结论:离散标记器的主要性能瓶颈在于比特预算不足,而扩大编码书大小能让离散标记化超越连续方法。

这个发现的意义不仅仅在于技术层面,更在于它打破了领域内的固有偏见。就像当年人们发现地球是圆的而不是平的一样,这项研究重新定义了人们对图像生成技术的理解。它告诉我们,技术的优劣往往不在于路线选择,而在于资源配置和实现方式。

二、词汇量爆炸带来的新挑战

虽然扩大编码书大小能显著提升离散方法的性能,但这也带来了一个前所未有的挑战:词汇量爆炸问题。这就像给一个翻译官从1万词的词典升级到100万词的词典一样,虽然翻译会更准确,但查词的时间也会大幅增加。

在传统的自回归图像生成模型中,每次生成新的图像块时,模型都需要在整个词汇表中选择最合适的一个词。当词汇表大小从几千个扩展到几百万甚至几十亿个时,这种选择过程变得极其复杂和耗时。具体来说,模型的最后一层需要将高维隐藏状态投影到词汇表大小的向量上,这个操作的计算和内存需求随词汇表大小线性增长。

研究团队通过实验验证了这个问题的严重性。他们发现,当编码书大小达到2^18(约26万个词汇)时,使用标准线性预测头的训练已经变得难以承受。内存需求激增,训练时间大幅延长,而且随着词汇表继续扩大,这些问题会呈指数级恶化。

更糟糕的是,即使硬件能够支持如此大的词汇表,学习问题也变得异常困难。在如此庞大的选择空间中建立可靠的概率分布,需要大量的训练数据和计算资源。这就像让一个人在几百万种颜色中准确选择出最合适的一种来画画,即使是专业画家也会感到无所适从。

研究团队还尝试了一种直接的解决方案:比特预测头。这种方法不再直接预测词汇表中的索引,而是逐个预测组成该索引的二进制位。比如,如果要预测索引65537(对应二进制1000000000000001),就逐个预测每一位是0还是1。这种方法确实解决了词汇表扩展的计算问题,但带来了新的性能下降。实验显示,比特预测头在所有词汇表大小上的表现都明显劣于线性预测头,而且随着词汇表扩大,性能退化更加严重。

这种性能退化的原因在于,直接的比特预测忽略了不同比特位之间的依赖关系。在索引的二进制表示中,高位比特通常比低位比特更重要,而且相邻比特之间往往存在强相关性。简单的逐位独立预测无法捕捉这些复杂的结构关系,导致生成质量严重下降。

面对这个两难困境,研究团队意识到需要一种全新的方法来平衡计算效率和生成质量。他们的目标是设计一种既能处理任意大小词汇表,又能保持甚至提升生成质量的预测机制。这个挑战就像要设计一种既能快速查找又能准确理解的智能词典系统。

三、掩码比特建模:巧妙的解决方案

面对词汇量爆炸的挑战,亚马逊研究团队提出了一个巧妙的解决方案:掩码比特建模(Masked Bit Modeling,MBM)。这种方法就像一个聪明的猜词游戏,不是一次性猜出完整答案,而是通过逐步揭示线索来逼近正确答案。

掩码比特建模的核心思想是将标记预测问题转化为条件生成问题。传统方法像是让AI在几百万个选项中直接选择一个,而MBM则像是玩填字游戏——先给出一些已知的字母,然后逐步填补空白处的字母,直到完成整个单词。

具体来说,假设要预测一个用14位二进制数表示的图像标记,比如"10110100110101"。MBM不会一次性预测整个14位序列,而是采用渐进式的方法。首先,它会随机遮掩其中一部分比特位,比如变成"101M01M0MM0101"(M表示被遮掩的位)。然后,模型需要根据上下文信息和已知的比特位来预测被遮掩的位置应该填入0还是1。

这个过程分为多个步骤进行。在第一轮中,模型可能会预测出几个最确定的比特位,比如将"101M01M0MM0101"变成"1011010MMM0101"。在第二轮中,基于新获得的信息,模型继续预测剩余的遮掩位,比如变成"101101001M0101"。这样逐轮进行,直到所有比特位都被正确预测出来。

这种方法的优势是显而易见的。首先,它完全绕过了传统方法中需要对整个大词汇表进行softmax计算的问题。无论词汇表有多大,MBM始终只需要对每个比特位进行二分类判断(0或1),计算复杂度从O(V)降低到O(log V),其中V是词汇表大小。当词汇表从几千扩展到几百万时,这种复杂度的降低是革命性的。

其次,渐进式预测过程本身就是一种强有力的正则化机制。就像人类在猜词时会利用已知信息来推断未知部分一样,模型在每一轮预测中都能利用之前预测的结果来改进当前的判断。这种自引导机制显著提升了预测的准确性和鲁棒性。

研究团队在设计MBM时特别注意了比特位之间的依赖关系建模。他们使用了一个轻量级的多层网络来处理比特序列,这个网络能够捕捉不同位置之间的复杂交互。网络采用SwiGLU激活函数和adaLN归一化层,这些都是当前最先进的神经网络组件,确保了模型能够学习到比特位之间的精细依赖模式。

在训练过程中,掩码策略的选择也经过了精心设计。研究团队对比了多种掩码分布,包括arccos分布、均匀分布和logit-normal分布。出人意料的是,与典型的掩码图像建模方法(通常偏爱尾重分布如arccos)不同,BAR在简单的均匀分布下表现最佳。这说明比特级别的预测任务具有与图像块级别预测不同的特性和需求。

采样过程同样体现了MBM的巧妙设计。在生成新图像时,模型首先生成一个全为掩码标记的比特序列,然后通过多轮迭代逐步"解码"出真实的比特值。每一轮都会揭示一定数量的比特位,直到整个序列完全确定。这种渐进式生成不仅提高了生成质量,还为用户提供了灵活的质量-速度权衡选择。

四、实验验证:全方位的性能突破

为了验证BAR方法的有效性,研究团队进行了极其全面的实验验证。这些实验就像一场严格的产品质量检测,从多个维度全面评估BAR的性能表现。

在标记器性能方面,研究团队首先验证了扩大编码书大小对重建质量的影响。他们使用BAR-FSQ标记器,将编码书大小从2^10系统性地扩展到2^256。实验结果清晰地展示了一个持续改善的趋势:随着比特预算的增加,重建质量steadily提升。特别值得注意的是,当比特预算达到16384时,BAR-FSQ就能达到与连续方法相当的重建质量(rFID约0.50)。而当比特预算进一步增加到65536时,BAR-FSQ的重建质量(rFID 0.33)明显超越了广泛使用的SD-VAE(rFID 0.62)。

在生成模型性能方面,研究团队设计了详细的对比实验来验证不同预测头的效果。他们比较了三种方案:传统的线性预测头、直接的比特预测头,以及提出的掩码比特建模头。实验覆盖了从2^10到2^64的广泛编码书大小范围。结果显示,线性预测头在小词汇表上表现良好,但无法扩展到大词汇表。直接比特预测头虽然能处理大词汇表,但生成质量显著下降,甚至在使用分类器无关引导的情况下,生成FID仍然超过2.6。相比之下,掩码比特建模头不仅能够处理任意大小的词汇表,还在所有测试规模上都实现了最佳的生成质量。

研究团队还进行了细致的消融实验来理解各个组件的贡献。在掩码策略方面,他们发现与传统掩码图像建模不同,BAR在均匀掩码分布下表现最佳,这揭示了比特级预测的独特性质。在预测头规模方面,实验显示增加预测头的容量能够持续改善性能,特别是对于较大的编码书,更强的预测头带来更明显的提升。在采样策略方面,他们发现增加采样步数从2步到3步能够显著提升质量,而进一步增加到5步或6步仅带来边际改善。

为了实现更高效的生成,研究团队还探索了"标记混排"策略。这种方法通过调整空间下采样率来平衡序列长度和每个标记的比特数。具体来说,BAR-B使用256个标记,每个16比特;BAR-B/2使用64个标记,每个64比特;BAR-B/4使用16个标记,每个256比特。实验结果表明,这种策略能够在生成质量和采样速度之间实现灵活的权衡。BAR-B/2相比BAR-B在质量上仅有轻微下降(gFID从1.68增加到2.24),但采样速度提升了6倍多。

在与现有方法的全面比较中,BAR展现出了压倒性的优势。在ImageNet-256基准上,BAR-B仅使用415M参数就达到了1.13的gFID,显著超越了参数量为1.5B的RAR(gFID 1.48)和其他离散方法。更重要的是,BAR-B还超越了多个基于连续管道的强大方法,包括xAR(gFID 1.24)、DDT(gFID 1.26)、VA-VAE(gFID 1.35)和MAR(gFID 1.55)。

当扩展到更大的模型BAR-L时,性能进一步提升到新的高度。BAR-L实现了0.99的gFID,这不仅创下了离散方法的新纪录,也超越了所有现有的连续方法,成为ImageNet-256上的新最佳结果。在ImageNet-512上的实验同样证实了BAR的优势,BAR-L以1.09的gFID超越了所有对比方法。

五、效率革命:速度与质量的双重胜利

BAR不仅在生成质量上创下新纪录,在计算效率方面也实现了革命性突破。这种双重胜利就像设计出了既快又好的交通工具,彻底改变了图像生成的效率格局。

在采样速度方面,BAR展现出了惊人的优势。传统的连续方法通常需要多步迭代过程,每一步都要进行复杂的扩散计算。而BAR作为自回归方法,能够一次性生成图像,避免了反复迭代的开销。更重要的是,掩码比特建模头的轻量级设计进一步减少了计算负担。

具体数据显示,BAR-B在保持1.13 gFID高质量的同时,采样速度达到24.33图像/秒,比MAR快20.45倍,比VA-VAE快16.11倍,比DDT快15.02倍,比xAR快11.99倍,比RAE快3.68倍。这种速度优势在实际应用中具有重大意义,意味着用户能够在更短时间内获得更高质量的生成结果。

更令人印象深刻的是BAR高效变体的表现。BAR-B/2在质量仅轻微下降的情况下(gFID 1.35),采样速度达到150.52图像/秒,与单步扩散模型MeanFlow(151.48图像/秒)相当,但质量显著更优(1.35 vs 2.20)。BAR-B/4进一步将采样速度提升到445.48图像/秒,比MeanFlow快近3倍,同时保持相当的生成质量(gFID 2.34 vs 2.20)。

这种效率提升的根本原因在于BAR独特的架构设计。传统方法需要在庞大的词汇空间进行全局搜索,而BAR通过比特级预测将复杂的全局优化问题分解为一系列简单的二分类问题。每个二分类问题的计算复杂度是固定的,不随词汇表大小变化,从而实现了真正的可扩展性。

掩码比特建模的渐进式预测机制也贡献了额外的效率优势。与传统的单步大词汇表预测相比,多步小规模预测能够更好地利用现代GPU的并行计算能力。每一轮预测涉及的计算都相对简单,能够高效地映射到GPU的计算单元上。

研究团队还发现,BAR的训练效率同样出色。相比需要数千个epoch才能收敛的扩散模型,BAR通常在400个epoch内就能达到最佳性能。这不仅节省了大量的计算资源,也使得研究和开发周期大大缩短。对于资源受限的研究团队或应用场景,这种训练效率优势具有重要的实用价值。

内存使用方面,BAR也展现出明显优势。传统的大词汇表线性预测头需要存储巨大的权重矩阵,当词汇表大小达到百万级别时,仅预测头就可能占用数GB内存。而BAR的掩码比特建模头是轻量级的,无论词汇表多大,其内存需求都保持在可控范围内。这使得BAR能够在相对便宜的硬件上运行大规模模型,降低了应用门槛。

从实际应用角度看,BAR的效率优势意味着更广泛的应用前景。快速的生成速度使得实时应用成为可能,比如互动式内容创作、实时视频生成等。低内存需求让BAR能够部署在移动设备或边缘计算设备上,扩展了应用场景。高训练效率则降低了定制化模型的开发成本,让更多组织能够训练适合自己需求的生成模型。

六、技术细节与创新亮点

BAR的成功不仅体现在最终性能上,更在于其背后众多技术细节的精心设计和创新。这些技术创新就像一部精密机器中的各个齿轮,每一个看似微小的改进都为整体性能提升做出了重要贡献。

在标记器设计方面,BAR采用了FSQ(Finite Scalar Quantization)量化器,这是一个关键的技术选择。与传统的VQ-GAN需要学习码书不同,FSQ使用预定义的量化格网,避免了码书优化的复杂性和不稳定性。这种设计使得BAR能够平滑地扩展到任意大的码书大小,从2^10一直到2^256,而不会遇到传统方法在大码书时的训练困难。

标记器的架构融合了多项现代设计理念。编码器从预训练的SigLIP2-so400M初始化,利用了大规模视觉-语言预训练的知识。解码器采用ViT-L架构从头训练,确保了对图像生成任务的专门优化。训练目标结合了L1、L2、感知损失、Gram损失和GAN损失,形成了一个多目标优化框架,既保证重建精度又维护视觉质量。

生成器架构基于最先进的RAR模型,但引入了多项增强组件。RoPE(旋转位置嵌入)提供了更好的位置编码能力,特别适合长序列建模。SwiGLU激活函数和RMSNorm归一化层是当前Transformer架构的最佳实践,提供了更稳定的训练动态和更强的表达能力。重复类别条件化机制增强了模型对输入条件的敏感性,提升了条件生成的准确性。

掩码比特建模头的设计体现了计算效率和表达能力的精妙平衡。它采用3层SwiGLU网络配合adaLN条件化,这种轻量级设计确保了快速推理的同时保持了足够的建模能力。头部的隐藏维度可以灵活调整,研究团队发现较大的隐藏维度(特别是对于大码书)能够带来显著的性能提升,这体现了预测复杂度与模型容量之间的合理匹配。

在训练策略方面,BAR采用了多阶段训练流程。标记器训练分为两个阶段:初始训练40个epoch建立基础能力,然后对解码器进行40个epoch的精调以优化生成质量。生成器训练400个epoch,配合余弦学习率调度和100个epoch的预热期。这种精心设计的训练计划确保了模型能够稳定收敛到最优性能。

采样策略的创新也是BAR的重要特色。不同于传统的单步采样或固定步数采样,BAR提供了灵活的比特揭示调度。默认的[4,4,4,4]调度在4个步骤中均匀揭示比特,而[2,2,5,7]这样的后重调度在使用分类器无关引导时能够获得更好的效果。这种灵活性让用户能够根据质量需求和时间约束选择最适合的采样策略。

模型的可扩展性设计体现了对未来发展的深思熟虑。BAR-B和BAR-L采用了类似ViT的扩展策略,通过增加层数、隐藏维度和注意力头数来提升模型容量。这种扩展方式已经在多个视觉任务中被证实有效,为BAR向更大规模发展提供了清晰的路径。

技术实现上的诸多细节也体现了研究团队的深厚功力。mixed precision训练使用bfloat16格式平衡了训练速度和数值稳定性。梯度裁剪和权重衰减等正则化技术防止了训练过程中的数值问题。KV缓存机制在推理时避免了重复计算,进一步提升了采样效率。

这些技术创新的协同作用创造了BAR的卓越性能。每一个组件都经过精心调试和优化,形成了一个高度集成的系统。这种系统级的创新思维,而非单点突破的思路,是BAR能够在多个维度同时实现突破的关键原因。

七、深远影响与未来前景

BAR的成功不仅仅是一个技术突破,更代表了AI图像生成领域的范式转变。这种影响就像智能手机的出现改变了整个通讯行业一样,将在多个层面产生深远的影响。

在学术研究层面,BAR重新定义了离散与连续方法的竞争格局。长期以来,学术界普遍认为连续方法在图像生成上具有天然优势,大量研究资源都投入到连续方法的改进上。BAR的成功表明,这种偏见可能阻碍了对离散方法潜力的充分挖掘。现在,研究者们需要重新审视两种方法的根本差异,这可能催生出更多创新性的混合方法或全新的技术路线。

从技术发展角度看,BAR提出的"比特预算"概念为视觉标记化建立了新的评估标准。这种统一的度量方式不仅有助于公平比较不同方法,更重要的是为未来的研究提供了明确的优化目标。研究者们现在可以更精确地分析信息容量与生成质量之间的关系,这将推动更高效的压缩和生成算法的发展。

掩码比特建模的成功也为序列建模领域带来了新的启示。传统的语言模型和视觉生成模型都依赖大词汇表的直接预测,但BAR证明了将复杂预测任务分解为简单二分类任务的有效性。这种思路可能在其他需要处理大规模离散空间的任务中找到应用,比如音频生成、3D模型生成等。

在实际应用方面,BAR的高效性能为实时图像生成应用打开了新的可能性。以往受限于计算成本而无法实现的应用场景,现在变得可行。比如,实时的个性化内容创作、交互式游戏场景生成、实时视频特效等。特别是BAR-B/4达到445图像/秒的惊人速度,已经接近实时视频的帧率要求,这为视频生成应用提供了新的技术基础。

从商业化角度看,BAR的高效性和高质量为AI图像生成的大规模部署提供了经济可行的解决方案。传统的高质量图像生成需要昂贵的计算资源,限制了其商业化规模。BAR在保持顶级质量的同时大幅降低了计算成本,这将加速AI图像生成技术在各行各业的普及。

教育和研究资源的民主化是另一个重要影响。BAR的高训练效率和低资源需求降低了进入门槛,让资源有限的研究机构和个人开发者也能训练高质量的生成模型。这种技术门槛的降低将促进创新的多样化,可能催生出更多创意性的应用。

在多模态AI发展方面,BAR作为一个纯离散的高性能视觉生成模型,为统一的多模态大模型提供了新的技术路径。由于离散标记与语言模型的天然兼容性,BAR生成的视觉表示可以更容易地与文本处理集成,推动真正统一的多模态智能系统的发展。

从技术演进的更大图景看,BAR代表了AI领域从"bigger is better"向"smarter is better"的转变。它证明了通过巧妙的设计可以在不显著增加计算成本的前提下实现性能突破。这种思路对于AI技术的可持续发展具有重要意义,特别是在当前对AI碳排放和能源消耗日益关注的背景下。

展望未来,BAR开启的技术路线还有巨大的发展空间。比如,探索更先进的比特预测策略、研究自适应码书大小的动态调整机制、开发针对特定应用优化的变种模型等。这些方向的研究将进一步推动图像生成技术的发展边界。

说到底,BAR不仅仅是一个技术突破,更是一次思维方式的转变。它提醒我们,在追求技术进步时,重新审视基础假设和探索新的解决思路往往比单纯的模型扩展更有价值。这种创新精神将继续推动AI技术向更高效、更智能、更实用的方向发展。

亚马逊团队的这项研究彻底改变了我们对图像生成技术的理解。他们证明了离散方法并非天生劣势,而是一直在"营养不良"的状态下竞争。通过巧妙的掩码比特建模技术,BAR不仅解决了大词汇表的计算难题,还实现了质量和速度的双重突破。这项研究的意义远超技术层面,它为整个AI领域提供了重新思考问题本质的宝贵启示。随着这种技术的进一步发展和应用,我们有理由相信,AI图像生成将进入一个全新的时代。

Q&A

Q1:BAR是什么技术?

A:BAR是亚马逊开发的全新图像生成技术,全称是"掩码比特自回归建模"。它的核心创新是用"猜词游戏"的方式生成图像——不是一次性选择答案,而是逐步揭示比特位来预测图像内容。这种方法既能处理超大词汇表,又保持极高的生成速度和质量,在ImageNet-256上创下0.99的质量新纪录。

Q2:为什么BAR比传统方法更快?

A:BAR的速度优势来源于其独特的预测方式。传统方法需要在几百万个词汇中直接选择,就像在巨大图书馆里找书。而BAR将复杂问题分解为简单的0/1判断,每次只需要回答"是或否",计算量大幅减少。实测显示BAR-B达到24.33图像/秒,比同等质量的其他方法快数十倍。

Q3:离散方法和连续方法有什么区别?

A:这就像数字相机和胶片相机的区别。连续方法像胶片相机,处理的是平滑渐变的信息;离散方法像数字相机,处理的是分离的数字编码。以前人们认为离散方法天生不如连续方法,但BAR研究发现,问题出在"像素"不够高——给离散方法分配足够的信息容量后,它的表现完全可以超越连续方法。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。