机器之心报道
编辑:张倩
挑战自回归的扩散语言模型刚刚迎来了一个新里程碑:蚂蚁集团和人大联合团队用 20T 数据,从零训练出了业界首个原生 MoE 架构扩散语言模型 LLaDA-MoE。该模型虽然激活参数仅 1.4B,但性能可以比肩参数更多的自回归稠密模型 Qwen2.5-3B,而且推理速度更快。这为扩散语言模型的技术可行性提供了关键验证。
万万没想到,做奥数题都能拿金牌的模型,却不会「倒着背诗」。
说完全不会,倒也不严谨。因为如果允许模型「深度思考」,给诗的每个字都编上号,然后倒着排一下,这诗也能背出来。然而,这与人类倒背文本的方式并不一样 —— 人类记忆诗词时,往往不是逐字死记,而是以句子、意境、节奏为单位,而倒背时则是在脑中「反向调用」这些单元。
研究者们在 2023 年的一篇论文中就提到了这个现象,并将其命名为「Reversal Curse(反转诅咒)」。类似的表现还包括模型学习了「A is B(如巴黎是法国的首都)」之后,却无法自然地推出「B is A(如法国的首都是哪里)」。
这个问题之所以被拎出来讨论,是因为它会在一些需要模型同时理解前后文或逆向推理的场景中影响性能。
两年过去,AI 大模型能力突飞猛进,但这一问题始终没有得到本质上的解决。究其原因,这是当前大模型普遍采用的自回归(AR)生成范式所造成的 —— 模型天然是单向建模的,从前往后依次生成下一个 token。这导致它们难以捕捉 token 之间的双向依赖关系。
而且,自回归的天然缺陷还不止这一个 —— 长文本的计算成本高、生成速度慢是常被诟病的问题,而且它缺乏直接修正错误的能力,还会导致错误产生连锁反应。
面对这些问题,大量研究者选择继续改进自回归,但也有人另辟蹊径,尝试新的建模范式。
蚂蚁集团和中国人民大学高瓴人工智能学院组成的联合研究团队选择的就是后者,他们探索的语言建模方向是「扩散(diffusion)」。
在他们之前,也有不少研究者在这一方向发力。但今年 2 月份,他们首次将扩散语言模型(dLLM)扩展至 8B 参数规模,推出了性能对标 LLaMA 3 的 LLaDA 模型。
自回归模型的生成方式。
LLaDA 模型的生成方式。
LLaDA 一经发布就引起了广泛关注,因为它通过非自回归的掩码扩散机制,首次在大规模语言模型中实现了与自回归模型相当的语言智能(如上下文学习、指令遵循、多轮对话等),挑战了「语言模型必须自回归」的主流认知。
在过去的几个月里,LLaDA 系列一直在快速迭代,衍生出了对齐能力更强的 LLaDA1.5、多模态版本的 LLaDA-V,以及刚刚在外滩大会上亮相的LLaDA-MoE
其中,LLaDA-MoE 尤为引人注目。它由蚂蚁集团通用人工智能研究中心和人民大学联合研发,是业界首个从零训练的原生 MoE 架构扩散语言模型,在 20T 的数据上完成了训练,验证了此类模型大规模训练的可扩展性和稳定性。
在效果上,它不仅超过了此前发布的稠密扩散语言模型 LLaDA1.0/1.5 和 Dream-7B,更是以 1.4B 激活参数比肩稠密自回归模型 Qwen2.5-3B,并保有数倍的推理速度优势。
可以说,LLaDA-MoE 是 dLLM 发展历程中的又一个重要里程碑。
据悉,该模型将在近期完全开源,以推动全球 AI 社区在扩散语言模型上的技术发展。
这个模型具体表现如何?背后有哪些技术?为什么这类模型能 work?在发布会之后的一次访谈中,蚂蚁通用人工智能研究中心主任蓝振忠、中国人民大学高瓴人工智能学院副教授李崇轩透露了很多细节,我们将在本文中一一介绍。
左:李崇轩;右:蓝振忠。
LLaDA-MoE
业界首个从零训练的原生 MoE 架构扩散语言模型
经过 3 年多的迭代,dLLM 的发展已经进入成熟期。尤其在 LLaDA 模型发布之后,大家真正看到了这一类模型的可用性。很多研究已经把 LLaDA 作为基础或主干模型来进行进一步微调或扩展。
不过,要想提升模型能力上限,dLLM 同样必须进一步 scaling。而从自回归的发展路径来看,这一目标可以借助 MoE 来实现。
对于蚂蚁和人大的联合团队来说,这又是一条未知的路,因为现有的扩散语言模型探索都是基于稠密架构,与 MoE 相关的预训练、后训练甚至推理都存在大量未知的难题。而且 MoE 本身就比较难训练,在扩散这个新架构上做 MoE 则更加困难。
不过,蓝振忠表示,真正去做了之后,他们发现这些「风险」其实都是可管理的。这很大程度上是因为,他们有一些关键的工程、资源积累可以依托:
首先是一些已经在自回归模型上验证过的 MoE 训练经验和技术积累 —— 无论是业界开源的还是蚂蚁自身的经验,其实很多都可以拿来复用,这帮助他们解决了一些诸如负载均衡、噪声采样 shift 之类的问题。
其次是高质量的数据基础。团队直接复用了蚂蚁百灵大模型积累的 20T 数据,节省了大量人力物力。
最后是完善的工程基础设施。蚂蚁自研的 ATorch 训练框架已经具备专家并行(EP)等一系列并行加速技术,能够为大规模 MoE 训练提供强有力的技术支撑。同时,蚂蚁算力集群的稳定性确保了 20T 数据量级别的工业级训练能够高效稳定完成。
正是基于这些关键积累,团队最终成功打造出了 LLaDA-MoE。这是一个总参数量为 7B 的模型,激活参数量为 1.4B。目前,LLaDA-MoE 有两个版本:基础模型版 LLaDA-MoE-7B-A1B-Base 和指令微调版 LLaDA-MoE-7B-A1B-Instruct。
HuggingFace 链接:https://huggingface.co/inclusionAI/LLaDA-MoE-7B-A1B-BaseGitHub 链接:https://github.com/ML-GSAI/LLaDA
在各项 benchmark 测试中,LLaDA-MoE 超越了现有的开源稠密 dLLM 模型,如 LLaDA1.0/1.5 和 Dream-7B,在代码、数学、Agent 这类相对结构化的任务上优势明显。此外,模型效果也追平了 Qwen2.5-3B 这个用同样数据量训练的稠密自回归模型,由此实现了 1.4B 激活参数,达到 2 倍多参数稠密模型的等效比。这说明 MoE 架构性能放大器的作用在 dLLM 上也成立。团队表示,他们后续将继续挖掘等效比这个 scaling law,探索更高稀疏比、更大尺寸的 MoE 扩散语言模型,以进一步释放 LLaDA-MoE 的规模化潜力。
同时,他们还在 dLLM 推理加速方面持续投入,针对 dLLM 的并行特性,从算子融合、计算图优化、并行加速、缓存管理、并行解码等多个方面进行了全面优化,相比开源 SOTA 的 NVIDIA fast-dLLM 推理引擎实现了显著加速。相关代码与技术报告也将于近期开源、公布,以助力 dLLM 技术的快速发展。
扩散语言模型
为什么能 work?
在蓝振忠、李崇轩看来,dLLM 能走到今天,有一定的必然性,因为无论从底层理论还是实践经验来看,这个方向都有着巨大的潜力。
首先,从理论上来看,李崇轩指出:从概率建模的角度来看,大语言模型的关键并不是必须依赖自回归展开,而是能否有效地表示和学习高维复杂的联合概率分布,即通过最大似然估计或最小化 KL 散度来逼近真实语言分布。
自回归的优势在于通过链式法则把难以直接建模的联合概率分解为逐步的条件概率,从而简化了训练和优化过程,但这种方式并不是唯一的。扩散模型提供了另一条路径:它不依赖固定的从左到右生成顺序,而是通过迭代的去噪过程逐渐逼近数据分布,这种过程同样能够刻画高维概率,只是采取了「由粗到细」的动态修正方式。
李崇轩特别指出,很多人们认为是自回归独有的性质,比如指令跟随、In-context Learning、压缩能力和可扩展性,其实更深层次上都源于最大似然估计这一共同的学习准则,而不是自回归本身。
例如,条件概率建模赋予模型指令跟随和对话能力,信息论意义上的最大似然保证了压缩特性,而优化的简洁性和与 Transformer 架构的兼容性则保证了可扩展性。这些性质同样可以在扩散模型里出现。
与此同时,自回归范式也存在固有局限:完成时间与输出长度成正比、只能单向展开、缺乏直接修正错误的能力。而扩散模型在这些方面提供了潜在优势,它天然支持并行解码、双向建模和迭代修正:
并行解码意味着生成过程不必逐 token rollout,而是可以在有限步数内同时更新多个位置,使得推理迭代次数与输出长度不再严格挂钩,在长文本场景下更具效率潜力。此外,这种并行性还有望带来算力利用率的提升。传统自回归推理由于串行瓶颈,往往导致 GPU 大量算力处于空闲状态;而扩散模型的并行更新方式则能够在每一次迭代中充分调动大规模矩阵运算,更好地发挥硬件性能,从而在单用户使用时也能保持较快的响应速度,避免了自回归推理那种因为缺乏并发而浪费算力的情况。双向建模让模型能够同时利用前后文信息来重构序列,从而提升全局一致性和逻辑连贯性,在图文并茂等没有严格从前到后顺序的多模态场景中也更加自然。迭代修正则带来灵活的交互方式:当输出中某一部分有错误或需要修改时,扩散模型可以只针对局部片段重新采样,而不必推倒重来。这种能力尤其适合代码生成、文档编辑等需要频繁调整的场景。
此外,有证据表明,在同样的数据量下,扩散语言模型的学习效果比自回归模型更好。具体表现为,在有限数据场景中,自回归模型往往在几轮数据复用之后便迅速进入收益递减阶段,而扩散模型则能够持续从重复数据中榨取增量信息(dLLM 的数据利用效率可以达到 AR 的 3 倍以上);即便在极端重复的条件下,dLLM 依然能够不断提升在下游任务中的能力。
这种「榨干」数据的能力和 dLLM 的双向建模机制密切相关。传统的自回归模型采用严格的因果性建模方式,每个 token 的预测只能基于前面的 token,这种单向的信息流限制了模型对数据中复杂依赖关系的捕获。而 dLLM 通过掩码机制实现了真正的双向建模,允许模型在任意顺序下理解和生成文本。
从技术层面看,扩散模型的训练目标本身就要求对每个数据点进行多种不同的掩码配置和比例的处理。这意味着每次重复同一份数据时,模型实际上是在学习该数据的不同「视角」—— 不同的掩码模式暴露了数据中不同的上下文依赖关系。相比之下,自回归模型在重复训练时只是在强化相同的从前到后的预测模式。
这种数据效率优势在当前 AI 发展阶段具有特殊意义。随着高质量预训练数据逐渐稀缺,而计算资源变得相对充裕,用更多计算换取更好的数据利用率成为了一个合理的权衡。扩散语言模型虽然在训练和推理时需要消耗更多 FLOPs,但这种「超密度计算」带来的智能提升可能是值得的。
在 LLaDA 系列模型的研究中,蚂蚁和人大的联合团队已经验证了扩散语言模型的一些理论优势和工程可行性,让这个充满「不确定」的方向逐渐变得清晰、明朗起来。但要想充分兑现这一方向的潜力,他们还有很多问题需要克服,比如如何把理论上的速度优势在工程中真正实现,如何把模型 scale 到更大规模,如何设计类似 KV cache 的缓存机制,如何解决可变长度问题等。随着 LLaDA 系列模型的开源,这些问题有望借助社区的力量来共同解决。
「这个方向需要更多聪明的人参与进来,就像自回归模型的发展依靠了全世界的贡献,扩散语言模型的发展同样需要借助社区的力量。」蓝振忠在采访中说到。
跳出常规思维
探索智能上限
在谈到打造 LLaDA-MoE 的难点时,李崇轩提到:其实最难的一点是「下决心」,因为这件事没有人做过,「大家不知道能不能成」。
谈到这个「下决心」的过程,蓝振忠表示:「如果你不去探索那些在别人眼中可能充满风险的领域,我们就只能永远跟随他人已经确定的路径前行。我们要提升智能的上限,就不能一直 follow。」
当然,这种冒险是建立在理性判断的基础上。正如前文所言,在理论研究和实践的过程中,团队逐渐确信:扩散语言模型是一个有希望落地且风险可控的方向,而且在提升智能上限方面非常有潜力。因此,当他们真正决定投入资源去构建 LLaDA-MoE 时,这不仅是一次技术上的尝试,更是一次主动打破路径依赖、以不确定性换取未来上限的战略性选择。
能做出这种战略选择,对蚂蚁来说不是偶然。对这种前瞻性方向的判断和大力投入,在蚂蚁也有先例,比如百灵大模型的开源,推理框架 AReaL、多智能体框架 AWorld 的布局等等。
此外,蓝振忠所领导的通用人工智能研究中心还在向其他前沿方向发力,比如动态 MoE 架构的创新、混合线性架构的探索等。
这些方向全都围绕一个「北极星」指标 —— 通用人工智能(AGI)。他们希望通过不断的创新,把智能推到一个新高度。
我们也希望看到他们在这一方向取得更多进展。
https://jinjieni.notion.site/Diffusion-Language-Models-are-Super-Data-Learners-239d8f03a866800ab196e49928c019ac#244d8f03a866808fb358d7a97bbd26f2