![]()
这项由蚂蚁集团、浙江大学、西湖大学等机构联合完成的研究发表于2026年2月,研究编号为arXiv:2602.08676v1。想要深入了解技术细节的读者可以通过这个编号查询完整论文。
在人工智能快速发展的今天,让机器像人一样写作已经不再是天方夜谭。不过,就像人类写作时会遇到"要么写得快但质量不高,要么写得好但速度太慢"的困扰一样,AI文本生成也面临同样的难题。蚂蚁集团的研究团队最近提出了一个巧妙的解决方案:让AI学会"边写边改",就像我们用Word写文档时可以随时修改已经写好的内容一样。
传统的AI文本生成就像用老式打字机写文章,一旦敲下某个字母就无法修改,只能继续往下写。而新的扩散语言模型虽然可以"并行写作"(同时考虑多个位置该写什么),但就像多个人同时在不同段落写作却无法互相沟通一样,经常出现前后不一致的问题。研究团队的创新在于给这种并行写作系统加上了"实时编辑"功能,让AI不仅能快速起草内容,还能在发现错误时及时修正。
这个技术突破的核心在于创造了一套"双重标准"的生成机制。简单来说,AI在生成文本时会设定两个不同的信心阈值:一个用于决定什么时候从空白填入新词(从掩码到词语),另一个用于决定什么时候替换已经写好但可能有问题的词语(从词语到词语)。这样的设计让AI可以在"快速模式"下大胆地快速起草,然后通过"编辑修正"来保证质量,也可以在"质量模式"下更加谨慎地生成,同时保持一定的编辑灵活性。
为了让AI学会这种"边写边改"的技能,研究团队设计了一套特殊的训练方法。他们不仅让AI学习如何填空(传统的掩码语言建模),还特意让AI练习如何从含有错误的文本中恢复出正确内容。这就像让学生既练习写作文,又练习改错别字和语法问题,最终培养出既能创作又能编辑的综合能力。
在训练的最后阶段,研究团队还引入了强化学习技术。由于扩散模型的特殊性质,传统的强化学习方法很难直接应用,就像给一个复杂的乐队指挥打分比给单个歌手打分要困难得多。研究团队巧妙地运用了"证据下界"这一数学工具,将复杂的序列评估问题转化为可以高效处理的块级别评估问题,成功实现了大规模的强化学习训练。
实验结果相当令人振奋。在编程任务中,LLaDA2.1-Flash(1000亿参数模型)在HumanEval+基准测试中达到了惊人的892 TPS(每秒生成892个词元),在BigCodeBench上达到801 TPS,在LiveCodeBench上也有663 TPS的表现。要知道,传统的自回归模型每秒只能生成一个词元,这意味着新方法在速度上有数百倍的提升。
更令人惊喜的是,这种速度提升并没有以牺牲质量为代价。通过引入编辑机制,模型在快速生成的同时还能保持相当高的准确性。研究团队通过33个不同的基准测试验证了模型的性能,涵盖了知识问答、逻辑推理、代码生成、数学问题求解以及指令跟随等各个方面。
在技术架构方面,这项研究最大的创新在于打破了传统扩散模型"吸收态"的限制。以前的扩散语言模型只允许从掩码状态转换到具体词语,就像只能在空白处填词而不能修改已写内容。新的方法引入了"可编辑状态演化"机制,允许在已生成的词语之间进行转换,大大增加了生成过程的灵活性。
为了确保这种编辑能力的有效性,研究团队还开发了多轮前向传播技术,通过在训练数据中加入各种编辑场景,让模型能够适应不同类型的修正需求。这就像让学生不仅练习写新文章,还要练习修改各种类型的文章错误,从拼写错误到逻辑问题都要涵盖。
在实际应用中,这项技术展现出了极强的适应性。用户可以根据具体需求选择不同的工作模式:需要快速生成大量内容时可以选择"极速模式",需要高质量输出时可以选择"质量模式"。这种灵活性使得同一个模型可以适应不同场景的需求,从快速原型制作到精品内容创作都能胜任。
值得注意的是,这种编辑能力不仅限于单个文本块内部的修正,还扩展到了多个文本块之间的协调。研究团队开发的"多块编辑"机制允许模型在生成新内容时回头修正之前的部分,确保整个文本的连贯性和一致性。这种全局优化能力是传统生成方法难以实现的。
在基础设施支持方面,研究团队也做了大量优化工作。他们使用了定制版本的SGLang推理框架,集成了Alpha-MoE优化技术和FP8量化技术,进一步提升了推理效率。同时,通过块级因果掩码注意力机制,模型能够在长文本生成时保持高效的计算性能。
从技术发展的角度来看,LLaDA2.1代表了扩散语言模型发展的一个重要里程碑。它不仅解决了并行生成中的一致性问题,还为未来的文本生成研究开辟了新的方向。这种"生成-编辑"结合的范式可能会影响未来AI写作工具的设计思路。
当然,这项技术也还有一些需要改进的地方。研究团队诚实地指出,在某些对话场景中,过于激进的生成设置可能会产生不理想的输出。此外,不同应用领域对速度和质量的平衡要求不同,需要针对性地调整参数设置。在结构化内容(如代码和数学公式)生成中表现更好,而在开放性对话中还需要更细致的参数调优。
尽管存在这些挑战,LLaDA2.1的出现标志着AI文本生成技术迈入了一个新阶段。通过巧妙地结合快速并行生成和智能编辑修正,这项技术为解决长期困扰该领域的速度-质量权衡问题提供了一条可行的路径。随着技术的进一步完善和应用场景的扩展,我们有理由期待更加智能、高效的AI写作助手很快就会进入我们的日常生活。
对于普通用户而言,这项技术的成熟意味着未来的AI写作工具将能够更好地理解我们的需求,既能在需要时快速产出大量内容,又能在关键时刻提供高质量的精品输出。无论是学生写作业、职场人士准备报告,还是内容创作者生产文章,都将从这种技术进步中受益。说到底,这项研究让我们看到了AI写作的美好前景:不再是简单的文字堆砌,而是真正具备了类似人类的思考、创作和修改能力的智能助手。
Q&A
Q1:LLaDA2.1的核心创新是什么?
A:LLaDA2.1的核心创新是引入了"边写边改"的文本生成机制,也就是Token-to-Token编辑功能。传统AI只能从空白填入新词,而LLaDA2.1还能修改已经生成的词语,通过双重信心阈值实现快速起草和质量修正的平衡。
Q2:LLaDA2.1在速度上有多大提升?
A:LLaDA2.1在代码生成任务中表现尤其出色,1000亿参数的Flash版本在HumanEval+测试中达到892 TPS,在BigCodeBench上达到801 TPS。相比传统自回归模型每秒只能生成1个词元,这是数百倍的速度提升。
Q3:为什么LLaDA2.1能做到既快又准?
A:LLaDA2.1采用了"先快速起草,再编辑修正"的策略。它可以在"极速模式"下降低生成阈值快速产出内容,然后通过编辑机制纠正错误。同时在"质量模式"下采用保守阈值确保输出质量,这种灵活的双模式设计实现了速度与质量的平衡。





京公网安备 11011402013531号