当前位置: 首页 » 资讯 » 科技头条 » 正文

微软Lens如何用"以小博大"重新定义AI图像生成效率

IP属地 中国·北京 科技行者 时间:2026-05-30 00:19:23


这项由微软研究团队主导的研究成果发表于2026年5月,论文编号为arXiv:2605.21573v1,发布于计算机视觉领域的预印本平台。有兴趣深入了解技术细节的读者可以通过该编号查询完整论文。

**研究概要:一场关于"用更少资源做更多事"的实验**

在AI图像生成领域,有一个让人隐隐不安的趋势:要想让模型画得更好,就得堆更多参数、烧更多电、花更多钱。训练一个顶级的文字转图像模型,动辄需要数十万GPU小时,折算成真金白银就是数百万乃至数千万美元的算力成本——这还不算对环境的影响。普通科研团队和中小机构,在这场军备竞赛中几乎没有入场券。

微软的研究团队却提出了一个颇有挑战性的问题:如果我们不一味地扩大模型,而是从"每一步训练能学到多少东西"这个角度重新思考,能走多远?于是,他们开发出了一个名为Lens的模型。Lens只有38亿个参数,但在多项公认的测试标准上,它的表现不仅能与超过60亿参数的模型媲美,甚至在某些指标上还能超越它们。更关键的数字是:Lens的训练算力消耗仅为同类竞品Z-Image的约19.3%。换一种说法,别人花了100块钱的电费训出来的能力,Lens花不到20块就达到了。

这篇研究的意义不只在于"省钱"。它更深层的贡献在于系统地指出了哪些因素真正决定了训练效率,并为整个行业提供了一套可复用的方法论。

**一、问题的起点:训练一个AI画家,钱都花在哪里了**

要理解Lens的思路,先得弄清楚训练一个文字转图像模型到底在做什么事情。

简单来说,这类模型的训练过程,有点像教一个从未见过世界的孩子理解语言和图像之间的联系。你给他看一张猫的图片,然后告诉他"这是一只橘色的猫,正趴在阳光照射的窗台上",他需要慢慢学会:当他听到类似的描述时,应该在脑海中勾勒出什么样的画面。

训练一个大模型,本质上就是把这个"教学"过程重复数亿次。每一次,模型都会看一对图像和文字,然后调整自己的理解方式,让下次的理解更准确一些。这个调整过程需要大量计算,而计算就意味着时间和电力。

微软团队认为,训练效率受到三个核心因素共同制约。第一是模型本身的大小——模型越大,每做一次计算就越费时间。第二是每一批训练数据能传递多少有用信息——如果每次喂给模型的图文对"营养价值"很低,那即便喂了很多次,模型的进步也会很慢。第三是模型收敛的速度——也就是模型需要看多少次数据才能真正"学会",有些架构设计会让模型学得特别慢。

Lens的策略,就是在这三个维度上同时发力:把模型控制在38亿参数的相对紧凑规模;大幅提升每批数据的"信息含量";以及通过精心的架构选择加速模型的学习过程。

**二、数据的密度:同样一张图,能讲出多少故事**

Lens的第一个核心创新,来自对训练数据的重新理解。

回到那个教孩子认识世界的比喻。假设你在教他认识猫,有两种教学方式。第一种,你给他看图,然后只说"这是猫"。第二种,你给他看同一张图,然后详细描述:"这是一只橘色的成年公猫,正侧卧在一扇朝南的木框窗台上,阳光从右侧斜射进来,它的眼睛微微眯着,尾巴悠闲地垂在窗台边缘,窗外模糊可见绿色的树叶。"

哪种方式能让孩子更快地真正理解"猫"的概念,以及猫与各种场景、属性的关系?答案不言而喻。

Lens的研究团队构建了一个名为Lens-800M的数据集,包含8亿张图像,每一张都配有由GPT-4.1生成的详细中文描述,平均每段描述长达109个单词。这些描述不只是说"图里有什么",而是细致地涵盖了物体的属性、空间关系、动作、背景氛围,乃至图中出现的所有文字内容(文字保留原始语言)。

为了验证这种详细描述策略的有效性,研究团队专门做了一个对照实验。他们用同样的模型架构训练了三个版本:一个只用简短描述,一个只用详细描述,一个混合使用两种描述。实验结果清楚地显示,仅使用详细描述训练的版本,在生成质量基准测试GenEval上的得分,从训练一开始就稳定领先另外两个版本,而且这种领先优势随着训练步数的增加持续拉大。

这个发现在直觉上很容易理解:更丰富的文字描述,让每一个训练样本能传递更多的视觉-语义关系信息,相当于同样的训练时间里,模型的"学习效率"提高了。

除了文字层面的信息密度,研究团队还从图像层面下了功夫。他们在构建每一批训练数据时,刻意混入不同分辨率(从512×512到1024×1024)和不同长宽比(从竖向的1:2到横向的2:1)的图像,共设计了27种不同的分辨率和比例组合。这样做的好处是双重的:一方面,模型在不同尺度下见到的视觉信息更加多样,能同时学习全局构图和局部细节;另一方面,这种多尺度训练还带来了一个意外的"副产品"——模型在推理时能很好地泛化到训练中从未出现过的分辨率,比如1440×1440,而无需专门进行高分辨率训练。由于高分辨率训练的计算量与图像面积成平方关系增长,这个副产品本身就节省了大量额外的算力开销。

**三、架构的选择:选对"大脑结构",学习事半功倍**

如果说数据是Lens学习的"教材质量",那么模型架构就决定了Lens这个"学生"的学习方式是否高效。研究团队在两个关键的架构组件上进行了系统的对比实验:图像编码器(VAE)和语言编码器。

先说图像编码器,也叫VAE(变分自编码器)。它的作用是把一张完整的图像压缩成一种紧凑的"内部表示",然后扩散模型在这个压缩表示上学习如何生成图像。可以把VAE理解成一本翻译词典:原始像素是一种语言,压缩后的"潜在表示"是另一种语言,扩散模型需要在后者的语言空间里工作。

研究团队比较了几种不同的VAE,包括FLUX.1、SD3等传统架构使用的VAE,以及FLUX.2和VTP等新架构使用的"语义VAE"。传统VAE主要被设计成能高质量地"重建"原始图像,而语义VAE则在设计时更多考虑了如何让压缩后的表示对下游的生成任务更友好。

实验结果表明,采用FLUX.2的VAE,模型不仅最终的生成质量更好,而且在整个训练过程中的收敛速度也明显更快——也就是说,在同样的训练步数下,使用语义VAE的模型能达到更高的性能水准。这个发现很重要:一个看似只是"图像压缩工具"的组件,居然对整个训练效率有如此显著的影响。研究团队为此总结道,VAE定义的潜在空间越紧凑、语义越清晰,文字与图像之间的对齐关系就越容易被扩散模型学到,所需的训练迭代次数也就越少。

另一个关键组件是语言编码器,也就是把用户输入的文字转化为模型可以理解的"语义向量"的那部分。研究团队对比了GPT-OSS(一个拥有20B参数但实际激活只有3B的混合专家模型)与Qwen3系列(0.6B、1.7B、4B三个规模)的表现。

结果相当清晰:更强大的语言编码器不仅让模型在理解英文提示词时表现更好、收敛更快,还带来了一个格外珍贵的能力——多语言泛化。Lens的训练数据全部是英文图文对,但仅仅因为语言编码器足够强大,模型在推理时对中文、法文、日文、西班牙文等语言的提示词也能给出相当不错的回应。这意味着,一个足够强大的语言编码器,在某种程度上把多语言理解能力"内化"进了模型,而无需专门收集多语言的训练数据。从训练成本的角度看,这是一个相当划算的买卖。综合考虑各项因素,Lens最终选用了GPT-OSS作为语言编码器。

**四、模型架构全貌:把三个部件组装在一起**

Lens的整体架构由三个主要组件构成,分别承担不同的职责,协同完成从文字到图像的整个生成过程。

第一个组件是FLUX.2的VAE,负责将图像和图像潜在表示之间的转换。第二个组件是核心的扩散Transformer,负责在潜在空间里完成噪声到图像的生成过程。这个Transformer采用了MMDiT风格的架构,由48个处理块堆叠而成,每个块都分别处理图像特征和文字特征,再通过自注意力机制让两者相互影响。图像特征使用了RoPE(旋转位置编码),这种位置编码方式在泛化到不同分辨率时表现更好。模型的隐藏维度为1536,每个注意力层有24个注意力头。

为了更好地利用语言编码器GPT-OSS的多层次语义信息,研究团队没有只取最后一层的输出,而是提取了第4、第12、第18和第24层共四个位置的特征,然后拼接起来,再通过一个线性适配层转换为与图像特征相同的维度。这样做的目的是捕获语言理解的不同层次——浅层特征更多反映词汇和句法信息,深层特征则更多反映语义和语用信息,同时使用两者能给模型提供更全面的语言理解基础。

第三个组件是一个独立的"推理器"(Reasoner),它在Lens接收到用户输入之前先发挥作用,把用户写的简短或模糊的描述扩展成更详细、更符合训练数据分布的提示词。由于推理器和扩散模型之间是相互独立的,推理器可以随时替换成不同的语言模型——研究团队默认使用GPT-5.5,但也验证了GPT-OSS等开源模型作为推理器同样能带来相当大的提升,而且因为GPT-OSS本身已经作为文字编码器运行,用它同时充当推理器不会增加任何额外的GPU内存占用。

**五、训练流程:从粗到细,循序渐进**

Lens的完整训练过程分为两个主要阶段,各有侧重。

第一阶段是固定分辨率的预训练。研究团队在128块英伟达A100 80GB显卡上,以512×512的固定分辨率训练了40万步。在这个阶段,VAE和语言编码器的参数全部冻结,只有扩散Transformer的参数被更新。训练使用了流匹配(Flow Matching)目标函数,这是一种比传统扩散模型训练更高效的方法。采用AdamW优化器,全局批量大小为3072张图像,学习率固定在2×10??。

第二阶段是混合分辨率的持续训练,从第一阶段的检查点出发,再训练40万步。这个阶段引入了前面提到的27种分辨率和长宽比组合,不同分辨率的批量大小根据计算量进行了调整——高分辨率批次的图像数量更少,以确保不同分辨率的训练步骤在实际计算时间上大致相当。这种动态批量调整策略,避免了高分辨率训练对整体训练进度造成不成比例的拖慢。这一阶段的学习率降低到1×10??。

训练完成后,模型已经能够生成多样的图像,并很好地遵循用户的文字描述。但研究团队注意到,部分生成结果在视觉质量上仍有波动,偶尔出现各种视觉缺陷。于是,他们引入了基于强化学习的后训练步骤来进一步打磨模型。

**六、强化学习后训练:用"评分系统"纠正坏习惯**

强化学习(RL)在AI训练中的作用,可以用一个直观的比喻来理解:如果前面的预训练是让模型通过大量练习学会"画画"的基本功,那么强化学习就是让一位挑剔的老师坐在旁边,对每幅画进行详细点评,然后让模型根据反馈调整画风。

要让这个"点评系统"发挥好作用,首先需要解决两个问题:评什么,以及如何保证评分覆盖足够广泛。

在"评什么"这个问题上,研究团队开发了一套基于"评分细则"(Rubric)的奖励机制,灵感来自学术论文评审和考试评分的做法。具体流程是:对于每一个训练提示词,先用GPT-4.1生成10条针对该提示词的具体评分标准,比如"验证图中确实出现了恰好一个红色踢球"或"确认围栏标牌上的文字与描述完全匹配";再附上一条通用标准:"验证整张图像在结构上是连贯的、物理上是合理的"。然后,用当前模型对每个提示词生成24张不同分辨率的图像,将每张图像连同对应的评分标准输入GPT-4.1-mini,由它为每条标准打出0或1的分数。模型会根据这些得分调整自己的生成倾向,向得分更高的方向靠近。

在"覆盖足够广泛"这个问题上,研究团队构建了一个名为Lens-RL-8K的提示词数据集,包含8406条提示词,涵盖了人像、物体、动物、植物、场景、食物、事件、虚构世界、文字渲染以及UI和图形设计共10大类别,每类下面又有几十个子类别,每个子类别下有数百个具体条目。研究团队发现,RL训练数据的多样性对最终效果至关重要。他们通过对比实验证明:使用完整的Lens-RL-8K数据集训练,GenEval得分达到0.930;使用一半数据集,得分降至0.920;只用四分之一数据集,得分进一步降至0.916。而在去掉文字渲染相关提示词后单独测试文字生成能力时,差距更为明显——包含文字类提示词的完整数据集训练版本,在两个文字渲染基准测试上均优于去掉这部分数据的版本。这说明,RL数据分布必须尽可能贴近预训练数据的整体分布,否则模型会在某些类别上改善,却在其他类别上退步。

RL训练在64块A100显卡上进行了180步,使用了DiffusionNFT这一专门为扩散模型设计的强化学习算法。为了防止模型过度优化奖励分数而失去多样性,训练中还加入了KL散度惩罚项,把模型的行为约束在距离原始版本不太远的范围内。

**七、推理加速:四步完成,快到飞起**

完成预训练和强化学习后训练的Lens,默认使用20步推理生成一张1024×1024的图像,在单块英伟达H100显卡上耗时约3.15秒。这对于大多数应用场景已经足够,但研究团队还额外开发了一个加速版本Lens-Turbo,只需4步就能完成生成,耗时0.84秒,提速约3.75倍。

Lens-Turbo通过"蒸馏"技术实现。蒸馏的原理类似于用一个完整版老师的知识来训练一个精简版学生,但这里的"学生"并不是参数更少的小模型,而是同样规模但能在更少步骤内完成生成的版本。

具体技术上,研究团队结合了DMD2、decoupled-DMD和SenseFlow三种方法的优点,并引入了R1正则化来提升训练稳定性。整个蒸馏过程在从Lens-800M中精选出的10万张高质量图像上进行,这些图像在审美得分、内容多样性(人像、风景、艺术风格、文字丰富场景等)上都经过了严格筛选。Lens-Turbo不需要分类器自由引导(CFG),这进一步降低了推理时的计算需求。实验表明,Lens-Turbo在主要基准测试上的表现与20步版本相当,生成质量几乎没有明显下降。

**八、推理时的智能增强:训练无关的提示词优化**

除了模型本身的能力,研究团队还开发了一套"训练无关的系统提示词搜索"策略,用于优化推理器(Reasoner)如何将用户的原始输入转化为更适合Lens的详细提示词。

这个策略的运作方式类似于一个自我迭代的改进循环:先用当前的系统提示词(给推理器的指令模板)让模型生成一批图像,然后分析哪些图像出了问题、哪些类型的用户输入没有被很好地处理;把这些"失败案例"的文字描述喂给GPT-5.5,请它根据分析结果重写系统提示词;再用新的系统提示词重复上述过程,不断迭代。这个方法不需要任何额外的模型训练,只是在寻找更好的"指令语言"。

值得注意的是,这套提示词优化策略并不是Lens专用的——研究团队把它应用到Qwen-Image(一个20B参数的竞品模型)上,也取得了明显的性能提升,说明这是一种具有普遍适用性的方法。

**九、实验结果:数字背后的真实差距**

Lens在四个主流基准测试上与当前最先进的模型进行了全面对比。这四个测试分别从不同维度评估图像生成能力。

GenEval专门测试模型能否准确生成满足复杂构图要求的图像,比如"两个不同颜色的物体,一个在左边一个在右边"。Lens在这个测试上得分0.930,超过了同为6B参数的Z-Image(0.840)和LongCat-Image(0.870),以及20B参数的Qwen-Image(0.868)。就连80B参数的Hunyuan-Image-3.0(0.720)也被它远远甩在身后。加速版的Lens-Turbo得分0.914,同样优于多数竞品。

OneIG测试更为综合,覆盖普通物体、人像、动漫风格、文字渲染和知识推理五个维度,并分别评估对象对齐、文字准确性、推理能力、风格还原和多样性。在英文版测试中,Lens(0.557)超越Z-Image(0.546)、Qwen-Image(0.539)以及多个商业模型。在中文版测试中,Qwen-Image的0.548略高于Lens的0.525,反映出Lens在中文环境下尚有提升空间——这与Lens仅在英文数据上训练的事实一致。

在文字渲染测试中,LongText(EN)测试160个英文场景,Lens得分0.937,超过Z-Image的0.935;CVTG测试多文字区域的复杂视觉文字生成,Lens-Turbo在NED(归一化编辑距离)指标上得分高达0.965,超越所有对比模型,包括Seedream 4.0(0.951)和GPT Image 1(0.948)。

这些数字的背景是:Lens的训练算力仅为192K A100 GPU小时(换算标准为312 TFLOPS BF16),而Z-Image使用了314K H800 GPU小时(换算标准为989.5 TFLOPS BF16)。按照统一的TFLOPS标准折算,Lens使用的实际计算量约为Z-Image的19.3%。

**十、看得见的效果:Lens能画出什么**

论文中展示了大量由Lens-Turbo在1440?像素分辨率下生成的图像样本,涵盖多个类别。

在通用图像生成方面,Lens能生成高度逼真的自然景观、动物特写、建筑场景和奇幻世界,细节层次丰富,从宏观构图到微观纹理都有相当强的控制力。在人像生成方面,模型展示了跨越不同种族、职业、年龄和文化背景的人物,面部细节和光线处理尤为出色。

在多语言文字渲染方面,Lens能够准确地在图像中渲染英文、中文以及其他语言的文字内容,包括店铺招牌、海报、路牌等各种真实场景中的文字呈现,字体清晰可辨,与周围场景融合自然。在多语言提示词遵循方面,即便输入的提示词是中文、法文、西班牙文或日文,Lens也能准确理解并生成对应的图像内容,例如具有中国文化特征的食物、法国地标建筑、日本传统服饰等。

说到底,Lens这项研究最有价值的地方,不只是发布了一个性能出色的模型,而是系统地回答了一个被整个行业忽视的问题:训练效率究竟由什么决定,以及如何在不牺牲性能的前提下把效率拉到极致。研究团队发现,详细的训练描述、多分辨率混合训练、合适的VAE和语言编码器选择,这四个因素加在一起,能让同样的计算资源发挥出远超预期的效能。Lens-Turbo能在一块H100显卡上不到一秒就生成一张高质量的图像,这个速度足以支撑相当多的实时应用场景。

当然,Lens并非没有局限。中文提示词的表现略逊于英文;日语、法语等语言中的文字渲染还有待改善;偶发的视觉缺陷问题也没有彻底解决。这些局限指向了未来可以继续改进的方向:更广泛的多语言文字数据、覆盖更多长尾场景的训练数据,以及更强健的安全过滤机制。

对于普通用户来说,Lens意味着更快、更省资源的AI图像生成正在成为可能;对于研究社区来说,这篇工作提供了一套经过严格实验验证的效率优化方法,值得在未来的模型开发中认真参考。有兴趣深入研究这些技术细节的读者,可以通过arXiv编号2605.21573查阅完整论文。

**Q&A**

Q1:Lens模型的训练算力为什么只有竞品Z-Image的19.3%?

A:Lens同时优化了三个影响训练效率的因素:用GPT-4.1生成平均109词的详细图文描述代替简短标注,让每批数据携带更多信息;混合27种分辨率和长宽比训练,提升视觉信息多样性并实现高分辨率泛化;选用FLUX.2的语义VAE和GPT-OSS语言编码器加快模型收敛速度。三者叠加,使Lens在192K A100 GPU小时内达到了Z-Image用314K H800 GPU小时才能达到的性能水平。

Q2:Lens-800M数据集的图片来源是什么,如何保证质量?

A:Lens-800M包含来自公开真实数据、公开合成数据、私有数据和文字合成数据四类来源共约8亿张图像,经过九个清洗步骤筛选:依次过滤损坏文件、低分辨率图、NSFW内容、低美学得分图、含水印图、模糊图、低信息量图、曝光异常图,并通过CLIP嵌入去除余弦相似度超过0.985的近重复图像。通过这些步骤保留下来的图像,每张都由GPT-4.1重新生成详细描述。

Q3:Lens强化学习后训练中的评分细则是怎么生成的?

A:对于Lens-RL-8K数据集中的每一条提示词,研究团队先将提示词和一段系统指令一起输入GPT-4.1,由GPT-4.1自动生成10条针对该提示词的具体可验证评分标准,例如"验证图中恰好有一个红色踢球",再统一追加一条通用标准"验证整张图像在结构上连贯、物理上合理"。生成图像后,GPT-4.1-mini负责对照每条标准打0或1的分数,这些分数作为强化学习的奖励信号驱动模型优化。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新