当前位置: 首页 » 资讯 » 科技头条 » 正文

字节跳动推出Lance:一个能同时"看懂"和"画出"图片与视频AI模型

IP属地 中国·北京 科技行者 时间:2026-05-25 22:22:10


这项由字节跳动智能创作实验室主导的研究成果发表于2026年5月,论文以arXiv预印本形式公开,编号为arXiv:2605.18678v1,发布日期为2026年5月18日。对原始论文感兴趣的读者可通过该编号在arXiv平台查阅完整内容。

在我们的日常生活中,AI工具正在以令人目眩的速度改变内容创作的方式。有些AI擅长"看图说话"——你给它一张照片,它能告诉你图里有什么;有些AI擅长"凭空作画"——你给它一段文字描述,它能生成精美的图像或视频。然而,这两类工具长期以来就像两个专业分工不同的工匠,各自为战,很少有一个"全能工匠"能把这两件事同时做好。字节跳动的研究团队偏偏向这个挑战发起了冲击,他们训练出了一个叫做Lance的模型,目标是让一个AI系统同时掌握图像理解、图像生成、图像编辑、视频理解、视频生成和视频编辑这六大能力,并且让这些能力之间相互促进、共同成长。

Lance的核心哲学可以用一句话概括:让不同的任务相互帮忙,而不是相互干扰。这个想法听起来简单,但在实现层面却充满了工程和算法上的挑战。整个系统仅有30亿个激活参数(这在AI模型中属于相当轻量的规模),却在图像生成、视频生成、多模态编辑和视频理解等主流评测基准上超越了现有的开源统一模型,同时所有训练工作都在128块GPU的预算内完成,充分展示了"小而全"的可行性。

一、为什么我们需要一个"全能工匠",而不是一堆专科匠人?

要理解Lance存在的意义,先要理解目前AI工具生态的割裂状态。一台能处理文字的大语言模型,和一台能生成视频的扩散模型,它们的工作原理有着本质的不同,就像一个精通文学的作家和一个专注绘画的画家,尽管都属于"创作者",但他们大脑里处理信息的方式几乎没有重叠。长期以来,AI研究也沿着这两条路径分别演进:一边是以理解和问答为核心的多模态大语言模型,另一边是以扩散过程为核心的图像/视频生成模型。

这种割裂带来了两个显著问题。其一,理解任务和生成任务需要的视觉信息性质截然不同。理解任务希望AI能提取图片的高层语义——"这张图里有一只猫";而生成任务则需要低层次的纹理、颜色、空间结构等细节信息,才能画出一张逼真的猫咪图片。如果用同一套视觉表示方法强行应付两类任务,往往会顾此失彼。其二,现有的"统一模型"尝试大多只覆盖了图文领域或任务的一部分,对视频的处理、对编辑任务的支持往往不完整,更鲜少把这些任务系统性地纳入一个统一的训练框架。

更有趣的是,研究团队在梳理现有工作时发现:一个模型覆盖的任务种类越多,它在未见过的新任务上的泛化能力往往越强。这个规律促使他们把"多任务协同训练"不仅仅看作功能堆砌,而是视为释放统一模型潜力的核心机制。换句话说,让一个AI同时学会"看"和"画",不只是方便用户,更可能让这个AI在两件事上都比专门训练的AI做得更好。

二、Lance的建筑蓝图:共享的大堂,分开的工作室

如果把Lance的整体架构比作一栋办公楼,那么这栋楼有一个所有人共用的大堂(统一的多模态上下文序列),但理解部门和生成部门分别拥有自己专属的工作室(双流混合专家架构)。大堂里每个人都能见到彼此、交换信息,但到了真正处理任务的时候,每个部门又在自己的工作室里按照各自的规则独立完成工作。这正是Lance的两大核心原则:统一上下文建模与解耦能力路径。

在输入处理层面,Lance接受文字、图片、视频的混合输入,并把它们转化为三类标记(Token)。第一类是文字标记,直接由语言嵌入层处理。第二类是语义视觉标记,由一个叫做ViT(视觉变换器)的编码器产生,这些标记擅长捕捉图像的高层语义,是理解任务的好帮手。第三类是生成潜在标记,由一个叫做VAE(变分自编码器)的模块产生,能够精确保留图像和视频的底层纹理与时空结构,是生成和编辑任务的核心原料。Lance使用了字节跳动旗下Wan2.2视频模型的3D因果VAE编码器,它能用统一的潜在空间同时处理图片和视频,图像空间下采样16倍,视频时间维度下采样4倍。

这三类标记随后被组织成一个交错排列的多模态序列,理解专家模型(LLMUND)负责处理文字标记和语义视觉标记,通过自回归预测的方式输出文字答案;生成专家模型(LLMGEN)负责处理VAE潜在标记,通过流匹配(Flow Matching)目标函数预测速度场,从而在图像/视频的潜在空间里执行高质量的生成与编辑。两个专家模型共享同一个交错多模态上下文序列,因此它们能够自由交换信息、互相参考;但它们各自拥有独立的参数和预测头,因此不会在目标函数上产生直接冲突。整个Lance的训练目标是两个损失函数的加权和:一个是文字预测的交叉熵损失,另一个是生成任务的速度场均方误差损失。

在注意力机制上,Lance采用了"广义3D因果注意力"。序列被划分为若干模态段,每段可以关注前面所有已处理的干净段,保证因果依赖;段内文字标记使用单向因果注意力,视觉标记使用双向注意力以捕捉完整的空间和时空结构。这套机制为理解、生成和条件编辑提供了统一的注意力框架,是整个系统能够无缝处理多类任务的底层基础。

三、解决"身份识别危机"的关键创新:模态感知旋转位置编码

在统一多模态训练中,序列里同时存在三类视觉标记:ViT语义标记、干净VAE条件标记和带噪声VAE目标标记。这三类标记不仅来源不同,功能角色也截然不同——前者为理解提供语义线索,中间者作为生成的视觉条件输入,后者才是真正需要被预测和优化的生成目标。如果模型无法清楚地"认出"自己正在处理的是哪类标记,就可能在注意力计算中把"条件"和"目标"混为一谈,产生位置歧义,干扰跨任务对齐。

为了解决这个问题,研究团队提出了模态感知旋转位置编码(MaPE)。其基础是Qwen2.5-VL模型已有的3D旋转位置编码(3D-RoPE),它能够对时间、高度、宽度三个维度分别赋予位置信息。MaPE在这个基础上增加了一个简单但关键的修改:对三类视觉标记分别施加一个模态专属的偏移量,但这个偏移量只作用在时间维度上,不影响高度和宽度维度。

这个设计有两个精妙之处。偏移量只加在时间维度上,意味着每类视觉标记在全局位置空间中被清晰地分隔开来,模型可以轻松区分"这是语义标记"还是"这是生成目标标记"。与此同时,空间坐标保持不变,图像和视频内部的空间布局信息完整保留,不会因为引入偏移而破坏空间一致性。此外,由于偏移量是同一模态组内所有标记共享的常数偏移,视频内部的时序顺序和相对距离完全不受影响,时间连贯性得到保障。后续实验证明,MaPE的引入在图像生成、图像编辑、视频生成和视频理解四项任务上均有一致的性能提升,在图像编辑任务上提升尤为明显(GEdit评分从6.30提升至6.86),因为编辑任务需要模型同时推理视觉条件和生成目标,正是歧义最容易产生的场景。

四、从零到全能:分阶段训练的"成长路线图"

Lance的训练分为四个阶段,可以理解为一个人从小学到研究生的成长路径——先打宽泛的基础,再系统拓展技能,然后精细打磨,最后通过强化反馈进一步提升。

第一阶段是预训练(PT),相当于小学和初中阶段。这一阶段的目标是让模型建立基本的多模态对齐能力和初步的视觉生成能力。训练数据以大规模图文对和视文对为主,图片子集约10亿样本,涵盖自然场景、人物、物体、知识类和风格化内容;视频子集约1.4亿样本,覆盖动作、事件、场景切换和长时序过程。为了照顾视频建模的更高难度,训练中图片与视频的采样比大约为1:4。分辨率从192p逐步提升到360p再到480p,采用渐进式课程学习。这一阶段训练了约35万步,消耗了约1.5万亿个训练标记。

第二阶段是持续训练(CT),相当于高中和大学阶段。这一阶段将任务空间从基础的描述和条件生成大幅扩展到多任务交错学习,引入了图像编辑、视频编辑、主体驱动生成(即"给我一个参考人物,生成一段包含他的视频")、多模态理解问答等丰富任务类型。在数据混合策略上,CT分为三个子阶段(CT-I、CT-II、CT-III),逐步提高难度更高的编辑和主体驱动任务的采样比例,同时相应降低简单描述任务的占比。这一阶段还引入了任务专属系统提示,用于理解任务的提示会要求模型"仔细观察并提供准确答案",用于生成任务的提示则要求模型先描述输入图像/视频的关键特征,再解释如何按用户指令修改,最后输出符合要求的结果。持续训练约消耗3000亿个训练标记。

第三阶段是监督微调(SFT),相当于研究生阶段的专业训练。这一阶段使用精心筛选的高质量数据,在较低学习率下对模型进行精细化调整,重点提升指令遵循能力、视觉一致性、编辑精准度和身份保持能力。高质量图像生成样本19万条、图像编辑样本8.4万条、视频生成样本5000条、视频编辑样本9000条,以及5500条高质量主体驱动视频生成样本被纳入这一阶段的训练。SFT约消耗720亿个训练标记。

第四阶段是强化学习(RL),相当于通过实战反馈进一步提升专业技能。这一阶段专门针对图像生成能力,使用组相对策略优化(GRPO)算法,以OCR(文字识别)系统PaddleOCR作为奖励模型,评估生成图像中文字的清晰度和图文一致性。RL阶段使用了2万条强调文字渲染的图像生成提示,通过直接的奖励反馈帮助模型改善纯监督学习难以完全解决的文字生成质量问题,训练了约800步,消耗约5000亿个标记。

五、成绩单解读:Lance到底考了多少分?

在图像生成方面,研究团队在GenEval和DPG-Bench两个主流评测基准上对Lance进行了测试。GenEval是一个专门评估文图对齐能力的基准,包含单物体、双物体、计数、颜色、位置和属性等多个维度。Lance以0.90的总分与同类统一模型中的最高分并列第一,在计数(0.84)、颜色(0.97)和空间位置(0.87)上尤为突出。DPG-Bench则侧重评估模型在复杂提示下的语义一致性,Lance在关系建模上表现特别好,整体得分84.67,在统一模型中同样处于竞争性位置。值得强调的是,这些成绩是Lance用30亿激活参数实现的,而相比之下BAGEL用了70亿参数、TUNA用了70亿参数。

在视频生成方面,Lance在VBench评测上取得了85.11的总分,超越了所有参与比较的开源统一模型,包括TUNA(84.06)和Show-o2(81.34)。VBench涵盖主体一致性、背景一致性、时间闪烁、运动流畅度、动态程度、美学质量、成像质量、物体类别、多物体、人体动作、颜色、空间关系、场景、外观风格、时序风格和整体一致性等16个维度,Lance在多物体(93.86)、人体动作(97.80)、颜色(92.61)和空间关系(93.61)四个维度上尤为亮眼,这些维度正是语义理解与时序生成交叉的难点所在。

在图像编辑方面,Lance在GEdit-Bench(由Step1x-Edit引入的综合编辑评测基准)上取得了7.30的平均分,是所有统一模型中最高的。GEdit-Bench涵盖背景变更、颜色调整、材质修改、动作改变、人像美化、风格迁移、主体添加、主体移除、主体替换、文字修改和色调转换等11类编辑操作。Lance在其中多个类别上排名第一,包括背景变更(7.73)、材质修改(7.28)、动作改变(7.83)、人像美化(7.50)、主体移除(7.85)、主体替换(7.71)和色调转换(7.57)。文字修改类别(4.46)相对薄弱,研究团队也在论文中坦诚这是未来改进的方向。

在视频理解方面,Lance在MVBench评测上取得了62.0的总分,超越了所有同类统一模型,比排名第二的Show-o2 7B(55.7)高出约11.3个百分点,而且使用的参数量(30亿)还不到对方的一半。MVBench是一个评估视频时序感知和视频中心理解能力的多选题基准,包含动作序列、异常识别、行动预测、细粒度动作、意外动作等20个子类别。Lance在对象存在(96.0)、多选择(82.0)、动作反事实(97.5)等多个子类别上均处于领先位置。

六、"一起学"真的比"分开学"更聪明?

这是Lance研究中最引人深思的问题,研究团队通过消融实验给出了数据支撑的答案。

研究团队系统测试了不同任务数据混合方式对性能的影响。仅用生成数据训练的基线模型(GenEval 80.88,VBench 81.25)是起点。当加入理解数据时,以生成:理解=8:2的比例混合,图像生成和视频生成性能双双提升(GenEval 81.65,VBench 82.91),同时视频理解能力(MVBench 58.06)从无到有。进一步加入多任务生成数据(包括编辑、主体驱动生成等),以生成:多任务生成=6:4的比例,图像生成(82.06)和视频生成(83.05)继续提升,视频理解也提升到了59.18。最令人意外的发现是:加入更多种类的生成任务数据,不只是让生成变好了,还让视频理解变好了。这说明多任务学习带来的不是零和博弈,而是真实存在的跨任务迁移效应。

在训练动态分析中,研究团队还绘制了随训练标记数增加时模型性能的变化曲线。图像生成(DPG-Bench)和视频生成(VBench)都呈现出相似的趋势:预训练阶段快速攀升,之后进入缓慢增长区间。持续训练阶段虽然主要引入的是多任务数据而非额外的纯生成数据,但生成性能仍有进一步提升,再次印证了多任务协同的价值。从定性角度看,用0.5万亿、1万亿、1.5万亿标记训练的三个模型版本,在图像文字渲染、多物体属性准确性、视频动作一致性等方面都有肉眼可见的逐步提升。

七、与同类模型的正面比较:质量差距在哪里?

研究团队在论文中提供了与多个基线模型的定性比较样例,具体展示了Lance在哪些细节上做得更好。

在图像生成的定性比较中,Lance与70亿参数的BAGEL、17亿参数的InternVL-U、200亿参数的Qwen-Image以及商业闭源模型Nano Banana进行了对比。以"恰好有3只狐狸和3盏小灯笼,每只狐狸各坐在一盏灯笼旁边"这样的计数与空间关系提示为例,Lance能够准确遵守数量约束,而部分基线模型会出现数量错误或空间排布混乱。在"一件叠放在肩膀上的深色外套"这样的属性约束上,Lance的视觉还原更为精准。在文字渲染方面(如瓶子标签上的L/A/N/C/E五个字母),Lance的识别和渲染质量优于同类开源统一模型,与商业模型水平接近。

在视频生成的定性比较中,Lance与83亿参数的HunyuanVideo1.5、50亿参数的Wan2.2以及70亿参数的UniVideo进行了对比。研究团队选择的测试提示包含了高难度指令,例如"镜头从中景逐渐推向面部特写"(要求模型理解镜头运动语义)和"两个年轻人相遇后停顿、走近并紧紧拥抱"(要求多步骤动作序列的时序准确性)。Lance在遵循镜头运动指令和多步骤动作描述方面表现出色,生成视频具有稳定的视觉纹理和连贯的时序演化。

在图像和视频编辑的定性比较中,可以看到Lance对"将大理石雕塑转换为透明光泽的冰雕"、"将粉色衬衫换成夏威夷衫并让男子手持咖啡杯"等复杂编辑指令的处理能力。Lance能够在准确执行编辑指令的同时保持原始图像的结构和细节,视频编辑中对多属性同时修改的处理也展现出时序一致的自然动作动态。

说到底,Lance想要证明的事情并不复杂:一个AI模型同时学会"看"和"画",而且不只是图片,还有视频,不只是理解,还有编辑——这不是贪多嚼不烂,而是真的能让每件事都做得更好。研究团队用数据告诉我们,跨任务协同不是一个美好的口号,而是可以被测量、可以被复现的真实现象。对于普通用户来说,这意味着未来可能出现一个AI助手,你既可以问它"这张图里有什么",也可以让它"把这张图里的夏天改成冬天",还可以让它"根据这段文字生成一段15秒的小视频",而这一切都由同一个轻量级模型完成,不需要在不同工具之间来回切换。

当然,Lance目前仍有局限。文字编辑能力相对薄弱,视频奖励模型的覆盖范围有限,模型规模和上下文长度的扩展潜力尚未充分探索,音频、3D、深度图等更多模态的纳入也是留待未来的方向。研究团队坦诚地指出了这些不足,并把流式多模态交互(支持实时感知和生成的闭环智能体)列为令人期待的下一步。对于这项工作感兴趣的读者,可以通过arXiv编号2605.18678查阅完整论文,或访问项目主页lance-project.github.io获取更多示例和信息。

Q&A

Q1:Lance模型和普通的图像生成AI(比如Stable Diffusion)有什么本质区别?

A:普通图像生成AI只会"画图",而Lance同时具备理解图片视频、生成图片视频、以及编辑图片视频的能力,而且这六类任务在一个模型里统一训练,相互促进。Stable Diffusion等工具本质上是单向生成工具,无法对你上传的图片进行问答或内容分析,而Lance可以。

Q2:Lance多任务协同训练为什么能让理解和生成互相提升?

A:Lance的消融实验表明,加入理解数据会给生成任务带来语义接地效果,而加入更多种类的生成任务数据(如编辑、主体驱动生成)反过来也能提升视频理解分数。这是因为多样化的任务迫使模型建立更丰富的跨模态表示,不同任务之间存在真实的特征共享和迁移,并非简单的能力堆砌。

Q3:Lance的模态感知旋转位置编码(MaPE)解决了什么实际问题?

A:在统一多模态训练中,序列里同时存在语义视觉标记、干净VAE条件标记和带噪声的生成目标标记,如果模型分不清自己在处理哪类标记,会在注意力计算中产生混淆。MaPE通过给不同类型的视觉标记加上模态专属的时间维度偏移量,让模型清楚识别每类标记的功能角色,同时不破坏空间布局和时序结构,从而提升了编辑、生成和理解任务的整体表现。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。