MiniMax海螺视频团队不藏了!
首次开源就揭晓了一个困扰行业已久的问题的答案——
为什么往第一阶段的视觉分词器里砸再多算力,也无法提升第二阶段的生成效果?
![]()
翻译成大白话就是,虽然图像/视频生成模型的参数越做越大、算力越堆越猛,但用户实际体验下来总有一种微妙的感受——这些庞大的投入与产出似乎不成正比,模型离完全真正可用总是差一段距离。
So why?问题,大概率就出在视觉分词器(Tokenizer)这个东西身上了。
当算力不再是答案时,真正需要被重新审视的,其实是生成模型的“起点”。
在当前主流的两阶段生成框架中(分词器+生成模型),业界已经在视觉分词器的预训练上投入了大量算力与数据,但一个尴尬的事实是:
这些成本,几乎没有线性地转化为生成质量的提升
而MiniMax海螺视频团队,不止挑战了这一现实——用实验证明“Tokenizer的scaling能够提升模型性能”。
更关键的是,还带来了一款开箱即用、专为“下一代生成模型”打造的可扩展视觉分词器预训练框架——Visual Tokenizer Pre-training(以下简称VTP)。
只需换上这个视觉分词器,即可在不改变下游主模型(如DiT)任何训练配置的情况下,实现端到端生成性能的倍数级提升。
下面详细来看——
传统Tokenizer的缺陷:更好的重建≠更好的生成
要理解VTP存在的意义,首先我们需要回到更基础的问题上——
Tokenizer是什么?它又为何如此关键?
以AI生图为例,当前主流的生图模型几乎清一色采用了“两阶段”生成框架:
第一阶段(压缩):使用视觉Tokenizer(如VAE)这个组件,将原始图像压缩并映射到一个潜在空间(latent space)中;第二阶段(还原生成):再由以扩散模型为核心的生成器(如DiT),在这个潜在空间中学习分布,并逐步还原、生成最终图像。
用一张图来形容这个过程be like(先压缩后还原):
![]()
而Tokenizer,就是在第一阶段中负责压缩图片信息的组件。
如果没有这个组件,扩散模型就得直接在数百万像素组成的原始像素空间中进行“去噪”和生成——其计算复杂度和内存开销将是天文数字。
因此,Tokenizer称得上是让模型能够在消费级显卡上运行起来的“关键功臣”。
除此之外,Tokenize过程所得的低维潜在表征,其质量直接决定了最终生成图像的语义保真度、细节丰富度以及整体真实性,所以业界也普遍认为——
从某种程度上来说,Tokenize几乎决定了后续生成模型的上限。
基于此,人们在研究如何提升下游生成模型的质量时,也不约而同地将重点放在了“如何精准复刻原始像素”上,即要求模型将压缩后的潜在特征(latent)尽可能精准地还原为原始图像。
![]()
而问题,也正出在这里。
传统Tokenizer在追求“像素级重建”时,往往会过度沉迷于捕捉图像的局部纹理、噪点等低层信息,从而忽视了生成任务真正依赖的高层语义与整体结构。
这就像学渣为了应付考试,只想着死记硬背各种试题,却完全不理解题目背后的知识点与逻辑结构。结果真正到了需要举一反三、解决新问题的时候,一下就傻眼了。
在论文中,海螺视频团队将这一现象定义为“预训练缩放问题”(Pre-training Scaling Problem):
更好的像素级重建精度并不能带来更高质量的生成效果
如图所示,传统仅基于“重建”目标训练的Tokenizer(灰线),随着算力投入增加,模型的生成性能不仅没有提升,反而逐渐趋于饱和甚至略微下降。(ps:gFID衡量生成质量,越小越好)
![]()
由此,论文得出第一个关键发现:重建做得越好,生成反而可能越差。换言之,传统VAE所依赖的纯重建训练范式,在面向生成任务时存在根本性局限。
那么,VTP是如何破局的呢?
VTP破局之道:从像素级重建到强调“理解力”的重要性
事实上,VTP并非横空出世,而是海螺视频团队在长期实践中反复试错与认知迭代的产物。
一些早期探索:从易学性到通用表征学习
在早期工作VA-VAE中,团队注意到:
有些“压缩后的特征”能让后续的扩散模型学得又快又好,而另一些则不能。
基于此,他们提出了“易学性”这一概念——即不同的潜在表征(latents)对于下游生成模型的学习难度截然不同,并期望通过优化latent的某些“友好特性”(如均匀性、频域分布等)来间接改善生成效果。
然而实践发现,这些方法虽有一定效果,却未触及本质。按团队自己的话来说就是:
尝试将易学性等价为可精确计算的单一指标(例如频域分布、均匀性、scale不变性、低秩效应等等)有些过于理想了,这些指标可能和易学性有一定关联,但远不是全部。
就是说,当优化目标被限制在少数可测量指标上时,模型往往只是学会了在特定指标上“刷分”,而没有从根本上学会理解图像的结构与语义(本质上仍未脱离“重建”范畴)。
△在VA-VAE中,团队曾尝试将易学性对应到latent分布的“均匀性”
而经过持续反思,团队逐渐意识到VA-VAE和后来的很多尝试,其深层目标并非仅仅是优化几个指标,而是在试图让latents具备某些更高级的“结构”。其背后逻辑在于:
假如某种latents对于图像中的实体、位置关系具有高度结构化的表达,那么这种结构化表达对于下游diffusion建模来说也会更简洁、更容易,这些方面的生成效果也自然会更好。
这就好比另一种层面上的“大道至简”——当模型真正掌握了物体、关系与语义这些视觉世界的本质规律时,它能应对的任务自然也就越多了(以不变应万变)。
![]()
因此,与其为“易学性”设计脆弱的代理指标,不如直接让Tokenizer去学习人类视觉系统本身所依赖的那种高度结构化、语义化的通用表征。
毕竟像CLIP、DINOv2这样的现代通用表征学习方法,正是在大规模数据上自动化地学习了这种“人类对齐”的视觉表达,才在多种下游任务中表现出强大的泛化能力。
至此,团队的研究重心正式从“像素级重建”转向了强调理解力的“通用表征学习”。
VTP:回归“压缩即智能”本质
基于这一认知转变,VTP的设计原则变得异常清晰。团队表示:
我们应该融合所有已知有效的表征学习方法来构建一个Tokenizer
![]()
具体而言,VTP这次率先实现了从只练“重建”到“理解、重建、生成”的联合优化。
一是通过图文对比学习,建立高层语义理解。
在训练时,团队会给模型看大量图像-文本配对数据(如“一只猫在沙发上”与对应图片),然后要求图片的特征向量和文字的特征向量尽可能接近。
这和之前的CLIP思路一脉相承,但目标更聚焦。CLIP追求的是广义的图文匹配能力,而VTP则要求Tokenizer在压缩图像为紧凑的潜在编码时,必须保留与文本对齐的语义结构。
这意味着,生成模型后续接收到的每一个潜在表示,本身就已经是“有语义的”——它不只是一堆像素的压缩,而是携带了“猫”、“沙发”等概念及其关系的结构化表达。和以往相比,“语义注入”被提前到了压缩阶段。
二是通过自监督学习,掌握空间结构与视觉常识。
在VTP框架中,自监督学习模块通过结合掩码图像建模(MIM) 和自蒸馏(DINO风格),“迫使”模型去理解图片的空间关系和物体结构。
这个过程会“逼着”Tokenizer来回答不同问题:
通过自蒸馏回答:抛开具体的像素细节,这张图片最核心的视觉主题或概念是什么?(全局语义)通过MIM回答:根据你看到的“冰山一角”,你能推断出整个“冰山”的形状和结构吗?(结构推理)二者协同回答:为了识别图片主题或从局部重建整体,哪些视觉线索是决定性、不可缺失的?(聚焦核心)
这一套流程走下来,模型对图像的理解便不再停留在像素层面,而是构建起了结构化的视觉认知。
三是通过重建,保留必要的底层视觉细节。
VTP依然保留了重建目标,但它的定位发生了变化——其作用不再是“越准越好”,而是确保潜在空间中仍然保有生成所需的纹理、颜色与边缘等细节信息。
这三重目标并非孤立进行,而是通过一个统一的多任务损失函数进行联合优化:
![]()
最终,VTP得到的不是一个在某个指标上“特别优秀”的压缩器,而是一个自带理解能力、对生成模型非常友好的视觉Tokenizer。
这里也补充一个细节:为什么他们不像很多工作一样直接使用现有的CLIP或DINOv2作为Tokenizer,而非要投入巨大算力从头预训练一个?
其核心思考在于两点(团队原话如下):
表征真的很重要,我们想要做到很极致。在我们的视角下表征包含了自监督、对比学习、甚至是重建(这些只是已知比较成熟的方法,实际上理想的表征远不止这些),市面上没有一个能够很好地融汇这些方法的模型,我们需要自己训练一个。基于表征的Tokenizer方案具备scaling的潜力,预训练是最合理的实现方式。如果直接利用已有模型蒸馏或者迁移,会因为setting过于复杂而破坏scaling的性质,也会受限于已有的模型规格而无法做充分的论证。
所以,选择“从头开始”的VTP,其实际表现究竟如何呢?
首次展示了Tokenizer的Scaling Law
概括而言,团队通过VTP得出了两大关键发现:
理解力是驱动生成的关键因素视觉Tokenizer也具备明确的Scaling Law
先说第一点。
VTP用实验证明,如果只做重建的话,投入资源越多生成反而可能越差。
下图中,代表重建能力的rFID从2.0降至0.5,重建效果变好;但代表生成能力的gFID从55.04升至58.56,生成效果变差。
![]()
而一旦注入“理解力”(即引入CLIP图文对比/SSL自监督任务),模型的生成质量(gFID)会随着理解能力(Linear Probe)的提升而同步变好——
二者呈现明显的正相关,且这种提升会随着训练计算量增加持续推进。相比之下,缺少“理解力”的传统AE Only方案,其生成质量和理解能力很快陷入停滞。
![]()
更进一步,团队在同等算力下对比了不同组合,证明“CLIP+SSL+AE”的联合训练方式上限最高,生成与理解指标均最优。
![]()
基于此,团队训练的VTP在理解、重建、生成方面均交出了不错的答卷——
在ImageNet上的零样本分类准确率达到78.2%,超过了原版CLIP的75.5%,已经具备强通用视觉理解能力;在重建能力上超过了Stable Diffusion的VAE, rFID低至0.36;在生成能力上超过了此前的改进方法VA-VAE,gFID低至2.81。
![]()
更关键的是,在达到相同生成质量的前提下,VTP的训练收敛速度比LDM快5.7倍、比VA-VAE快4.1倍,大幅降低了训练成本。
![]()
这一系列表现共同印证了团队的判断:Tokenizer的“语义理解力”而非单纯的像素重建精度,才是驱动生成性能与效率提升的核心动力。
再说第二点,也是更具突破性的一点。
团队在实验中发现,VTP首次展示了Tokenizer的Scaling Law,即生成性能可以随预训练中投入的计算量、参数量和数据规模有效增长。
仅从算力维度对比,在不改动下游DiT标准训练配置的前提下,单纯将Tokenizer的预训练计算量放大,VTP就能为最终生成效果带来65.8%的性能提升,且提升曲线仍未触顶。
反观传统自编码器(AE),其性能在仅投入约1/10计算量时便已饱和,且继续增加算力不仅收益微乎其微,甚至可能导致生成质量倒退。
![]()
以上发现表明,接下来除了在主模型上投入更多参数/算力/数据之外,还可以通过Tokenizer的scaling来提升整个生成系统的性能。
这个结论,乍一看可能会让人有点转不过弯:什么时候,Tokenizer也开始谈scaling了?
在大模型语境里,“Scaling Law”几乎天然只属于主模型——参数更大、数据更多、算力更猛,性能就该继续往上走。至于Tokenizer,则长期被视作一个“前置模块”,主打一个够用就行,做完重建任务就退场。
但VTP的出现却改变了这一现实,团队表示:
VTP在latents易学性和通用表征学习之间建立起了明确关联,从而第一次将Tokenizer作为scaling的主角,展现出全面的scaling曲线和扩展方向
就是说,如果Tokenizer只是被用来精准复刻像素,那么无论怎么堆算力,提升都将很快见顶;而一旦Tokenizer学到的是具备语义结构、对下游更友好的通用表征,事情就完全不一样了。
![]()
比如对整个行业来说,由于VTP在Tokenizer层面就已经统一了语义对齐、结构认知和细节表达,因此其产出的视觉表征天然具备多任务协同的潜力。
这有点像先把世界翻译成了一种统一、结构化的“视觉语言”。
一旦这套语言确定下来,下游无论是理解任务(如分类、检测),还是生成任务(如图像合成、编辑),都不再需要各自“重新学怎么描述这个世界”,而只是站在同一套底层表达之上,做不同的事情。
从这个角度看,VTP天然适合用来构建“理解-生成统一模型”。正如团队所言:
Tokenizer层面的统一,是更本质的统一
也因此,此次VTP的开源就不单单只是提供了一个组件那么简单了。
其更大的价值或许在于,它为整个行业提供了一条新的、且被实验证明行之有效的路径——
在主模型之外,Tokenizer同样是一个值得长期投入、且具备明确scaling回报的核心环节。
目前,VTP的论文和模型权重已经公开,动手能力强的朋友也可以尝试体验下:
换一个视觉Tokenizer,模型性能就能变得不一样的feeling(手动狗头)。
代码:https://github.com/MiniMax-AI/VTP
论文:https://arxiv.org/abs/2512.13687v1
模型:https://huggingface.co/collections/MiniMaxAI/vtp





京公网安备 11011402013531号