MiniMax海螺视频团队首次开源：Tokenizer也具备明确Scaling Law

IP属地中国·北京 量子位 时间：2025-12-22 14:18:25

MiniMax海螺视频团队不藏了！
首次开源就揭晓了一个困扰行业已久的问题的答案——
为什么往第一阶段的视觉分词器里砸再多算力，也无法提升第二阶段的生成效果？

翻译成大白话就是，虽然图像/视频生成模型的参数越做越大、算力越堆越猛，但用户实际体验下来总有一种微妙的感受——这些庞大的投入与产出似乎不成正比，模型离完全真正可用总是差一段距离。
So why？问题，大概率就出在视觉分词器（Tokenizer）这个东西身上了。
当算力不再是答案时，真正需要被重新审视的，其实是生成模型的“起点”。
在当前主流的两阶段生成框架中（分词器+生成模型），业界已经在视觉分词器的预训练上投入了大量算力与数据，但一个尴尬的事实是：
这些成本，几乎没有线性地转化为生成质量的提升
而MiniMax海螺视频团队，不止挑战了这一现实——用实验证明“Tokenizer的scaling能够提升模型性能”。
更关键的是，还带来了一款开箱即用、专为“下一代生成模型”打造的可扩展视觉分词器预训练框架——Visual Tokenizer Pre-training（以下简称VTP）。
只需换上这个视觉分词器，即可在不改变下游主模型（如DiT）任何训练配置的情况下，实现端到端生成性能的倍数级提升。
下面详细来看——
传统Tokenizer的缺陷：更好的重建≠更好的生成
要理解VTP存在的意义，首先我们需要回到更基础的问题上——
Tokenizer是什么？它又为何如此关键？
以AI生图为例，当前主流的生图模型几乎清一色采用了“两阶段”生成框架：
第一阶段（压缩）：使用视觉Tokenizer（如VAE）这个组件，将原始图像压缩并映射到一个潜在空间（latent space）中；第二阶段（还原生成）：再由以扩散模型为核心的生成器（如DiT），在这个潜在空间中学习分布，并逐步还原、生成最终图像。
用一张图来形容这个过程be like（先压缩后还原）：

而Tokenizer，就是在第一阶段中负责压缩图片信息的组件。
如果没有这个组件，扩散模型就得直接在数百万像素组成的原始像素空间中进行“去噪”和生成——其计算复杂度和内存开销将是天文数字。
因此，Tokenizer称得上是让模型能够在消费级显卡上运行起来的“关键功臣”。
除此之外，Tokenize过程所得的低维潜在表征，其质量直接决定了最终生成图像的语义保真度、细节丰富度以及整体真实性，所以业界也普遍认为——
从某种程度上来说，Tokenize几乎决定了后续生成模型的上限。
基于此，人们在研究如何提升下游生成模型的质量时，也不约而同地将重点放在了“如何精准复刻原始像素”上，即要求模型将压缩后的潜在特征（latent）尽可能精准地还原为原始图像。

而问题，也正出在这里。
传统Tokenizer在追求“像素级重建”时，往往会过度沉迷于捕捉图像的局部纹理、噪点等低层信息，从而忽视了生成任务真正依赖的高层语义与整体结构。
这就像学渣为了应付考试，只想着死记硬背各种试题，却完全不理解题目背后的知识点与逻辑结构。结果真正到了需要举一反三、解决新问题的时候，一下就傻眼了。
在论文中，海螺视频团队将这一现象定义为“预训练缩放问题”（Pre-training Scaling Problem）：
更好的像素级重建精度并不能带来更高质量的生成效果
如图所示，传统仅基于“重建”目标训练的Tokenizer（灰线），随着算力投入增加，模型的生成性能不仅没有提升，反而逐渐趋于饱和甚至略微下降。（ps：gFID衡量生成质量，越小越好）

由此，论文得出第一个关键发现：重建做得越好，生成反而可能越差。换言之，传统VAE所依赖的纯重建训练范式，在面向生成任务时存在根本性局限。
那么，VTP是如何破局的呢？
VTP破局之道：从像素级重建到强调“理解力”的重要性
事实上，VTP并非横空出世，而是海螺视频团队在长期实践中反复试错与认知迭代的产物。
一些早期探索：从易学性到通用表征学习
在早期工作VA-VAE中，团队注意到：
有些“压缩后的特征”能让后续的扩散模型学得又快又好，而另一些则不能。
基于此，他们提出了“易学性”这一概念——即不同的潜在表征（latents）对于下游生成模型的学习难度截然不同，并期望通过优化latent的某些“友好特性”（如均匀性、频域分布等）来间接改善生成效果。
然而实践发现，这些方法虽有一定效果，却未触及本质。按团队自己的话来说就是：
尝试将易学性等价为可精确计算的单一指标（例如频域分布、均匀性、scale不变性、低秩效应等等）有些过于理想了，这些指标可能和易学性有一定关联，但远不是全部。
就是说，当优化目标被限制在少数可测量指标上时，模型往往只是学会了在特定指标上“刷分”，而没有从根本上学会理解图像的结构与语义（本质上仍未脱离“重建”范畴）。
△在VA-VAE中，团队曾尝试将易学性对应到latent分布的“均匀性”
而经过持续反思，团队逐渐意识到VA-VAE和后来的很多尝试，其深层目标并非仅仅是优化几个指标，而是在试图让latents具备某些更高级的“结构”。其背后逻辑在于：
假如某种latents对于图像中的实体、位置关系具有高度结构化的表达，那么这种结构化表达对于下游diffusion建模来说也会更简洁、更容易，这些方面的生成效果也自然会更好。
这就好比另一种层面上的“大道至简”——当模型真正掌握了物体、关系与语义这些视觉世界的本质规律时，它能应对的任务自然也就越多了（以不变应万变）。

因此，与其为“易学性”设计脆弱的代理指标，不如直接让Tokenizer去学习人类视觉系统本身所依赖的那种高度结构化、语义化的通用表征。
毕竟像CLIP、DINOv2这样的现代通用表征学习方法，正是在大规模数据上自动化地学习了这种“人类对齐”的视觉表达，才在多种下游任务中表现出强大的泛化能力。
至此，团队的研究重心正式从“像素级重建”转向了强调理解力的“通用表征学习”。
VTP：回归“压缩即智能”本质
基于这一认知转变，VTP的设计原则变得异常清晰。团队表示：
我们应该融合所有已知有效的表征学习方法来构建一个Tokenizer

具体而言，VTP这次率先实现了从只练“重建”到“理解、重建、生成”的联合优化。
一是通过图文对比学习，建立高层语义理解。
在训练时，团队会给模型看大量图像-文本配对数据（如“一只猫在沙发上”与对应图片），然后要求图片的特征向量和文字的特征向量尽可能接近。
这和之前的CLIP思路一脉相承，但目标更聚焦。CLIP追求的是广义的图文匹配能力，而VTP则要求Tokenizer在压缩图像为紧凑的潜在编码时，必须保留与文本对齐的语义结构。
这意味着，生成模型后续接收到的每一个潜在表示，本身就已经是“有语义的”——它不只是一堆像素的压缩，而是携带了“猫”、“沙发”等概念及其关系的结构化表达。和以往相比，“语义注入”被提前到了压缩阶段。
二是通过自监督学习，掌握空间结构与视觉常识。
在VTP框架中，自监督学习模块通过结合掩码图像建模（MIM）和自蒸馏（DINO风格），“迫使”模型去理解图片的空间关系和物体结构。
这个过程会“逼着”Tokenizer来回答不同问题：
通过自蒸馏回答：抛开具体的像素细节，这张图片最核心的视觉主题或概念是什么？（全局语义）通过MIM回答：根据你看到的“冰山一角”，你能推断出整个“冰山”的形状和结构吗？（结构推理）二者协同回答：为了识别图片主题或从局部重建整体，哪些视觉线索是决定性、不可缺失的？（聚焦核心）
这一套流程走下来，模型对图像的理解便不再停留在像素层面，而是构建起了结构化的视觉认知。
三是通过重建，保留必要的底层视觉细节。
VTP依然保留了重建目标，但它的定位发生了变化——其作用不再是“越准越好”，而是确保潜在空间中仍然保有生成所需的纹理、颜色与边缘等细节信息。
这三重目标并非孤立进行，而是通过一个统一的多任务损失函数进行联合优化：

最终，VTP得到的不是一个在某个指标上“特别优秀”的压缩器，而是一个自带理解能力、对生成模型非常友好的视觉Tokenizer。
这里也补充一个细节：为什么他们不像很多工作一样直接使用现有的CLIP或DINOv2作为Tokenizer，而非要投入巨大算力从头预训练一个？
其核心思考在于两点（团队原话如下）：
表征真的很重要，我们想要做到很极致。在我们的视角下表征包含了自监督、对比学习、甚至是重建（这些只是已知比较成熟的方法，实际上理想的表征远不止这些），市面上没有一个能够很好地融汇这些方法的模型，我们需要自己训练一个。基于表征的Tokenizer方案具备scaling的潜力，预训练是最合理的实现方式。如果直接利用已有模型蒸馏或者迁移，会因为setting过于复杂而破坏scaling的性质，也会受限于已有的模型规格而无法做充分的论证。
所以，选择“从头开始”的VTP，其实际表现究竟如何呢？
首次展示了Tokenizer的Scaling Law
概括而言，团队通过VTP得出了两大关键发现：
理解力是驱动生成的关键因素视觉Tokenizer也具备明确的Scaling Law
先说第一点。
VTP用实验证明，如果只做重建的话，投入资源越多生成反而可能越差。
下图中，代表重建能力的rFID从2.0降至0.5，重建效果变好；但代表生成能力的gFID从55.04升至58.56，生成效果变差。

而一旦注入“理解力”（即引入CLIP图文对比/SSL自监督任务），模型的生成质量（gFID）会随着理解能力（Linear Probe）的提升而同步变好——
二者呈现明显的正相关，且这种提升会随着训练计算量增加持续推进。相比之下，缺少“理解力”的传统AE Only方案，其生成质量和理解能力很快陷入停滞。

更进一步，团队在同等算力下对比了不同组合，证明“CLIP+SSL+AE”的联合训练方式上限最高，生成与理解指标均最优。

基于此，团队训练的VTP在理解、重建、生成方面均交出了不错的答卷——
在ImageNet上的零样本分类准确率达到78.2%，超过了原版CLIP的75.5%，已经具备强通用视觉理解能力；在重建能力上超过了Stable Diffusion的VAE， rFID低至0.36；在生成能力上超过了此前的改进方法VA-VAE，gFID低至2.81。

更关键的是，在达到相同生成质量的前提下，VTP的训练收敛速度比LDM快5.7倍、比VA-VAE快4.1倍，大幅降低了训练成本。

这一系列表现共同印证了团队的判断：Tokenizer的“语义理解力”而非单纯的像素重建精度，才是驱动生成性能与效率提升的核心动力。
再说第二点，也是更具突破性的一点。
团队在实验中发现，VTP首次展示了Tokenizer的Scaling Law，即生成性能可以随预训练中投入的计算量、参数量和数据规模有效增长。
仅从算力维度对比，在不改动下游DiT标准训练配置的前提下，单纯将Tokenizer的预训练计算量放大，VTP就能为最终生成效果带来65.8%的性能提升，且提升曲线仍未触顶。
反观传统自编码器（AE），其性能在仅投入约1/10计算量时便已饱和，且继续增加算力不仅收益微乎其微，甚至可能导致生成质量倒退。

以上发现表明，接下来除了在主模型上投入更多参数/算力/数据之外，还可以通过Tokenizer的scaling来提升整个生成系统的性能。
这个结论，乍一看可能会让人有点转不过弯：什么时候，Tokenizer也开始谈scaling了？
在大模型语境里，“Scaling Law”几乎天然只属于主模型——参数更大、数据更多、算力更猛，性能就该继续往上走。至于Tokenizer，则长期被视作一个“前置模块”，主打一个够用就行，做完重建任务就退场。
但VTP的出现却改变了这一现实，团队表示：
VTP在latents易学性和通用表征学习之间建立起了明确关联，从而第一次将Tokenizer作为scaling的主角，展现出全面的scaling曲线和扩展方向
就是说，如果Tokenizer只是被用来精准复刻像素，那么无论怎么堆算力，提升都将很快见顶；而一旦Tokenizer学到的是具备语义结构、对下游更友好的通用表征，事情就完全不一样了。

比如对整个行业来说，由于VTP在Tokenizer层面就已经统一了语义对齐、结构认知和细节表达，因此其产出的视觉表征天然具备多任务协同的潜力。
这有点像先把世界翻译成了一种统一、结构化的“视觉语言”。
一旦这套语言确定下来，下游无论是理解任务（如分类、检测），还是生成任务（如图像合成、编辑），都不再需要各自“重新学怎么描述这个世界”，而只是站在同一套底层表达之上，做不同的事情。
从这个角度看，VTP天然适合用来构建“理解-生成统一模型”。正如团队所言：
Tokenizer层面的统一，是更本质的统一
也因此，此次VTP的开源就不单单只是提供了一个组件那么简单了。
其更大的价值或许在于，它为整个行业提供了一条新的、且被实验证明行之有效的路径——
在主模型之外，Tokenizer同样是一个值得长期投入、且具备明确scaling回报的核心环节。
目前，VTP的论文和模型权重已经公开，动手能力强的朋友也可以尝试体验下：
换一个视觉Tokenizer，模型性能就能变得不一样的feeling（手动狗头）。

代码：https://github.com/MiniMax-AI/VTP
论文：https://arxiv.org/abs/2512.13687v1
模型：https://huggingface.co/collections/MiniMaxAI/vtp

声明：包含AI生成内容

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

蚂蚁集团发布智能体安全ASL协议及HOP 3.0，支付宝推出AI订阅服务

腾讯机器人按摩师走红WAIC：“要送进养老院”

腾讯首秀具身智能全栈方案，多款基座模型与智能体发布

对话腾讯云副总裁：企业智能体火了，今年平台使用量至少翻倍

从追赶到“摸高”，中国大模型的AGI征途

阿里云发布灵骏真武M890超节点实例

全站最新

节油混动成油车新增长点：销量攀升，技术优势凸显，油车淘汰尚早

雷克萨斯LFA概念车古德伍德首秀，固态电池加专属声效开启纯电超跑新篇

斯康达PEV7034：以全能实力，解锁电动汽车充电测试全场景新体验

上汽智己LS9：以雄厚底蕴打破技术壁垒 34.98万享高端线控配置

热门推荐

阿里云灵骏真武M890超节点实例发布，AI算力服务实现新突破

小米18系列新机蓄势待发：Pro机型领衔，2nm芯+UWB技术引期待

蚂蚁集团发布智能体安全ASL协议及HOP 3.0，支付宝推出AI订阅服务

腾讯机器人按摩师走红WAIC：“要送进养老院”

腾讯首秀具身智能全栈方案，多款基座模型与智能体发布

全球首台机器人手机开启预约！荣耀开辟从“智能体手机”迈向“机器人手机”的新赛道

腾讯WorkBuddy APP正式发布：鸿蒙、iOS、安卓三端同步上线

AI跃升伙伴型生命体荣耀Robot Phone开启预约引领具身交互新篇

WAIC现场国产大模型“摸高”智能化边界，参数跃升与多元路径共探未来

对话腾讯云副总裁：企业智能体火了，今年平台使用量至少翻倍

从追赶到“摸高”，中国大模型的AGI征途

阿里云发布灵骏真武M890超节点实例

从AI思考到智能体行动产业智能体互联网重塑产业组织形态｜聚焦WAIC2026

WAIC一间很“主动”的AI小屋，藏着京东通往整个物理世界的野心

阿里云发布灵骏真武M890超节点实例