GVE团队 投稿
量子位|公众号 QbitAI
当前视频检索研究正陷入一个闭环困境:以MSRVTT为代表的窄域基准,长期主导模型在粗粒度文本查询上的优化,导致训练数据有偏、模型能力受限,难以应对真实世界中细粒度、长上下文、多模态组合等复杂检索需求。
要突破这一瓶颈,亟需重构视频检索的范式——从“专用”走向“通用”。
在这一“大一统”愿景下,香港科技大学(广州)联合阿里巴巴通义实验室展开系统性探索,首次提出通用视频检索概念,并构建了包含16个数据集、覆盖多任务与多领域的综合评测基准UVRB;合成了155万条高质量、多模态、任务多样化的视频-语言训练对;并为多模态大模型底座量身设计了任务金字塔课程训练策略。
由此推出的通用视频嵌入模型GVE(含3B与7B两个版本),在严格零样本设置下全面超越现有14个主流模型,展现出卓越的泛化能力。
这项工作不仅带来了当前性能最强的视频嵌入模型,更通过基准—数据—训练的全链条创新,为视频检索的通用化奠定了方法论基础。
![]()
问题动机:高分模型为何难以应对真实视频检索需求?
当前主流视频检索模型(如微软的CLIP4Clip、上海AI Lab的InternVideo2和快手的Unite等)在MSRVTT等经典基准上表现优异,但其能力边界往往局限于粗粒度的文本-视频匹配任务。
这类基准通常使用简短、泛化的文本描述(如“一个人在跳舞”),评估模型是否能从候选集中找到大致对应的视频。然而,真实世界中的用户需求远比这复杂。
例如,用户可能希望通过“文字 + 参考图像”组合查询特定视频,用一段视频片段作为示例进行相似性检索,精确指定空间关系(如“画面左侧穿红衣者”),时间动态(如“从跳跃到落地的连续动作”)或部分相关性(如“只要视频中提及”无人机”即视为相关”)等等。
遗憾的是,现有模型和评测体系对这类多模态输入和细粒度语义理解支持有限,根本原因在于:当前训练数据多源自网络爬取的噪声标签,任务设计高度单一,且评估指标未能反映模型在复杂场景下的鲁棒性与泛化性。
相比之下,图像检索领域已逐步走向统一的多模态表征框架,能够灵活支持文本、图像乃至属性等多种查询形式。
这一趋势表明,通用性(universality)正成为视觉检索系统的核心目标。
受此启发,团队主张将视频检索从“针对特定任务优化”的范式,转向支持多任务、多粒度、多域的通用建模。
团队不仅关注模型在标准测试集上的性能,更致力于构建一个能真正编码复杂视频语义、适应多样化检索需求的系统性解决方案。
迈向视频检索通用化:评测-数据-模型三位一体的全新范式
UVR:通用视频检索概念定义
该工作系统性定义了Universal Video Retrieval(UVR),即通用视频检索,包含:
3 大任务类型:纯文本(TXT)、图文组合(CMP)、纯视觉(VIS)3 大领域:粗粒度(CG)、细粒度(FG)、长上下文(LC);其中细粒度分为:空间(S)、时间(T)、部分相关(PR)
![]()
任务和领域的交叉便可以全面涵盖真实视频检索的场景。
例如TXT+S,即空间文本视频检索是给定空间上物体和位置的描述来寻找对应的视频(如“一对情侣溜一只狗的vlog”);或CMP+T,即时序组合视频检索是给定一张图片及与图片里内容变化的描述检索相关的视频(如“图中人物走进远处房子的片段”)。
UVRB:最全面的视频检索基准
该工作构建了 Universal Video Retrieval Benchmark (UVRB),包含16个数据集,交叉覆盖了以上3种任务类型,3种领域,和3种细粒度子领域。
这一全面的基准要求一个模型在9种能力上均有优秀的表现;通过统一环境下的大规模的测试,该工作首次揭示现有模型的“偏科”问题,进一步印证了当前基准、数据和模型的不足之处,打破曾经由被“刷爆”的基准带来的视频检索领域“饱和”的错觉。
![]()
V-SynFlow合成的 UVRD:155 万高质量多粒度多任务训练数据
基于原始视频检索数据,团队设计 V-SynFlow 流程进行三阶段数据增强与合成:
多粒度质量过滤(去噪声、保一致性);MLLM 驱动的多维度语义丰富化(生成空间/时间/主题等多风格描述);扩展合成图文组合、帧-视频、片段-视频等复杂任务对。
数据覆盖文本→视频、图像→视频、图文→视频、视频→视频等多种模态组合。
![]()
设计 Modality Pyramid:任务金字塔课程学习
设计基于Qwen2.5-VL的通用视频表征大模型
模型架构:以Qwen2.5-VL为基座,冻结视觉编码器,仅用LoRA微调LLM部分;输入融合:支持任意模态组合(文本/图像/视频),通过特殊 token 注入视觉特征;表征提取:取最后一个token的隐藏状态,经L2归一化后用于检索;训练目标:对称InfoNCE损失 + 难负样本挖掘;
-课程学习设计理念:基础能力是高级能力的前提(如物体识别之于动作理解);提出自底向上的自适应课程调度策略:先学简单任务(例如文本-图像对齐),再逐步进阶到复杂任务(例如图文组合检索);动态调整任务采样概率,确保模型稳扎稳打、不偏科。
![]()
![]()
实验结果:多任务多能力中全面领先
研究团队在实验中精心构建了一个高度可控且可复现的评估环境。将14个主流基线模型纳入对比范围,涵盖从 8700 万到 83 亿参数不等的 CLIP 架构模型(如CLIP4Clip、InternVideo2)和新兴的多模态大语言模型(MLLM)架构(如GME-7B、Unite-7B、B3-7B等)。
值得注意的是,部分基线模型可能在训练中使用了与UVRB测试集(如MSRVTT、DiDeMo)同源的数据,而GVE模型则严格避免任何领域内数据接触,完全在零样本条件下进行评估。
此外,所有模型统一采用 8 帧均匀采样的视频输入,仅使用原始视觉帧,排除音频、语音和元数据干扰;表征向量均经归一化处理,并统一使用余弦相似度进行检索匹配,确保比较的公平性。对于不原生支持视频输入的模型,研究团队设计了多图像嵌入进行适配。
GVE-7B 全面领先,中小模型亦显高效
在涵盖16个数据集的UVRB基准上,GVE-7B模型以平均0.573的Recall@1(或相应指标)得分,显著超越当前最强基线Unite-7B(0.538),领先幅度达6.5%。
研究发现,仅含38亿参数的GVE-3B模型(平均分0.544) 甚至超过了参数量翻倍的Unite-7B,充分证明其性能优势并非源于模型规模或数据泄露,而是来自更优的训练数据与学习策略。
进一步按任务类型与领域维度分析(见表1),GVE-7B在所有关键能力上均取得领先。
尤其在对模型通用性更具判别力的“部分相关视频检索”(PR)任务中,GVE-7B以0.419的得分紧追最佳表现,展现出卓越的语义判别力。
![]()
消融试验:创新训练策略
为探究性能提升的根源,研究团队开展了消融实验。结果表明:
合成数据集UVRD的引入显著提升了模型在组合推理等复杂任务上的能力,例如GVE-3B在CMP任务上相对提升达 27%;模态金字塔课程(Modality Pyramid Curriculum) 进一步优化了知识整合,使GVE-7B的整体能力从0.594提升至0.600。
两项技术协同作用,共同贡献了1.8%–3.1%的整体性能增益。
深度分析:解构视频表征的能力
在模型性能数字的背后,研究首次系统性地揭示了当前多模态视频嵌入模型在能力发展上的结构性盲区与进化路径。通过对 UVRB 多维指标的交叉分析,研究团队提炼出四项关键发现,有望重塑视频理解领域的评估与设计范式。
![]()
![]()
发现一:传统基准已“失灵”——MSRVTT 等数据集正在误导研究方向
长久以来,MSRVTT、DiDeMo等数据集被视为视频检索的主要标准。但本研究发现,这些经典基准与模型在真实复杂场景下的综合表现相关性仅为0.58——这意味着在MSRVTT上刷高分,很可能只是在“熟悉的考题”中死记硬背,而非真正理解视频。
更令人警醒的是,一个曾被忽视的维度——“部分相关视频检索”(Partially Relevant Retrieval, PR)——却展现出惊人的评估价值:它与整体能力的相关性高达0.97。
这说明,能否在语义模糊、边界不清的场景中精准判别“相关但不完全匹配”的内容,是更能衡量模型嵌入质量的“试金石”之一。研究者呼吁:是时候将PR任务纳入主流评估体系了。
发现二:时空理解的解耦性——模型会“看图”却不会“看动作”
想象一个模型能精准识别视频中“一只猫坐在沙发上”,却无法判断“猫是从左边跳上去的还是右边走过去的”——这正是当前绝大多数模型的真实写照。研究量化揭示:空间感知(S)与时间推理(T)能力几乎完全脱节(相关性仅0.12)。
更关键的是,在对细粒度理解的决定上,时间能力几乎一锤定音(与细粒度任务相关性达0.98),而空间信息贡献微弱(仅0.39)。
这意味着,现有模型本质上仍是静态图像的堆叠,而非动态事件的理解。真正的视频检索智能,需要能同时编码“在哪里”和“何时发生”——而当前模型对此明显“偏科”。
发现三:架构决定命运——CLIP 与 MLLM 正走向两条能力进化路径
研究发现,模型架构深刻影响其能力基因。CLIP系模型在粗粒度空间任务上近乎完美(相关性0.99),却在时间维度上先天不足;更令人意外的是,它们在组合语义理解越强,纯视觉匹配反而越弱(负相关-0.71)。
而MLLM 架构则展现出更均衡、更集成的学习模式:不仅在语义判别(如PR与CG任务关联度达0.98)上碾压CLIP(仅0.70),还能将长上下文理解与时间建模有效耦合(相关性0.64 vs. CLIP 的-0.14)。
这解释了为何MLLM正迅速成为视频嵌入模型新范式——它不只是更大,而是更通用。
发现四:以语言为中心的表征大模型并未真正“看得更清”
在“越大越好”的浪潮下,一个反直觉的事实浮出水面:参数规模对基础视觉感知能力几乎无益。8700万参数的CLIP4Clip在纯视觉任务(VIS)上得分0.714,竟高于 80 亿参数的顶尖模型Unite-7B(0.702)。
更值得深思的是,视觉检索与综合检索能力之间相关性极低(仅0.26)。这意味着,即使模型能“看清”每一帧细节,若缺乏高层语义对齐能力,依然无法完成复杂检索。
研究警告:盲目扩大模型未必能解决视频理解的根本瓶颈,未来的突破点可能在于基于以语言为核心的多模态表征大模型的视觉底层像素编码和高层语义抽象的折衷。
实验总结
研究的实验部分围绕一个核心目标展开:验证通用视频检索是否可以通过评估体系、训练数据与学习策略的协同优化来实现。
为此,团队构建了UVRB基准,首次将视频检索能力拆解为多个可测量的维度(如细粒度、长上下文、组合查询等),并在此基础上对14个代表性模型进行了统一、公平的零样本评测。
结果表明,仅靠扩大模型规模或依赖现有噪声数据,难以在复杂任务上取得一致提升。
相比之下,GVE通过在高质量合成数据UVRD上,采用模态金字塔课程进行训练,显著提升了在多个维度上的表现,尤其在对泛化能力要求更高的任务(如部分相关检索、时间推理)中优势明显。
值得注意的是,GVE-3B的性能已超过多个参数量更大的基线,说明数据质量与训练策略的优化,可能比单纯增加模型规模更具性价比。
更进一步,基于UVRB的相关性分析揭示了当前视频嵌入模型的能力结构:传统基准与整体能力关联较弱,时空知识的嵌入能力存在明显解耦,不同架构在能力发展上呈现系统性差异。这些发现不仅解释了GVE的优势来源,也为后续研究提供了可复现的诊断工具与明确的改进方向。
结语:视频检索的现在与未来
视频检索正从“匹配标题”走向“理解内容”——但这一转变需要新的评估标准、更丰富的训练信号,以及对任务间依赖关系的显式建模。
研究没有追求单一指标的突破,而是尝试构建一个可诊断、可扩展、可复现的通用视频检索研究框架。
通过UVRB基准,研究者可以清晰看到模型在哪些场景下表现稳健,在哪些维度上存在短板;通过V-SynFlow合成流程,高质量、多任务的训练数据得以规模化生成;通过模态金字塔课程,模型能够分阶段习得从基础感知到高阶推理的能力。
三者结合,使得GVE在不依赖测试域数据的前提下,展现出更均衡、更鲁棒的零样本表现。
研究团队已开源GVE系列模型及UVRB基准,推动社区从”刷榜竞赛”转向”能力诊断”与”可用性拓展”,并希望这项工作不仅带来性能最强的视频嵌入模型,更为视频检索从”窄域专用”迈向”通用智能”奠定方法论基础。
论文链接:https://arxiv.org/abs/2510.27571
项目主页:https://gzn00417.github.io/GVE/
模型和数据:https://huggingface.co/collections/Alibaba-NLP/gve





京公网安备 11011402013531号