![]()
这项由意大利博尔扎诺自由大学工程学院领导的研究,汇集了三项相互关联的成果,分别发表于2025至2026年间的多个顶级学术平台:SkillFormer发表于第十八届国际机器视觉大会(ICMV 2025),论文编号DOI为10.1117/12.3093974;PATS发表于2025年IEEE运动、技术与研究国际研讨会(STAR),DOI为10.1109/STAR66750.2025.11264769;ProfVLM发表于《计算机视觉与图像理解》期刊第268卷(2026年),论文编号为104749,DOI为10.1016/j.cviu.2026.104749。三篇研究围绕同一个核心问题展开,并统一汇报于2026年第六届CINI全国人工智能大会(Ital-IA 2026)。
假设你正在学打篮球,教练站在场边看你投篮。教练关心的不仅仅是"你投了没有",而是"你投得怎么样"——手腕用力的角度对不对,起跳时机准不准,身体重心有没有失衡。这种评判"动作完成质量"的能力,对教练来说是几十年经验积累的直觉,但对计算机来说,却是一个极其复杂的难题。
长期以来,计算机视觉领域的研究者花了大量精力让机器识别"这个人在做什么",比如区分跑步、跳跃和投篮。然而,一旦问题变成"这个人做得好不好",难度就陡然上升了许多。因为区别专家和新手的细节往往藏在那些肉眼难以捕捉的瞬间里——一个轻微的重心偏移,一个节奏上的迟疑,一个手臂角度的细微差别。这些信号稍纵即逝,藏在几秒钟的动作里,而且只从一个摄像头角度往往根本看不出来。
正是为了解决这个问题,博尔扎诺自由大学的研究团队在近两年里陆续提出了三套互相配合的解决方案。他们把这套研究体系的终极目标定得很高:不仅要让机器判断出"这个人是新手还是专家",还要让机器像真正的教练一样,用自然语言说出"你的问题在哪里,下次应该怎么改"。
一、问题的起点:为什么教计算机"评分"这么难?
要真正理解这项研究的价值,得先明白评判动作质量究竟难在哪里。
先说数据的挑战。研究团队使用的主要数据集叫做Ego-Exo4D,这是由一批顶尖机构联合构建的大规模视频数据集,专门收录了人们在完成各类技能性活动时的录像。每个视频场景同时包含一个佩戴在头部的第一人称摄像头(称为"自我视角",Ego)和最多四个从外部不同角度拍摄的固定摄像头(称为"外部视角",Exos)。数据集涵盖六类活动:烹饪、篮球、足球、舞蹈、音乐演奏和攀岩,每段视频都由专业人士标注了四个熟练程度等级——新手、初级专家、中级专家和高级专家,同时还附带了专家用自然语言写下的点评文字。
这套数据集的存在本身就说明了一个事实:评判技能水平需要多角度信息。就像医生检查一个病人不会只从正面看,评判一个运动员的姿势也需要从前面、侧面、后面同时观察。但多摄像头带来的不仅仅是信息量的增加,也带来了一个新问题:这么多角度的画面,怎么"聪明地"融合在一起?
再说时间的挑战。一段攀岩视频可能长达几分钟,但真正体现技术水平的关键动作——抓住岩点、转换重心——可能只发生在短短几秒钟内。如果把视频均匀切成若干帧来喂给计算机,很可能那些最关键的片段被稀释掉了。正如你在翻阅一本厚厚的相册时,如果每隔50页翻一张照片,很可能恰好跳过了最精彩的几张。
此外还有计算资源的挑战。现有的许多视频理解模型虽然精度不错,但体积庞大、训练耗时,动辄需要数亿个参数才能工作。这在实验室里尚且勉强,一旦要部署到手机、运动手环或者训练场地的边缘设备上,几乎是不可能完成的任务。
研究团队把这三个挑战——如何聪明地融合多视角、如何捕捉关键时刻、如何在参数尽可能少的情况下保持高精度——分别交给了三个相互配合的系统来解决。
二、SkillFormer:让机器学会"挑着看"而非"全盘接收"
第一套系统叫做SkillFormer,可以把它理解成一个拥有"选择性注意力"的裁判。
普通的多摄像头视频分析系统往往这样运作:把所有摄像头拍到的内容都送进去,让模型自己去处理。这看似合理,实则问题很大。以Ego-Exo4D官方基准测试的结果为例,仅用自我视角摄像头(Ego)训练的基础模型准确率为46.8%,而把自我视角和所有外部视角都加进去(Ego+Exos)之后,准确率反而下降到了40.8%。这就像一个裁判本来只看主摄像头判断还挺准确,结果同时接入了四路监控信号之后,反而因为信息太混乱而判断失误了。
SkillFormer的核心洞察在于:不是视角越多越好,而是视角融合的方式决定了成败。
在具体架构上,SkillFormer以一个叫做TimeSformer的视频理解模型作为"眼睛"——这是一种擅长捕捉画面中时间和空间关系的神经网络,最初在一个叫Kinetics-600的大型人类动作数据集上训练好的。对于每一个摄像头角度的视频片段,SkillFormer都用这同一个"眼睛"来观察,这样就保证了不同角度的观察结果是可以被公平比较的。
然而,仅仅"看到"还不够,还需要把不同视角的观察融合起来。SkillFormer为此设计了一个叫做CrossViewFusion(跨视角融合)的模块,相当于裁判的"大脑整合中枢"。这个模块做了几件很精妙的事:它先让不同视角的信息相互"对话",也就是用一种叫多头交叉注意力的机制让每个视角的特征参考其他视角的信息。然后,它为每个视角分配一个可学习的"权重分数",决定在最终判断时每个视角应该被信任多少。最后,它还有一个自我校准的步骤,让整合后的信息经过细致调整,使其更符合技能评判的需求。
你可以把这个过程理解为:一组裁判(每人负责一个摄像头角度)先各自汇报观察,然后互相讨论、交叉验证,最后由组长根据每人发言的可靠程度打分整合,再输出最终判断——而不是简单地把所有人的意见平均一下。
另一个重要特点是参数效率。传统做法是把整个庞大的TimeSformer模型从头到尾都"重新培训"一遍,这需要数以亿计的参数同时更新,耗费大量时间和算力。SkillFormer使用了一种叫LoRA(低秩适应)的精妙技术,只对模型中最关键的部分——注意力层、输出层、时间注意力组件和前馈层——加装小小的"微调补丁",而不动原始模型的大部分参数。这就好比你买了一辆成熟的二手车,不是把发动机全部拆解重组,而是换个方向盘、加装导航和倒车摄像头,就能满足新的使用需求。
最终,SkillFormer只需要14到27百万个可训练参数(视配置不同而异),只训练4个轮次,就在多视角融合配置下达到了47.5%的准确率,不仅超过了官方基准的40.8%,而且用的参数是基准模型的约四分之一,训练时间则只需要基准模型的约四分之一。
三、PATS:教计算机"在关键时刻多看几眼"
解决了多视角融合的问题,SkillFormer还面临另一个问题:该怎么从视频里挑选出最有价值的帧来看?
在这里,研究团队使用了一个生动的比喻来说明问题所在:均匀采样就像是在翻一本几百页的食谱书,你每隔固定页数翻一页——翻到的可能是配料表,可能是步骤说明,但恰好跳过了最关键的"关火时机"那一页。视频的情况也是如此,一段5分钟的攀岩视频,如果均匀地每隔一段时间抽取一帧,很可能反复抓到演示者在调整装备、思考路线的时刻,而错过那个判断技术水平最关键的"一把抓住关键岩点"的瞬间。
PATS(熟练度感知时间采样)系统的设计就是为了解决这个问题。它的逻辑可以描述为:不是均匀地在整个视频里抽帧,而是先确定几个"值得密集观察"的时间片段,然后在每个片段内部紧密地连续采样,同时保证这几个片段分布在视频的不同时间段,以免遗漏视频整体的时间跨度。
具体来说,PATS会从视频中选出若干个连续的时间片段,每个片段都有一定的持续时长,在片段内部把帧预算集中使用,密集地采样。这些片段的起始点则被均匀地分布在视频全长上,确保覆盖了视频的早、中、晚各个阶段。当两个片段之间的间隔太近时,系统会自动缩短片段的持续时长,避免重叠。
这个设计的妙处在于:它既保留了"看到全局"的能力(片段分散在视频各处),又保留了"看清细节"的能力(在每个片段内部高密度采样)。就像你在看一场足球比赛的录像时,不是每分钟截一张图,而是在进球前10秒、铲球前5秒、点球时刻前后这几个片段里密集地截图,同时在上半场开始、中场和下半场也各有所覆盖。
更重要的是,PATS与具体的模型架构无关,它只是改变了"怎么从视频里取帧"这一步,无需改动任何模型内部的结构。把PATS接入SkillFormer之后,在自我视角、外部视角和混合视角三种配置下,准确率分别提升到了47.3%、46.6%和48.0%,全面超越了没有PATS的版本。
从各个活动类别的细化数据来看,PATS的提升在攀岩(Bouldering)、音乐演奏和篮球这三类活动上最为明显——这恰恰是那些技能表现最依赖于"连贯动作序列"的领域。攀岩中的每一个手脚协调动作、音乐演奏中的一段乐句、篮球投篮的整个起跳到出手过程,都是需要密集、连续观察才能准确评判的典型场景。相比之下,在动作更为片段化或者技术差异更多体现在静态姿势上的活动中,PATS的增益相对较小。
四、ProfVLM:从打分机器到"会说话的教练"
SkillFormer加上PATS,已经是一套相当出色的评判系统了。但研究团队在这个基础上提出了一个更进一步的问题:打分够用吗?
对于教练、康复师或者自学的运动员来说,知道自己是"初级专家"并没有太大帮助,他们真正需要的是:"你的问题在于膝盖弯曲角度不够,导致起跳力量分散,建议练习深蹲时注意膝盖对准脚尖方向。"这种信息来自人类教练的经验积累,过去从来没有人尝试用计算机自动生成这样的专业反馈。
ProfVLM(专业能力视觉语言模型)就是这方面的第一次尝试。它的设计思路是一个根本性的转变:不再让模型输出一个离散的分类标签(比如"新手"、"专家"),而是让模型像一个真正的教练一样,用自然语言写出一段完整的评价文字,其中自然包含了熟练程度等级和具体的分析反馈。
在架构上,ProfVLM由三个主要部分组成,相互衔接。第一部分是一个冻结的TimeSformer视频编码器——之所以说"冻结",是因为这部分完全不更新参数,只负责把视频帧转换成数字特征,就像一个固定镜头的摄像机,只是拍摄,不做任何后期处理。每个视角的视频被截成8帧(注意,这比SkillFormer的16到32帧少得多)输入进去。
第二部分是研究团队专门设计的AttentiveGatedProjector(注意力门控投影器,简称AGP)。这个模块承担的工作相当于一个"翻译官加过滤器"。它先对不同视角的特征进行规范化处理,然后用与SkillFormer的CrossViewFusion相似的多头交叉注意力机制让各视角信息互相参考,接着把所有视角的信息通过平均池化合并成一个整合特征,再经过一个逐元素的门控操作——每一个特征维度都有一个独立的开关,决定这个维度的信息有多少能被"放行"进入下一阶段。最后,通过一个投影层,将视觉特征转换成语言模型能够理解的"语言空间"里的向量。
这个"门控"的比喻很有启发性:整合后的视觉信息在进入语言模型之前,必须通过一道精细的过滤关卡,每个信息维度都被独立评估——"这个信息对于生成准确的评价文字有用吗?"有用的放行,没用的压制。这保证了输入语言模型的信息是经过高度浓缩和筛选的,而不是杂乱无章的原始特征。
第三部分是核心的语言生成引擎——SmolLM2-135M-Instruct,这是一个只有1.35亿参数的紧凑型语言模型,同样用LoRA技术进行轻量级微调。"1.35亿"听起来很大,但放在当今动辄千亿参数的大语言模型语境下,它实际上相当小巧,更接近于一个"会写作的精炼助手"而非"博览群书的通才"。
训练时,模型同时接受视频帧和专家写下的点评文字作为输入,学习的目标是用一种固定格式生成文本:先写出熟练程度等级,再写出专业反馈。生成的文本格式类似于"熟练程度等级:初级专家;熟练程度点评:[具体反馈内容]",最终只需要从这段文本里截取对应位置的词语,就能得到分类标签。
结果令人眼前一亮。ProfVLM在Ego+Exos混合视角配置下达到了48.2%的准确率,微微超过了SkillFormer+PATS的48.0%,而它只需要530万个可训练参数,约是SkillFormer的五分之一,是原始TimeSformer基准模型的二十分之一。不仅如此,它的训练也只需要6个轮次,远低于基准模型的15个轮次,同时只需要每个视角输入8帧,远比SkillFormer的16到32帧节省计算资源。
换句话说,ProfVLM用更少的资源、更快的训练,不仅达到了相当的分类精度,还额外获得了生成专业语言反馈的能力——这是它的前辈们完全做不到的事情。
五、生成的文字反馈质量怎么样?
自然而然地,读者可能会问:ProfVLM写出来的教练点评,真的有用吗?还是只是一堆听起来像样但实际上空洞的套话?
研究团队用三个专门评估文本质量的指标来衡量生成反馈的好坏,分别是BERTScore(衡量语义相似度)、METEOR(衡量词汇匹配和同义词使用情况)和ROUGE-L(衡量关键词组的重叠程度),并将模型生成的文字与真实专家写下的点评进行对比。
从数据来看,在混合视角(Ego+Exos)配置下,BERTScore的F1值达到了85.53,METEOR为18.23,ROUGE-L为15.65。这些数字对非专业读者可能意义不大,但关键的背景信息是:在此之前,没有任何一项熟练程度评估的研究报告过类似的文字生成质量指标——ProfVLM是这个领域里第一个能产出可量化评估的语言反馈的系统,因此这套数字本身就构成了这个方向上的第一个基准线。
从三种视角配置的对比来看,自我视角(Ego,BERTScore=85.41)、外部视角(Exos,BERTScore=85.51)和混合视角(Ego+Exos,BERTScore=85.53)的语义相似度非常接近,说明不论从哪个角度看视频,模型生成的点评在语义上都能较好地贴近专家的原始表述。METEOR指标在混合视角下最高(18.23),说明加入自我视角和外部视角的信息融合有助于生成词汇更丰富、更贴近专家语言习惯的反馈。
六、从实验数据里读出来的四条设计原则
回顾整个研究体系的所有实验结果,研究团队归纳出了四条对未来相关研究最有指导价值的设计原则。
第一条是关于视角融合的本质:视角越多不代表越好,关键在于如何融合。Ego-Exo4D官方基准测试的结果已经说明,朴素地把所有摄像头数据堆在一起,反而会让模型因为信息混乱而判断力下降——从单摄像头的46.8%跌到多摄像头的40.8%就是明证。真正的提升来自于SkillFormer的CrossViewFusion和ProfVLM的AGP这样的有结构、有选择性的融合机制。
第二条是关于帧数与时间采样的关系:不是帧数越多越准,而是在对的时机密集观察。ProfVLM只用8帧就超过了SkillFormer用16到32帧的结果,这说明帧的"质量"——是否在关键时间段内密集采样——比帧的"数量"更重要。PATS的设计原则正是对这一认识的具体实践。
第三条是关于输出形态的转变:从分类到生成是一条值得探索的路径,而且不需要以精度为代价。ProfVLM的实验数据表明,把"输出一个类别标签"改成"生成一段包含类别信息的自然语言",在分类准确率上没有损失,反而还略有提升,同时额外获得了语言反馈的能力。这对于所有需要"可解释输出"的应用场景——教育、医疗康复、竞技训练——都具有参考价值。
第四条是关于跨领域适应性的现实:不存在一个"万能配方"适合所有运动类型。从按活动类别细化的数据表格可以看到,不同活动在哪个视角最有用、应该多密集地采样、动作连贯性的重要程度,都存在明显差异。比如在足球场景下,外部视角(Exos)的价值远高于自我视角;而在音乐演奏场景下,自我视角反而更能捕捉手指和乐器的细节。这提示未来的系统设计应该在共享的视觉编码器基础上,为不同领域配备轻量级的专属适配器,而不是强求一个单一的通用模型应对所有技能类型。
七、这一切对未来意味着什么?
说到底,这三项研究合在一起,代表的是一种对"智能评判系统"的全新想象。
以往的研究路径是:建一个尽可能大的模型,塞入尽可能多的数据,让它输出一个数字或标签。这套路径在实验室里能出数字,但落地极难——大模型耗电、耗算力、难以部署,而一个只能输出"分数7.3分"的系统对教练来说几乎毫无实用价值。
这三项研究走的是另一条路:用更聪明的融合策略替代堆砌参数,用更有针对性的采样策略替代无差别堆帧,用语言生成的自然输出替代离散的标签打分。最终的结果是:参数减少了二十倍,训练加快了两到三倍,而输出从一个毫无解释力的数字变成了一段有血有肉的专业点评。
研究团队在展望未来时提到了几个值得期待的方向。一方面,ProfVLM使用的冻结视觉编码器加上轻量投影器加上小型语言模型的组合,与正在兴起的"视频智能体"架构高度兼容——意味着未来有可能构建这样的系统:它可以追踪一个运动员在几周内的多次训练录像,观察进步轨迹,并根据历史数据给出个性化的渐进式反馈。另一方面,研究团队还提到了骨骼姿态信息的引入——如果除了视频画面之外,还能直接获取关节点坐标和身体部位的运动轨迹,对于那些"动作质量高度依赖身体力学"的活动,评判精度还有进一步提升的空间。
在模型压缩和部署层面,研究团队还引用了他们自身在神经网络压缩领域的另一项工作,说明通过知识蒸馏和张量分解技术,这套已经相当轻量的系统还有进一步"瘦身"的可能,朝着在智能手机或可穿戴设备上实时运行的目标迈进。
当然,研究者也坦诚地指出了评估体系目前的不足:现有的测试主要依赖分类准确率,而对"生成的反馈有多大实际用处"的评估——也就是真实教练或运动员看了这段机器生成的点评之后,是否真的有所受益——还缺乏系统性的研究。未来的评估体系应该同时纳入多视角视频、专家书面评语以及真人对反馈可操作性的主观评分,才能更全面地衡量这类系统的实际价值。
归根结底,这项研究告诉我们:让机器理解"做得好不好"这件事,正在从一个遥不可及的研究愿景,变成一个有具体实现路径的工程目标。用更少的计算资源、更紧凑的模型,产出更有意义的输出——这条路,正在被博尔扎诺的研究团队一步步走实。有兴趣深入了解技术细节的读者,可以分别通过DOI 10.1117/12.3093974(SkillFormer)、10.1109/STAR66750.2025.11264769(PATS)和10.1016/j.cviu.2026.104749(ProfVLM)查询三篇完整论文。
Q&A
Q1:多摄像头拍摄视频直接合并处理为什么反而会让准确率下降?
A:这是因为不同摄像头角度拍到的内容互相干扰,有用的信号被无关信息"稀释"了。就像同时听五个人说话,每个人都在说不同的内容,大脑反而容易混乱。SkillFormer的CrossViewFusion模块解决的正是这个问题——它让不同视角的信息先互相"对话"和"筛选",再有权重地融合,而不是简单地把所有内容堆在一起。
Q2:ProfVLM生成的教练点评和真人专家写的点评有多接近?
A:研究团队用BERTScore、METEOR和ROUGE-L三个指标来衡量。在混合视角配置下,BERTScore的F1值达到85.53,说明在语义层面,机器生成的点评与专家原文有相当高的相似度。但需要注意的是,这是该领域第一次进行此类评估,暂时没有其他系统的数据可以横向比较,其实际可操作性还需要真实教练和运动员的主观反馈来进一步验证。
Q3:PATS采样方法在哪类运动上效果最好,为什么?
A:PATS在攀岩、音乐演奏和篮球上的提升幅度最大。原因在于这三类活动的技术水平主要体现在连贯动作序列中——一个完整的攀岩手脚协调步骤、一段完整的乐句演奏、一次完整的投篮动作,都需要在短时间窗口内密集观察才能看清细节。PATS恰好能在这些关键片段内高密度采样,而均匀采样很可能把这些关键时刻分散稀释掉。





京公网安备 11011402013531号