当前位置: 首页 » 资讯 » 科技头条 » 正文

耶路撒冷希伯来大学的4D人物动作仿真突破

IP属地 中国·北京 科技行者 时间:2026-06-03 22:25:20


这项由耶路撒冷希伯来大学研究团队完成的研究,以预印本形式于2026年5月28日发布,论文编号为arXiv:2605.30268,感兴趣的读者可通过该编号在arXiv平台查阅完整论文。

电影里的特效英雄踢飞一个金属箱子,箱子应声飞出并凹陷变形——这个画面看起来理所当然,但如果你让电脑自动生成一段"人踢箱子"的三维动画,会发生什么?很可能是:人腿穿过了箱子,或者箱子在人还没碰到它之前就已经飞走了,再或者两个物体就像两条互不干涉的平行线,各走各的路,毫无交集。这个看似简单的问题,其实是计算机图形学领域长期悬而未决的难题。耶路撒冷希伯来大学的研究团队为此开发了一套名为PhyGenHOI的框架,专门解决"让虚拟人物和虚拟物体真实互动"这件事。

说到底,这项研究要解决的问题可以用一个画面来概括:你给电脑一个三维人物模型、一个三维足球模型,再告诉它"这个人要用右腿踢球",然后电脑能不能自动生成一段既好看又符合物理规律的完整动画?球被踢中之后会不会真的飞出去?人的踢球动作自不自然?球飞出去的轨迹符不符合现实中的力学规律?PhyGenHOI给出的答案是:可以做到,而且比现有任何方法都做得更好。

**一、现有技术的两难困境:要么好看,要么真实,难以兼得**

回到踢球这个场景。当前的技术方案大致分成两个流派,各有各的短板,就像两位厨师——一位做菜颜值极高但味道一般,另一位味道扎实但摆盘随意。

第一个流派叫"纯生成式方法",代表是4DFY这类技术。它的思路是让人工智能看大量真实视频,然后照猫画虎地生成动画。这类方法生成的画面往往很好看、很多样,人物动作看起来也比较自然。但问题在于,人工智能只是在"模仿外表",它根本不理解物理规律。结果就会出现一种叫做"幽灵效应"的奇怪现象——球还没被踢到,就已经提前飞了出去,就好像球能预知未来一样。这种违背因果关系的画面让人一眼就看出不对劲。

第二个流派叫"运动学框架方法",代表是AvatarGO和InterDreamer。这类方法对人体结构有更严格的约束,人的骨骼、关节动起来更符合解剖学规律。但它们的问题是,把被互动的物体当成一个"死道具"——就算人踢了球,球也不会真的被踢飞,它只是配合人的动作做一个程序化的简单反应,甚至根本不动。这就像舞台上的假道具,中看不中用。

还有一类方法专注于给单个三维资产制作动画,比如AnimateAnyMesh。这类方法能让一个单独的人物或一个单独的物体动起来,但它完全不懂怎么处理两个物体之间的物理接触和相互作用。

PhyGenHOI的目标,正是在这两个极端之间找到一条兼顾"好看"与"真实"的路。

**二、统一舞台:用同一种语言描述人和物体**

PhyGenHOI的第一个聪明之处,是让人和物体用同一种"语言"来表达自己——这种语言叫做三维高斯点云(3D Gaussian Splatting,简称3DGS)。

普通人可以把3DGS理解为一种非常精妙的三维描述方式。空间中漂浮着成千上万个半透明的"小气泡",每个气泡有自己的位置、大小、形状和颜色。这些气泡叠加在一起,从任意角度看过去,就会呈现出一个完整的三维物体或人物的外观。这种方式渲染速度快,而且非常灵活——你可以轻松地从任何角度生成这个场景的图像。

在PhyGenHOI里,人物和被互动的物体都被表示成这样一堆"小气泡"。这样一来,整个系统有了统一的基础,人物的运动和物体的运动都可以在同一个框架下计算和优化。这个统一的基础是后续所有操作的前提。

**三、两个角色,两套驱动逻辑**

确定了共同的表示方式之后,PhyGenHOI把场景中的两个主角——人和物体——分别赋予了截然不同的驱动逻辑。这种差异化的设计,才是整个框架最核心的哲学。

人被称为"语义智能体"(Semantic Agent)。所谓语义,就是"有意义的动作"。踢球、挥拳、推箱子,这些动作都有明确的语义含义,它们需要符合人类的运动习惯,看起来自然、有说服力。为了生成这种运动,研究团队使用了一个叫做"运动扩散模型"(Motion Diffusion Model,MDM)的人工智能模型。这个模型是在大量真实人体动作数据上训练出来的,它就像一个经验丰富的动作指导,懂得各种运动的规律。你给它一段文字描述,比如"用左手挥拳打球",它就能生成一段符合这个描述的自然人体动作序列。

更具体地说,人的运动被表示为一个序列,每一帧包含身体的根部位置、整体朝向以及每个关节的姿态。系统用一种叫做"人体运动分数蒸馏"(HMSD)的技术来优化这个序列,让它越来越符合运动扩散模型所认定的"自然人体运动"的标准。人体模型采用的是SMPL参数化人体模型,这是一种被学术界广泛使用的人体表示标准,能够保证骨骼、关节的解剖学合理性。每个三维气泡都绑定在SMPL骨骼的某个关节上,当骨骼动起来,气泡也跟着动,从而驱动整个人物的外观变化。

物体则被称为"物理智能体"(Physical Agent)。与人不同,物体不需要理解语义,它只需要忠实地遵循物理规律。研究团队使用了一种叫做"物质点方法"(Material Point Method,MPM)的数值模拟技术来驱动物体的运动。MPM是物理学和工程学中一种成熟的模拟方法,能够计算各种材料——无论是弹性球、软泥还是金属——在受力后的变形和运动轨迹。物体的每一个三维气泡都被当作MPM模拟中的一个粒子,整个物体的运动完全由物理模拟决定,而非人工设定或人工智能猜测。这保证了物体的反应始终符合真实世界的物理规律。

**四、让两个角色协调起来:三重协调机制**

有了两个各自独立运动的角色,下一步的挑战是:怎么让他们真正协调互动,而不是各走各的路?PhyGenHOI设计了三套紧密配合的机制,就像三位裁判分别负责不同的判罚规则,共同确保比赛公平进行。

第一套机制叫做"加窗吸引损失"(Windowed Attraction Loss)。在初始状态下,人的动作和物体的位置是完全独立生成的,人不知道物体在哪里,可能一拳打空。为了让人的动作能够准确地与物体接触,系统首先需要搞清楚两件事:这个动作应该用身体的哪个部位来接触物体,以及这次接触应该发生在哪个时间点。

研究团队提出了一个聪明的判断方法:看每个关节在整个动作序列中的速度变化。以踢球为例,踢球动作中速度累积最大的关节就是脚部,而脚部速度达到峰值的那一刻,正是腿部完全伸展、最接近目标的时刻,也就是最自然的接触时机。系统通过计算每个关节的累积速度来确定接触关节,再找到该关节速度最高点来确定接触时刻。论文中展示的一张图清楚地说明了这一点:在踢球动作中,左脚的速度曲线明显高于其他所有关节,并在某一帧出现明显峰值,这一帧就被自动选为接触时刻。

确定了接触关节和接触时刻之后,系统会在接触时刻附近施加一个"引力"——像一根橡皮筋一样,把接触关节拉向物体的质心。这个引力并非在整个动作序列中都存在,而是集中在接触时刻附近,采用高斯函数的形状(中间强、两侧弱),保证只在关键时刻施加引导,让动作的起步阶段和收尾阶段仍然由运动扩散模型自由发挥,维持动作的自然感。这个损失函数和人体运动分数蒸馏的损失函数共同优化,让人的动作既自然又能准确地朝向物体运动。

第二套机制叫做"接触驱动重模拟"(Contact-Driven Re-simulation)。人的动作被引导到物体附近之后,还需要让物体真正做出反应。这一步是建立真实物理因果关系的关键。

系统首先精确地检测接触是否发生。检测方法是这样的:每个人体上的三维气泡都通过蒙皮权重(描述该气泡受哪个关节控制的权重)归属于某个关节,系统计算每个关节的气泡群的三维包围盒,同时计算物体的三维包围盒,判断两者是否重叠。仅仅包围盒重叠还不够,系统还会进一步检查:接触关节中至少5%的气泡必须在距离最近的物体气泡0.01个单位距离以内,才算真正发生了接触。

一旦检测到接触,系统立即计算动量传递。具体来说,系统估算接触关节在接触瞬间的速度(用前后两帧的位移差来近似),计算接触法线方向(从被接触的物体气泡群的平均位置指向物体质心的方向),然后按照经典力学中的碰撞公式计算物体在碰撞后的初速度。公式中还包含一个"恢复系数"(e=0.6),这个系数描述了碰撞的弹性:完全弹性碰撞时e=1,完全非弹性碰撞时e=0,0.6意味着碰撞有一定弹性,类似于踢一个充了气的足球的感觉。

拿到这个初速度之后,MPM模拟器从接触时刻开始重新模拟物体的运动,一直模拟到序列结束,生成一条完整的、符合物理规律的物体运动轨迹。这条轨迹随后被固定下来,后续的优化只调整人的动作,不再改变物体的轨迹。这样就保证了物体的反应是真实物理计算的结果,不可能出现"球提前飞走"的幽灵效应。

第三套机制叫做"时间掩码视频分数蒸馏"(Temporally-Masked Video-SDS)。经过前两套机制,人的动作和物体的轨迹在宏观层面已经很好地协调起来了。但在接触区域的微观细节上,可能还存在一些不够完美的地方——比如手指或脚趾轻微地穿入了球体(这在三维计算机图形中叫做"穿插"现象)。

为了修复这些细节,研究团队引入了视频扩散模型作为额外的视觉先验。具体做法是:渲染当前状态下的场景视频,然后用一个预训练的视频生成模型(CogVideoX-5B)来评估这段视频是否符合文字描述、是否看起来真实自然。如果不符合,就通过梯度信号来微调人体的姿态参数,让渲染结果越来越符合视频模型的"审美标准"。这个过程只在接触时刻前后各一帧的范围内进行,不影响其他帧的动作,避免对已经优化好的整体运动造成破坏。视频模型的文字提示中还特别强调了要避免穿插、确保接触真实,进一步引导优化的方向。

**五、三阶段优化流程:从独立到协调的完整旅程**

整个系统的优化过程分为三个阶段,就像盖房子先打地基、再建墙体、最后装修一样循序渐进。

第一阶段是"运动初始化"。系统只使用人体运动分数蒸馏的损失函数,迭代优化100次,让人物先生成一段符合文字描述的自然动作。此时不考虑物体的位置,人物只是自由地做出踢球或挥拳的姿态。

第二阶段是"人物-物体协调"。在第一阶段的基础上,系统加入加窗吸引损失,继续迭代优化200次。此时人体运动分数蒸馏损失的权重系数为10,加窗吸引损失的权重系数为1,两者共同优化,让人物在保持动作自然的同时逐渐向物体靠近。加窗吸引损失的高斯窗口标准差为2帧。这一阶段结束后,系统执行接触检测和MPM重模拟,得到固定的物体轨迹,供下一阶段使用。

第三阶段是"视频分数蒸馏精修"。系统使用时间掩码视频分数蒸馏,迭代优化3000次,学习率为0.001,专门针对接触区域的细节进行精细调整。整个三阶段流程在单张英伟达H200显卡上大约需要74分钟:人体运动优化约10分钟,MPM模拟约4分钟,视频分数蒸馏精修约1小时。最终生成的4D场景可以以每秒20帧的速度实时渲染。

**六、验证与对比:全面胜出的实验结果**

研究团队构建了一个包含10种不同人物-物体-动作组合的测试基准,涵盖了篮球、足球、文件柜等多种物体,以及击打、踢球、推送等多种动作类型,在此基础上与两个最具代表性的现有方法进行了系统比较。

比较对象4DFY代表纯生成式方法,AnimateAnyMesh代表三维资产动画方法。研究团队特别说明,AvatarGO、InterDreamer、CHORD等更直接相关的人物-物体互动方法因为没有公开代码,所以无法纳入比较,选取的是当前能够复现的最强基线。

评估采用了三类指标。第一类是视觉-语言对齐度(ViCLIP分数),衡量生成的视频和文字描述的匹配程度,类似于"这段视频看起来像是在做文字里说的动作吗"。第二类是物理合理性VQA分数,使用大语言模型Qwen-VL-7B来判断视频中的互动是否物理上合理,相当于请一个懂物理的人来打分。第三类是用户研究,邀请23位参与者对四个维度打分:物理合理性(物体对物理的反应是否合理)、接触质量(接触的准确性和真实感)、动作自然性(人物动作是否自然)、视觉真实感(整体画面是否逼真)。每个维度满分5分。

结果非常清晰:PhyGenHOI在全部指标上都超过了两个基线方法。在VQA物理分数上,PhyGenHOI获得0.25,优于AnimateAnyMesh的0.19和4DFY的0.15。在ViCLIP分数上,PhyGenHOI获得0.30,优于4DFY的0.26和AnimateAnyMesh的0.24。在用户研究的四个维度上,PhyGenHOI的得分分别为4.33、4.29、4.21和4.04,而两个基线方法的得分基本在1.4到2.4之间。这种压倒性的差距表明,用户能够非常直观地感受到PhyGenHOI生成结果的优越性。

定性对比同样直观:4DFY经常把同一个物体幻觉成多个,而且人物的动作幅度极小,完全无法传达踢球或击打的意图;AnimateAnyMesh对人和物体都只生成了幅度很小的运动,两者之间几乎没有任何实质性的接触互动;PhyGenHOI的人物动作幅度大、意图明确,物体也做出了与动作力度相符的物理反应,轨迹自然、真实。

**七、消融实验:缺少任何一块都不行**

为了证明框架中每个组件都是不可或缺的,研究团队还做了一系列"拆件测试"——逐一去掉某个组件,看结果会变得多差。

去掉加窗吸引损失之后,人物完全不知道物体在哪里,动作虽然自然,但就是打不到物体,就像一个蒙着眼睛挥拳的人,动作流畅却完全落空。ViCLIP分数从0.30跌到0.23,因为画面和文字描述严重不符。

去掉接触检测和重模拟之后,人物能够靠近物体,但物体对撞击视而不见,继续沿着原本的轨迹运动,就像幽灵一样被人穿过而毫无反应。VQA物理分数跌至0.20,也是所有变体中最低的,因为无视碰撞是最明显的物理违规。

去掉运动扩散模型(MDM),直接用数学优化来生成人物姿态,人物确实会向物体靠拢,但动作变得非常怪异,骨骼产生不自然的扭曲,看起来像是被强行拉到某个位置,完全不像真实的人类运动。ViCLIP分数降至0.22,因为动作太不自然,与文字描述中正常人类运动的预期相差甚远。

去掉视频分数蒸馏之后,整体物理逻辑仍然正确,但接触区域的细节变差,出现明显的穿插现象,看起来手或脚嵌入了物体内部,视觉质量下降。

去掉MPM模拟,改用简单的匀速直线运动来代替物体轨迹之后,物体的运动失去了材料物理特性,无法模拟弹跳、变形等真实效果,物理真实感明显不足。

这五组对比实验共同说明:PhyGenHOI的每一个组件都在发挥不可替代的作用,缺少任何一个都会造成明显的质量下降。

**八、可控性与多样性:同一个动作,不同的变体**

PhyGenHOI还展示了相当好的可控性。研究团队通过改变物体的初始位置和人物的运动强度,生成了四种不同的挥拳变体:物体在高处时对应高位击打,物体在低处时对应低位击打;人物迈步发力时击打力度更大,人物站立不动时力度较小。四种变体中,人物的动作模式和物体飞出的速度都有明显的差异,符合人们对不同情境下击打效果的直觉预期。

**九、局限性与未来方向**

研究团队对自身工作的局限性持非常坦诚的态度,这值得一提。

首先,PhyGenHOI目前只适合处理"冲击式"互动,也就是一次性接触引发动量传递的场景,比如踢、打、推。对于需要持续施力的互动,比如人把手放在物体上持续推动,或者抱着物体走路,当前框架就不适用了,因为这类场景需要建模持续的力,而非单次冲击。

其次,加窗吸引损失是把物体质心作为吸引目标,这对球这样的凸形物体很有效,但对于形状复杂的物体,可能需要接触到特定的表面区域,质心目标就不够精确了。

第三,人物本身在当前框架中仍然是纯运动学的,只有物体受到物理模拟约束。人物的皮肤不会在接触时产生真实的形变,也不会感受到来自物体的反作用力。实现双向物理耦合——既让物体受到人的冲击,也让人体组织受到物体的反力而形变——是未来工作的重要方向。

这些局限性也指出了这个研究领域未来可以继续推进的几条路:扩展到多次连续接触、扩展到多物体场景、引入人体软组织模拟等,都是很有价值的探索方向。

归根结底,PhyGenHOI做的事情,是在"好看"和"真实"之间架了一座桥。以前我们在这两件事上只能二选一,要么有漂亮的动作但物体不会真实反应,要么物体能真实模拟但人的动作又僵又奇怪。PhyGenHOI通过把人和物体赋予不同的驱动逻辑、再用三套协调机制把它们粘合在一起,终于让这两件事能够同时发生。这意味着游戏角色踢一脚球的样子会更真实,动画制作里物体被推倒的过程会更可信,虚拟现实里你伸手拿东西的感觉会更贴近真实。

这项研究距离我们日常生活的应用还有一段距离,毕竟生成一段动画还需要74分钟、一张H200显卡,这不是普通人家里能有的配置。但技术总是会越来越快、越来越便宜。有兴趣深入了解完整技术细节的读者,可以通过编号arXiv:2605.30268查阅原始论文,或访问研究团队的项目页面观看完整的动态演示视频。

Q&A

Q1:PhyGenHOI和普通的3D动画生成软件有什么本质区别?

A:普通3D动画软件需要动画师手动设置每一帧的动作和物体轨迹,而PhyGenHOI只需要输入文字描述(比如"踢球"),就能自动生成人物动作和物体的物理反应。更关键的区别在于,PhyGenHOI用真实的物理模拟引擎来计算物体被踢中后的运动,不是靠视觉"猜测",因此物体的轨迹符合真实物理规律,而不是看起来像但其实违背常识。

Q2:PhyGenHOI的"物质点方法"(MPM)模拟是什么意思,和游戏里的物理引擎一样吗?

A:MPM和游戏物理引擎的目标类似,都是模拟物体在受力后的运动,但MPM更擅长处理形变,比如软球被踢扁或泥土被压出凹痕。PhyGenHOI采用MPM是为了同时处理运动轨迹和材料形变,让物体的反应更接近真实材料的物理特性,而不只是简单地"飞出去"。游戏里的物理引擎通常更关注实时性,对形变的模拟通常较为粗糙。

Q3:PhyGenHOI生成的动画只能是男性踢球吗,能换其他人物和动作吗?

A:不局限于此。PhyGenHOI的输入是任意的三维高斯点云人物和任意物体,搭配任意的文字描述,都可以生成对应的互动动画。论文中演示了不同体型的人物、多种不同物体(足球、篮球、文件柜等)和不同动作(踢、挥拳、推等)的组合,系统都能生成物理合理的结果。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。