耶路撒冷希伯来大学的4D人物动作仿真突破

IP属地中国·北京 科技行者 时间：2026-06-03 22:25:20

这项由耶路撒冷希伯来大学研究团队完成的研究，以预印本形式于2026年5月28日发布，论文编号为arXiv:2605.30268，感兴趣的读者可通过该编号在arXiv平台查阅完整论文。
电影里的特效英雄踢飞一个金属箱子，箱子应声飞出并凹陷变形——这个画面看起来理所当然，但如果你让电脑自动生成一段"人踢箱子"的三维动画，会发生什么？很可能是：人腿穿过了箱子，或者箱子在人还没碰到它之前就已经飞走了，再或者两个物体就像两条互不干涉的平行线，各走各的路，毫无交集。这个看似简单的问题，其实是计算机图形学领域长期悬而未决的难题。耶路撒冷希伯来大学的研究团队为此开发了一套名为PhyGenHOI的框架，专门解决"让虚拟人物和虚拟物体真实互动"这件事。
说到底，这项研究要解决的问题可以用一个画面来概括：你给电脑一个三维人物模型、一个三维足球模型，再告诉它"这个人要用右腿踢球"，然后电脑能不能自动生成一段既好看又符合物理规律的完整动画？球被踢中之后会不会真的飞出去？人的踢球动作自不自然？球飞出去的轨迹符不符合现实中的力学规律？PhyGenHOI给出的答案是：可以做到，而且比现有任何方法都做得更好。
**一、现有技术的两难困境：要么好看，要么真实，难以兼得**
回到踢球这个场景。当前的技术方案大致分成两个流派，各有各的短板，就像两位厨师——一位做菜颜值极高但味道一般，另一位味道扎实但摆盘随意。
第一个流派叫"纯生成式方法"，代表是4DFY这类技术。它的思路是让人工智能看大量真实视频，然后照猫画虎地生成动画。这类方法生成的画面往往很好看、很多样，人物动作看起来也比较自然。但问题在于，人工智能只是在"模仿外表"，它根本不理解物理规律。结果就会出现一种叫做"幽灵效应"的奇怪现象——球还没被踢到，就已经提前飞了出去，就好像球能预知未来一样。这种违背因果关系的画面让人一眼就看出不对劲。
第二个流派叫"运动学框架方法"，代表是AvatarGO和InterDreamer。这类方法对人体结构有更严格的约束，人的骨骼、关节动起来更符合解剖学规律。但它们的问题是，把被互动的物体当成一个"死道具"——就算人踢了球，球也不会真的被踢飞，它只是配合人的动作做一个程序化的简单反应，甚至根本不动。这就像舞台上的假道具，中看不中用。
还有一类方法专注于给单个三维资产制作动画，比如AnimateAnyMesh。这类方法能让一个单独的人物或一个单独的物体动起来，但它完全不懂怎么处理两个物体之间的物理接触和相互作用。
PhyGenHOI的目标，正是在这两个极端之间找到一条兼顾"好看"与"真实"的路。
**二、统一舞台：用同一种语言描述人和物体**
PhyGenHOI的第一个聪明之处，是让人和物体用同一种"语言"来表达自己——这种语言叫做三维高斯点云（3D Gaussian Splatting，简称3DGS）。
普通人可以把3DGS理解为一种非常精妙的三维描述方式。空间中漂浮着成千上万个半透明的"小气泡"，每个气泡有自己的位置、大小、形状和颜色。这些气泡叠加在一起，从任意角度看过去，就会呈现出一个完整的三维物体或人物的外观。这种方式渲染速度快，而且非常灵活——你可以轻松地从任何角度生成这个场景的图像。
在PhyGenHOI里，人物和被互动的物体都被表示成这样一堆"小气泡"。这样一来，整个系统有了统一的基础，人物的运动和物体的运动都可以在同一个框架下计算和优化。这个统一的基础是后续所有操作的前提。
**三、两个角色，两套驱动逻辑**
确定了共同的表示方式之后，PhyGenHOI把场景中的两个主角——人和物体——分别赋予了截然不同的驱动逻辑。这种差异化的设计，才是整个框架最核心的哲学。
人被称为"语义智能体"（Semantic Agent）。所谓语义，就是"有意义的动作"。踢球、挥拳、推箱子，这些动作都有明确的语义含义，它们需要符合人类的运动习惯，看起来自然、有说服力。为了生成这种运动，研究团队使用了一个叫做"运动扩散模型"（Motion Diffusion Model，MDM）的人工智能模型。这个模型是在大量真实人体动作数据上训练出来的，它就像一个经验丰富的动作指导，懂得各种运动的规律。你给它一段文字描述，比如"用左手挥拳打球"，它就能生成一段符合这个描述的自然人体动作序列。
更具体地说，人的运动被表示为一个序列，每一帧包含身体的根部位置、整体朝向以及每个关节的姿态。系统用一种叫做"人体运动分数蒸馏"（HMSD）的技术来优化这个序列，让它越来越符合运动扩散模型所认定的"自然人体运动"的标准。人体模型采用的是SMPL参数化人体模型，这是一种被学术界广泛使用的人体表示标准，能够保证骨骼、关节的解剖学合理性。每个三维气泡都绑定在SMPL骨骼的某个关节上，当骨骼动起来，气泡也跟着动，从而驱动整个人物的外观变化。
物体则被称为"物理智能体"（Physical Agent）。与人不同，物体不需要理解语义，它只需要忠实地遵循物理规律。研究团队使用了一种叫做"物质点方法"（Material Point Method，MPM）的数值模拟技术来驱动物体的运动。MPM是物理学和工程学中一种成熟的模拟方法，能够计算各种材料——无论是弹性球、软泥还是金属——在受力后的变形和运动轨迹。物体的每一个三维气泡都被当作MPM模拟中的一个粒子，整个物体的运动完全由物理模拟决定，而非人工设定或人工智能猜测。这保证了物体的反应始终符合真实世界的物理规律。
**四、让两个角色协调起来：三重协调机制**
有了两个各自独立运动的角色，下一步的挑战是：怎么让他们真正协调互动，而不是各走各的路？PhyGenHOI设计了三套紧密配合的机制，就像三位裁判分别负责不同的判罚规则，共同确保比赛公平进行。
第一套机制叫做"加窗吸引损失"（Windowed Attraction Loss）。在初始状态下，人的动作和物体的位置是完全独立生成的，人不知道物体在哪里，可能一拳打空。为了让人的动作能够准确地与物体接触，系统首先需要搞清楚两件事：这个动作应该用身体的哪个部位来接触物体，以及这次接触应该发生在哪个时间点。
研究团队提出了一个聪明的判断方法：看每个关节在整个动作序列中的速度变化。以踢球为例，踢球动作中速度累积最大的关节就是脚部，而脚部速度达到峰值的那一刻，正是腿部完全伸展、最接近目标的时刻，也就是最自然的接触时机。系统通过计算每个关节的累积速度来确定接触关节，再找到该关节速度最高点来确定接触时刻。论文中展示的一张图清楚地说明了这一点：在踢球动作中，左脚的速度曲线明显高于其他所有关节，并在某一帧出现明显峰值，这一帧就被自动选为接触时刻。
确定了接触关节和接触时刻之后，系统会在接触时刻附近施加一个"引力"——像一根橡皮筋一样，把接触关节拉向物体的质心。这个引力并非在整个动作序列中都存在，而是集中在接触时刻附近，采用高斯函数的形状（中间强、两侧弱），保证只在关键时刻施加引导，让动作的起步阶段和收尾阶段仍然由运动扩散模型自由发挥，维持动作的自然感。这个损失函数和人体运动分数蒸馏的损失函数共同优化，让人的动作既自然又能准确地朝向物体运动。
第二套机制叫做"接触驱动重模拟"（Contact-Driven Re-simulation）。人的动作被引导到物体附近之后，还需要让物体真正做出反应。这一步是建立真实物理因果关系的关键。
系统首先精确地检测接触是否发生。检测方法是这样的：每个人体上的三维气泡都通过蒙皮权重（描述该气泡受哪个关节控制的权重）归属于某个关节，系统计算每个关节的气泡群的三维包围盒，同时计算物体的三维包围盒，判断两者是否重叠。仅仅包围盒重叠还不够，系统还会进一步检查：接触关节中至少5%的气泡必须在距离最近的物体气泡0.01个单位距离以内，才算真正发生了接触。
一旦检测到接触，系统立即计算动量传递。具体来说，系统估算接触关节在接触瞬间的速度（用前后两帧的位移差来近似），计算接触法线方向（从被接触的物体气泡群的平均位置指向物体质心的方向），然后按照经典力学中的碰撞公式计算物体在碰撞后的初速度。公式中还包含一个"恢复系数"（e=0.6），这个系数描述了碰撞的弹性：完全弹性碰撞时e=1，完全非弹性碰撞时e=0，0.6意味着碰撞有一定弹性，类似于踢一个充了气的足球的感觉。
拿到这个初速度之后，MPM模拟器从接触时刻开始重新模拟物体的运动，一直模拟到序列结束，生成一条完整的、符合物理规律的物体运动轨迹。这条轨迹随后被固定下来，后续的优化只调整人的动作，不再改变物体的轨迹。这样就保证了物体的反应是真实物理计算的结果，不可能出现"球提前飞走"的幽灵效应。
第三套机制叫做"时间掩码视频分数蒸馏"（Temporally-Masked Video-SDS）。经过前两套机制，人的动作和物体的轨迹在宏观层面已经很好地协调起来了。但在接触区域的微观细节上，可能还存在一些不够完美的地方——比如手指或脚趾轻微地穿入了球体（这在三维计算机图形中叫做"穿插"现象）。
为了修复这些细节，研究团队引入了视频扩散模型作为额外的视觉先验。具体做法是：渲染当前状态下的场景视频，然后用一个预训练的视频生成模型（CogVideoX-5B）来评估这段视频是否符合文字描述、是否看起来真实自然。如果不符合，就通过梯度信号来微调人体的姿态参数，让渲染结果越来越符合视频模型的"审美标准"。这个过程只在接触时刻前后各一帧的范围内进行，不影响其他帧的动作，避免对已经优化好的整体运动造成破坏。视频模型的文字提示中还特别强调了要避免穿插、确保接触真实，进一步引导优化的方向。
**五、三阶段优化流程：从独立到协调的完整旅程**
整个系统的优化过程分为三个阶段，就像盖房子先打地基、再建墙体、最后装修一样循序渐进。
第一阶段是"运动初始化"。系统只使用人体运动分数蒸馏的损失函数，迭代优化100次，让人物先生成一段符合文字描述的自然动作。此时不考虑物体的位置，人物只是自由地做出踢球或挥拳的姿态。
第二阶段是"人物-物体协调"。在第一阶段的基础上，系统加入加窗吸引损失，继续迭代优化200次。此时人体运动分数蒸馏损失的权重系数为10，加窗吸引损失的权重系数为1，两者共同优化，让人物在保持动作自然的同时逐渐向物体靠近。加窗吸引损失的高斯窗口标准差为2帧。这一阶段结束后，系统执行接触检测和MPM重模拟，得到固定的物体轨迹，供下一阶段使用。
第三阶段是"视频分数蒸馏精修"。系统使用时间掩码视频分数蒸馏，迭代优化3000次，学习率为0.001，专门针对接触区域的细节进行精细调整。整个三阶段流程在单张英伟达H200显卡上大约需要74分钟：人体运动优化约10分钟，MPM模拟约4分钟，视频分数蒸馏精修约1小时。最终生成的4D场景可以以每秒20帧的速度实时渲染。
**六、验证与对比：全面胜出的实验结果**
研究团队构建了一个包含10种不同人物-物体-动作组合的测试基准，涵盖了篮球、足球、文件柜等多种物体，以及击打、踢球、推送等多种动作类型，在此基础上与两个最具代表性的现有方法进行了系统比较。
比较对象4DFY代表纯生成式方法，AnimateAnyMesh代表三维资产动画方法。研究团队特别说明，AvatarGO、InterDreamer、CHORD等更直接相关的人物-物体互动方法因为没有公开代码，所以无法纳入比较，选取的是当前能够复现的最强基线。
评估采用了三类指标。第一类是视觉-语言对齐度（ViCLIP分数），衡量生成的视频和文字描述的匹配程度，类似于"这段视频看起来像是在做文字里说的动作吗"。第二类是物理合理性VQA分数，使用大语言模型Qwen-VL-7B来判断视频中的互动是否物理上合理，相当于请一个懂物理的人来打分。第三类是用户研究，邀请23位参与者对四个维度打分：物理合理性（物体对物理的反应是否合理）、接触质量（接触的准确性和真实感）、动作自然性（人物动作是否自然）、视觉真实感（整体画面是否逼真）。每个维度满分5分。
结果非常清晰：PhyGenHOI在全部指标上都超过了两个基线方法。在VQA物理分数上，PhyGenHOI获得0.25，优于AnimateAnyMesh的0.19和4DFY的0.15。在ViCLIP分数上，PhyGenHOI获得0.30，优于4DFY的0.26和AnimateAnyMesh的0.24。在用户研究的四个维度上，PhyGenHOI的得分分别为4.33、4.29、4.21和4.04，而两个基线方法的得分基本在1.4到2.4之间。这种压倒性的差距表明，用户能够非常直观地感受到PhyGenHOI生成结果的优越性。
定性对比同样直观：4DFY经常把同一个物体幻觉成多个，而且人物的动作幅度极小，完全无法传达踢球或击打的意图；AnimateAnyMesh对人和物体都只生成了幅度很小的运动，两者之间几乎没有任何实质性的接触互动；PhyGenHOI的人物动作幅度大、意图明确，物体也做出了与动作力度相符的物理反应，轨迹自然、真实。
**七、消融实验：缺少任何一块都不行**
为了证明框架中每个组件都是不可或缺的，研究团队还做了一系列"拆件测试"——逐一去掉某个组件，看结果会变得多差。
去掉加窗吸引损失之后，人物完全不知道物体在哪里，动作虽然自然，但就是打不到物体，就像一个蒙着眼睛挥拳的人，动作流畅却完全落空。ViCLIP分数从0.30跌到0.23，因为画面和文字描述严重不符。
去掉接触检测和重模拟之后，人物能够靠近物体，但物体对撞击视而不见，继续沿着原本的轨迹运动，就像幽灵一样被人穿过而毫无反应。VQA物理分数跌至0.20，也是所有变体中最低的，因为无视碰撞是最明显的物理违规。
去掉运动扩散模型（MDM），直接用数学优化来生成人物姿态，人物确实会向物体靠拢，但动作变得非常怪异，骨骼产生不自然的扭曲，看起来像是被强行拉到某个位置，完全不像真实的人类运动。ViCLIP分数降至0.22，因为动作太不自然，与文字描述中正常人类运动的预期相差甚远。
去掉视频分数蒸馏之后，整体物理逻辑仍然正确，但接触区域的细节变差，出现明显的穿插现象，看起来手或脚嵌入了物体内部，视觉质量下降。
去掉MPM模拟，改用简单的匀速直线运动来代替物体轨迹之后，物体的运动失去了材料物理特性，无法模拟弹跳、变形等真实效果，物理真实感明显不足。
这五组对比实验共同说明：PhyGenHOI的每一个组件都在发挥不可替代的作用，缺少任何一个都会造成明显的质量下降。
**八、可控性与多样性：同一个动作，不同的变体**
PhyGenHOI还展示了相当好的可控性。研究团队通过改变物体的初始位置和人物的运动强度，生成了四种不同的挥拳变体：物体在高处时对应高位击打，物体在低处时对应低位击打；人物迈步发力时击打力度更大，人物站立不动时力度较小。四种变体中，人物的动作模式和物体飞出的速度都有明显的差异，符合人们对不同情境下击打效果的直觉预期。
**九、局限性与未来方向**
研究团队对自身工作的局限性持非常坦诚的态度，这值得一提。
首先，PhyGenHOI目前只适合处理"冲击式"互动，也就是一次性接触引发动量传递的场景，比如踢、打、推。对于需要持续施力的互动，比如人把手放在物体上持续推动，或者抱着物体走路，当前框架就不适用了，因为这类场景需要建模持续的力，而非单次冲击。
其次，加窗吸引损失是把物体质心作为吸引目标，这对球这样的凸形物体很有效，但对于形状复杂的物体，可能需要接触到特定的表面区域，质心目标就不够精确了。
第三，人物本身在当前框架中仍然是纯运动学的，只有物体受到物理模拟约束。人物的皮肤不会在接触时产生真实的形变，也不会感受到来自物体的反作用力。实现双向物理耦合——既让物体受到人的冲击，也让人体组织受到物体的反力而形变——是未来工作的重要方向。
这些局限性也指出了这个研究领域未来可以继续推进的几条路：扩展到多次连续接触、扩展到多物体场景、引入人体软组织模拟等，都是很有价值的探索方向。
归根结底，PhyGenHOI做的事情，是在"好看"和"真实"之间架了一座桥。以前我们在这两件事上只能二选一，要么有漂亮的动作但物体不会真实反应，要么物体能真实模拟但人的动作又僵又奇怪。PhyGenHOI通过把人和物体赋予不同的驱动逻辑、再用三套协调机制把它们粘合在一起，终于让这两件事能够同时发生。这意味着游戏角色踢一脚球的样子会更真实，动画制作里物体被推倒的过程会更可信，虚拟现实里你伸手拿东西的感觉会更贴近真实。
这项研究距离我们日常生活的应用还有一段距离，毕竟生成一段动画还需要74分钟、一张H200显卡，这不是普通人家里能有的配置。但技术总是会越来越快、越来越便宜。有兴趣深入了解完整技术细节的读者，可以通过编号arXiv:2605.30268查阅原始论文，或访问研究团队的项目页面观看完整的动态演示视频。
Q&A
Q1：PhyGenHOI和普通的3D动画生成软件有什么本质区别？
A：普通3D动画软件需要动画师手动设置每一帧的动作和物体轨迹，而PhyGenHOI只需要输入文字描述（比如"踢球"），就能自动生成人物动作和物体的物理反应。更关键的区别在于，PhyGenHOI用真实的物理模拟引擎来计算物体被踢中后的运动，不是靠视觉"猜测"，因此物体的轨迹符合真实物理规律，而不是看起来像但其实违背常识。
Q2：PhyGenHOI的"物质点方法"（MPM）模拟是什么意思，和游戏里的物理引擎一样吗？
A：MPM和游戏物理引擎的目标类似，都是模拟物体在受力后的运动，但MPM更擅长处理形变，比如软球被踢扁或泥土被压出凹痕。PhyGenHOI采用MPM是为了同时处理运动轨迹和材料形变，让物体的反应更接近真实材料的物理特性，而不只是简单地"飞出去"。游戏里的物理引擎通常更关注实时性，对形变的模拟通常较为粗糙。
Q3：PhyGenHOI生成的动画只能是男性踢球吗，能换其他人物和动作吗？
A：不局限于此。PhyGenHOI的输入是任意的三维高斯点云人物和任意物体，搭配任意的文字描述，都可以生成对应的互动动画。论文中演示了不同体型的人物、多种不同物体（足球、篮球、文件柜等）和不同动作（踢、挥拳、推等）的组合，系统都能生成物理合理的结果。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

理想L6升级51kWh电池包：增程老将转型，纯电浪潮下如何破局突围？

2026海南欢乐节启幕！欢乐巴士、自驾、公交等多样出行攻略来啦

阿里“AI编程第一”，智谱、Kimi答应吗？

B站连续三年亮相WAIC 月均超1.9亿用户消费AI内容

华为MateBook Pro获国家级人工智能认证L3级首证

Kimi K3震荡美股，有望最快6个月内港股上市

全站最新

理想L6升级51kWh电池包：增程老将转型，纯电浪潮下如何破局突围？

2026海南欢乐节启幕！欢乐巴士、自驾、公交等多样出行攻略来啦

保时捷911 GT3测试车现身纽北，“鸭尾”设计重现经典元素引关注

智己LS9 Hyper携线控转向入场30万级市场，技术实力能否撬动销量？

热门推荐

理想L6升级51kWh电池包：增程老将转型，纯电浪潮下如何破局突围？

2026海南欢乐节启幕！欢乐巴士、自驾、公交等多样出行攻略来啦

五菱星光L上市，思行：产品外观在所有的购车因素里排名第一

阿里“AI编程第一”，智谱、Kimi答应吗？

B站连续三年亮相WAIC 月均超1.9亿用户消费AI内容

华为MateBook Pro获国家级人工智能认证L3级首证

Kimi K3震荡美股，有望最快6个月内港股上市

实测Kimi K3：强得意外，慢得着急

吉利银河同款技术下放！领克20官宣搭载全球首款16合1电驱

造车新规矩落地！工信部要求车企自查零部件供应链一致性

一只猴卖20万！净利润飙涨超1300%，“猴茅”昭衍新药赚翻了

黄牛捏造张凌赫三地见面会疯狂售票阿维塔发布严正声明

荣耀CEO李健：AI将向“伙伴型类人生命体”演进

机器人不缺表演，缺的是工作经验

网传尚界汽车脱离鸿蒙智行，官方辟谣