当前位置: 首页 » 资讯 » 科技头条 » 正文

1米3宇树G1完美上篮!港科大解锁全球首个真实篮球机器人Demo

IP属地 中国·北京 编辑:周伟 量子位 时间:2025-11-25 16:12:18

henry 发自 凹非寺

量子位 | 公众号 QbitAI

1米3的机器人小土豆,三步上篮也可以如此丝滑。

别误会,这台宇树G1暂时还不准备参加NBA选秀,但它刚解锁的 “现实世界打篮球” 技能,离上“村BA”首发应该不远了。

自动播放

据悉,这是全球首个能在真实场景中完成篮球动作的机器人demo,来自香港科技大学的研究团队。

虽然团队还没公开完整的技术细节,但结合他们此前让机器人“打篮球”的工作,这次很可能是在之前研究的基础上,进一步改良而来。

接下来,让我们一窥究竟。

SkillMimic-v2

首先是被收录于SIGGRAPH 2025SkillMimic-V2: Learning Robust and Generalizable Interaction Skills from Sparse and Noisy Demonstrations

SkillMimic-V2旨在解决交互演示强化学习(RLID)中演示轨迹稀疏、含噪且覆盖不足的难题。

其通过引入拼接轨迹图(STG)状态转移场(STF)自适应轨迹采样(ATS)等技术,成功地在低质量数据条件下,训练出了兼具鲁棒恢复能力与技能迁移能力的复杂交互策略 。

当前,通过动作捕捉等方式收集的数据往往存在以下缺陷:

稀疏性 (Sparse):演示数据仅覆盖了有限的技能变体,缺乏技能之间的过渡轨迹。

不连贯性 (Disconnected):不同的技能片段是独立的,缺乏自然的连接。

噪声 (Noisy):数据中包含物理上不可行的状态或误差(例如手与物体的穿模、接触位置偏差),这在精细操作任务中会导致严重的训练失败。

这些有缺陷的数据无法捕捉到技能变体和转换的完整频谱。

不过,相比直接去收集更好的数据,研究认为尽管演示数据是稀疏和嘈杂的,但存在无限的物理可行轨迹

这些潜在的轨迹天然地能够桥接不同的技能,或者从演示状态的邻域中涌现出来。

这就形成了一个连续的、可能的技能变体和转换空间,从而可以利用这些不完美的演示数据,训练出平滑、鲁棒的策略。

基于以上认识,研究提出三个关键步骤发现并学习这些潜在轨迹:

拼接轨迹图 (Stitched Trajectory Graph, STG):为了解决技能间的连接问题(如从运球切换到投篮),算法在不同演示轨迹之间寻找相似状态。如果在两个不同技能的轨迹中发现相似状态,就建立一条连接,并用掩码标记中间的过渡帧。这构建了一个宏观的图结构,允许策略学习未在原始数据中出现的技能转换。

状态转移场 (State Transition Field, STF):训练时不只从参考轨迹的特定点开始,而是从其邻域内随机采样状态初始化。对于邻域内的任意采样状态,计算其与参考轨迹中所有状态的相似度,找到最佳匹配目标。如果起点与目标点距离较远,算法会插入N个掩码状态(Masked States)。这些状态不计算奖励,仅作为时间缓冲,迫使RL策略学习如何从偏离状态“归位”到参考轨迹,从而形成一个具有恢复能力的“场” 。

自适应轨迹采样 (Adaptive Trajectory Sampling, ATS):根据当前策略在某段轨迹上的表现(奖励值)动态调整采样概率。奖励越低(越难学)的片段,被采样的概率越高。这解决了长序列中因局部失败导致整个链条断裂的问题。

由此,技能转换和泛化能力能够远超最初不包含任何技能转换或错误恢复的稀疏演示,实现更高效地技能学习与泛化性。

比如,在仿真环境(Isaac Gym)中,机器人可以在受到干扰时,仍可以完成上篮动作。

还能实现运球-投篮间的技能转换。

自动播放

实验表明,相比此前的SOTA (SkillMimic)方法,SkillMimic-V2在困难技能(如 Layup)上的成功率从0提升到了91.5%。技能转换成功率 (TSR) 更是从2.1%飙升至94.9%

SkillMimic

接下来是SkillMimic-V2的前作——SkillMimic: Learning Basketball Interaction Skills from Demonstrations,这篇论文入选了CVPR 2025 Highlight。

SkillMimic旨在解决物理模拟人-物交互(HOI)中传统方法依赖繁琐手工奖励设计且难以在统一框架下掌握多样化技能的难题。

其通过引入统一HOI模仿奖励接触图(Contact Graph)分层技能复用等技术,成功地在单一奖励配置下,训练出了兼具精准接触控制与长程任务组合能力的通用交互策略。

研究pipeline包含三个部分:

首先,采集真实篮球运动技能,构建一个庞大的人机交互(HOI)运动数据集。

其次,训练一个技能策略,通过模仿相应的HOI数据来学习交互技能,设计了一个统一的HOI模仿奖励机制,用于模仿各种不同的HOI状态转换。

最后,是训练一个高级控制器(HLC),用于复用已学习的技能来处理复杂任务,同时使用极其简单的任务奖励。

其中,SkillMimic方法的关键在于:

统一的HOI模仿奖励(Unified HOI Imitation Reward):放弃针对每种技能单独设计奖励,而是设计一套通用的奖励配置,通过模仿HOI数据集来学习所有技能 。

分层学习架构(Hierarchical Solution):低层:交互技能策略(IS Policy):通过SkillMimic框架学习各种基础交互技能(如运球、上篮)。高层:高级控制器(HLC):训练一个高级策略来复用和组合已习得的IS策略,以完成长程复杂任务(如连续得分)。

数据驱动:构建了两个数据集BallPlay-V(基于视频估算)和BallPlay-M(基于光学动捕,精度更高),包含约35分钟的多样化篮球交互数据 。

实验表明,SkillMimic能够使用同一套配置学会多种风格的篮球技能(运球、上篮、投篮等),成功率显著高于DeepMimic和AMP。

在演示中,我们可以看到,仿真环境的机器人能够实现绕圈运球等高级技能。

自动播放

PhysHOI

如果追溯SkillMimic作者的工作,就会发现早在2023年,论文PhysHOI: Physics-Based Imitation of Dynamic Human-Object Interaction就试图让仿真中的机器人能够根据演示学习篮球技能。

为实现这一点,PhysHOI在当时提出了一种基于物理仿真的动态人-物交互(HOI)模仿学习框架。

简单来说,给定参考的HOI数据,将当前的模拟HOI状态与参考HOI状态一起输入策略模型。

策略输出动作,并通过物理模拟器生成下一步的模拟HOI状态,然后将运动学奖励与接触-抓取(CG)奖励加权结合,并优化策略以最大化期望回报。

重复上述过程直至收敛,即可复现参考数据中的HOI技能。

除此之外,为防止运动学模仿奖励陷入最优解,研究还引入了接触图(Contact Graph)——

给定一个HOI帧,接触图节点包含所有身体部位和物体。每条边都是一个二元接触标签,表示接触与否。为了简化计算,还可以将多个身体部位聚合到一个节点中,形成聚合接触图。

同时,为了弥补HOI场景的不足,研究还引入了全身篮球技巧的BallPlay数据集。

在实验中,PhysHOI在不同大小的篮球操作上表现出了鲁棒性。

自动播放

One more thing

值得一提的是,在PhysHOI、SkillMimic 、SkillMimic-v2三篇工作中,王荫槐都担任了核心角色,网友调侃他是“篮球科研第一人”。

王荫槐是香港科技大学的博士二年级学生,导师为谭平教授。

在此之前,他硕士就读于北京大学,本科毕业于西安电子科技大学,并于IDEA Research、宇树科技以及上海人工智能实验室等机构进行实习。

从2023年在仿真环境的小试牛刀,到这次直接让机器人在真实环境中打球,得益于机器人本体的发展,这速度真是很快了!

参考链接

[1]https://x.com/NliGjvJbycSeD6t/status/1991536374097559785

[2]https://wyhuai.github.io/info/

[3]https://ingrid789.github.io/SkillMimicV2/

[4]https://wyhuai.github.io/physhoi-page/[5]https://ingrid789.github.io/SkillMimic/

标签: 技能 机器人 篮球 策略 状态 数据 轨迹 上篮 运球 动作 宇树 变体 行业 方法 智能 部位 百度 科技 重磅 能力 投篮 物理 香港科技大学 高通 身体 孙茂松 长程 酒店 万丽 局部 一键

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。