![]()
在现代工业物流与机器人自动化中,三维装箱问题(3D-BPP)的物理可行性与具身可执行性是决定算法能否真正落地的关键因素。随着工业自动化水平不断提高,「在线装箱」问题正受到越来越多关注。然而现有研究在问题设定、测试数据、评估指标等方面差异巨大,且不少先进算法尚未开源,导致研究社区缺乏一个能够公平、系统评估算法性能与真实可用性的统一基准体系。
在真实硬件上直接评估成本高、周期长,因此仿真环境成为验证算法物理可行性的必然选择。但多数现有研究仍将 3D-BPP 理解为数学优化问题,仅强调如「空间利用率」等紧凑度指标,而忽略重力、摩擦、碰撞等关键物理因素,使得算法一旦部署到现实场景便可能失效。
而具身可执行性最终要落脚到机器人与每一个箱体的交互,需要考虑机器人末端执行器是否可达目标位姿、是否存在机器人抓取箱体摆放过程的无碰撞运动路径、是否满足机器人末端执行器抓取的约束等问题。此外,许多研究依赖的仍是与工业分布不一致的合成数据集,导致算法在具身执行层面的难度被系统性低估,使得其结论缺乏现实可信度。
为解决这些痛点,国防科大、中科院工业人工智能研究所、武汉大学与深圳大学联合推出RoboBPP——一个基于真实工业数据、物理仿真与具身执行建模的机器人在线装箱的综合基准系统。RoboBPP内置基于物理的高逼真仿真器,并在仿真环境中引入真实尺度的箱体与工业机械臂,完整复现工业装箱流程。通过模拟真实工业条件,RoboBPP能够有效评估算法在现实部署中的物理可行性与具身可执行性。
![]()
论文题目:RoboBPP: Benchmarking Robotic Online Bin Packing with Physics-based Simulation论文链接https://arxiv.org/abs/2512.04415项目主页https://robot-bin-packing-benchmark.github.io/
本文的核心贡献如下:
仿真环境:一个高度逼真的、基于物理的仿真环境,用于评估在线装箱的物理可行性与具身可执行性
数据集:三个来自真实工业流程的大规模多样化数据集,用于系统化基准测试。
测试设置:科学设计的多级测试设置,从纯数学评估到物理约束仿真,再到机器人执行。
评估体系:多维度评估指标及归一化评分体系,可计算加权综合得分,从而在不同场景下提供对算法的深入分析。
![]()
项目主页(如下图)对 RoboBPP 的细节进行了全面展示。其中 Benchmarks 栏目提供了多类榜单,包括算法整体表现排名、三种测试设置与三个数据集下的各项指标表现,以及每种算法在测试过程中的详细数据。Documentation 栏目介绍了数据集、测试设置与评估指标的详细说明,并提供了开源仿真环境 Python 包的安装与使用指南。读者可在 Download 栏目下载三类数据集,在 Submit 栏目提交算法进行测试。
packsim
![]()
基于物理的仿真环境
由于在真实硬件上进行测试成本高、操作复杂,团队构建了一个用于评估物理可行性的仿真环境。其核心挑战在于打造一个足够逼真的模拟器,以确保所评估的算法在真实工业场景中也能可靠运行。
受实际工业装箱流程启发,团队在 PyBullet 环境中引入了按真实尺度建模的工业机械臂与箱体,并设计了一套具备物理依据的参数,使箱体与机械臂均能在仿真中得到精确复现。该模拟器能够再现多种真实工业条件:例如,通过重力和摩擦建模模拟由不稳定堆叠引发的坍塌;使用 OMPL 运动规划库生成机械臂的无碰撞轨迹;支持机械臂执行抓取、搬运与放置等完整操作流程。通过机械臂与箱体的交互来探索机器人够不够得到的问题,验证算法的具身可执行性。
整个仿真环境已作为 Python 包开源于 PyPI。用户可按照官方文档运行与体验完整仿真流程。
packsim
官方文档:https://robot-bin-packing-benchmark.github.io/documentation.html
真实工业流程数据集
为了构建一个全面的基准体系,覆盖多样化的工业场景至关重要。真实工业流程数据集通过刻画实际生产中的物品尺寸、形状与到达顺序,决定了机器人在抓取、搬运与放置过程中所面临的具身执行难度,是评估算法具身可执行性的前提条件。该团队对典型工业流程进行了系统分析,并识别出三类具有代表性的任务场景。
第一类场景来自流水线式生产,箱体尺寸高度重复、变化较小,由此构建了Repetitive Dataset。第二类场景对应物流分拣与装箱任务,箱体尺寸具有较大的多样性和波动性,形成了Diverse Dataset。第三类场景涉及形状不规则或细长的箱体,其放置难度更高,例如长条形板材,于是构建了Wood Board Dataset。
![]()
科学设计的多级测试设置
该团队设计了三种逐级递进的测试设置,用于在不断提升物理真实度的条件下评估算法的适应性和稳健性。
Math Pack:仅进行纯几何放置,不涉及物理效应或机械臂操作,对应理想化、去具身设置,主要用于评估算法的空间推理与几何规划能力。
Physics Pack:在几何放置的基础上引入重力、碰撞等物理模拟,但不包含机械臂执行,用于评估算法在具身物理约束下的有效性,例如堆叠稳定性、接触关系与平衡性。
Execution Pack:最接近真实部署的评估设置,完整引入具身执行过程,结合物理仿真与工业机械臂操作,包括运动规划与控制。在该设置下,算法性能不仅取决于放置策略本身,还取决于机器人运动学可达性、无碰撞轨迹规划以及执行过程中的动态稳定性。
![]()
多维度评估指标及归一化评分体系
该团队在总结以往研究常用的评估指标(主要关注紧凑性、稳定性和推理效率)的基础上,借助物理仿真环境引入了新的执行相关指标,包括 Collapsed Placement 和 Dangerous Operation。这些指标能够反映放置过程中可能出现的坍塌风险与潜在危险操作。为了在多维指标上系统地比较不同算法,该团队进一步设计了一个评分体系,将所有指标转换为归一化分数,并根据需求进行加权汇总,最终得到综合得分。
![]()
实验评估
除了构建完整的基准系统外,团队还复现了多种代表性算法,并进行了丰富的实验。在三种测试设置和三个数据集下进行了统一评测,并通过设计的评分系统汇总实验结果,计算每个算法的综合得分,对所有方法在不同测试设置和数据集上的表现进行了排序(表格中已高亮标出综合得分排名前四的算法)。另外,还开展了跨数据集与测试设置的性能对比分析,以深入理解算法在不同工业场景下的泛化能力与稳健性。
![]()
基于实验结果,团队为工业部署提供了实用建议:
在高度重复的流水线生产环境中,明确建模空间与几何关系的强化学习算法(如 PCT 和 TAP-Net++)表现尤为突出。
在物品尺寸高度多样化的物流场景中,基于 Transformer 的强化学习策略(如 PCT 和 AR2L)更为有效,因为它们能够适应多样化的尺寸分布。
在以细长家具件为主的场景中,强化学习算法与几何驱动的启发式方法(如 TAP-Net++ 与 DBL)均展现出良好的适用性。
团队对 Occupancy、Trajectory Length 和 Collapsed Placement 等单指标进行了分析。通过分别考察这些指标,可以揭示整体评分中无法体现的性能特征,并识别出哪些算法设计在特定操作环节中表现突出,从而为实际装箱任务中的算法选择提供指导。
![]()
![]()
当算法更关注紧凑且高效的空间利用,而不是单纯追求放入更多箱体时(如 HM 和 PackE),往往能够获得更高的占用率。
当算法的放置策略优先选择可行、低风险的位置,并形成平整、结构化的堆叠时(如 AR2L 和 PackE),其机械臂末端执行器(end-effector)的平均轨迹长度通常更短。
当算法在放置策略中显式或隐式地优先考虑稳定性和物理可行性时(如 TAP-Net++ 与 DBL),其坍塌放置率(Collapsed Placement)往往更低。
此外,团队还评估了稳定性相关指标(Static Stability 和 Local Stability)在模型训练中的有效性,探索其能否引导基于学习的方法获得更加稳健、物理上可行的策略,为算法在现实工业场景中的具身部署提供依据。
结语
国防科大、中科院工业人工智能研究所、武汉大学与深圳大学联合推出的RoboBPP是首个面向机器人在线三维装箱任务的综合基准系统,核心特色在于结合真实工业数据、物理仿真与具身执行评估。不同于以往仅将三维装箱视为数学优化问题的研究,RoboBPP能够在高逼真的物理仿真环境中重现真实工业装箱流程,考察物理可行性与具身可执行性,从而提供更可靠、更贴近现实的算法评估。该系统完全开源,配备可视化工具和在线排行榜,为未来相关研究与工业应用提供了可复现、可扩展的具身评估基础。





京公网安备 11011402013531号