在人工智能迈向具身智能的赛道上,机器人正迎来一场“去碎片化”的变革。6月24日,RoboScience 机器科学正式发布了通用具身大模型 Visics,并披露了其核心技术架构 VLOA(Vision-Language-Object-Action)。这一进展意味着机器人不再局限于针对单一任务的重复训练,而是具备了跨本体、跨物体、跨任务的通用操作能力。
过去,具身智能行业普遍采取“动作复刻”模式,即让机器人死记硬背特定的关节运动轨迹。这种方式最大的痛点在于通用性极差:换一台硬件、换一个物体,模型的能力就彻底“失效”。RoboScience 机器科学创始人兼 CEO 田野指出,机器人要真正走进真实世界,必须解决泛化能力差和长程任务执行难的问题。
为此,Visics 模型引入了“物体3D 点云轨迹”作为统一的中间表征标准。Visics 内部采用双引擎架构:具身世界模型负责通过海量视频预训练,理解物体在物理世界中的运动规律与因果关系;而通用操作模型则将预判的轨迹转化为具体的硬件控制指令。这种分层解耦的设计,使得机器人能够像人类一样,先“看懂”物体的运动逻辑,再灵活调用不同的躯体去完成任务。
为了破解具身智能数据获取成本高、效率低的行业难题,RoboScience 还构建了一套“仿真+视频”的双数据飞轮。依托自研的高精度仿真引擎 RoboMirage,结合自动化的数据标注管线,其单条数据的获取成本已降至传统方案的百分之一甚至更低。目前,该公司以每周数十万小时的数据增长速度,正向着2026年构建1T 规模高质量数据集的目标迈进。
在商业落地方面,RoboScience 选择了从“物体维度”切入。联合创始人汪涛表示,公司优先关注海量 SKU 和多品类操作需求高的商超、物流与康养场景,而非直接在工业领域与现有自动化方案硬碰硬。目前,该公司的技术已在零售与物流等多个领域开展试点,计划于年内实现标准化机器人本体产品的量产。
从曾经的单一任务执行者,到如今具备跨场景泛化能力的“智能体”,RoboScience 的尝试折射出具身智能从实验室走向产业深水区的趋势。随着这种软硬一体化解决方案的成熟,机器人或将真正具备处理复杂动态环境的“底气”,在更多生产与服务一线发挥价值。




京公网安备 11011402013531号