物理人工智能领域迎来颠覆性突破。6月1日,英伟达正式发布了面向物理人工智能的开放世界基础大模型——Cosmos3。作为全球首款全开源、全模态的物理AI大模型,该模型依托创新的混合Transformer架构打造,在单一系统中融合了视觉推理、世界生成与动作预测能力,有望将物理人工智能的训练与评估周期从数月大幅缩短至数天。
针对具身智能长期面临的“在有限数据和零散仿真框架下难以在真实场景中泛化”的行业痛点,Cosmos3给出了全新的解决方案。该模型基于涵盖数十亿条文本、图像、视频、音效及动作轨迹的庞大物理人工智能数据集训练而成,能够原生理解并生成跨模态内容,其物理仿真精度达到了业界领先水平。
在技术架构上,Cosmos3创新性地结合了推理Transformer与生成类Transformer。模型会首先深度解析物体的交互规律、运动状态以及时空关联,随后再精准完成视频生成与动作轨迹预测。这种设计赋予了它极强的多模态图文理解能力、物理环境仿真预判能力以及辅助机器人完成专项任务的动作策略能力。在包括Artificial Analysis、Physics-IQ、RoboLab等在内的多项物理人工智能主流评测基准中,Cosmos3均在开源模型范畴中位列榜首。
为了全面适配不同的研发阶段,英伟达此次推出了多个版本:专注于机器人与自动驾驶模型二次训练、追求极致精度的 Cosmos3Super,以及可在数秒内完成高品质视频解析与动作推理的 Cosmos3Nano,这两个版本目前已正式上线;而主打边缘端实时推理的 Cosmos3Edge 版本也已在发布计划中。
在发布大模型的同时,英伟达还联合Agile Robots、Black Forest Labs、Generalist、LTX、Runway以及Skild AI等全球顶尖的世界模型研发团队与人工智能开发者,共同发起成立了“英伟达宇宙联盟”(NVIDIA Cosmos Coalition)。英伟达创始人兼首席执行官黄仁勋表示,随着多模态推理与世界模型的接连突破,物理人工智能的变革时代已经到来。该系列开源前沿模型的推出,将助力全球开发者实现技术跨越,打造出真正能在现实世界中感知、推理并执行动作的下一代智能体系统。





京公网安备 11011402013531号