英伟达(NVIDIA)近期展示了其在通用人工智能(AGI)领域的最新突破,推出了一款名为NitroGen的游戏智能体基础模型。与传统单一用途的 AI 不同,NitroGen 是一款基于 OpenVision 的动作模型,旨在成为能够穿梭于各种虚拟世界的“通用代理”。
为了让 NitroGen 掌握复杂的操控逻辑,研究团队挖掘了一个此前被学术界忽视的“宝库”:YouTube 和 Twitch 上带有控制器叠加层的游戏视频。通过分析1000多款游戏、总计超过4万小时的玩家录像,NitroGen 学会了如何根据视觉反馈直接生成操作指令。AIbase 了解到,研究人员利用模板匹配和微调后的 SegFormer 模型,精准地从海量视频中提取出了玩家的实时按键输入数据。
在技术架构上,NitroGen 深度集成了英伟达此前发布的GR00TN1.5机器人模型,这使得它具备了跨平台的适应能力。测试数据显示,NitroGen 能够胜任动作角色扮演、平台跳跃、Roguelike 等多种完全不同风格的游戏类型。即使被置于完全陌生、未曾见过的游戏环境中,它的表现也比从头训练的模型成功率高出52%,充分证明了机器人基础模型在虚拟环境中的通用性。
目前,这支由英伟达、斯坦福及加州理工学院等顶尖学术机构组成的联合研究团队,已正式将该项目的论文、代码及相关数据集开源,旨在推动全球 AI 社区在具身智能和通用代理领域的进一步探索。
划重点:





京公网安备 11011402013531号