英伟达推出LocateAnything，主打AI高速、高精度检测对象

IP属地中国·北京 编辑：刘敏 IT之家 时间：2026-05-31 18:14:21

IT之家 5 月 30 日消息，英伟达昨日（5 月 29 日）发布博文，宣布携手香港理工大学、南京大学等，推出 LocateAnything 模型，主打高速、高精度检测对象。
该模型可以从照片或截图中找出指定对象，并用检测框标出位置，重点服务机器人感知、电脑自动操作等需要快速定位的场景。
NVIDIA 在介绍中强调，机器人和 AI Agent（智能体）仅能“看见”还不够，还必须足够快地确认目标位置。LocateAnything 围绕检测框预测重新设计，让视觉语言检测更适合即时交互任务。
LocateAnything 提出 Parallel Box Decoding（并行框解码），把边界框或点作为固定长度原子单元，在 1 步内预测 x1、y1、x2、y2。
该框架提供 Fast Mode、Slow Mode 与 Hybrid Mode：
Fast Mode 面向端侧机器人和具身智能，强调吞吐；
Slow Mode 偏向离线标注和高精度评测；
Hybrid Mode 默认快速输出，遇到格式异常或空间歧义时切回自回归解码。
团队还构建 LocateAnything-Data，包含 12M 独立图像、138M 语言查询和 785M 边界框。数据覆盖通用检测、GUI 元素定位、指代表达理解、OCR 文字定位、版面定位和点定位，显著扩展训练场景。
在单张 NVIDIA H100 GPU 上，LocateAnything 默认 Hybrid Mode 达到 12.7 Boxes Per Second（每秒框数），超过 Qwen3-VL 的 1.1 BPS，也高于 Rex-Omni 的 5.0 BPS。
高精度任务中，LocateAnything 在 LVIS 的 IoU=0.95 下得分 31.1，高于 Rex-Omni 的 20.7；ScreenSpot-Pro 平均 F1 达 60.3；DocLayNet 和 M6Doc 分别达 76.8 与 70.1。

标签：定位 高精度 机器人 对象 香港理工大学 边界解码模型长度空间语言原子歧义视觉单元格式版面博文 南京大学 文字场景主打离线偏向数据重点面向团队智能元素代表

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

大模型下半场决战：闭源收割时代落幕，开源接管AI未来？

中国互联网巨头出海日本，腾讯领先了

一天8场发布会，汽车上新速度比手机快两倍，车企高管吐槽“彻底疯了”

Claude Cowork干不了，这个国产AI全包了！6小时的活15分钟干完

靳玉志：到今年8月底，华为乾崑智驾、鸿蒙座舱总搭载量将先后突破200万

Kimi发布史上最大开源模型！参数高达2.8T，离Fable 5和GPT-5.6只差半步？

全站最新

吉利全球首发雷霆16合1智能电驱赋能银河TT创多项纪录引领技术跃升

31.98万起全系标配线控转向智己LS9 Hyper上市重塑大六座SUV体验

比亚迪新车“组团”登场！秦MAX、海狮08等五款车型各有亮点等你pick

大模型下半场决战：闭源收割时代落幕，开源接管AI未来？

热门推荐

谷歌NotebookLM升级更名Gemini Notebook，将逐步支持安全云计算机与代码执行

Kimi K3正式上线：2.8万亿参数加持，能力直逼顶尖模型Fable 5与GPT-5.6

大模型下半场决战：闭源收割时代落幕，开源接管AI未来？

中国互联网巨头出海日本，腾讯领先了

一天8场发布会，汽车上新速度比手机快两倍，车企高管吐槽“彻底疯了”

Claude Cowork干不了，这个国产AI全包了！6小时的活15分钟干完

靳玉志：到今年8月底，华为乾崑智驾、鸿蒙座舱总搭载量将先后突破200万

Kimi发布史上最大开源模型！参数高达2.8T，离Fable 5和GPT-5.6只差半步？

震撼功夫巨星甄子丹：全球人形机器人自由格斗联赛在深圳打响，头掉了还能打

取代电网储能！宁德时代拿下欧洲最大钠离子储能系统：使用寿命高达30年

荣耀Robot Phone展示AI绝活：一句话搞定屏幕调整、设闹钟、打车

中国无人车首次挺进中亚萝卜快跑驶入哈萨克斯坦

OpenAI推出一系列官方周边，含ChatGPT篮球、Codex T恤等

编程能力不达标，谷歌推迟发布旗舰大模型Gemini 3.5 Pro

1Password for Claude上线：AI交互场景下用户无需手动填写密码