当前位置: 首页 » 资讯 » 科技头条 » 正文

苹果推出Ferret-UI Lite端侧AI模型:3B参数看懂复杂屏幕

IP属地 中国·北京 IT之家 时间:2026-02-21 08:14:17

IT之家 2 月 21 日消息,苹果研究团队在最新论文中,推出展示 Ferret-UI Lite 端侧 AI 模型,仅有 30 亿(3B)参数,却在性能上匹配甚至超越了体积大 24 倍的大型模型。

IT之家注:Ferret-UI Lite 是专为移动设备打造的多模态大语言模型(MLLM),参数量仅为 30 亿(3B),属于典型的“轻量级”模型,可以在算力有限的手机端,精准理解与操作复杂图形用户界面(UI)。


不过在多项基准测试中,Ferret-UI Lite 的性能不仅追平,甚至超越了参数量高达其 24 倍的大型服务器端模型。


在核心技术方面,通用大模型往往难以看清手机屏幕上微小的图标和文本,而 Ferret-UI Lite 通过引入“推理时裁剪(Inference-time Cropping)”技术解决了这一痛点。


模型在处理任务时,会先进行一次粗略预测,然后智能地“剪切”并放大相关区域,就像人眼凑近观察细节一样,再次进行精准识别。这种策略让小模型无需处理海量图像数据,也能捕捉到界面中的关键信息,从而更好理解屏幕元素。


在训练方面,研究团队为了解决高质量训练数据匮乏的问题,构建了一套合成数据生成系统。该系统包含“任务生成器”、“规划器”、“执行者”和“批评者”四个角色,让 AI 在模拟环境中不断尝试操作、犯错并自我修正。


这种机制不仅生成了海量训练样本,还让模型学会了如何应对现实操作中的错误与意外情况(如点击无反应或弹出干扰窗口),其效果远优于单纯依赖人工标注的清洁数据。

测试结果显示,该模型在执行短流程、基础 UI 操作时表现优异,但在处理复杂的多步长任务时仍有提升空间。

最重要的是,Ferret-UI Lite 能够完全在本地运行,无需将屏幕截图上传至云端服务器,这在赋予手机“自动操作 App”能力的同时,最大程度地保障了用户隐私。


IT之家附上参考地址

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。