当前位置: 首页 » 资讯 » 科技头条 » 正文

​X-SAM:打破图像分割的界限,实现任意分割的新突破

IP属地 中国·北京 编辑:唐云泽 Chinaz 时间:2025-08-19 16:32:27

近日,中山大学、鹏城实验室与美团联合发布了一项名为 X-SAM 的新型图像分割多模态大模型,标志着图像分割技术的一次重要进步。该模型的出现,不仅提高了图像分割的精度,还实现了从 “分割万物” 到 “任意分割” 的重大飞跃。

X-SAM 的核心在于其创新的设计理念,首先引入了统一的输入和输出格式,以适应不同的分割需求。用户可以通过文本查询或视觉查询的方式进行操作,前者适用于通用分割等任务,后者则可通过点、涂鸦等视觉提示实现交互式分割。此外,X-SAM 的输出采用统一表示,使得分割结果能够被有效解读。

为了提升分割效果,X-SAM 采用了双编码器架构,其中一个负责提取全局特征,另一个则关注细粒度特征。这种设计不仅增强了模型的图像理解能力,还确保了分割的精细化。同时,模型还引入了分割连接器和统一分割解码器,前者能够处理多尺度特征,后者则替换了传统的解码器架构,进一步提高了分割性能。

X-SAM 的训练过程分为三个阶段,第一阶段为分割器微调,旨在提升模型的基础分割能力;第二阶段进行对齐预训练,使语言与视觉的嵌入对齐;第三阶段则是混合微调,通过在多个数据集上进行协同训练来优化模型的整体性能。实验结果显示,X-SAM 在20多个分割数据集上均达到了最先进的性能,展现了其卓越的多模态视觉理解能力。

随着 X-SAM 的问世,研究团队希望未来能够将其应用扩展到视频领域,结合时间信息,推动视频理解技术的发展。这一新型模型的成功,不仅为图像分割研究开辟了新方向,也为构建更为通用的视觉理解系统奠定了基础。

代码地址:https://github.com/wanghao9610/X-SAM

Demo地址: https://47.115.200.157:7861

划重点:

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。