这两年,AI 修图已经不是什么新鲜事了,调色、背景模糊,到皮肤细节的打磨,几乎都有专门的工具能处理。但说到抠图,还真就是 AI 修图工具里最难搞的一部分。
但抠图这件事,说小也小,说烦也是真烦,虽然它看起来只是把背景擦掉,实际却特别挑场景,比如人像头发、衣服边缘、产品反光、透明材质、复杂光线,这些地方一个没处理好,抠出来的图就是几乎不可用的状态。
实际上,很多用户并不是想做什么高级设计,只是单纯想换个头像、抠个商品主图、做个封面素材,但是一大堆专业工具难搞又复杂,学习成本还高。不过,近期 AI 抠图开源工具已经在 GitHub 上如雨后春笋般涌出来,有专门制作头像的、万物皆可抠的,还有主打 5 秒内出图的。
![]()
(图源:magicpfp)
但这些 AI 抠图,真如开发者们说的那样好用吗?是骡子是马,我们还是得拉出来遛一遛才知道。
让 AI 抠图?很快、但质量不高
这次我们试的三个工具都是在 GitHub 上讨论度挺高的,分别是 magicpfp、RMBG 和 remove-bg。这三个工具虽然都是把图片背景抠掉,但背后的思路其实不太一样。比如magicpfp 更像一个为头像场景做的小网页,重点不是“万物皆可抠”,而是让用户上传一张人像,顺手把去背景、换背景、头像美化这一套流程做完;RMBG 更像一个通用型的本地抠图工具,主打免费、隐私和本地处理;remove-bg 则是一个更全面的工具,它直接把 WebGPU、Transformers.js 和 RMBG V1.4 这套东西塞进浏览器里,让本地前端去处理。
从技术上看,这些工具的原理几乎都是一致的,像 magicpfp 和 remove-bg 都明确标注使用了 BRIA 的 RMBG-1.4,remove-bg 还用了 Transformers.js 来调模型,尽量在浏览器本地完成推理。
简单来说,这类工具不是在“拿橡皮擦图片”,而是在让模型判断,图片里哪些像素属于主体,哪些属于背景,再生成一张带透明通道的结果图。当然,之所以大家都盯上这套工具,本质上还是因为WebGPU、WASM 和前端模型调用这套能力比前几年成熟得多了,浏览器性能也强多了,可以在前端干活了。
从实际体验看,magicpfp 虽然功能有限,但是自由度是最高的一个。magicpfp 只能制作头像,也就是它 AI 识别的对象必须是人物,其实头像本来就是最标准化的一类图片任务,主体通常清楚,构图也相对固定,没必要上来就挑战复杂商品图。
![]()
(图源:the verge)
![]()
(图源:雷科技制图/magicpfp)
我们拿了马斯克的一张新闻图给 magicpfp,人物主体抓得还算稳,头、手、上半身这些主要结构都保住了,没有出现手指缺一块、衣服被啃掉一截这种低级错误,拿去做社交头像是够用的。问题在于它的边缘并不算干净,头发顶部有明显溢边,肩膀和手臂外轮廓也有一点彩边,左下角甚至还顺手把椅子给捎上了一点。
不过呢,好在它支持调整,背景颜色、边缘、尺寸,这些都能重新做,小小的失误是可以接受的。但很可惜,magicpfp 毕竟只是一个非常小的个人项目,所以它整体的生成速度是比较慢的,远不及直接拿 AI 去生成一张。
![]()
(图源:雷科技制图/magicpfp)
RMBG 的感觉就完全不一样了,它更像一个“我不管你好不好看,我先把活干完”的工具。首先,RMBG 是一个本地 AI 工具,不用注册,不用把图传到服务器,也不会担心这个工具要收费。
上手来看,RMBG 也是很典型的「能做,但效果一般」的角色,奥特曼那张新闻图,主体轮廓是完整的,脸、脖子、肩膀都没出大问题,但头发和肩部边缘还是有比较明显的绿色残留,像是背景剥掉了,脏边却没擦干净。让 RMBG 抠广告图里的手机,它确实知道前景是谁,把手和手机主体都保住了,没有傻到把整个场景都留下来,可手机右侧、手指周围的红黄杂边相当明显,边缘还有一点虚,暖色环境光和背景高光像是一起粘在了主体外轮廓上。
![]()
(图源:雷科技制图/RMBG)
只能说,这样的效果用拿来商用可能是差一点,最多只能是视频里的贴图素材,再放大一点就要露馅。当然,RMBG 自己也说,目前仅仅能提供个人需求用途,还不到商业用途的水平。
来到 remove-bg ,熟悉 AI 抠图工具的朋友对这个项目应该不陌生,它以高质量和超快速著称。实际体验下来也的确是这样,比如那张手机广告图,它对主体的判断比 RMBG 更干净,手机轮廓、手指边缘、顶部弧线这些容易翻车的位置都处理得更稳,刺眼的彩边少了一截,直接商用可能都不太会被发现。
![]()
(图源:华为)
![]()
(图源:雷科技制图/remove-bg)
马斯克那张图也是这样,像是头发、肩膀、双手交叠这些区域虽然还是有轻微瑕疵,但整体脏边感明显更轻,左下角乱入的内容也更少。
![]()
(图源:雷科技制图/remove-bg)
整体看下来,这三款工具的差距倒也不是那么明显,只是它们各自的特色太鲜明。比如magicpfp 更像头像场景的小成品、RMBG 最高支持 20 张图一起生成、remove-bg 的抠图效率高,成品也很接近直接可用的程度。但如果要拿来和 PhotoShop 上用钢笔工具一点一点抠出来的精品图,那这三个工具几乎没有合格的。
普通人或许不需要最完美的抠图
实测做完之后,一个很直接的感受就是,这几个开源工具当然还远没有到把成熟商业产品干翻的程度,但它们明明还有一堆毛病,却已经把一件过去默认得交给云端平台去做的事,搬回了浏览器和本地,而这才是这项工具的趋势。
前面我们就提到,之所以 AI 抠图工具不断升级,都是因为 WebGPU 的不断进化。过去浏览器当然也能跑很多东西,但真碰到 AI 推理这种活,网页环境一直有点力不从心,原因不复杂,老一代 WebGL 更偏图形渲染,做通用 GPU 计算并不顺手,而机器学习这类任务恰恰又很吃并行计算能力,所以很多 AI 功能以前只能放在服务器上跑,浏览器更多只是个上传下载的壳。
WebGPU 不一样的地方就在于,它一开始就把现代 GPU 的图形能力和通用计算能力都更完整地暴露给网页,Google Chrome 这些年也一直拿机器学习推理做典型案例,强调 WebGPU 能让浏览器更高效地调用本地 GPU 去做高性能计算,这才让网页开始有点像一个真正能跑 AI 的轻量运行环境。
![]()
(图源:RMBG)
也就是说,在 AI 抠图这件事上,以前用户点一下抠图按钮,真正干活的是远端服务器,浏览器只是负责把图片传过去,再把结果拿回来,所以 SaaS 工具的优势非常明显,效果统一、速度稳定,不需要担心自己的设备能否跟得上。可 WebGPU 出来之后,浏览器开始能直接借本机的 GPU 干活,很多轻量模型就有机会在本地完成推理,图片不用先上传,等待路径也更短,尤其在背景移除这种相对标准化、目标又比较明确的任务上,这种变化会显得特别明显。
现在的模型量级越来越轻,浏览器越来越能算,调用方式也越来越现成,于是像背景移除这种能力,就不再非得做成一个上传到云端再返回结果的闭环,而是可以被拆成网页、小组件、插件,甚至设计工具里的一个内置模块。
所以说,即便从实测来看,这些 AI 抠图工具的表现都挺一般,没有真正能和专业工具媲美的,但就是架不住大家的喜爱,这就是因为多数普通人并不需要非常完美的图,只需要一个快速、基本能用的图。
抠图只是前奏,更多 AI 工具正在本地化
实际上,AI 抠图之所以得到大量关注,真正值得被看见的还是关于「AI 小工具正在大量本地化」,很多原本必须交给云端去做的轻量 AI 任务,已经开始具备在本地完成的条件了。
抠图只是这波变化里最明显的,因为它高频、标准化、结果又很直观,用户一眼就能看出好不好用,所以特别适合率先本地化。后面很可能跟上的就不只是图片处理了,像图片放大、简单修边、证件照处理、商品图白底化这种任务,本来就和抠图一样,规则清楚、交互短、模型也相对可控,很容易继续依附浏览器本地推理这套能力发展下去。
不仅仅是针对图片的处理,像是音频转写、字幕生成、网页摘要、翻译、分类、轻量 OCR、页面内容提取,这些同样高频、轻量、结果容易验证的工具,也都很有机会沿着类似路线走,因为它们本质上都符合一个条件,就是没有复杂到非得把任务扔去云端才能完成。
![]()
(图源:remove-bg)
所以从这个小小的 AI 抠图工具来看,未来很多 AI 功能未必还会以独立网站/App的形式存在,它们更可能变成浏览器里的一个按钮、设计软件里的一个模块甚至是某个插件里默认开启的能力。对用户来说,这当然是好事,操作更短,隐私顾虑更少,很多小需求也不必再专门跑去一个 SaaS 平台解决;但对行业来说,很多原本独立存在的应用或网页,都没有必要存在,尤其是一些小功能,都可能在这套逻辑下,慢慢被取代。





京公网安备 11011402013531号