雷锋网 AI 科技评论按:是否为了简单的抠图功能,还在苦苦修炼 Photoshop 大法?即使修炼成功了,是否觉得在抠图这件事情上花费的时间依然太多?如今一个名叫 remove.bg 的工具可以免除你的这种烦恼,只要上传照片后点击确认,5 秒钟后即可获得一张透明无背景的主体照,而且在使用上完全免费。
由 byteq 开发人员 Benjamin Groessing 所开发的 remove.bg 是一款基于 Python、Ruby 和深度学习的抠图工具,它通过 AI 技术自动识别前景层,然后将之与背景层分离开来。为了改善分离的细节效果和防止「串色」,团队还专门增加了相关算法。
不过 Benjamin Groessing 也在个人推特上强调了,remove.bg 目前只能针对含有人像的照片,其他更复杂的主体识别功能,未来将根据用户的反馈持续完善。
网站目前免费开放,无论你是专业设计师还是刚入行的运营小白,都可以上传照片实现自动抠图,免去选择、标记等一系列繁琐的常规操作。不过雷锋网 AI 科技评论在此提醒各位,该网站对于上传照片的大小以及输出照片的像素是有限制的,其中上传的照片大小不能超过 8 M,输出的照片像素也只有 500px。如果对最后的成图质量有较高要求,建议各位还是选择使用 Photoshop。
在展示网站的试用效果以前,雷锋网 AI 科技评论先简单介绍本次的考核标准:
如何处置人物手中持有的物体
会否把过暗/过亮的衣服当成背景
光照不足下的识别效果
渣像素图像的识别效果
会否出现无解的「破洞」
这些考核标准主要参考了 AI 科技评论去年介绍过的一项由 Gidi Sheperber 在 greenScreen.AI 所做的一项同性质工作,我们想知道,这一年来我们的技术在面对同样的问题时是否已经有了进步:
1)如何处置人物手持的物体
我们可以看出,系统在面对大面积与人体相连的物体时,会将物体视作人体的一部分,当成前景图处理;
而面对与人手相连程度较低的物体时,则会当做背景图剔除掉。
2)会否把过暗/过亮的衣服当成背景
由于背景颜色与人物衣服颜色较相近,导致系统将其视作人体的一部分,如右边小哥的背包;另外还有部分人物的衣物被视作背景的一部分,如右边小哥的帽子。
由于背景颜色与人物穿着颜色有所区隔,所以最终出来的识别结果较出色,然而依然出现小范围背景与人体粘连一块的现象,主要集中在人体与人体之间的缝隙间。
3)光照不足下的识别效果
最终识别效果不俗,不过又一次出现大面积与人体相连物体被视作前景图的情况(枕头),看来与团队背后的算法设置有一定关系;
由于左边光线不足导致人物被视作背景图。令人惊喜的是,右边人物的抠图效果不俗,虽然部分背景被视作人体的一部分。
4)渣像素图像的识别效果
选用照片像素为 105 x 186,「与人体相连面积较大的物体视作人体一部分」定律再次被验证,此外,「人体与人体之间的缝隙被视作人体一部分」问题再次出现。
选用的照片像素为 185 x 185,暂时没有可以挑剔的。
5)会否出现无解的「破洞」
在去年 Gidi Sheperber 的同性质工作中,她发现有些本应该不错的抠图结果,最终却出现类似于被挖了一个洞的情况。对此,AI 科技评论在使用 remove.bg 的过程中未发现类似情况。
小结
目前看来,remove.bg 需要加强优化的是人体与人体之间缝隙容易被视作前景图的问题。另外 remove.bg 默认图中的物品只要与人体的相连面积较大,一律视作前景图处理,这点在未来可以考虑开放选择项,让用户自行选择,毕竟有些时候就只是纯粹要抠的人物。
优点方面,图像的背景颜色只要不与人体颜色过分相近,remove.bg 在光线不足与低像素的抠图表现还是让人比较满意的。重点称赞 remove.bg 的响应速度,每一张照片从上传到生成最终结果,AI 科技评论的体验是每张基本都不会超过 5 秒。最终出来的描边效果虽然不算十分优秀,但对一般用户的使用而言完全绰绰有余。
Gidi Sheperber 的相关工作
Gidi Sheperber 的工作与 remove.bg 相比只能说是朋友之间的趣味实验,她和朋友 Alon Burg 花了几个月时间,基于 COCO 数据集采用语义分割技术和 Tiramisu 模型试图打造一个抠图模型。最后他们基于这项工作总结了许多关于数据选择和模型训练上的问题,并提出相应的改进方式,对我们来说有一定的启发作用。
比如在模型的训练上,她们将范围锁定在肖像与自拍图像,是因为肖像与自拍图像有较突出和集中的前景,并且能保持相对稳定的角度,这将有利于最终的图像切割效果。因此不难理解为何 remove.bg 目前只能提供人像抠图服务。
在模型的选择上,她们采用了拥有极深编码-解码架构 Tiramisu,这是因为该模型紧凑且计算快速,同时兼备 Unet 在实现方面的强项,最终的结果也没让她们失望,尤其是在图像尖锐边缘的捕获上让人非常惊艳。
Tiramisu 的通用架构
数据集的选择上也是经过一番抉择,他们最终才敲定包含最多「人」这一类别图像的 COCO 数据集。基于时间和模型集中程度的考量,她们决定选择与任务最相关的那一部分数据集,而舍弃了更一般性的数据集。这么做的好处是最终训练的模型会非常集中,然而面对更多场景和更具挑战性的图像时模型的表现可能会受影响。
以下为 Gidi Sheperber 和朋友的部分工作成果。
最终切割结果。从左到右分别是:图像,真实数据,输出结果(来自测试集)
他们在过程中发现,除了可能的代码错误的正常调试之外,模型的错误是「可预测的」。如「切割」身体部分超出了正常的躯干范围,没必要的躯干延伸,光照不足,照片质量低和照片中细节过多等。其中一些在添加不同数据集中特定图像时被处理掉了,但是其它的一些则依然是一项还有待处理的挑战。这些都被雷锋网AI 科技评论总结成了上文中用于测试 remove.bg 抠图效果的 5 条标准。
最后,Gidi Sheperber 也针对自身的工作提供了改进建议,比如在训练数据上采用更大分辨率的图像、利用 CRF 改进图像边缘噪点问题、持续关注抠图(Matting)技术的最新进展等。
最后强调一点,由于不同的实验之间涉及的技术、模型、数据类型、数据数量和训练方式都不尽相同,本篇文章借用 Gidi Sheperber 的工作成果作为 remove.bg 的考核标准,肯定有失之偏颇的地方,毕竟 remove.bg 尚未对外公开背后的算法逻辑。无论如何,我们相信同性质的工作互相都有可以借鉴的地方,感兴趣的同学可以自行点击《自拍抠图抠到手软?详解如何用深度学习消除背景》查看 Gidi Sheperber 去年所做的这项工作的更多细节。