ICCV 2019 | 旷视研究院提出基于互向导的半监督皮肤检测新方法

两年一度的国际计算机视觉大会 ICCV 2019 ( IEEE International Conference on Computer Vision) 将于当地时间 10 月 27 至 11 月 2 日在韩国首尔举办。旷视研究院共有 11 篇接收论文,涵盖通用物体检测及数据集、文字检测与识别、半监督学习、分割算法、视频分析、影像处理、行人/车辆再识别、AutoML、度量学习、强化学习、元学习等众多领域。在此之前,旷视研究院将每周介绍一篇 ICCV 2019 接收论文,助力计算机视觉技术的交流与落地。

 

本文是第 3 篇,旷视研究院提出一种新的基于数据驱动的半监督的皮肤检测方法,用于实现人体图像的鲁棒皮肤检测。该网络可以半监督的方式训练,即不需要 groundtruth 的两个类型存在于一个训练数据样本之内。大量实验证明互向导、半监督损失以及多种训练策略的有效性。实验结果也表明本文方法是皮肤检测领域的当前最佳。

论文名称:Semi-supervised Skin Detection by Network with Mutual Guidance

论文地址:https://arxiv.org/abs/1908.01977

 

目录

 

  • 导语

  • 简介

  • 算法

    • Mutual Guidance

    • Learning Algorithm

      • Semi-supervised loss

        • Cross-entropy loss

        • CRF loss

        • WCE loss

  • 实验 

  • 结论

  • 参考文献

  • 往期解读

导语

 

皮肤检测旨在从图像和视频中发现皮肤颜色的像素和区域,这是一个非常有趣的问题,多作为一些深入应用的预处理步骤,比如人脸检测,姿势检测,网络内容的语义过滤等等。

由于皮肤根据其颜色及光照条件的不同而呈现出多种多样的变化,皮肤检测是一项相当具有挑战性的任务。

先前方法尝试在不同的色彩空间建模皮肤颜色,并训练皮肤分类器。但是,这些方法严重依赖皮肤颜色的分布,并且没有语义信息,导致性能欠佳。

近年来,随着深度神经网络的发展,虽然基于 DNN 的皮肤检测方法获得了可观的精度提升,但仍然受限于费钱费时的皮肤标注数据不足的影响。

简介

有鉴于此,旷视研究院提出通过身体检测为向导来提升皮肤检测的性能。如果一个身体掩膜(mask)可用,它对皮肤检测有两个好处。

第一,它为皮肤检测器提供一个先验信息,其中皮肤的较高概率是固定的;第二,检测到一个皮肤掩膜之后,它可过滤掉背景中的假阳性像素。

同时,把皮肤掩膜作为向导,身体检测器还可获得更多信息。为实现这种互向导(mutual guidance),旷视研究院设计了一个双任务(dual-task)神经网络,同时检测皮肤和身体。

整个网络包含一个共享的编码器,但皮肤检测和身体检测各有一个解码器。一个解码器的输出作为另一个解码器的输入,如此形成一个闭环,如图 2(a)所示。 

图 2:双任务网络结构

 

这两个检测器共享的编码器,将从输入图像中提取共同的特征图,考虑到网络的压缩以及两个任务的相似性。

无需增加标注的训练数据集,仅仅添加一个更易操作的身体掩膜数据集,即可实现皮肤检测网络的训练。

由于这两个数据集分别包含两类 groundtruth,本文采用半监督的方式进行训练,使用新设计的损失函数和自定义的训练策略。

实验结果表明该网络所有新方法的有效性,定性和定量评估也证明该方法在皮肤检测任务上取得了当前最优结果,如图 1、5 所示。

图 1:GMM、UNet 与本文皮肤检测方法的对比

图 5:不同方法在本文验证集上的皮肤检测常见结果

算法

本文方法基于双任务的全卷积神经网络。它的输入是单一的 RGB 图像,输出是皮肤和身体各自的概率图。

该网络两个独立的分支上各有一个检测器,分别检测皮肤和身体。这两个检测器共享一个编码器。对于每个解码器,两个分支的输出作为任务的向导,使得双任务互为向导。

该网络的结构如图 2(a)所示。

Mutual Guidance

本文网络是一个带有互向导的双任务网络,由于其结构包含信号回路,又可视为一个循环网络。

为方便分析,本文把原网络解构为两个 Stage,没有循环,如图 2(b)所示。

图 2:双任务网络结构

它的公式表示形式可写为:

如上所示,如果检测到初始结果,解码器将获得更多信息向导,这有助于 Stage 2 的检测。

Learning Algorithm

本文学习算法的目标是训练一个双任务 CNN,实现远没有解决的端到端皮肤和身体检测。

一方面,皮肤检测缺乏足够的训练数据是一个普遍问题,而人工标注费时又费钱。另一方面,身体检测近年来受到大量研究,其数据较易获得。

因此,在本文的问题设置中,每个数据对只包含皮肤或身体的 groundtruth 掩膜。由于用于训练的 data triple 很少,这自然促使采用半监督的方式训练网络。

其实现方式则是本文设计的半监督 loss 和一些训练技巧。

  • Semi-supervised loss

本文设计的半监督损失包含三个部分,强监督和弱监督兼有。

Cross-entropy loss

如上所述,网络训练数据是一个含有皮肤或身体 groundtruth 的数据对。对于一个带有皮肤 groundtruth 掩膜的数据样本,分别计算它和它的输出的 cross entropy losses,作为皮肤检测任务的强监督。

这同样会用于身体 groundtruth 掩膜的数据样本,从而得到:

CRF loss

对于带有单一类型 groundtruth 的数据样本,它的一个输出可以贡献至 cross entropy loss,另一个则不行。

为解决这一问题,本文引入了 CRF loss:

WCE loss

同一张图像上,身体掩膜要覆盖皮肤掩膜,这是一个先验知识。如果一个像素以较高概率被分类为皮肤,那它也有很高概率是身体。

如果检测为皮肤的概率较低,则不成立,因为像素也可能属于非皮肤的区域,比如衣服或头发,所以也很可能是身体。

 

为理清上述关系,本文计算皮肤和身体概率的 cross entropy loss,接着通过皮肤概率本身做权重化。

结果,整个 WCE loss 可计算为:

实验

本文方法与一些当前最优方法做了对比,包括两个传统的算法和六个基于神经网络的方法。

为了进行定量对比,本文评估了所有结果的 precision、recall 和 IoU,并与四个 CNN 方法在公开数据集 Pratheepan Face 上做了对比,结果如表 1 所示。

表 1:验证集和 Pratheepan Face 数据集(蓝色)上的评估指标结果对比

 

本文同样给出了 IoU、IoU Top-1 rate 和 precision-recall 的曲线,如图 6 所示:

图 6

 

出于定性对比,本文还给出一些典型的已检测皮肤掩膜,如上述图 5 所示。

结论

本文提出一种新的数据驱动方法,用于实现单一人体图像的鲁棒的皮肤检测。为此,旷视研究院设计了一个双任务的神经网络,联合检测皮肤和身体。

这个双任务网络包含一个编码器,却有两个解码器,分别用于两个任务。这两个解码器以互向导的方式进行工作,即皮肤或身体解码器的输出作为一个向导提升检测性能,反之亦然。

进而,该网络可以半监督的方式训练,即不需要 groundtruth 的两个类型存在于一个训练数据样本之内,其实现借助了本文新设计的半监督损失函数。

大量实验证明互向导、半监督损失以及多种训练策略的有效性。实验结果也表明本文方法是皮肤检测领域的当前最佳。

最后也希望,这种互向导的思想未来可为更多相关问题的解决带来启发,比如图像/视频降噪、检测、分割、生成或者压缩等等。

参考文献

  • C. Erdem, S. Ulukaya, A. Karaali, and A. T. Erdem. Com- bining haar feature and skin color based classifiers for face detection. In 2011 IEEE International Conference on Acous- tics, Speech and Signal Processing (ICASSP), pages 1497– 1500. IEEE, 2011.

  • Q. Zhu, K.-T. Cheng, C.-T. Wu, and Y.-L. Wu. Adaptive learning of an accurate skin-color model. In Sixth IEEE International Conference on Automatic Face and Gesture Recognition, 2004. Proceedings., pages 37–42. IEEE, 2004.

  • O. Ronneberger, P. Fischer, and T. Brox. U-net: Convo- lutional networks for biomedical image segmentation. In International Conference on Medical image computing and computer-assisted intervention, pages 234–241. Springer, 2015.

  • M. Tang, F. Perazzi, A. Djelouah, I. Ben Ayed, C. Schroers, and Y. Boykov. On regularized losses for weakly-supervised cnn segmentation. In Proceedings of the European Confer- ence on Computer Vision (ECCV), pages 507–522, 2018. 

  • M. J. Jones and J. M. Rehg. Statistical color models with application to skin detection. International Journal of Com- puter Vision, 46(1):81–96, 2002. 

  • J. Kovac, P. Peer, and F. Solina. Human skin color clustering for face detection, volume 2. IEEE, 2003.

  • L. Chen, J. Zhou, Z. Liu, W. Chen, and G. Xiong. A skin detector based on neural network. In IEEE 2002 Interna- tional Conference on Communications, Circuits and Systems and West Sino Expositions, volume 1, pages 615–619. IEEE, 2002.

  • L.-C. Chen, Y. Zhu, G. Papandreou, F. Schroff, and H. Adam. Encoder-decoder with atrous separable convolution for se- mantic image segmentation. In Proceedings of the Euro- pean Conference on Computer Vision (ECCV), pages 801– 818, 2018. 

  • K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learn- ing for image recognition. In Proceedings of the IEEE con- ference on computer vision and pattern recognition, pages 770–778, 2016.

  • H. Zuo, H. Fan, E. Blasch, and H. Ling. Combining convo- lutional and recurrent neural networks for human skin detec- tion. IEEE Signal Processing Letters, 24(3):289–293, 2017.

往期解读

传送门

欢迎大家关注如下 视研究院 官方微信号????