首页 » 刷脸背后:人脸检测 人脸识别 人脸检索 » 刷脸背后:人脸检测 人脸识别 人脸检索全文在线阅读

《刷脸背后:人脸检测 人脸识别 人脸检索》5.4 数据集的预处理

关灯直达底部

Fast R-CNN是一个针对多类检测的目标框架,而人脸检测是2类检测,即人脸和背景。因此,本实验所用的数据集标注格式和VOC不同,并且提取预选框的方法也不同。本节详细介绍一下该实验在训练和测试时所需要提供的数据集格式。

训练时需要提供3种文件。

文件1:待训练的图片名称列表文件,通常是.txt类型,如下所示。

文件2:待训练的图片名称和对应的真实人脸边界框文件,通常是.txt类型。人脸边界框的坐标格式为:x1, y1, x2, y2,如下所示。

文件3:待训练的图片名称和对应的object proposal,通常是.mat类型。目前有许多算法可以提取图片的object proposal,如selective search、EdgeBoxes、GOP和LPO、MCG及RIGOR等。Ross提供的源代码中使用的是selective search算法,但本书使用EdgeBoxes算法提取object proposal。

测试时需要提供待测试的图片和对应的object proposal矩阵,比如person1.jpg和person1_boxes.mat。下面重点介绍一下如何利用EdgeBoxes[7]提取训练和测试需要的object proposal。