人脸检测和人脸识别算法都需要在大量的人脸数据集上验证、测试,当前比较经典和常用的人脸数据集有LFW和FDDB。本书还收集了另外两个数据集,分别命名为Wanwan1和Wanwan2。本节分别对这四个数据集进行介绍。
1.2.1 LFW数据集
LFW(Labeled Faces in the Wild)数据集[1]是由美国马萨诸塞大学阿姆特分校收集整理并维护的,是为了在不受限制的环境下研究人脸识别问题而设计的[2]。该数据集中有13 233张图片,这些图片均从网上收集而来,得到这些原始图像后,经过处理,最后数据集中每张图片的尺寸都是250×250像素的,并且每张图片都以图像中人物的名字命名,不同人的图片被放在不同的文件夹中。一共有5749个文件夹,即5749个人。其中,4069个人只有一张图片,而1680个人有多张图片。如lfw/Aaron_Peirsol中有四张图片,命名形式如图1-2所示。
LFW数据集可用于人脸检测、人脸识别和人脸检索。
图1-2 LFW中Aaron_Peirsol文件夹下的图片
1.2.2 FDDB数据集
FDDB(Face Detection Data Set and Benchmark)数据集[3]由Vidit等人[4]收集整理,现由美国马萨诸塞大学阿姆特分校维护。设计该数据集的目的是为人脸检测算法提供一个数据集,并且在该平台上公平地比较和评估不同人脸检测算法的效果。该数据集中共有28 736张人脸图片,其中包含5171张个人脸的2845张图片来自数据集Faces in the Wild[5]。此外,该数据集还对图片中的人脸区域提供了准确的椭圆形的注解框。FDDB数据集中包含的人脸图片有不同姿势的、遮挡的、低分辨率的,甚至有失焦的,有彩色图像,也有灰度图像。如图1-3所示,呈现了一些FDDB数据集中的图片。FDDB数据集是世界上权威的人脸检测评估平台之一,它公布了大量算法评估结果的ROC曲线,如图1-4所示。
FDDB数据集主要用于人脸检测和人脸检索。
图1-3 FDDB数据集中的图像示例
图1-4 不同人脸检测算法在FDDB数据集上检测准确度的ROC曲线[3]
1.2.3 Wanwan1数据集
Wanwan1数据集中包含100张侧脸图片,这些图片均来自网上。这些图片尺寸大小不一,场景也不一致。最重要的是,这些图像中的人脸均为侧脸。如图1-5所示,呈现了Wanwan1数据集中的一些图片。
图1-5 Wanwan1数据集中的图片
1.2.4 Wanwan2数据集
Wanwan2数据集中包含了100张多角度(甚至是360°)的人脸图片,下面呈现了Wanwan2中的一些图像,有360°人脸,如图1-6(a)所示;有90°人脸,如图1-6(b)所示。
图1-6 Wanwan2数据集中的图片