计算机视觉是一门研究如何利用计算机模拟人类视觉的科学,其主要任务是通过对采集到的图像(或视频)进行分析和理解,从而做出判断或决策.在过去几十年间,计算机视觉取得了巨大的进步和发展.其中,人脸分析由于其重要的理论意义和巨大的实际应用价值,一直以来都是计算机视觉领域的热点.其通过自动检测图像或者跟踪视频中的人脸,进而对检测和跟踪到的人脸提取相关信息,比如身份、表情、年龄、性别等.
如何从图像(或视频)中获取有效的人脸表征一直以来都是人脸分析的一个核心问题.各种有效的特征,如局部二值模式特征、尺度不变特征变换特征、梯度方向直方图特征等,被人为构建出来进行人脸的表征,并结合各种降维和分类方法进行人脸分析,取得了较好的性能.然而,这些人为设计的特征通常无法捕获不同任务的高层语义信息,成为制约人脸分析性能进一步提高的瓶颈.此外,传统的人脸分析方法通常将任务分解为两个独立的步骤(即特征提取和分类器设计).而在第1个步骤中所挑选的特征可能无法跟第2个步骤中的分类算法很好匹配,从而造成人脸分析方法性能的下降.
作为近年来一种流行的机器学习方法,深度学习己经在计算机视觉、语音识别、自然语言处理等领域中得到了广泛的研究和应用.目前,针对人脸分析的研究,基于深度学习的方法己经成为主流研究方向.相比于传统的人脸分析方法,基于深度学习的方法能够自动地从海量数据中学习人脸表征.同时,该类方法把特征提取和分类器统一在一个框架下,能够快速地适应不同的人脸分析任务,有效地提高了方法的性能.
DeepFace是CVPR2014上由Facebook提出的方法,是深度卷积神经网络在人脸识别领域的奠基之作。在LFW上取得了97.35%的准确率。2015年,Google推出FaceNet,使用三元组损失函数(Triplet Loss)代替常用的Softmax损失函数,在一个超球空间上进行优化使类内距离更紧凑,类间距离更远。2017年的SphereFace提出了A-Softmax,针对L-Softmax做了微小的改进,归一化了权重,可以看成在一个超球面的流形上对样本进行分类判别。而后在2018年的CVPR上,CosFace具对sphereface的改进之一体的方法是把角度裕量从cos(mθ)改进为cos(θ)+m,主要的好处是这样改进之后容易收敛。ArcFace可以看做是针对CosFace的AM-Softmax的改进版本,直接针对角度去加Margin,这样做的好处是角度距离比余弦距离在对角度的影响更加直接。 |