近年来随着深度学习概念的兴起,计算机视觉领域技术蓬勃发展。其中Facebook的AI团队以及微软亚洲研究院等众多机构做出来突出的贡献。通常将计算机视觉领域分为三大方面:图像分类、目标检测、语义分割,其中图像分类技术已经十分成熟了,准确率以及速度方面都十分优异,而目标检测比图像分类更高级同时检测效率仍有较大的改善空间,进而本课题主要研究目标检测方法。
虽然目前研究目标检测的算法有很多,但大致可以将之分为两个主流:一是基于区域提议的算法,如RCNN系列(RCNN、SPP NET、 Fast RCNN、 Faster RCNN以及FCN等);二是无区域提议的算法(YOLO、SSD以及DSOD等)。其中无区域的算法将目标检测看为一次检测的问题,由完全卷积网络直接从图像像素到边界框坐标,因而这种算法的检测速度快。例如在YOLO算法中直接在最后的卷积层进行边界框回归的目标检测,SSD算法则是在YOLO算法的基础上提出来的,该算法的优势则是结合最后几个卷积层进行预测,因而该算法有更高的准确率。但是这一类算法主体的准确率要比基于区域提议算法差,进而本课题选择第一类即区域提议算法。
基于区域提议算法的主要原理是将目标检测任务划分为两个子问题:在第一阶段,通过算法或区域提议网络生成高质量的候选框。然后在第二阶段,设计子网络以对这些候选框进行分类和边框回归。基于区域提议的算法开始于2013年Ross Girshick提出的RCNN(Regions with CNN features)算法,在该论文中通过选择性搜索的算法在一张图片上提取2000感兴趣区域,接着将这些区域调整为固定尺寸后便可以送入卷积网络进行分类。在2014年何凯明等人提出了SPP网络使得图像可以多尺度输入,随后在2015年在SPP网络基础上Ross Girshick又加以改进提出了Fast RCNN,该算法结合RCNN与SPP网络的优势,实现了更高效的检测,在VOC2007数据集上实现了70%的准确率。随着目标检测要求不断提高,同年Ross Girshick与何凯明等人一同提出了Faster RCNN算法,与前面算法较大区别就是用卷积网络代替选择性搜索来进行区域提取,将准确率提升了3.2%。2016年何凯明又与代季峰等人提出了R-FCN算法,该算法通过使用尽量多的共享卷积层,再由位置敏感得分图引入位置信息从而在VOC2007数据集上实现了80.5%的准确率。随后在此算法的基础下又有许多的改进,其中比较优异的是于2017年孔涛、孙富春等人提出的RON(Reverse Connection with Objectness Prior Networks )算法,该算法创造性的结合SSD算法和Faster RCNN算法的优点,通过反向连接为前一层卷积层提供了更多的语义信息。通过目标先验给出了目标搜索的方向,从而在相同的数据上实现了81.3%的准确率。 |