研究生学术报告预告登记(开题、中期、答辩)

       为加强研究生学术交流活动,推进学术创新,特开通“研究生学术报告预告区”。我校研究生和教师可以在预告区及时发布和了解有关研究生学术报告的信息,届时参加。也可就某学术报告展开专题讨论与交流。

报告人: 金钢
学号: 1017227001
学院: 海洋学院
报告类型: 其他学术报告
日期: 10 October 2019
时间: 3:30 PM
地点: 第八教学楼 319会议室
导师: 翟京生
题目: 博士生中期考核:“海上搜救视频影像分析与目标检测算法研究”
内容提要:

根据“海上搜救视频影像分析与目标检测算法研究”方向开展了相关方法研制及应用研究工作,以搜救落水人员为例,最终论文将分为几个主要板块:目标人员的识别;目标的状态分析,包括判断是否为自然游弋状态、速度及方向轨迹等几项语义分析,最终判断是否需要救援及行动轨迹追踪;目标的定位,通过飞行器的角度纠正等实时跟踪目标的定位;建立物理实践模型验证。通过去雾化处理和目标检测算法,对海面上各种不利天气干扰因素进行纠正,以达到得出正确结论的目的,供报警佐参。现完成内容如下:

一、图像复原法基于大气散射物理模型,通过对有雾图像降质原因的分析,并有效利用先验知识,来恢复原始图像。大气散射公式:

           1)

I(x)为有雾图像,J(x)为无雾图像,A为大气光照,t(x)为透射率。由于图像复原法更具有针对性,可以取得更理想的去雾效果,因此成为图像去雾领域的研究热点。Tan[1],提出清晰图像比有雾图像对比度高的统计规律,采用对比度区域最大法进行去雾,用到的先验知识便是图像的对比度(contrast)。该算法有三个假设:1、有雾图像的对比度比无雾图像的对比度低;2、透射率(与原文中的量略有不同,但本质是一样的)的变化只与物体(或场景)的深度有关,因此局部区域内的透射率是接近恒定的,而且除了少数不连续的像素点外,相邻区域透射率的变化是平滑的;3、复原之后图像的统计特性应该与实际的无雾照片特性一致(由于该算法只是一种增强对比度的算法,理论上并不是为了直接还原无雾照片,所以引入该假设来说明该算法可以达到近似去雾的效果)。

.暗原色先验图像去雾

对有雾图像的描述如下所示:

 

上式中,I是输入图像的光强度,即为相机拍摄得到的图像像素值;J是无雾时图像的光线强度,即是期望得到的值;A是大气光成分,t是光线透射率;图像去雾就是由已知的光强度I 求解未知的参数J,A,t。对于方程的求解,由于未知量多,需要增加约束条件来进行求解。暗原色先验就是约束条件之一。 暗原色先验是在观察大量户外无雾图像时发现的规律,大多数无雾图像的每个局部区域至少存在一个颜色通道的强度值很低。对J 进行分块,其暗原色先验通道如下式:

 

中,是以x点为中心的邻域,J 的三原色通道,为图像J 在邻域的暗原色。其中 的值趋近于 0,而有雾图像中值会增大。对于整幅图像的透射率,假设大气状态均匀,像素块的透射率t相同,则估值采用下表示:

 

对于单一的图像去雾,将整幅图像的最大强度作为无雾时图像的光线强度估值。去雾后的图像光线强度 表示式为:

 

二、目标检测算法研究

采用YOLO算法,该方法基本思路:将图像划分为S*S个格子,使用图像分类与定位算法,将算法逐一应用到S*S个格子中,对于格子中的每一个指定一个标签yy5维向量,如式5-1所示:

 

 

P_c01取决于格子中是否有落水人员图像,如果格子里有图像,那么就给出边界框坐标b_x,b_y,b_h,b_w,如果格子中没有落水人员图像,那么格子的标签向量y中的P_c0,其他分量就不需要关心。当格子中含有落水人员对象的中点,P_c1,然后通过b_x,b_y,b_h,b_w来指定边界框的位置。对于格子中的任何一个,都会得到一个5维输出向量,所以总的输出尺寸是S*S*5

训练输入图像为n*n*3的卷积神经网络,包括卷积层,最大池化层以及全连接层等,将任意输入向量x映射到输出向量y,最后得到一个S*S*5输出向量,并经过反向传播不断优化,得到较好的算法参数。

测试的时候,要做的是输入图像x,经过正向传播,直至得到输出y。对于对应的S*S个输出,通过P_c01,就可以知道哪个位置有落水人员对象并确定格子中这个对象的边界框。用交并比来评价对象检测算法。交并比函数IoU:计算两个边界框交集与并集之比如果预测器与实际边界框完美重叠,IoU就为1,一般来说IoU大于0.5就可以接受,一般约定阈值为0.5,用来判断预测的边界框是否准确。

当运行算法时,可能会对同一个对象进行多次检测,需要非最大抑制清理算法,保证一个落水人员只检测一次,而不是每个落水人员都触法多次检测。首先找到概率最大的边界框,用非最大抑制逐一审视剩下的矩形,所有和这个最大的边界框有很高交并比,高度重叠的其他边界框就会被抑制,只输出概率最大的分类结果。通过研究不同模块数据集的特点以及多种目标检测算法进行比较,选择出针对不同模块的最适合的目标检测算法进行目标检测。总结并撰写了文章Transforming Neural Sign Language Translation”。

下一步研究内容主要包括:搜救目标状态的语义分析,关于神经信号深度算法的语义转化,及基于面部表情状态分析的语义研究。并分别以两方面的内容尽量发表学术论文。

目前,课程学分已基本修完,国际交流报告已提交,在学分认定中。针对研究的问题学术思路比较清晰,目前在大量参阅无人机动态纠正的几何方法方面的文献,为后续的实践验证环节做储备,模拟实验初步拟定在校内湖泊中进行,有条件的话会放在近海临港区完成。

图片:
登记人: 金钢
登记时间: Saturday, 27 March 2021, 12:17 AM