声源定位技术最初主要应用在军事领域,近年来随着社会的进步,生活质量的提高,人们对声源定位的需求也扩展到了民用领域,基于麦克风阵列的声源定位技术被广泛应用于视频会议[1]、语音增强[2]、智能机器人[3]、智能家居[4]、车载通话设备[5]等。其中,声源定位的应用场景分为室内环境[6]和室外环境[7],室内环境是声源定位技术最常用的应用场景,区别于室外远场环境,室内环境下混响严重,对定位精度有很大影响。室内麦克风阵列声源定位方法定义为:利用麦克风阵列去采集室内声源目标,经过对就接收到声音信号的一系列分析与与处理,找到声源目标的准确位置。对于室内声源定位方法来说,如何提高抗噪声和抗混响能力是长久以来的研究的重点,传统的声源定位方法,如使用最小二乘法或广义互相关法获取到达时间差进而计算声源位置的基于时延估计的声源定位方法[8],基于高分辨率谱估计的声源定位方法,以及基于可控波束形成的声源定位方法[9],在低信噪比、高混响环境下,定位效果很差。在传统声源定位方法中,目前的研究主要通过设计麦克风阵列的阵型或增加麦克风数量,来提升定位精度,对抗噪声和混响对定位精度的影响,常见的有平面的线性[10],圆形[11]阵列,以及非平面阵列[12],其中立体七元十字模型定位效果较好。
随着机器学习和深度学习的快速发展,许多传统的问题都可以使用该方法解决,室内声源定位问题也不例外。我们提出一种基于卷积神经网络(Convolutional Neural Network,CNN)[17]的室内声源定位方法,使用七元十字麦克风阵列接收室内声音信号,利用其相位加权广义互相关(generalized cross-correlation-Phase Transform,GCC-PHAT)合成训练特征集。该方法使用RoomSim[18][19]模拟房间脉冲响应(room impulse response ,RIR),相比于其他机器学习或深度学习的声源定位方法,在噪声和混响环境下有更高的定位分类精度和更强的鲁棒性,并且可以实现距离、方向角、俯仰角三维定位,具有更高的定位分类准确,对于室内声源定位技术的应用和发展具有一定的借鉴意义。
|