近日,由IEEE国际会议ICASSP主办的3D音频信号处理挑战赛(L3DAS23)收官,西工大永利yl23411集团官网-迅声环境声音感知联合实验室(JLESS)参与了本次比赛。参赛团队由联合实验室主任、永利yl23411集团官网陈建峰教授指导,实验室成员白吉生、黄思维、尹涵、贾亚飞、王谋参与。参赛团队分别在“语音增强”和“声音事件检测及定位”两个任务中获得第二名和第一名的好成绩。在所有参赛队伍当中,JLESS团队综合排名第二。
JLESS团队综合排名第二
参赛团队就本次比赛方法所撰写论文《3D Audio Signal Processing Systems for Speech Enhancement and Sound Localization and Detection》最终被2023 IEEE ICASSP会议所接收。
ICASSP (Internatinal Conference on Acoustics, Speech and Signal Processing)是国际声学、语音与信号处理会议,是全世界最大的,也是最全面的信号处理及其应用方面的顶级会议。ICASSP对于信号处理方面的学术人士有着重要意义。它涵盖了音频和声学信号处理,图像、视频和多维信号处理,物联网的信号处理等至少十六个方向。
L3DAS23挑战赛旨在促进3D音频信号处理机器学习方法的研究。所谓3D音频,就是用扬声器仿造出似乎存在但其实是虚构的声音。近年来,虚拟环境中的3D音频技术应用非常广泛,例如虚拟会议、游戏开发、音乐制作、增强现实和沉浸式技术等等。
该挑战赛分为两个赛道,3D语音增强赛道和3D声音事件检测及定位赛道。竞赛数据集是“半合成的”,官方通过将真实音频(由2个4通道全向麦克风进行录制)和特定室内环境下的脉冲响应进行卷积,形成带有噪声及混响的3D音频。
此外,官方还生成了麦克风正前方的室内环境彩色图像,参赛选手可以选择是否利用图片信息辅助完成相应任务。
Task1 3D语音增强
该任务的目标是增强沉浸在混响模拟环境的空间声场中的语音信号。在此任务中,模型期望从包含各种背景噪声的3D音频中提取单声道语音信号。该任务的评估指标是短时间客观可读性(STOI)和单词错误率(WER)。
3D语音增强任务示意图
Task2 3D声音事件检测与定位
该任务的目的是检测一组声音事件的起止时间,并且在空间中进一步定位它们。在此项任务中,模型必须以100毫秒为间隔,预测活动声音事件及其各自的位置。该任务的评价指标是定位误差以及事件检测F分数。
3D声音事件检测及定位任务示意图
西工大永利yl23411集团官网迅声环境声音感知联合实验室
西工大永利yl23411集团官网-迅声环境声音感知联合实验室成立于2021年9月,由永利yl23411集团官网以及西安联丰迅声信息科技有限责任公司双方共建。该环境声音感知联合实验室旨在加快智能声学科技创新和成果转化,相关研究方向主要分为智慧城市环境声音感知技术、工业环境故障自动监测技术、公共安防异常声音监测技术,涉及信号处理、大数据以及人工智能等相关软硬件技术。该环境声音感知联合实验室现有指导教师两位,企业软件、硬件及算法工程师5位,博士硕士研究生20余名。