随着智能语音交互设备的广泛使用,如何提升噪声环境下语音交互质量受到了产业界和学术界的广泛关注,语音增强是提升语音交互质量的重要技术之一。2021年7月12日,受中科院自动化所刘文举研究员邀请,张学良博士为所内师生做了“基于深度学习的语音增强”的学术报告。
尽管在近10年来,基于深度学习的语音增强技术取得了重大进展,但仍存在诸多挑战。在本次报告中,张学良博士首先介绍了语音增强领域里的重要科学问题-鸡尾酒会问题,并简要回顾了深度学习解决鸡尾酒会问题的研究历程。然后,张博士重点介绍了基于时域和频域交互表达的双流降噪网络,并给我们展示了所提双流降噪网络在处理冲击噪声和单频噪声的巨大优势,同时张博士也介绍了他们在多通道语音增强方面的研究工作,提出了Inplace CRN的网络结构,有效利用了多通道信号中的方向信息。最后,张博士介绍了大象声科的骨传导TWS耳机通话降噪方案,并展示了多种传感器融合实际通话降噪效果。
报告结束后,张学良博士与现场师生进行了深入的交流,他耐心的回答了各位老师同学的问题,包括双流网络中转换矩阵对应的物理意义、Inplace CRN中与传统MVDR算法的性能对比、基于深度学习语音增强的泛化性问题以及语音增强落地应用中的数据准备等问题。由于张博士有着丰富的研究经历和实际应用经验,本报告和深入交流不仅使得老师和同学们加深了对本领域研究进展的了解,也丰富了大家关于技术落地的知识。
|