模式识别国家重点实验室

尽管在近10年来，基于深度学习的语音增强技术取得了重大进展，但仍存在诸多挑战。在本次报告中，张学良博士首先介绍了语音增强领域里的重要科学问题-鸡尾酒会问题，并简要回顾了深度学习解决鸡尾酒会问题的研究历程。然后，张博士重点介绍了基于时域和频域交互表达的双流降噪网络，并给我们展示了所提双流降噪网络在处理冲击噪声和单频噪声的巨大优势，同时张博士也介绍了他们在多通道语音增强方面的研究工作，提出了Inplace CRN的网络结构，有效利用了多通道信号中的方向信息。最后，张博士介绍了大象声科的骨传导TWS耳机通话降噪方案，并展示了多种传感器融合实际通话降噪效果。

报告结束后，张学良博士与现场师生进行了深入的交流，他耐心的回答了各位老师同学的问题，包括双流网络中转换矩阵对应的物理意义、Inplace CRN中与传统MVDR算法的性能对比、基于深度学习语音增强的泛化性问题以及语音增强落地应用中的数据准备等问题。由于张博士有着丰富的研究经历和实际应用经验，本报告和深入交流不仅使得老师和同学们加深了对本领域研究进展的了解，也丰富了大家关于技术落地的知识。

友情链接

中科院自动化研究所模式识别国家重点实验室事业单位京ICP备14019135号-3
NLPR, INSTITUTE OF AUTOMATION, CHINESE ACADEMY OF SCIENCES