博文

语音声音分离软件FurcaNeXt v1.0

已有 4665 次阅读 2019-4-17 17:29 |系统分类:科研笔记

多说话人单麦克风语音分离的目的是将目标语音与背景干扰分开。在信号处理中，语音分离是一种非常基本的任务类型，具有广泛的应用，包括听觉增强，移动通信，高精度的自动语音和说话人识别。例如，在多人说话的家庭环境或会议环境中，人类听觉系统可以非常容易地从多个说话人的混合语音中跟踪目标说话人的语音。在这种多说话人情况下，为了在语音或说话者识别任务中得到令人满意的性能，需要从混合语音中将目标说话人的干净语音信号分离出来，以完成后续的识别工作。这个任务有两个难点：第一个难点是真正实用的语音分离系统必须与说话者无关，但是由于我们没有用户的任何先验信息，所以要实现这一点还是有些难度的；第二个难点是由于只有单个麦克风信号，没有办法将波束成形算法用于该任务。许多传统方法，如计算听觉场景分析，非负矩阵分解和概率模型等，并不能非常好解决这两个难点。而深度学习和端到端的处理方法能在特定情况下解决上面的两个难题。

从18年三月份开始我们启动了单麦克风多说话人的语音分离的研发项目，初期的研发成果发表在11月份在意大利博洛尼亚大学召开的FRUCT23（芬兰-俄罗斯大学电信合作开放式创新协会会议）上；中期的研究成果FurcaX软件系统将在下个月于英国布雷顿召开的语音领域顶级会议第44届ICASSP2019上发表（国际声学、语音与信号处理大会）；后期我们成功的开发出了基于端到端深度学习技术的语音分离软件系统FurcaNeXt v1.0，目前在公开数据集WSJ0-2mix上取得了最好的性能。