||
2020年10月25日-29日参加了在中国上海举行的国际语音通讯联合会年度会议(Annual Conference of The International Speech Communication Association, Interspeech2020)。Interspeech是语音处理领域最权威的国际会议,每年召开一次。世界各国著名高校、研究机构及相关知名企业等均参会。我们的论文题为“Speech Separation Based on Multi-Stage Elaborated Dual-Path Deep BiLSTM with Auxiliary Identity Loss“,以oral的形式在会上进行了交流。
我们在这篇论文中提出了一种称为TasTas的语音分离方法。TasTas旨在解决多说话人单声道语音分离(也称为鸡尾酒会问题)的问题。 TasTas引入了两个简单但有效的方法,一个是迭代的多阶段细化分离方案, 另一个是通过分离后的语音和原始语音之间的说话人身份一致性来纠正不完美分离的语音,从而提高了语音分离的性能。我们在基准数据库WSJ0-2mix上的实验 结果显示SDRi为20.55dB,SI-SDRi为20.35dB,PESQ为3.69,ESTOI达到94.86%,这表明目前我们TasTas技术的性能在该基准数据库上处于世界第一。 同时我们也改善TasTas的训练方法,让其可以完成5个说话人的语音分离问题。目前在5说话人语音分离问题上, 特别是在WSJ0-5mix上,我们的TasTas性能处于世界第一梯队。
TasTas分离的demo请查看网页:https://shiziqiang.github.io/tastas/
如果对该技术感兴趣的和希望合作的,请联系shiziqiang@cn.fujitsu.com或者shiziqiang7@gmail.com。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-4-27 12:18
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社