您所在的位置:首页  新闻动态
厦门大学智能语音实验室(XMU Speech Lab)三篇论文入选语音顶会ICASSP 2021

发布时间:2021-06-02 浏览次数:2209


   厦门大学智能语音实验室(XMU Speech Lab三篇论文入选语音顶会ICASSP 2021,论文研究方向包含说话人识别开源工具、多语种多说话人语音合成、多口音语音识别。


NO.1 说话人识别开源工具

标题 ASV-Subtools: Open Source Toolkit for Automatic Speaker Verification


作者Fuchuan Tong, Miao Zhao, Jianfeng Zhou, Hao Lu, Zheng Li, Lin Li, Qingyang Hong


本文介绍了厦门大学智能语音实验室推出的声纹识别开源工具—ASV-SubtoolsASV-Subtools基于KaldiPytorch工具开发,充分结合了Kaldi 在语音信号和后端处理的高效性和PyTorch开发和训练神经网络的便捷灵活性。为了取得优异的性能,该工具分别在说话人识别系统前端和后端进行了大量优化,如Inverted SpecAugment数据增强技术,网络结构优化,训练策略调整,以及后端的多种PLDA自适应技术、多系统分数融合等。文中的实验结果表明该工具的稳定性和可靠性,且读者可以通过其提供的脚本方便地进行复现。ASV-Subtools的推出,将极大方便研究人员进行说话人识别技术的研究,促进该领域的发展。


NO.2 多语种多说话人语音合成

标题Light-TTS: Lightweight Multi-Speaker Multi-Lingual Text-To-Speech

作者Song Li, Beibei Ouyang, Lin Li, Qingyang HongSong Li, Beibei Ouyang, Lin Li, Qingyang Hong

本论文提出了一种轻量级的多语种多说话人语音合成架构Light-TTS,它能够使用一个统一的模型快速地合成中文、英文、中英混合code-switch的多说话人语音,并且具有较少的模型参数以及内存消耗。作为语音交互的最后一环,TTS扮演着重要角色,Light-TTS的提出促进了TTS技术在低资源设备上的应用。


NO.3 多口音语音识别

标题End-to-end Multi-accent Speech Recognition with Unsupervised Accent Modelling


作者Song Li, Beibei Ouyang, Dexin Liao, Shipeng Xia, Lin Li, Qingyang Hong


英语是世界上使用最为广泛的语言,而不同国家的人说英语往往会携带一些地方口音,这造成语音识别系统准确率降低。为了探索该问题的解决方案,本论文首先调研了各种主流的语音识别口音自适应技术,包括多任务学习、口音ID、领域对抗训练、x-vector口音embedding自适应技术等,并提出了使用统计池化层来提升领域对抗训练的性能。同时,本论文提出了一种新的无监督口音建模技术,它使用语音合成模型对梅尔频谱进行分解,将梅尔谱中的口音信息提取为一个embedding,供语音识别模型进行口音自适应,并在本文中取得了最优结果。


ICASSP会议即国际声学、语音与信号处理会议,由IEEE信号处理协会主办,是全世界最大的,也是最全面的信号处理及其应用方面的顶级会议。受疫情影响,本届ICASSP将于202166日至11日在线上举行,会议官网:https://2021.ieeeicassp.org/,届时厦门大学智能语音实验室团队将在会上做口头报告,分享团队的研究成果,欢迎国内外同行一起交流。