研究方向
声纹识别:又称说话人识别,通过对语音信号的分析和处理,提取代表说话人个性信息的特征,自动地鉴别说话人的身份。
语音识别:基于混合架构和端到端模型,实现大词汇量连续语音识别(LVCSR),支持普通话、闽南话等语种。
语音唤醒:在一定距离范围内,通过设定的语音指令(唤醒词)将处于休眠状态的设备直接启动进入等待指令状态。
语音合成:采用端到端模型,实现高自然度的文字转语音(TTS)系统。
语音增强:通过神经网络降噪、麦克风阵列等技术,提高噪声和混响环境下的识别效果。
语种识别:判断语音文件(可能很短)所属的语种,如汉语、日语、印度语等。