原标题:又又又又又获奖了!
据数据显示,小爱同学累计唤醒次数 617亿次,可能是中国最活跃的AI语音交互平台。 如何让语音唤醒保持低功耗的同时,在各种距离都能灵敏响应?这一语音唤醒领域的重要课题,也是小米AI实验室语音团队一直在研究的方向。
1月24日,由昆山杜克大学、联想研究院和北京邮电大学,在2021中文口语语言处理国际会议(ISCSLP 2021, https://www.iscslp2021.org)上发起的个性化唤醒语音挑战赛(PVTC2020, https://pvtc2020.org/)圆满结束。
由于这项赛事对语音技术应用在智能手机和AIoT设备低功耗唤醒上具有重要指导价值,吸引了多所知名企业及院校参赛。 小米AI实验室语音团队与西北工业大学音频、语音与语言处理研究组(ASLP@NPU)团队联合组队,获得了全部双赛道第一名的成绩。


左右滑动查看更多
近讲赛道与远场赛道的技术难点
个性化语音唤醒评测是第12届中文口语语言处理国际会议的卫星赛事。比赛分为两个赛道,近讲赛道要求参赛选手结合唤醒词检测与说话人识别模块的输出结果,判断单通道音频数据中是否含有特定说话人的唤醒词语音。远场赛道则要面对更具挑战性的远场多通道麦克风阵列音频。
竞赛数据的录音设备包括近场手机和拓扑结构未知的远场麦克风阵列,这也就意味着参赛选手要面对近场注册,远场验证的跨信道挑战。同时,比赛要求参赛人员把整个系统的计算复杂度降到足够低,提交的检测系统的归一化实时率必须小于0.25,以便相关技术能够真正应用于现实设备上。
唤醒词检测和说话人识别技术是现代智能语音交互必设备的重要模块, 对于远场语音交互,基于麦克风阵列的语音增强技术也是必不可少的。通常来说,语音增强、唤醒词检测和说话人验证是串联在一起的。Xiaomi-NPU的参赛系统也采用这种架构,比赛期间,团队分别对唤醒词检测和说话人验证模块进行了优化,并使用了两阶段唤醒词检测策略。在近讲赛道上,将两个模块串联起来,而在远场任务中,则增加语音增强模块来应对更具挑战性的声学条件。

唤醒词检测采用了two-stage策略,两级都使用DNN-HMM框架,并使用两个基于WFST的解码器来执行在线检测。第一级声学模型用帧级别的训练标准优化,第二级声学模型使用序列级训练准则优化。
当第一阶段模型检测到唤醒词时,包含唤醒词的语音段将被送到第二阶段以进行二次确认。当第二阶段也确认检测到唤醒词时,唤醒词片段将被送到随后的说话人确认模块。

说话人验证模块采用多模型融合策略,第一个模型基于xvector框架,为满足实时率要求,减少了部分网络层的节点数;第二个模型基于resnet框架,通过减少每个block中的卷积核通道数,实现Thin Resnet34,并采用NetVLAD来计算聚合向量,再通过一个全连接层降维,从而得到说话人的向量表示。
在远场任务中,创新性地增加了相似性损失函数,使用MMD和CORAL损失函数来衡量近场和远场数据在空间分布中的差异性,并且让模型在训练过程中逐渐减小这种差异,从而使模型提取的说话人向量,具有跨领域的不变性。

在此基础上,Xiaomi-NPU的参赛队员还发现以下方法有助于进一步提高系统性能。
1)使用开源数据进行模型预训练;
2)对训练与测试数据进行增广,以丰富数据多样性;
3)用一级唤醒词检测模块统一说话人确认模块注册、测试语音的起止时间点;
4)用自动化标注方法获取“说话人伪标签”,并对模型进行微调。
最终,Xiaomi-NPU的参赛队获得了全部双赛道第一名的成绩。

小米语音组在语音唤醒与声纹识别技术方面有深厚的技术积淀,拥有多种适合不同业务场景的技术方案。
据小米语音参赛团队的同学介绍:“参赛系统实际上是从小米手机和AIoT设备上的语音技术方案改造而来的,需要感谢小米手机部和智能硬件部给我们提供的历练平台,也要感谢主办方给我们提供的竞赛机会,让我们技术方法的性能可以在公开的数据集上得到验证。”
小米AI实验室旨在探索和研发先进的人工智能技术,打造人工智能技术平台,为公司的关键业务输出核心AI能力,让全球每个人都能享受科技带来的美好生活。
长按下图关注
小米公司官方微信
第一时间获取资讯,掌握最新动态
点「 在看」
责任编辑: