2023年第1期
基于知识蒸馏与ResNet的声纹识别技术。
荣玉军、方昳凡、田鹏、程家伟。
摘要:针对声纹识别领域中的问题,如信道失配和短语音或噪声条件下的声纹特征获取不完全,我们提出了一种新方法。我们将传统方法与深度学习相结合,并利用教师模型I-Vector对学生模型ResNet进行知识蒸馏。我们构建了基于度量学习的ResNet网络,并引入了注意力统计池化层,以捕获并强调声纹特征的重要信息,从而提高声纹特征的可区分性。此外,我们设计了联合训练损失函数,将均方根误差(MSE)与基于度量学习的损失相结合,以降低计算复杂度并增强模型学习能力。最后,我们利用训练完成的模型进行声纹识别测试,并与多种深度学习方法下的声纹识别模型进行比较。结果显示,我们的模型在等错误率(EER)至少降低了8%,等错误率达到3.229%,表明其更有效地进行声纹识别。
祝世讷,男,1940年12月1日生于山东青州。1965年毕业于山东师范学院政治系。1978年起担任山东中医药大学自然辩证法教研究室主任,教授。他开创了中医学与系统科学交叉研究的新领域——系统中医学,并成为该学科学术带头人。他出版了12部学术专著,包括《中西医学差异与交融》、《中医系统论与系统工程学》和《中医学原理探究》等。
方昳凡,女性,硕士研究生。
主要研究深度学习和声纹识别。
以及说话人分离方向的研究。
[email protected](E-mail)
原文链接:
http://qks.cqu.edu.cn/cqdxzrcn/article/abstract/20230112。请注意,我没有改变原文的意思。
长按二维码,关注我们。