300字范文 > 声纹识别：自监督学习语音识别利于声纹识别Why does Self-Supervised Learning fo

声纹识别：自监督学习语音识别利于声纹识别Why does Self-Supervised Learning fo

时间：2021-03-19 22:58:32

声明：平时看些文章做些笔记分享出来，文章中难免存在错误的地方，还望大家海涵。搜集一些资料，方便查阅学习：http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html，语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。开源语音数据查询http://yqli.tech/page/data.html。如何查找语音资料请参考文章https://mp./s/eJcpsfs3OuhrccJ7_BvKOg）。如有转载，请注明出处。欢迎关注微信公众号：低调奋进。

Why does Self-Supervised Learning for Speech Recognition Benefit Speaker Recognition?

本文为哈尔滨工业大学和微软在.04.27更新的文章，主要研究无监督训练的模型对声纹识别的影响因素，具体的文章链接

/pdf/2204.12765.pdf

(本文章主要实验论证，我尽可能的写的短，让读者2分钟知道该论文做了什么，效果怎样即可）

自监督训练的模型不仅仅使语音识别系统的准确率提升，该模型同样可以使声纹识别受益。使用自监督模型进行声纹识别的架构如图1所示。为了探究自监督学习的模型如何影响声纹识别，该文章主要围绕以下三个问题进行试验总结

1，有监督的 ASR 模型是否也可以使声纹识别SV 任务受益吗？

2. 自监督学习SSL 对 SV 任务有什么好处？

3. SV任务的最佳 SSL 设置是什么？

1，有监督的 ASR 模型是否也可以使声纹识别SV 任务受益吗？

答：本部分实验对比直接预训练模型HuBERT和使用CTC训练有监督的ASR模型提取的特征与FBank特征作为声纹识别输入的结果可知（table 1)，有监督训练的ASR模型不能使声纹识别任务受益。

2. 自监督学习SSL 对 SV 任务有什么好处？

答：由table 1和 table 2实验可知，自监督模型HuBert和wav2vec2.0都好于Fbank，因此自监督学习利于声纹识别。

3. SV任务的最佳 SSL 设置是什么？

答：剩余实验都是寻找自监督学习模型影响声纹识别的因素

a)table 2主要对比训练自监督学习模型的目标函数对结果的影响，其结果显示Bubert的pseudolabelprediction loss 比contrastive loss 和MSE loss好。

b)自监督模型HuBERT使用不同方法生成pseudolabel对结果的影响，不同的聚类算法对最终声纹结果不同。

c）table 4对比数据规模大小和自监督学习模型大小对声纹任务的影响。数据多和参数多效果也会变好。

d )图2展示了自监督模型每层输出对声纹识别的影响。其中（a)显示不做微调的自监督模型浅层对声纹识别较大。语音识别模型浅层关注speaker信息，深层关注语义内容信息。自监督的模型相比监督学习的模型，较深层也关注speaker信息，因此自监督模型利于声纹识别任务；（b)更新声纹模型的同时更新自监督模型，可以使深层关注speaker信息。图3展示无监督模型对声纹识别任务的loss可视化。

声纹识别：自监督学习语音识别利于声纹识别Why does Self-Supervised Learning for Speech Recognition Benefit Speaker Recogni

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。