MFA-Conformer: Multi-scale Feature Aggregation Conformer forAutomatic Speaker Verification
目录
一、简介
本文提出了一种基于Conformer的多尺度特征聚合 (MFA-Conformer)。MFA-Conformer的架构灵感来自于最近在语音识别和说话人验证方面的最先进模型。首先,我们引入了卷积子采样层来降低模型的计算成本。其次,我们采用融合了Transformers和CNNs的Conformer块,有效地捕捉全局和局部特征。最后,来自所有Conformer块的输出特征映射被连接起来,在最终池化之前聚合多尺度表示。
二、MFA-Conformer
MFA-Conformer整体架构如上图所示。
1、conformer block
2、MFA with attentive statistics pooling
以往的研究表明,低层次特征映射也有助于准确的说话人嵌入提取。基于此经验,在ECAPA-TDNN系统中,所有SE-Res2blocks的输出特征映射在最终的池化层之前进行聚合,这种聚合导致了明显的性能提升。同样地,我们将每个Conformer块的输出特征映射连接起来,然后将它们输入到LayerNorm层:
此外,我们采用attentive statistics pooling来捕捉每一帧的重要性,并提取更鲁棒的说话人嵌入。具体而言,对于时间步长为t的帧级特征,我们首先计算标量分数
和归一化分数
为:
k是注意力的可训练参数。f(·)为Tanh激活函数。然后,采用归一化得分作为权重,计算加权平均向量
和加权标准差
,其表达式为 :
池化层的输出由加权均值和加权标准差
的向量拼接得到。
最后,利用全连通线性层的BatchNorm将扬声器嵌入从高维向量提取到低维向量
这篇好文章是转载于:学新通技术网
- 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
- 本站站名: 学新通技术网
- 本文地址: /boutique/detail/tanhejhhaj
系列文章
更多
同类精品
更多
-
微信小程序没声音怎么办
PHP中文网 06-15 -
excel图片置于文字下方的方法
PHP中文网 06-27 -
怎样阻止微信小程序自动打开
PHP中文网 06-13 -
微信人名旁边有个图标有什么用
PHP中文网 03-11 -
微信提示登录环境异常是什么意思原因
PHP中文网 04-09 -
微信获取用户openid失败怎么办
PHP中文网 03-26 -
photoshop怎么把印章抠出并放在另一张图上
PHP中文网 06-15 -
EhViewer(E绅士)最新版_ehviewer白色版彩色版_Ehviewer显示网络错误怎么办?e站进不去了怎么办
Evanpatchouli 09-19 -
Excel筛选和排序是灰色的怎么办
PHP中文网 06-22 -
photoshop蒙版画笔没反应怎么办
PHP中文网 06-24