MFA-Conformer: Multi-scale Feature Aggregation Conformer forAutomatic Speaker Verification

冲冲冲鸭鸭鸭~

2024-02-12 帮助3人

论文地址：https://arxiv.org/pdf/2203.15249.pdf

代码地址：https://github.com/zyzisyz/mfa_conformer

一、简介

本文提出了一种基于Conformer的多尺度特征聚合 (MFA-Conformer)。MFA-Conformer的架构灵感来自于最近在语音识别和说话人验证方面的最先进模型。首先，我们引入了卷积子采样层来降低模型的计算成本。其次，我们采用融合了Transformers和CNNs的Conformer块，有效地捕捉全局和局部特征。最后，来自所有Conformer块的输出特征映射被连接起来，在最终池化之前聚合多尺度表示。

二、MFA-Conformer

学新通

MFA-Conformer整体架构如上图所示。

1、conformer block

2、MFA with attentive statistics pooling

以往的研究表明，低层次特征映射也有助于准确的说话人嵌入提取。基于此经验，在ECAPA-TDNN系统中，所有SE-Res2blocks的输出特征映射在最终的池化层之前进行聚合，这种聚合导致了明显的性能提升。同样地，我们将每个Conformer块的输出特征映射连接起来，然后将它们输入到LayerNorm层：

学新通

此外，我们采用attentive statistics pooling来捕捉每一帧的重要性，并提取更鲁棒的说话人嵌入。具体而言，对于时间步长为t的帧级特征 $学新通$ ，我们首先计算标量分数 $学新通$ 和归一化分数 $学新通$ 为: