• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

MFA-Conformer: Multi-scale Feature Aggregation Conformer forAutomatic Speaker Verification

武飞扬头像
冲冲冲鸭鸭鸭~
帮助3

论文地址:https://arxiv.org/pdf/2203.15249.pdf

代码地址:https://github.com/zyzisyz/mfa_conformer

目录

一、简介

二、MFA-Conformer


一、简介

本文提出了一种基于Conformer的多尺度特征聚合 (MFA-Conformer)。MFA-Conformer的架构灵感来自于最近在语音识别和说话人验证方面的最先进模型。首先,我们引入了卷积子采样层来降低模型的计算成本。其次,我们采用融合了Transformers和CNNs的Conformer块,有效地捕捉全局和局部特征。最后,来自所有Conformer块的输出特征映射被连接起来,在最终池化之前聚合多尺度表示。

二、MFA-Conformer

学新通

 MFA-Conformer整体架构如上图所示。

1、conformer block

2、MFA with attentive statistics pooling

以往的研究表明,低层次特征映射也有助于准确的说话人嵌入提取。基于此经验,在ECAPA-TDNN系统中,所有SE-Res2blocks的输出特征映射在最终的池化层之前进行聚合,这种聚合导致了明显的性能提升。同样地,我们将每个Conformer块的输出特征映射连接起来,然后将它们输入到LayerNorm层:

学新通

此外,我们采用attentive statistics pooling来捕捉每一帧的重要性,并提取更鲁棒的说话人嵌入。具体而言,对于时间步长为t的帧级特征学新通,我们首先计算标量分数学新通和归一化分数学新通为:

学新通

k是注意力的可训练参数。f(·)为Tanh激活函数。然后,采用归一化得分学新通作为权重,计算加权平均向量学新通和加权标准差学新通,其表达式为 :

学新通

池化层的输出由加权均值学新通和加权标准差学新通的向量拼接得到。 

最后,利用全连通线性层的BatchNorm将扬声器嵌入从高维向量提取到低维向量

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhejhhaj
系列文章
更多 icon
同类精品
更多 icon
继续加载