LLM微调 | Adapter: Parameter-Efficient Transfer Learning for NLP

武飞扬头像

#苦行僧

2024-06-27 帮助1人

目的：大模型预训练微调范式，微调成本高。adapter只只微调新增的小部分参数【但adapter增加了模型层数，引入了额外的推理延迟。】

Adapters最初来源于CV领域的《Learning multiple visual domains with residual adapters》一文，其核心思想是在神经网络模块基础上添加一些残差模块，并只优化这些残差模块，由于残差模块的参数更少，因此微调成本更低。
Houlsby等人将这一思想应用到了自然语言处理领域。他们提出在Transformer的注意力层和前馈神经网络（FFN）层之后添加全连接网络。微调时，只对新增的 Adapter 结构和 Layer Norm 层进行微调，从而保证了训练的高效性。每当出现新的下游任务，通过添加Adapter模块来产生一个易于扩展的下游模型，从而避免全量微调与灾难性遗忘的问题。
Adapters Tuning效率很高，通过微调不到4%的模型参数，可以实现与 fine-tuning相当的性能。

学新通
左图：在每个Transformer layer中两次添加adapter——在多头注意力后的投影之后和在两个前馈层之后。
右图：adapter是一个bottleneck结构，包括两个前馈子层（Feedforward）和跳连接（ skip-connection）。

Feedforward down-project：将原始输入维度d（

这篇好文章是转载于：学新通技术网

版权申明：本站部分内容来自互联网，仅供学习及演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，请提供相关证据及您的身份证明，我们将在收到邮件后48小时内删除。
本站站名：学新通技术网
本文地址： /boutique/detail/tanhiabiei

系列文章

同类精品

继续加载