您的位置 油气能源非常规气

基于Adapter结构进行高参数效率的跨语言迁移学习

喜欢

来源：互联网
|
2021-12-28
|
0 条评论
|
我要分享
|
T小字　 T大字

本文作者：侯汶昕（东京工业大学硕士、现微软算法工程师, 知乎@Harold）
论文链接：https://arxiv.org/abs/2105.11905
代码地址：https://github.com/jindongwang/transferlearning/tree/master/code/ASR/Adapter

本文作者：侯汶昕（东京工业大学硕士、现微软算法工程师, 知乎@Harold）

论文链接：https://arxiv.org/abs/2105.11905

代码地址：https://github.com/jindongwang/transferlearning/tree/master/code/ASR/Adapter

1 背景介绍

给定若干源语言，我们要如何将知识迁移到目标语言上？

但与此同时，我们也发现了两个新的问题：

因此，受到Houlsby等人提出的 「Adapter」的启发 [2]，我们决定尝试使用Adapter来解决这个问题。

2 方法介绍

本节中我们会依次介绍我们使用的主干模型以及整体结构，原始版本的Adapter，我们提出的MetaAdapter和SimAdapter。

主干模型以及整体结构

本文中我们使用了自己预训练的多语言模型进行实验，当然我们的方法也可以用于wav2vec2.0等模型上。具体来说，我们的模型基于Transformer的结构，主要包含12层Encoder以及6层Decoder模型，我们结合了11种语料（包含42种语言，总时长约5,000小时）对模型进行预训练。我们采用了CTC-Attention混合损失函数来提升训练的稳定性和加速训练，即在Encoder的输出特征上增加CTC层，使用CTC损失进行约束。

主干模型

我们将Adapter放在前馈层（Feed-Forward Networks）后面，从而对每一层的输出的特征进行调节。

什么是Adapter

Houlsby等人发现，对于一个预训练好的BERT，只需要在Transformer的每一层插入一个如下图所示的适配器（Adapter），就能在不改变模型主干参数的情况下将模型适配到各种下游任务， 「甚至能够取得接近整个模型微调的表现」。适配器主要包含一个LayerNorm层，用于重新调节原始特征的尺度，接着是分别是一个降采样层和一个升采样层对特征进行压缩和还原，最后由一个残差连接保证原始特征依然能通过，从而提升Adapter训练时的稳定性。

Adapter

MetaAdapter

MetaAdapter在结构上与Adapter完全一致，唯一不同的是，我们使用MAML（Model-Agnostic Meta-Learning）[3] 元学习算法来学习一个Adapter更优的 「初始化」。MetaAdapter需要通过学习如何学习多种源语言，从而在各种语言中收集隐含的共享信息，从而来帮助它学习一个新的语言。

我们在实验中发现，MetaAdapter对于过拟合和极少数据量的鲁棒性、以及最终迁移效果均显著强于原始Adapter。

MetaAdapter

SimAdapter

如果说MetaAdapter需要通过收集「隐含」的共享信息来学习新的语言，那么SimAdapter则是 「显式」地要求模型去建模各种语言的相似度关系，从而更好的学习目标语言，其结构如下图所示。我们认为多语言模型的原始特征是相对语言无关的，那么如果使用这些特征作为Query，将各语言Adapter（包括目标语言）输出的语言强相关特征作为Key和Value，那么就能通过构造注意力机制，从目标语言和源语言中分别提取一些有效信息，作为更好的目标语言特征。

SimAdapter

3 实验

由于篇幅限制，我们这里仅展示一下主要结果和我们认为比较有趣的结论，消融实验以及更多实验细节请参考原论文。

主要结果

我们在Common Voice的五种低资源语言上进行了实验，结果如下表所示。根据迁移与否以及迁移方式的不同，我们将各种方法分为3类：

我们采用了两种平均方式来反应模型的不同能力：

主要结果

由结果可以看出：

二阶段训练法

SimAdapter真的有在学习建模语言相似度

为了证明SimAdapter真的能够从其他语言学习到有用的知识，我们设计了两个实验：

在第一个实验中，我们尝试去除掉目标语言本身的Adapter，以要求SimAdapter仅通过源语言来学习一个对目标语言有用的特征，结果如下表所示。我们可以发现，「即使没有使用目标语言Adapter，SimAdapter依然能够在多数语言上取得较明显的提升」。

SimAdapter消融实验

在第二个实验中，我们在乌克兰语上训练两个不同的SimAdapter模型，以分析不同源语言的贡献。具体来说，我们分别选择了意大利语和俄语作为源语言。由于俄语和乌克兰语比意大利语更相似，使用俄语Adapter共同训练的SimAdapter应当获得更多收益。结果与我们的期望相符。我们观察到，使用意大利语Adapter的SimAdapter的词错误率为48.70，而使用俄语Adapter的词错误率仅为47.73，这表明相比意大利语，SimAdapter可以从俄语中学习更多的有用知识来建模乌克兰语。

4 总结

References

[1] Baevski A, Zhou H, Mohamed A, et al. wav2vec 2.0: A framework for self-supervised learning of speech representations[J]. arXiv preprint arXiv:2006.11477, 2020.

[2] N. Houlsby, A. Giurgiu, S. Jastrzebski, B. Morrone, Q. De Laroussilhe, A. Gesmundo, M. Attariyan, and S. Gelly, “Parameter-efficient transfer learning for nlp,” in International Conference on Machine Learning. PMLR, 2019, pp. 2790–2799.

[3] Finn C, Abbeel P, Levine S. Model-agnostic meta-learning for fast adaptation of deep networks[C]//International Conference on Machine Learning. PMLR, 2017: 1126-1135.

GAIR 2021大会首日：18位Fellow的40年AI岁月，一场技术前沿的传承与激辩

2021-12-10

致敬传奇：中国并行处理四十年，他们从无人区探索走到计算的黄金时代 | GAIR 2021

2021-12-09

时间的力量——1991 人工智能大辩论 30 周年纪念：主义不再，共融互生｜GAIR 2021

2021-12-12

未来已来，元宇宙比你想象中来得更早丨GAIR 2021

2021-12-12

二分之一王子txt下载 http://www.cityruyi.com/lm-4/lm-1/17034.html

免责声明：本站所有信息均搜集自互联网，并不代表本站观点，本站不对其真实合法性负责。如有信息侵犯了您的权益，请告知，本站将立刻处理。联系QQ：1640731186