您的位置  油气能源  非常规气

基于Adapter结构进行高参数效率的跨语言迁移学习

  • 来源:互联网
  • |
  • 2021-12-28
  • |
  • 0 条评论
  • |
  • |
  • T小字 T大字

基于Adapter结构进行高参数效率的跨语言迁移学习

  • 本文作者:侯汶昕(东京工业大学硕士、现微软算法工程师, 知乎@Harold)

  • 论文链接 :https://arxiv.org/abs/2105.11905

  • 代码地址:https://github.com/jindongwang/transferlearning/tree/master/code/ASR/Adapter

本文作者:侯汶昕(东京工业大学硕士、现微软算法工程师, 知乎@Harold)

论文链接 :https://arxiv.org/abs/2105.11905

代码地址:https://github.com/jindongwang/transferlearning/tree/master/code/ASR/Adapter

1 背景介绍

给定若干源语言,我们要如何将知识迁移到目标语言上?

但与此同时,我们也发现了两个新的问题:

因此,受到Houlsby等人提出的 「Adapter」的启发 [2],我们决定尝试使用Adapter来解决这个问题。

2 方法介绍

本节中我们会依次介绍我们使用的主干模型以及整体结构,原始版本的Adapter,我们提出的MetaAdapter和SimAdapter。

主干模型以及整体结构

本文中我们使用了自己预训练的多语言模型进行实验,当然我们的方法也可以用于wav2vec2.0等模型上。具体来说,我们的模型基于Transformer的结构,主要包含12层Encoder以及6层Decoder模型,我们结合了11种语料(包含42种语言,总时长约5,000小时)对模型进行预训练。我们采用了CTC-Attention混合损失函数来提升训练的稳定性和加速训练,即在Encoder的输出特征上增加CTC层,使用CTC损失进行约束。

主干模型

我们将Adapter放在前馈层(Feed-Forward Networks)后面,从而对每一层的输出的特征进行调节。

什么是Adapter

Houlsby等人发现,对于一个预训练好的BERT,只需要在Transformer的每一层插入一个如下图所示的适配器(Adapter),就能在不改变模型主干参数的情况下将模型适配到各种下游任务, 「甚至能够取得接近整个模型微调的表现」。适配器主要包含一个LayerNorm层,用于重新调节原始特征的尺度,接着是分别是一个降采样层和一个升采样层对特征进行压缩和还原,最后由一个残差连接保证原始特征依然能通过,从而提升Adapter训练时的稳定性。

Adapter

MetaAdapter

MetaAdapter在结构上与Adapter完全一致,唯一不同的是,我们使用MAML(Model-Agnostic Meta-Learning)[3] 元学习算法来学习一个Adapter更优的 「初始化」。MetaAdapter需要通过学习如何学习多种源语言,从而在各种语言中收集隐含的共享信息,从而来帮助它学习一个新的语言。

我们在实验中发现,MetaAdapter对于过拟合和极少数据量的鲁棒性、以及最终迁移效果均显著强于原始Adapter。

MetaAdapter

SimAdapter

如果说MetaAdapter需要通过收集 隐含」的共享信息来学习新的语言,那么SimAdapter则是 「显式」地要求模型去建模各种语言的相似度关系,从而更好的学习目标语言,其结构如下图所示。我们认为多语言模型的原始特征是相对语言无关的,那么如果使用这些特征作为Query,将各语言Adapter(包括目标语言)输出的语言强相关特征作为Key和Value,那么就能通过构造注意力机制,从目标语言和源语言中分别提取一些有效信息,作为更好的目标语言特征。

SimAdapter

3 实验

由于篇幅限制,我们这里仅展示一下主要结果和我们认为比较有趣的结论,消融实验以及更多实验细节请参考原论文。

主要结果

我们在Common Voice的五种低资源语言上进行了实验,结果如下表所示。根据迁移与否以及迁移方式的不同,我们将各种方法分为3类:

我们采用了两种平均方式来反应模型的不同能力:

主要结果

由结果可以看出:

二阶段训练法

SimAdapter真的有在学习建模语言相似度

为了证明SimAdapter真的能够从其他语言学习到有用的知识,我们设计了两个实验:

在第一个实验中,我们尝试去除掉目标语言本身的Adapter,以要求SimAdapter仅通过源语言来学习一个对目标语言有用的特征,结果如下表所示。我们可以发现,「即使没有使用目标语言Adapter,SimAdapter依然能够在多数语言上取得较明显的提升」。

SimAdapter消融实验

在第二个实验中,我们在乌克兰语上训练两个不同的SimAdapter模型,以分析不同源语言的贡献。具体来说,我们分别选择了意大利语和俄语作为源语言。由于俄语和乌克兰语比意大利语更相似,使用俄语Adapter共同训练的SimAdapter应当获得更多收益。结果与我们的期望相符。我们观察到,使用意大利语Adapter的SimAdapter的词错误率为48.70,而使用俄语Adapter的词错误率仅为47.73,这表明相比意大利语,SimAdapter可以从俄语中学习更多的有用知识来建模乌克兰语。

4 总结

References

[1] Baevski A, Zhou H, Mohamed A, et al. wav2vec 2.0: A framework for self-supervised learning of speech representations[J]. arXiv preprint arXiv:2006.11477, 2020.

[2] N. Houlsby, A. Giurgiu, S. Jastrzebski, B. Morrone, Q. De Laroussilhe, A. Gesmundo, M. Attariyan, and S. Gelly, “Parameter-efficient transfer learning for nlp,” in International Conference on Machine Learning. PMLR, 2019, pp. 2790–2799.

[3] Finn C, Abbeel P, Levine S. Model-agnostic meta-learning for fast adaptation of deep networks[C]//International Conference on Machine Learning. PMLR, 2017: 1126-1135.

GAIR 2021大会首日:18位Fellow的40年AI岁月,一场技术前沿的传承与激辩

2021-12-10

致敬传奇:中国并行处理四十年,他们从无人区探索走到计算的黄金时代 | GAIR 2021

2021-12-09

时间的力量——1991 人工智能大辩论 30 周年纪念:主义不再,共融互生|GAIR 2021

2021-12-12

未来已来,元宇宙比你想象中来得更早丨GAIR 2021

2021-12-12

二分之一王子txt下载 http://www.cityruyi.com/lm-4/lm-1/17034.html
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186