基于Adapter结构进行高参数效率的跨语言迁移学习
基于Adapter结构进行高参数效率的跨语言迁移学习
本文作者:侯汶昕(东京工业大学硕士、现微软算法工程师, 知乎@Harold)
论文链接 :https://arxiv.org/abs/2105.11905
代码地址:https://github.com/jindongwang/transferlearning/tree/master/code/ASR/Adapter
本文作者:侯汶昕(东京工业大学硕士、现微软算法工程师, 知乎@Harold)
论文链接 :https://arxiv.org/abs/2105.11905
代码地址:https://github.com/jindongwang/transferlearning/tree/master/code/ASR/Adapter
1 背景介绍
给定若干源语言,我们要如何将知识迁移到目标语言上?
但与此同时,我们也发现了两个新的问题:
因此,受到Houlsby等人提出的 「Adapter」的启发 [2],我们决定尝试使用Adapter来解决这个问题。
2 方法介绍
本节中我们会依次介绍我们使用的主干模型以及整体结构,原始版本的Adapter,我们提出的MetaAdapter和SimAdapter。
主干模型以及整体结构
本文中我们使用了自己预训练的多语言模型进行实验,当然我们的方法也可以用于wav2vec2.0等模型上。具体来说,我们的模型基于Transformer的结构,主要包含12层Encoder以及6层Decoder模型,我们结合了11种语料(包含42种语言,总时长约5,000小时)对模型进行预训练。我们采用了CTC-Attention混合损失函数来提升训练的稳定性和加速训练,即在Encoder的输出特征上增加CTC层,使用CTC损失进行约束。
主干模型
我们将Adapter放在前馈层(Feed-Forward Networks)后面,从而对每一层的输出的特征进行调节。
什么是Adapter
Houlsby等人发现,对于一个预训练好的BERT,只需要在Transformer的每一层插入一个如下图所示的适配器(Adapter),就能在不改变模型主干参数的情况下将模型适配到各种下游任务, 「甚至能够取得接近整个模型微调的表现」。适配器主要包含一个LayerNorm层,用于重新调节原始特征的尺度,接着是分别是一个降采样层和一个升采样层对特征进行压缩和还原,最后由一个残差连接保证原始特征依然能通过,从而提升Adapter训练时的稳定性。
Adapter
MetaAdapter
MetaAdapter在结构上与Adapter完全一致,唯一不同的是,我们使用MAML(Model-Agnostic Meta-Learning)[3] 元学习算法来学习一个Adapter更优的 「初始化」。MetaAdapter需要通过学习如何学习多种源语言,从而在各种语言中收集隐含的共享信息,从而来帮助它学习一个新的语言。
我们在实验中发现,MetaAdapter对于过拟合和极少数据量的鲁棒性、以及最终迁移效果均显著强于原始Adapter。
MetaAdapter
SimAdapter
如果说MetaAdapter需要通过收集 「隐含」的共享信息来学习新的语言,那么SimAdapter则是 「显式」地要求模型去建模各种语言的相似度关系,从而更好的学习目标语言,其结构如下图所示。我们认为多语言模型的原始特征是相对语言无关的,那么如果使用这些特征作为Query,将各语言Adapter(包括目标语言)输出的语言强相关特征作为Key和Value,那么就能通过构造注意力机制,从目标语言和源语言中分别提取一些有效信息,作为更好的目标语言特征。
SimAdapter
3 实验
由于篇幅限制,我们这里仅展示一下主要结果和我们认为比较有趣的结论,消融实验以及更多实验细节请参考原论文。
主要结果
我们在Common Voice的五种低资源语言上进行了实验,结果如下表所示。根据迁移与否以及迁移方式的不同,我们将各种方法分为3类:
我们采用了两种平均方式来反应模型的不同能力:
主要结果
由结果可以看出:
二阶段训练法
SimAdapter真的有在学习建模语言相似度
为了证明SimAdapter真的能够从其他语言学习到有用的知识,我们设计了两个实验:
在第一个实验中,我们尝试去除掉目标语言本身的Adapter,以要求SimAdapter仅通过源语言来学习一个对目标语言有用的特征,结果如下表所示。我们可以发现,「即使没有使用目标语言Adapter,SimAdapter依然能够在多数语言上取得较明显的提升」。
SimAdapter消融实验
在第二个实验中,我们在乌克兰语上训练两个不同的SimAdapter模型,以分析不同源语言的贡献。具体来说,我们分别选择了意大利语和俄语作为源语言。由于俄语和乌克兰语比意大利语更相似,使用俄语Adapter共同训练的SimAdapter应当获得更多收益。结果与我们的期望相符。我们观察到,使用意大利语Adapter的SimAdapter的词错误率为48.70,而使用俄语Adapter的词错误率仅为47.73,这表明相比意大利语,SimAdapter可以从俄语中学习更多的有用知识来建模乌克兰语。
4 总结
References
[1] Baevski A, Zhou H, Mohamed A, et al. wav2vec 2.0: A framework for self-supervised learning of speech representations[J]. arXiv preprint arXiv:2006.11477, 2020.
[2] N. Houlsby, A. Giurgiu, S. Jastrzebski, B. Morrone, Q. De Laroussilhe, A. Gesmundo, M. Attariyan, and S. Gelly, “Parameter-efficient transfer learning for nlp,” in International Conference on Machine Learning. PMLR, 2019, pp. 2790–2799.
[3] Finn C, Abbeel P, Levine S. Model-agnostic meta-learning for fast adaptation of deep networks[C]//International Conference on Machine Learning. PMLR, 2017: 1126-1135.
GAIR 2021大会首日:18位Fellow的40年AI岁月,一场技术前沿的传承与激辩
2021-12-10
致敬传奇:中国并行处理四十年,他们从无人区探索走到计算的黄金时代 | GAIR 2021
2021-12-09
时间的力量——1991 人工智能大辩论 30 周年纪念:主义不再,共融互生|GAIR 2021
2021-12-12
未来已来,元宇宙比你想象中来得更早丨GAIR 2021
2021-12-12
二分之一王子txt下载 http://www.cityruyi.com/lm-4/lm-1/17034.html- 标签:婴儿取名
- 编辑:王智
- 相关文章
-
基于Adapter结构进行高参数效率的跨语言迁移学习
基于Adapter结构进行高参数效率的跨语言迁移学习 本文作者:侯汶昕(东京工业大学硕士、现微软算法工程师, 知乎@Harold) …
-
华为P50 Pocket、华为Mate X2、OPPO Find N,折叠屏手机到底咋选
终结者3高清完整版 http://www.cityruyi.com/lm-4/lm-1/18915.html…
- 荣耀60系列推出七大功能提供全方位防护;微信无需登录可传输文件
- 小米无线车充Pro发布;吉利中型SUV豪越新增车型上市
- 本田全新奥德赛上市;福特Mach-E交付;小米零冷水燃气热水器发布
- 华为商城再次上架5G新机,4000万三摄+40W+8GB,首销只要2249元
- 比华为便宜1万元,国产新旗舰首销爆火,5分钟被抢购一空