您的位置 油气能源非常规气

今晚6点EMNLP2021 阿里巴巴论文分享会 | 直播预告

喜欢

来源：互联网
|
2021-11-12
|
0 条评论
|
我要分享
|
T小字　 T大字

今晚6点EMNLP2021 阿里巴巴论文分享会 | 直播预告主题

EMNLP2021 阿里巴巴论文分享会

时间

11月11日 18:00

分享概要

分享嘉宾1：罗福莉阿里集团-达摩院-机器智能技术-自然语言智能-自然语言基础技术

分享主题：自 BERT提出以来，预训练模型的参数量从最开始的3亿，逐渐攀升到了GPT-2的15亿，再到火出NLP圈的1750亿参数的GPT-3。一方面模型越来越大，但另一方面，下游任务的标注数据量有些情况下却很少。如果直接将“大”模型在下游“小”数据上进行标准的Fine-tune，将模型迁移到目标任务中去，往往容易出现过拟合的现象，导致模型在下游任务中的表现差、不稳定、泛化性能差等现象，从而影响我们对于预训练模型的使用。因此，越来越多工作开始聚焦于如何解决这种不匹配现象，缓解大规模预训练模型在下游任务中的过拟合。

本文介绍的 Child-Tuning围绕这个问题进行探究，从backward参数更新的角度思考问题，提出一种新的Fine-tuning策略，在Fine-tuning过程中仅更新对应的Child Network，在不同下游任务中相比传统Fine-tuning有明显提高，如基于BERT模型在四个不同数据集中平均带来1.5个点的提升，在ELETRA上甚至提升8.6个点。

分享嘉宾2：刘澈阿里集团-达摩院-机器智能技术-自然语言智能-智能对话与服务技术

分享主题：DialogueCSE: Dialogue-Based Contrastive Learning of Sentence Embeddings

内容介绍：基于对话的句向量表示学习由于具有低标注成本和高领域适应性的优势而受到越来越多的关注。传统基于孪生网络的方法通过在孪生编码器之上应用前馈网络来对上下文和响应之间的语义相关性建模，进而获得句子嵌入。然而，由于在实际应用中，文本的语义相似性通常通过元素级的距离度量方法（例如余弦和 L2 距离）来衡量，因此这种方法带来了训练和评估之间的差异。

在本文中，我们提出了 DialogueCSE，它引入了对比学习来解决这个问题。DialogueCSE首先将上下文和响应之间的匹配关系通过一种名为匹配引导嵌入 (MGE) 的机制来转换成对比学习任务，进而通过最小化所有样本对的对比损失来学习上下文感知的句子表示。我们基于Microsoft Dialogue Corpus、Jing Dong Dialogue Corpus和E-Commerce Dialogue Corpus三个对话数据集来评估模型的效果。结果表明，DialogueCSE在语义检索和语义相似度两个任务上显著优于基线。进一步分析实验表明，DialogueCSE能够更加充分的利用多轮上下文信息，并且在few-shot learning的场景下保持稳健。

分享嘉宾3：张月阿里集团-达摩院-机器智能技术-自然语言智能-自然语言基础技术

分享主题：Entity Relation Extraction as Dependency Parsing in Visually Rich Documents

论文摘要：在富文本文档的信息抽取中，前人的工作主要研究语义实体标注任务，而实体关系抽取任务探索的较少。本文专注于 实体关系抽取任务，该任务旨在挖掘富文本文档中的语义实体之间的关系。

借鉴依存句法分析任务挖掘词语间句法关系的方法，我们将句法分析中的Biaffine模型应用在关系抽取任务中。相比于句法分析的纯文本输入，关系抽取任务的语义实体包含丰富的视觉信息，我们使用多种方法引入视觉信息。此外我们还将语义实体标注与实体关系抽取进行多任务学习，并采用数据增强来弥补标注数据规模小的问题。最终我们的模型在FUNSD数据上F1达到65.96%，并在现实场景中的海关报关数据上取得了良好的性能。

分享嘉宾4：王伟志阿里集团-达摩院-机器智能技术-自然语言智能-多模态翻译团队

分享主题：Rethinking Zero-shot Neural Machine Translation: From a Perspective of Latent Variables

论文摘要：零样本翻译是多语言神经机器翻译系统的一个极具前景的能力。然而，由于极大似然训练目标的存在，多语言翻译系统通常会捕获输出语言和通用语义之间的虚假相关，导致零样本翻译的语言迁移性能较差。

本文在传统的训练目标中引入了一种基于桥接语言的去噪自动编码目标，以提高零样本方向上的迁移精度。本文从隐变量的角度进行的理论分析表明，我们提出的方法实际上隐式地最大化了零样本方向的概率分布。在两个基准机器翻译数据集上，我们证明了所提出的方法能够有效地消除虚假相关，并且显著优于现有的方法，在MultiUN的六个零样本翻译方向上相较于当前SOTA方法平均提升4.2 BLEU。

活动流程

11月11日18:00-18:20

分享嘉宾：罗福莉

分享主题：Raise a Child in Large Language Model: Towards Effective and Generalizable Fine-tuning

18:20-18:40

分享嘉宾：刘澈

分享主题：DialogueCSE: Dialogue-Based Contrastive Learning of Sentence Embeddings

18:40-19:00

分享嘉宾：张月

分享主题：Entity Relation Extraction as Dependency Parsing in Visually Rich Documents

19:20-19:40

分享嘉宾：王伟志