admin 管理员组

文章数量: 887007

【ACL 2021】《 DeCLUTR: Deep Contrastive Learning for Unsupervised Textual Representations》

【ACL 2021】《 DeCLUTR: Deep Contrastive Learning for Unsupervised Textual Representations》阅读笔记

英文标题:DeCLUTR: Deep Contrastive Learning for Unsupervised Textual
Representations
中文翻译:DeCLUTR:无监督文本表示的深度对比学习
原文链接: .03659.pdf

文章目录

  • Abstract
  • 一、Introduction
  • 二. Related work & Method
  • 三.Experiment
  • 四. Conclusion


Abstract

本文的任务无监督文本的表示方法深度对比学习

句子向量的嵌入表示是许多自然语言处理(NLP)系统的一个重要组成部分。
与单词嵌入相同点: 句子嵌入表示通常在大型文本语料库上学习,然后转移到各种下游任务中,如聚类和检索。
与单词嵌入不同点: 学习句子嵌入的最高性能的解决方案需要标签数据,这将它们的有效性限制在标签数据丰富的语言和领域中。

在本文中,作者设计了一个自监督的目标,无需带标签的数据就可以学习通用的句子嵌入的方法。
当用基于transformer的语言模型的预训练时,我们的方法缩小了通用句子编码器的无监督和监督预训练之间的性能差距。重要的是,我们的实验表明,学习嵌入的质量与可训练参数的数量和未标记训练数据的数量正相关。我们的代码和预先训练的模型是公开的,可以很容易地适应新的域或用于嵌入unseen的文本。

一、Introduction

基于预训练transformer的语言模型已成为学习未标记语料库文本表示的主要方法。这一成功主要是由masked语言建模(MLM)驱动的。这个自监督的token级目标,要求模型从输入序列中预测一些随机掩蔽的token的身份。除了MLM之外,其中一些模型还具有通过自监督来学习句子级嵌入的机制。

作者主要借鉴了度量学习是一种表示学习,目的是学习嵌入空间,其中相似数据的向量表示紧密映射在一起,反之亦然。在计算机视觉(CV)中,深度度量学习(DML)被广泛应用于学习视觉表示,一般来说,

DML的处理如下:一个“pretext”任务(通常是自监督的,例如。颜色化或内画)被精心设计,用于训练深度神经网络,以生成有用的特征表示。在这里,“有用”是指容易适应其他下游训练时未知的任务。下游任务(例如。物体识别)然后被用来评估学习到的特征的质量(独立于产生这些特征的模型),通常是通过使用这些特征作为输入在任务上训练一个线性分类器。迄今为止,最成功的方法是设计一个基于配对的对比损失函数的pretext任务。对于给定的锚数据点(achor data),对比损失,使achor与一些postive的数据点(相似数据点)之间的距离小于achor与其他节点之间的距离。

通过随机扩充相同的图像来生成achor-postive 对是目前生成相关数据点(不同的数据点)性能最高的方法。(利用crops、翻转和颜色扭曲);
随机选择achor-negetive对,获得不同图像的增强视图。
受这种方法的启发,我们提出了一个自监督的,对比的目标,可以用于预先训练一个句子编码器。我们的目标通过训练一个编码器来学习通用的句子嵌入,以最小化从同一文档中随机采样的文本段嵌入之间的距离。我们通过使用它来扩展基于transformer的语言模型的预训练来证明我们的目标的有效性
,并在SentEval上获得最先进的结果——一个旨在评估通用句子嵌入的28个任务的基准。我们的主要贡献是:

1.我们提出了一个自我监督的句子级目标,可以与MLM一起用于预训练基于transformer的语言模型,在没有任何标记数据的情况下生成句子和段落长度的文本的广义嵌入(第5.1小节)。

2、我们进行了广泛的注释,以确定哪些因素对学习高质量的嵌入很重要(第5.2小节)。

3。我们证明了学习嵌入的质量与模型和数据大小成正比。因此,很可能可以仅仅通过收集更多的未标记文本或使用更大的编码器来提高性能(第5.3节)。

4.我们开源我们的解决方案,并提供训练新数据或嵌入unseen文本的详细说明。

二. Related work & Method

自监督对比流程

我们的整体方法与句子级transformer最相似——我们扩展了基于transformer的语言模型的预训练,以生成有用的句子嵌入——但作者提出的目标是自监督的,以消除对标签数据的依赖,使我们能够利用大量的无标签文本,而不局限于标签数据丰富的语言或领域。

作者的目标最接近于“快速思维“”的思想;区别是放宽了抽样文本段的长度,最高为整个文本(而不是自然句子),我们对每个achor采样一个或多个postive样例段(而不是严格的),我们允许这些段相邻、重叠或包含(如下图所示)。

上图自监督对比的流程与目标概述:

(A)首先每个文档d都属于大小为N的minibatch,我们每个文档采样A个achor spans(锚片段),每个achor spans采样P个postive spans(正样本)。为了简单起见,作者说明了一个A=P=1的例子,并表示anchor–postive span对为si,sj的情况。两个span通过相同的编码器f和池化层g生成相应的嵌入件ej=g(f(si)),ej=g(f(sj))。编码器和池化层训练后,通过对比预测任务,最小化嵌入之间的距离,以达到对比学习正例的目标,其中其他嵌入被视为负样例,以达到负样例曾倩的作用。

(B)postive span可以与采样anchor span重叠,相邻或包含。

©anchor和postive的长度从测试分布中随机采样,分别偏向于较长和较短的跨度

自监督对比损失计算
我们的方法通过最大化从同一文档中采样的文本部分(论文其余部分的“跨度”)之间的一致性,通过对比损失来学习文本表示。如图1所示,该方法包括以下组件:数据加载步骤从大小为N的小批的每个文档中随机采样成对的achor-postive span。设A是每个文档采样的achor span的数量,P是每个achor采样的postive span数,i∈{1…AN}可以作为任意achor span的索引(因为N个文档每个文档A个achor span 正好是AN个)。我们表示一个achor span及其相应的p∈{1…P)个postive spans分别为si和si+pAN。该程序设计为最大限度地采样语义相似的achor-postive 对的机会。

编码器f(·)将输入span中的每个token映射到嵌入。虽然我们的方法对编码器的选择没有任何限制,但我们选择了f(·)作为一个基于transformer的语言模型,因为这代表了文本编码器的最新技术。池化层将f(si)以及f(si+PAN)映射成固定的平均长度嵌入,并采用的是平均池化。公式如下

为对比预测任务定义的对比损失函数。给定一组嵌入span(ek),包括一对正的例子ei和ei+AN,对比预测任务的目的是在给定的ek为已经给出的ei识别出ei+AN

其中sim(u,v)表示两个向量u和v的余弦相似性,1[i=k]∈{0,1}是一个指示函数,如果i=k则计算为1,而τ>0表示温度超参数。
在训练过程中,我们从训练集中随机抽取N个文档的小批量样本,并定义了来自N个文档的achor-postive对ei,ei+AN上的对比预测任务,从而得到2个AN数据点(这块有点不理解)。正如在(Sohn,2016)中提出的那样,我们将一个小批中的其他2个(AN−1)实例视为负面的例子。成本函数采用以下形式:

采样方法
我们首先选择最小和最大跨度长度;在本文中,min=32 和`max=512,这是许多预训练过的变压器的最大输入大小。接下来,一个文档d被token化以生成n个token的序列 xd=(x1,x2…xn)。为了从xd中采样一个achor span 为si,我们首先从一个beta分布中采样它的长度l achor,然后随机(均匀地)采样其起始位置的开始


持续引入MLM进行预训练
我们使用我们的目标来扩展基于转换器的语言模型的预训练(Vaswani等人,2017),因为这代表了NLP中最先进的编码器。我们在一个小批的每个achor span上实现了(Devlin等人,2019)中描述的MLM目标,并在反向传播之前综合了MLM和对比目标的损失:

这与现有的训练前策略类似,即MLM损失与句子级的对比损失相加,如NSP(Devlin等人,2019)或SOP(Lan等人,2020)。为了使计算需求可行,我们不从头开始训练,而是继续训练一个已经使用MLM目标预先训练过的模型。具体地说,我们在实验中同时使用了RoBERTa(刘等,2019)和DistilReRBERTa(Sanh等,2019)(RoBERTa的蒸馏版)。在本文的其余部分中,我们将我们的方法称为DeCLUTR

三.Experiment

详见论文,非常详实的实验内容

四. Conclusion

在本文中,作者提出了一个学习通用句子嵌入的自监督目标。不需要带标数据,并适用于任何文本编码器。我们通过评估句子基准上的学习嵌入,证明了我们的目标的有效性,其中包含了总共28个任务,旨在评估句子表示的可转移性和语言属性。当用于扩展基于转换器的语言模型的预训练时,我们的自监督目标缩小了与需要人工标记训练数据的现有方法的性能差距。实验表明,通过增加模型和训练集的大小,可以进一步提高学习嵌入的质量。总之,这些结果证明了用精心设计的自监督目标将手工标记的数据替换为学习通用句子嵌入的有效性和可行性。我们公开发布了我们的模型和代码,希望它能扩展到新的领域和非英语语言

自己理解:这篇文章我部分地方还是有疑问(采样部分),大体思路还是基于度量的深度对比学习,并且对比学习的过程是自监督的,可以引入大量的无标的数据,并在预训练与MLM的时候结合,得到一个损失函数,最终可以生成一个文本的通用嵌入,并且效果非常好。

本文标签: ACL 2021《 DeCLUTR Deep Contrastive Learning for Unsupervised Textual Representations》