admin 管理员组文章数量: 887006
transformer论文及其变种
文章目录
- transformer
- 模型细节
- slf-attn & multi-head attn
- abs position
- why slf-attn
- ASR相关工作
- transducer
- conformer
- abstract
- model arch
- transformer-XL
- Informer
- 细节
- probSparse slf-attn
- Longformer
- 细节
- GPT-generative pre-train
- 模型结构
- 下游任务:fine-tuning
- swin transformer
transformer的九种变种
transformer
- motivation:序列映射的任务,常规是基于encoder-attention-decoder来完成的,基于CNN-RNN的结构。本文使用attention,用于机器翻译的任务。
模型细节
slf-attn & multi-head attn
- encoder:对于所有K,Q和V是来自于同样的地方;因此可以attend到encoder输入的所有位置;
- decoder:Q来自于previous decoder layer,K和V来自于encoder output。为了保证自回归的有效性,需要在attention中mask掉无效的连接。
d k \sqrt[]{d_k} dk 是为了防止梯度爆炸
- 不同的head关注不同的细节;同时,拆分维度,降低计算复杂度;
abs position
why slf-attn
- 常规来说,n<<d (输入序列长度远小于隐层特征维度)。而且,可以通过限制attention span 约束计算量。
- long-range dependence model
- 并行化
ASR相关工作
transducer
conformer
abstract
- interspeech2020, google
- motivation:在语音识别领域,将transformer global-model的能力和CNN location-model的能力结合。
- 常规CNN只能通过多层堆叠增大感知野;
model arch
transformer-XL
transformer-XL论文解读
- motivation
- (1) tranformer中,将长句子切分成定长的序列输入,在切分的过程中,打破了句子的前后依赖关系;因此transformer-XL将上一句计算的隐状态保留下来,和下一句计算初始化状态拼接;---- 保留了前后依赖性;
- (2)abs-position修改为relative position
- 结果:比RNN的长时建模能力提升80%,比transformer的长时建模能力提升450%
Informer
- 2021AAAI best paper,论文讲解
- ProbSparse Self-Attention,可以在时间复杂度和内存使用方面达到,并具在序列的依赖对齐上有相当的性能。
- Self-Attention蒸馏将级联层的输入减半,突出了主要注意力,并可以有效处理超长输入序列。
- 生成型Decoder一次性预测一系列的序列,而不是一步一步预测,这彻底的提高了长序列推理速度。
细节
probSparse slf-attn
- 首先发现,只有少部分数据对attn的贡献比较大--------attn的长尾问题;
- attn的计算公式可知,Q*K是找到比较重要的(q,k)pair。-----处于attn的头部。
- 计算p分布和高斯分布的KL距离,距离越近,说明q越不重要。
- Q是稀疏矩阵,依赖对长尾问题的理解,简化了attention 计算的复杂度。
Longformer
- 解决slf-attn随着序列长度的增加,计算量爆炸的问题(限制了更长序列的建模)
- 论文解读
细节
(b) slide window attention:每个token的attention span=w,前后各看 1 / 2 w 1/2w 1/2w个token。一个拥有𝑚层的transformer,它在最上层的感受野尺寸为 m ∗ w m*w m∗w。
(c) dilated sliding window:在进行Self-Attention的两个相邻token之间会存在大小为𝑑的间隙,这样序列中的每个token的感受野范围可扩展到𝑑×𝑤。在第𝑚层,感受野的范围将是𝑚×𝑑×𝑤。
(d) global+sliding window:针对特定的任务进一步的完善。设定某些位置的token能够看见全部的token,同时其他的所有token也能看见这些位置的token,相当于是将这些位置的token”暴露”在最外面。例如对于分类任务,这个带有全局视角的token是”CLS”。Global+Sliding Window这里涉及到两种Attention,Longformer中分别将这两种Attention映射到了两个独立的空间。两组对应的Q/K/V计算。
GPT-generative pre-train
- motivation:充分利用大量未标注的原始文本数据,分为两个阶段:(1)pre-training阶段:使用无标签的数据,输入n个词,预测下一个词。因为是word-level的,因此GPT学习了一个语言模型;(2)fine-tuning阶段,针对具体的任务和少量的标注数据,对参数进行微调。
- 优点:模型更强大,普适性更强(针对所有任务微调相同的基本模型);
- 缺点:建立的语言模型是单向的
模型结构
- 去掉encoder,只有decoder的transformer,而且decoder中没有multi-head attn,只有masked multi-head attn。——在attention矩阵中,对预测词及之后的词进行mask。表现为一个上三角都是-inf的mask矩阵。
下游任务:fine-tuning
swin transformer
- 在图像领域,解决transformer计算量过大的问题
本文标签: transformer论文及其变种
版权声明:本文标题:transformer论文及其变种 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.freenas.com.cn/jishu/1732357575h1534878.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论