transformer论文及其变种-FreeNAS中文网

admin 管理员组

文章数量: 887006

transformer论文及其变种

文章目录

transformer
- 模型细节
- - slf-attn & multi-head attn
  - abs position
  - why slf-attn
ASR相关工作
- transducer
- conformer
- - abstract
  - model arch
transformer-XL
Informer
- 细节
- probSparse slf-attn
Longformer
- 细节
GPT-generative pre-train
- 模型结构
- 下游任务：fine-tuning
swin transformer

transformer的九种变种

transformer

motivation：序列映射的任务，常规是基于encoder-attention-decoder来完成的，基于CNN-RNN的结构。本文使用attention，用于机器翻译的任务。

模型细节

slf-attn & multi-head attn

encoder：对于所有K，Q和V是来自于同样的地方；因此可以attend到encoder输入的所有位置；
decoder：Q来自于previous decoder layer，K和V来自于encoder output。为了保证自回归的有效性，需要在attention中mask掉无效的连接。

d k \sqrt[]{d_k} dk 是为了防止梯度爆炸
不同的head关注不同的细节；同时，拆分维度，降低计算复杂度；

abs position

why slf-attn

常规来说，n<<d (输入序列长度远小于隐层特征维度）。而且，可以通过限制attention span 约束计算量。
long-range dependence model
并行化

ASR相关工作

transducer

conformer

abstract

interspeech2020, google
motivation:在语音识别领域，将transformer global-model的能力和CNN location-model的能力结合。
常规CNN只能通过多层堆叠增大感知野；

model arch

transformer-XL

transformer-XL论文解读

motivation
(1) tranformer中，将长句子切分成定长的序列输入，在切分的过程中，打破了句子的前后依赖关系；因此transformer-XL将上一句计算的隐状态保留下来，和下一句计算初始化状态拼接；---- 保留了前后依赖性；
（2）abs-position修改为relative position

结果：比RNN的长时建模能力提升80%，比transformer的长时建模能力提升450%

Informer

2021AAAI best paper,论文讲解
ProbSparse Self-Attention，可以在时间复杂度和内存使用方面达到，并具在序列的依赖对齐上有相当的性能。
Self-Attention蒸馏将级联层的输入减半，突出了主要注意力，并可以有效处理超长输入序列。
生成型Decoder一次性预测一系列的序列，而不是一步一步预测，这彻底的提高了长序列推理速度。

细节

probSparse slf-attn

首先发现，只有少部分数据对attn的贡献比较大--------attn的长尾问题；
attn的计算公式可知，Q*K是找到比较重要的（q,k)pair。-----处于attn的头部。
计算p分布和高斯分布的KL距离，距离越近，说明q越不重要。
Q是稀疏矩阵，依赖对长尾问题的理解，简化了attention 计算的复杂度。

Longformer

解决slf-attn随着序列长度的增加，计算量爆炸的问题（限制了更长序列的建模）
论文解读

细节

（b） slide window attention：每个token的attention span=w，前后各看 1 / 2 w 1/2w 1/2w个token。一个拥有𝑚层的transformer，它在最上层的感受野尺寸为 m ∗ w m*w m∗w。

（c） dilated sliding window：在进行Self-Attention的两个相邻token之间会存在大小为𝑑的间隙，这样序列中的每个token的感受野范围可扩展到𝑑×𝑤。在第𝑚层，感受野的范围将是𝑚×𝑑×𝑤。
（d） global+sliding window：针对特定的任务进一步的完善。设定某些位置的token能够看见全部的token，同时其他的所有token也能看见这些位置的token，相当于是将这些位置的token”暴露”在最外面。例如对于分类任务，这个带有全局视角的token是”CLS”。Global+Sliding Window这里涉及到两种Attention，Longformer中分别将这两种Attention映射到了两个独立的空间。两组对应的Q/K/V计算。

GPT-generative pre-train

motivation：充分利用大量未标注的原始文本数据，分为两个阶段：（1）pre-training阶段：使用无标签的数据，输入n个词，预测下一个词。因为是word-level的，因此GPT学习了一个语言模型；（2）fine-tuning阶段，针对具体的任务和少量的标注数据，对参数进行微调。
优点：模型更强大，普适性更强（针对所有任务微调相同的基本模型）；
缺点：建立的语言模型是单向的

模型结构

去掉encoder，只有decoder的transformer，而且decoder中没有multi-head attn，只有masked multi-head attn。——在attention矩阵中，对预测词及之后的词进行mask。表现为一个上三角都是-inf的mask矩阵。

下游任务：fine-tuning

swin transformer

在图像领域，解决transformer计算量过大的问题

本文标签： transformer论文及其变种

版权声明：本文标题：transformer论文及其变种内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1732357575h1534878.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

技术交流 – FreeNAS中文网

transformer论文及其变种

transformer论文及其变种

文章目录

transformer

模型细节

slf-attn & multi-head attn

abs position

why slf-attn

ASR相关工作

transducer

conformer

abstract

model arch

transformer-XL

Informer

细节

probSparse slf-attn

Longformer

细节

GPT-generative pre-train

模型结构

下游任务：fine-tuning

swin transformer

更多相关文章

transformer论文及其变种

发表评论

推荐文章

windows下将dmg文件写入u盘_便携式U盘系统

智能指针管理通过new创建的对象

【前端学习笔记 HTML】案例02

飞儿乐队

STEP7 V5.6中文版下载

热门文章

雷赛运动卡的两种输出方式的简单介绍

如何装作自己是编程大师

huggingfacetransformers快速上手

莫忽视：近视对孩子的危害

php控制台读取数据库信息,php

2022年道路运输企业安全生产管理人员操作证考试题及在线模拟考试

正版windows系统可以重装系统吗

电脑开机速度慢怎么解决？

Windows server 2012 R2 搭建DHCP服务

腾讯、百度、讯飞 语音识别

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

[转]笔记本电脑处理器(CPU)性能排行榜

project安装包的下载和安装教程

测试模式 windows2008 内部版本7601

如何区分自己的windows系统是正版还是盗版 ？从零基础到精通，收藏这篇就够了！

windows下查看系统证书（一）

腾讯、百度、讯飞语音识别

如何区分自己的windows系统是正版还是盗版？从零基础到精通，收藏这篇就够了！