文献阅读（20）NPE OPU-FreeNAS中文网

admin 管理员组

文章数量: 887007

文献阅读（20）NPE OPU

文章目录

1 introduction
2 整体架构
3 NVU架构
4 非线性单元的数量

题目：NPE: An FPGA-based Overlay Processor for Natural Language Processing
时间：2021
会议：FPGA
研究机构：UCLA

1 introduction

Motivation：

传统的DNN加速器能够加速的一个重要原因是计算位宽低，但transformer有很多非线性单元，数据精度更高，二者形成矛盾
针对transformer的定制化硬件加速性能好，但灵活性不够，满足不了算法变更的需求

本篇论文的主要贡献：

software-programmable domain-specific overlay processor，包括了矩阵乘法单元和多精度向量单元，其中softmax、layer norm、GELU都用向量单元来代替
利用分段多项式近似非线性单元

2 整体架构

MMU: matrix multiply unit
ICU: instruction control unit
MRU: memory read unit
MWU: memory write unit
NVU: nonlinear vector unit

3 NVU架构

NVU单元如图所示，包括了存储、计算和控制，本质上是SIMD结构，性能可以由VRWIDTH来描述，表示向量寄存器的宽度，如VRWIDTH=256表示32个8bit或者16个16bit数

4 非线性单元的数量

假定BERT的序列长度是512，一共2048个乘法器，如果流水起来，一个周期需要的非线性单元数量如下图所示

This builds on the analysis in Table 2, where we established that the worst-case throughput requirement for softmax is 32 elements per cycle to keep up with the MMU

如下图，矩阵乘完了是GELU，GELU后面是矩阵乘，然后再是Layer Norm，GELU卡在两个矩阵乘之间，速度必须跟矩阵单元的速度匹配，同理Layer Norm也是这样，但softmax还是有优化的空间的。

可以跟softmax overlap的操作有：

V i = X W v V_i = X W_v Vi=XWv
下一个head中的矩阵乘运算

优化后非线性单元数量可以节省很多，当然，BERT的输入序列长度会影响softmax的次数，却不改变乘法次数，所以会影响softmax单元的最低数量

throughput requirements of matrix multiplies in BERT do not depend on BERT network sequence length

同时根据Table2，因为softmax占据的计算比例比较低（5%），即使softmax没有match上也没事

If the NVU’s softmax computation cannot match MMU throughput, we may still only get a small inference time overhead

本文标签：文献阅读（20）NPE OPU

版权声明：本文标题：文献阅读（20）NPE OPU 内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1732350767h1532981.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

技术交流 – FreeNAS中文网

文献阅读（20）NPE OPU

文献阅读（20）NPE OPU

文章目录

1 introduction

2 整体架构

3 NVU架构

4 非线性单元的数量

更多相关文章

文献阅读（20）NPE OPU

发表评论

推荐文章

JVM01

2020届秒杀高考真题解析解小题篇，（颠覆传统思维）

企业微信认证费用及年审的问题（收藏）

win11启动“适用于Linux的windows的子系统“多次无法打开，重启电脑时总是撤销操作的可能解决方法

云服务器打不开,为什么打不开云服务器失败怎么回事

热门文章

移动硬盘上安装WIN7 WIN10系统

分享新版chatGPT4.0升级完成

linux配置JAVA

线路版、PCB非无卤产品氯化物含量标准

零基础入门Quartus以及盘点解决下载程序时的蓝屏及USB驱动更新问题全攻略（内含下载文件及压缩包）

奥运英语[10] 你能帮我个忙吗 Can you help me, please?

Gromacs 分子动力学远程安装介绍全网最详细的Gromacs安装前说明该怎么选择合适的安装方式 Windows直接可用的Gromacs（预编译版）有什么危害？Gromacs安装需要准备什么？

电脑windows系统有没有必要更新

windows系统下载好装不了

Windows 网络重置 | WIFI 没了WLAN 图标消失 | 设备无法启动 | 优先级调整 | 禁用重启网卡

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

win7计算机管理中看不到新加的硬盘,win7系统看不到第二块硬盘的解决方法.

[转]笔记本电脑处理器(CPU)性能排行榜

project安装包的下载和安装教程

测试模式 windows2008 内部版本7601

如何区分自己的windows系统是正版还是盗版？从零基础到精通，收藏这篇就够了！

技术交流 – FreeNAS中文网

文献阅读（20）NPE OPU

文献阅读（20）NPE OPU

文章目录

1 introduction

2 整体架构

3 NVU架构

4 非线性单元的数量

更多相关文章

文献阅读（20）NPE OPU

发表评论

推荐文章

JVM01

2020届秒杀高考真题解析解小题篇，（颠覆传统思维）

企业微信认证费用及年审的问题（收藏）

win11启动“适用于Linux的windows的子系统“多次无法打开，重启电脑时总是撤销操作的可能解决方法

云服务器打不开,为什么打不开云服务器失败怎么回事

热门文章

移动硬盘上安装WIN7 WIN10系统

分享新版chatGPT4.0升级完成

linux配置JAVA

线路版、PCB非无卤产品氯化物含量标准

零基础入门Quartus以及盘点解决下载程序时的蓝屏及USB驱动更新问题全攻略（内含下载文件及压缩包）

奥运英语[10] 你能帮我个忙吗 Can you help me, please?

Gromacs 分子动力学 远程安装介绍 全网最详细的Gromacs安装前说明 该怎么选择合适的安装方式 Windows直接可用的Gromacs（预编译版）有什么危害？Gromacs安装需要准备什么？

电脑windows系统有没有必要更新

windows系统下载好装不了

Windows 网络重置 | WIFI 没了WLAN 图标消失 | 设备无法启动 | 优先级调整 | 禁用重启网卡

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

win7计算机管理中看不到新加的硬盘,win7系统看不到第二块硬盘的解决方法.

[转]笔记本电脑处理器(CPU)性能排行榜

project安装包的下载和安装教程

测试模式 windows2008 内部版本7601

如何区分自己的windows系统是正版还是盗版 ？从零基础到精通，收藏这篇就够了！

Gromacs 分子动力学远程安装介绍全网最详细的Gromacs安装前说明该怎么选择合适的安装方式 Windows直接可用的Gromacs（预编译版）有什么危害？Gromacs安装需要准备什么？

如何区分自己的windows系统是正版还是盗版？从零基础到精通，收藏这篇就够了！