【Linformer:Self-Attention with Linear Complexity】

论文中,展示了自注意力机制可以被一个低秩矩阵近似,利用这一发现提出了新的自注意力机制,将空间与时间计算复杂度降低到O(n)。
作者发现自注意力是低秩的,通过线性投影将原本的点乘注意力分解为多个较小的注意力,使这些运算的组合形成原始注意力的低秩因式分解。
下表是不同transformer架构的复杂度汇总:

理论:
自注意力机制矩阵,context mapping matrix P,是低秩的。

左边的图,将奇异值分解在不同的层和头运用到P, 画出每10K个句子的归一化累积奇异值平均值,结果显示了清晰的lang-tail谱分析,这意味着P的大部分信息可以从前几个最大奇异值中恢复出来。
右边图,可视化了第128个最大奇异值的归一化累积奇异值的热图(共512个)。我们发现较高层的频谱分布比较低层更偏斜,这意味着更多的信息集中在最大的奇异值上,P的秩更低。
对上述频谱结果做出理论分析:。。。
给出一个低秩的P,一个直接的想法是用奇异值分解(SVD)用一个低秩矩阵去近似P。

 但是,这个方法需要对每个自注意力矩阵都进行SVD分解

【Linformer:Self-Attention with Linear Complexity】最先出现在Python成神之路

版权声明:
作者:lichengxin
链接:https://www.techfm.club/p/25479.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>