swin_transformer—-基于移动窗口的层级（多尺度）视觉transformer

Mr李 • 2022-03-20 17:40 • 好物分享

基于移动窗口的层级（多尺度）视觉transformer
论文主要创新点，层级式结构，多尺度，信息交互。窗口内计算自注意力，大大减小了计算复杂度。
目录
（1）摘要
（2）引言
（3）前向传播过程：
（4）复杂度计算：
（5）掩码操作：

（1）摘要
ViT在CV领域做了分类任务，下游任务（分割，目标检测）未进行进一步的研究。NLP领域用在CV领域的挑战：一是一个词‘树’就可代表一棵树，但一幅图中可能几百几千个像素点才能表示一棵树。词是高层次的、复杂的；像素点是低层次的、简单的。二是图片的分辨率（resolution）越来越大，对应的序列就非常长，解决方法就是打成patch，ViT中每个patch是由16*16的像素点构成。
基于以上两个难点，swin_transformer提出移动窗口的概念，只在窗口内计算自注意力，可以有效减小序列的长度，并结合移动shift_window，使得相邻窗口间有了信息交互，这就体现出来多尺度的思想。另外，随着patch_merging的使用，使得感受野不断变大，这时计算自注意力，就汇聚了全局

swin_transformer—-基于移动窗口的层级（多尺度）视觉transformer最先出现在Python成神之路。

版权声明：
作者：Mr李
链接：https://www.techfm.club/p/26434.html
来源：TechFM
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

Vue2 和 Vue3 中的 watch 用法

< <上一篇

数据结构：直接插入排序

下一篇>>

搜索内容

swin_transformer—-基于移动窗口的层级（多尺度）视觉transformer

取消回复

共有 0 条评论

Ads