swin_transformer—-基于移动窗口的层级(多尺度)视觉transformer
基于移动窗口的层级(多尺度)视觉transformer
论文主要创新点,层级式结构,多尺度,信息交互。窗口内计算自注意力,大大减小了计算复杂度。
目录
(1)摘要
(2)引言
(3)前向传播过程:
(4)复杂度计算:
(5)掩码操作:
(1)摘要
ViT在CV领域做了分类任务,下游任务(分割,目标检测)未进行进一步的研究。NLP领域用在CV领域的挑战:一是一个词‘树’就可代表一棵树,但一幅图中可能几百几千个像素点才能表示一棵树。词是高层次的、复杂的;像素点是低层次的、简单的。二是图片的分辨率(resolution)越来越大,对应的序列就非常长,解决方法就是打成patch,ViT中每个patch是由16*16的像素点构成。
基于以上两个难点,swin_transformer提出移动窗口的概念,只在窗口内计算自注意力,可以有效减小序列的长度,并结合移动shift_window,使得相邻窗口间有了信息交互,这就体现出来多尺度的思想。另外,随着patch_merging的使用,使得感受野不断变大,这时计算自注意力,就汇聚了全局
swin_transformer—-基于移动窗口的层级(多尺度)视觉transformer最先出现在Python成神之路。
共有 0 条评论