课程五学习笔记:如何训练ViT模型?DeiT算法解析
课程五学习笔记:如何训练ViT模型?DeiT算法解析
1. Vision Transformer模型回顾
2. DeiT: Data-efficient image Transformers
3. 实现DeiT:从论文到代码(还需理解⚠️)
4. 实现数据处理(paddle.vision.transform.compose)自己实现
1. Vision Transformer模型回顾
Class Token目的:以NLP的方式做分类问题。以一个虚拟的Patch去关注图像中其他的Patch,来获得图像中综合的信息,通过和Classifier的连接,反向传播优化我们的Class Token。
Position Embedding 目的:在做Patch-Embed的时候,缺少了位置编码信息,加上之后,辅助模型更好的训练。
共有 0 条评论