Transformer T5 模型慢慢读

Transformer T5 模型慢慢读
代码地址:https://github.com/google-research/text-to-text-transfer-transformer
其他参考地址:
先从他的论文走起,但是很多页...
论文地址:https://arxiv.org/abs/1910.10683 

一、模型粗略认识
T5 的由来,就是prompt 思想演变的,将所有的下游任务转换成一种任务 让所有任务共用一种解题方式(极大减轻了参数量,如果2个任务,每个任务10万参数,那么此种生成式方法仍然10万,而传统的针对下游的模型需要20万参数),生成式去生成答案。至于损失函数还要看后面的设计。(在下面的图中显示的是啥都一样的意思) 

二、模型一些基本设置
数据集是C4 一个网络爬虫的大数据集,整体模型是基于Transformer 的生成模型。
1.模型框架:
其与经典的 Transformer 模型的区别有3点,

①移除 Layer Norm bias, ② 将 layer normalizatio

Transformer T5 模型慢慢读最先出现在Python成神之路

版权声明:
作者:lichengxin
链接:https://www.techfm.club/p/20091.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>