Raki的读paper小记:XLNet: Generalized Autoregressive Pretraining for Language Understanding

Abstract & Introduction & Related Work
研究任务
预训练语言模型 已有方法和相关工作
BERT 面临挑战
依靠用掩码破坏输入,BERT忽略了被掩码位置之间的依赖性,并受到预训练-调整差异的影响 创新思路
通过对因式分解顺序的所有排列组合的预期可能性最大化,实现了双向语境的学习由于其自回归方法,克服了BERT的限制结合了Transformer-XL,打破了512token的限制 实验结论
大幅超越BERT的性能
XLNet不是像传统的AR模型那样使用固定的前向或后向因式分解顺序,而是将序列的预期对数似然在因式分解顺序的所有可能的排列中最大化。由于排列操作,每个位置的上下文可以由左右两边的标记组成。在期望中,每个位置学会利用来自所有位置的上下文信息,即捕捉双向的上下文作为一个广义的AR语言模型,XLNet并不依赖于数据损坏。因此,XLNet不会

Raki的读paper小记:XLNet: Generalized Autoregressive Pretraining for Language Understanding最先出现在Python成神之路

版权声明:
作者:感冒的梵高
链接:https://www.techfm.club/p/25825.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>