Raki的读paper小记：XLNet: Generalized Autoregressive Pretraining for Language Understanding

感冒的梵高 • 2022-03-19 02:40 • 好物分享

Abstract & Introduction & Related Work
研究任务
预训练语言模型已有方法和相关工作
BERT 面临挑战
依靠用掩码破坏输入，BERT忽略了被掩码位置之间的依赖性，并受到预训练-调整差异的影响创新思路
通过对因式分解顺序的所有排列组合的预期可能性最大化，实现了双向语境的学习由于其自回归方法，克服了BERT的限制结合了Transformer-XL，打破了512token的限制实验结论
大幅超越BERT的性能
XLNet不是像传统的AR模型那样使用固定的前向或后向因式分解顺序，而是将序列的预期对数似然在因式分解顺序的所有可能的排列中最大化。由于排列操作，每个位置的上下文可以由左右两边的标记组成。在期望中，每个位置学会利用来自所有位置的上下文信息，即捕捉双向的上下文作为一个广义的AR语言模型，XLNet并不依赖于数据损坏。因此，XLNet不会

Raki的读paper小记：XLNet: Generalized Autoregressive Pretraining for Language Understanding最先出现在Python成神之路。

版权声明：
作者：感冒的梵高
链接：https://www.techfm.club/p/25825.html
来源：TechFM
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

netty

< <上一篇

TiDB4PG | 与 TiDB 共舞，一次“亦步亦趋”的升级

下一篇>>

搜索内容

Raki的读paper小记：XLNet: Generalized Autoregressive Pretraining for Language Understanding

取消回复

共有 0 条评论

Ads