BERT除以一个根号dk的作用

   =  softmax(2a)
from math import exp
from matplotlib import pyplot as plt
import numpy as np
f = lambda x: exp(x * 2) / (exp(x) + exp(x) + exp(x * 2))
x = np.linspace(0, 100, 100)
y_3 = [f(x_i) for x_i in x]
plt.plot(x, y_3)
plt.show()

为什么是根号dk:

 其中E(X)是期望为0 不是均值 纠正*
E(XY) =1 即表示 k1*q1,k2*q2....,kn*qn的分布 期望为1
D(XY) =1 即表示 k1*q1,k2*q2....,kn*qn的分布 方差为1 即用Zi表示ki*qi

*上面的q*k = k1*q1+k2*q2+....+kn*qn = Z1+Z2+...+Zn
*所以D(q*k) = sum(D(Zi))  , i从1到n ,Zi表示ki*qi 即 

BERT除以一个根号dk的作用最先出现在Python成神之路

版权声明:
作者:感冒的梵高
链接:https://www.techfm.club/p/29549.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>