您好,Bert当中的Embedding Layer是在Layer0之前的,他的学习率设置为Layer0乘以权重ξ(0.95)会不会更好一点?
您好,Bert当中的Embedding Layer是在Layer0之前的,他的学习率设置为Layer0乘以权重ξ(0.95)会不会更好一点?