我目前正在学习Seq2seq翻译。我试图理解和遵循PyTorch教程从这个网站"tutorial.html#attention-decoder“。
在网站上,他们谈论注意力的技巧。我想知道他们在卢公和巴丹瑙之间用的是哪种技术?另一个问题,为什么他们要在GRU单元之前应用Relu层?最后,图中的红色框被称为上下文向量,对吗?
发布于 2019-08-09 05:05:02
我想知道他们在卢公和巴丹瑙之间用的是哪种技术?
Loung是乘法的,所以它应该使用Bahdanau (附加注意),因为它连接然后应用线性。有关注意力类型的更多信息,请参见http://ruder.io/deep-learning-nlp-best-practices/index.html#attention
为什么他们要在RelU单元之前应用RelU层?
这是Linear
层之后的激活。我认为tanh是最初使用的,但是ReLU变得更好。
我认为在普通ReLU中嵌入Decoder
之后的另一个https://github.com/spro/practical-pytorch/issues/4是错误的。
图中的红色框被称为上下文向量,对吗?
是
https://stackoverflow.com/questions/57427310
复制