首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >我有一个关于用A序列翻译的问题。

我有一个关于用A序列翻译的问题。
EN

Stack Overflow用户
提问于 2019-08-09 09:37:31
回答 1查看 164关注 0票数 0

我目前正在学习Seq2seq翻译。我试图理解和遵循PyTorch教程从这个网站"tutorial.html#attention-decoder“。

在网站上,他们谈论注意力的技巧。我想知道他们在卢公和巴丹瑙之间用的是哪种技术?另一个问题,为什么他们要在GRU单元之前应用Relu层?最后,图中的红色框被称为上下文向量,对吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-08-09 13:05:02

我想知道他们在卢公和巴丹瑙之间用的是哪种技术?

Loung是乘法的,所以它应该使用Bahdanau (附加注意),因为它连接然后应用线性。有关注意力类型的更多信息,请参见http://ruder.io/deep-learning-nlp-best-practices/index.html#attention

为什么他们要在RelU单元之前应用RelU层?

这是Linear层之后的激活。我认为tanh是最初使用的,但是ReLU变得更好。

我认为在普通ReLU中嵌入Decoder之后的另一个https://github.com/spro/practical-pytorch/issues/4是错误的。

图中的红色框被称为上下文向量,对吗?

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/57427310

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档