深度学习算法原理——Attention BiLSTM

felixzhao

发布于 2019-07-03 11:36:54

6.9K0

文章被收录于专栏：null的专栏null的专栏

文章中提到使用双向的LSTM（Bidirectional LSTM）加上Attention的机制处理文本分类的相关问题，以解决CNN模型不适合学习长距离的语义信息的问题。

1. 网络结构

在Attention BiLSTM网络中，主要由5个部分组成：

注意点：

假设正向的输出为→hi\underset{h_i}{\rightarrow}hi→，逆向的输出为←hi\underset{h_i}{\leftarrow}hi←，则第iii个词的向量为：

hi=[→hi⨁←hi]h_i=\left [ \underset{h_i}{\rightarrow}\bigoplus \underset{h_i}{\leftarrow} \right ] hi=[hi→⨁hi←]

其中，⨁\bigoplus⨁表示的是对应元素相加。

假设HHH是所有词向量的集合：[h1,h2,⋯hT]\left [ h_1,h_2,\cdots h_T \right ][h1,h2,⋯hT]，那么Attention的计算方法如下：

M=tanh(H)M=tanh\left ( H \right )M=tanh(H) α=softmax(wTM)\alpha =softmax\left ( w^TM \right )α=softmax(wTM) r=HαTr=H\alpha ^Tr=HαT

最终用于分类的向量表示为：h∗=tanh(r)h^{\ast }=tanh\left ( r \right )h∗=tanh(r)。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2019年07月01日，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度