
论文地址:Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification
文章中提到使用双向的LSTM(Bidirectional LSTM)加上Attention的机制处理文本分类的相关问题,以解决CNN模型不适合学习长距离的语义信息的问题。

在Attention BiLSTM网络中,主要由5个部分组成:
注意点:
假设正向的输出为→hi\underset{h_i}{\rightarrow}hi→,逆向的输出为←hi\underset{h_i}{\leftarrow}hi←,则第iii个词的向量为:
hi=[→hi⨁←hi]h_i=\left [ \underset{h_i}{\rightarrow}\bigoplus \underset{h_i}{\leftarrow} \right ] hi=[hi→⨁hi←]
其中,⨁\bigoplus⨁表示的是对应元素相加。
假设HHH是所有词向量的集合:[h1,h2,⋯hT]\left [ h_1,h_2,\cdots h_T \right ][h1,h2,⋯hT],那么Attention的计算方法如下:
M=tanh(H)M=tanh\left ( H \right )M=tanh(H) α=softmax(wTM)\alpha =softmax\left ( w^TM \right )α=softmax(wTM) r=HαTr=H\alpha ^Tr=HαT
最终用于分类的向量表示为:h∗=tanh(r)h^{\ast }=tanh\left ( r \right )h∗=tanh(r)。