概述:处理样本数不规则的模型

参数共享,前->后 样本逐个扫描 a激活用一套参数 y激活用一套参数


序列样本分类问题

音乐生成、机器翻译


输出P(sentence),并按照y(i)展开为字符串


在训练过程中,结局梯度爆炸 gradient clipping:梯度过大时,重新缩放梯度向量
解决了梯度爆炸问题 新建c{} = a{}
c的估计值 \(\tilde C^{<t>} = tanh(w_c[c^{<t-1>},x^{<t>}]+b_c)\)
Gata,门限值,0 or 1,选择是否记忆 \(\Gamma_u = \sigma(w_u[c^{<t-1>},x^{<t>}]+b_u)\)$
c的实际值更新函数 \(c^{<t>} = \Gamma_u * \tilde c ^{<t>} + (1-\Gamma_u) c^{<t-1>}\)






只用 one-hot,无法表征单词之间的关系 点积为0 构建词向量 word vec


man - women king - queen
词向量库 E 泛化negligible不错

相似度函数


应对大词典的softmax运算慢问题,构建二叉树数据结构,常用的放上面,不用每次计算概率

平衡P(t|c),避免the of 等 词频繁运算出现

问题描述:



词编码向量的偏差消除

主要应用在语言识别和机器翻译
架构:编码器 + 解码器各用了一个

对于翻译算法来说,一次得到整个句子的最优概率对应翻译,搜索量太大,而贪心算法,每次只选一个,随机误差太大,效果差,因此引入Beam search 算法 每次考虑2步,第一步选B个,第二部全选n个,从B x n个中寻优



without 注意力模型,\(y^{<t>}\) 取决于 \(a^{<t>}\) 带有注意力的系统,将权重,分散给其他的几个激活值\(a^{<t>}\)

用softmax保证和为1

声音预处理,频谱

