
参考:
深度学习笔记
序列模型和注意力机制(Sequence models & Attention mechanism)



条件语言模型 和之前的 语言模型 一个主要的区别:


在 集束宽为3时,集束搜索一次只考虑3个可能结果
如果集束宽等于1,就变成了贪心搜索算法
同时考虑多个可能的结果比如3个,10个或者其他的个数,集束搜索通常比贪婪搜索更好
上节讲到 集束搜索 要选出条件概率最高的前 B 个,公式如下:

超参数 α=0.7 常用,0 没有归一化,1 完全由长度来归一化
注意:集束搜索 不一定搜到的是最优解,是一种启发式搜索算法,达到较好的效果
如何选择束宽 B:
怎样才能发现是 Beam搜索 算法出现了问题,还是你的 RNN模型 出了问题?

分析哪种错误更多:
机器翻译(machine translation)的一大难题是一个法语句子可以有多种英文翻译而且都同样好,所以当有多个同样好的答案时,怎样评估一个机器翻译系统呢?
BLEU得分背后的理念:观察机器生成的翻译,然后看生成的词是否出现在 至少一个人工翻译参考之中

短的语句更容易有 更高的Bleu 得分(较大的概率:语句中的词语都在 参考语句中),为了平衡这种情况,使用 “简短惩罚”( brevity penalty)

BLEU得分 是一个有用的单一实数评估指标,用于评估生成文本的算法,判断输出的结果是否与人工写出的参考文本的含义相似。
常用于 机器翻译,图像描述, Bleu 有很多开源实现,可以直接下载来用


注意力权重, a<t,t> 告诉你,当你尝试生成第 t 个英文词,它应该花多少注意力在第 t 个法语词上面。
当生成一个特定的英文词时,这允许它在每个时间步去看周围词距内的法语词要花多少注意力。
注意力模型如何让一个神经网络只注意到一部分的输入句子。当它在生成句子的时候,更像人类翻译



设备唤醒:手机助理,汽车中控唤醒等

