基本上这意味着,像「I like this movie」这样的句子会有下列特征:
I, l, i, k, e, ..., I li, lik, like, ..., this, ... , is m,...字符级 ngram 很有效,在语言建模任务中,甚至可以比分词表现得更好。像垃圾邮件过滤或自然语言识别这样的任务就高度依赖字符级 ngram。...与之前学习单词组合的模型不同,该模型学习的是字母组合,这样就可以处理单词的形态构成。
基于字符的表征的一个优势是可以更好地解决单词拼写错误的问题。...模式可以是像是「我讨厌」、「非常好」这样的表达式(词级的 ngram?),因此 CNN 可以在不考虑其位置的情况下从句子中分辨它们。
?...结论
以下是几条我认为值得与大家分享的发现:
使用字符级 ngram 的词袋模型很有效。不要低估词袋模型,它计算成本低且易于解释。
RNN 很强大。