算法,但当谷歌从搜索关键字里拿到更多信息量时(例如历史用户点击率、用户搜索的准确领域等),就能提供更准确的结果。...2、拼音输入法与维特比算法
笔者从94年开始学习五笔字形输入法(那个时代的小霸王学习机大家还有印象吗?),照着稿子打(拆字)可以达到每分钟500个字,由此极度鄙视拼音输入法。...tf1次,w2出现了tf2次,依此类推。...这样,我们得到了初级版本的特征,例如[0,0,…,tf1,0,…,tf2,…tf3,…],其中词库是有序的,若某词未在网页中出现,则tf词频为0,相应位置也为0。...这样,引入IDF逆词频算法后,我们的特征向量变成了[0,0,…,tf1*idf1,0,…,tf2*idf2,…tf3*idf3,…],这便是TF-IDF算法。