平时大家是如何做推荐系统的Embedding的呢?...为什么要用DHE
其实在背景中已经说了一部分理由了,主要总结为以下3点:
字典大小过大:推荐系统中像是videoid,itemid,advertiserid都很大,不像NLP的bert,字典只有30K...高熵性(H-D):众所周知,熵越高信息量越高,我们肯定不希望有哪一位编码是冗余的.
了解了什么是好的encoding,我们看看哪些encoding满足这些条件:
?...好吧,说来说去只有DHE满足了好的encoding的所有条件
?
,所以DHE是如何编码的呢?...至于decoding(就是个DNN)就不过多介绍了,这里用了h层网络.需要注意的是,论文提到这种encoding-decoding方式很容易造成欠拟合,论文中的解决方案是把激活函数从ReLU换成了MISH