依稀记得去年数据挖掘课有讲过这个概念,年轻不懂事,没认真听,只能现在补课
对于自然语言处理其实目前涉及的比较少,但是如果是临床大夫可能就比较多了,比较经典的例子就是电子病例的挖掘
文本是一种非结构化的数据,在机器学习或者深度学习中,这些非结构化的数据是不能直接参与运算的,因此需要将非结构化的数据转换为结构化的数据,这个过程叫做文本表示。
one-hot 编码有点类似统计分析中,将多分类变量进行哑变量处理的过程,如下
人厨子 [1,0,0,0]
百草仙 [0,1,0,0]
张一氓 [0,0,1,0]
圣因师太[0,0,0,1]
one-hot 编码对于少量的物体或者词语来说是可以实现的,但是如果涉及到较多的词语几百上千的词,这个时候对于深度学习来说就是一种冗余,绝大多数的参数都是0,这种稀疏矩阵是不利于深度学习的
整数编码类似将哑变量再转换回来
人厨子 1
百草仙 2
张一氓 3
圣因师太 4
缺点:模型解释困难
什么是embedding?,简单的说embedding就是将一个词用一个低维的向量来表示,这个使用低维向量表示高维世界物体的想法跟傅里叶变化有着异曲同工之秒。通俗的讲从另一个世界看这个世界
word embedding 的优点
两种主流算法
word2vec的算法原理很复杂,整不明白
love&peace