假设样本数据是从某个概率分布生成的,该分布属于一个参数化家族。
在这个参数化家族中,找到一组参数,使得样本数据Based on这组参数生成的概率(即似然函数)最大。...这组参数就是对总体参数的极大似然估计。...MLE是充分利用数据信息的。
MLE比较容易计算。
综上,极大似然估计通过最大化似然函数,找到最有可能产生观测数据的模型参数,是一种常用而有效的参数估计方法。...向量化:对于每个文本样本,将其转换为一个特征向量。特征向量的长度等于词汇表中单词的数量。通常,可以使用稀疏向量表示来表示特征向量,其中大部分元素为零。...\W', ' ', email) # 去除非字母数字字符
email = re.sub(r'\s+', ' ', email) # 合并多个空格为一个空格
return email.strip