我一直在使用预先训练的模型,如谷歌新闻或手套6B模型,但在我的文本数据中的许多单词没有它们的向量表示在那些预先训练的模型中。所以我想也许用我的数据来训练我自己的模型。
在训练我们自己的两类分类模型时有什么缺点吗?还是我应该继续使用预先训练过的模型。训练我们自己的模型和使用预先训练的模式有什么区别?
# This is how I am thinking to train the model
from gensim.models import Word2Vec
w2v_model=Word2Vec(list_of_sentance_train,min_count=5,size=50, w
我试图让这个函数选择验证精度较高的模型作为最终模式,在training+validation集上重新训练所选的最终模型,然后计算测试集上的预测和测试集预测的精度。我有一切,我认为我需要比较的模型,但不能想到最合适的方式选择最好的模式,并继续如上所述,所有的功能。
def compare_models(X,y,model1,model2,test_size,val_size,random_state=0):
# Split data first into training and testing to get test set using 15% of data for test
我曾经训练过一个MultinomialNB模型,它来自于S3集群上的一个集群中的许多json文本文件,现在我想把它释放出来。我腌制了模型(叫它"nb.pickle")。我如何在猪脚本中加载并使用它?假设我有一个包含文本行的文件,每个文件都需要被归类为垃圾邮件或火腿:
"im bored tonight, come chat with me",
"hi good looking msg me sometime",
"I'm walking the dog",
"check me out