c("biochemistry", "medicine", "life sciences")我想用“生物学”代替(因此分类)所有与生物学相关的单词。因此,基本上,如果任何标题都有一个与生物学相关的主题列表,那么它们的主题将被更简单的“生物学”所取代。biology
C c("physics and astr
从2个RSS提要中,我导入了一些文本数据,然后创建了2个文档术语矩阵(DTM)。我一直在这个DTM上进行各种统计,比如最频繁的术语等,但现在我想使用这两个DTM,并用70%的数据训练一个模型(决策树),它将能够识别两个类别(教育和环境)之一的新闻馈送,然后我将使用剩余的30%来测试其性能。我该怎么做呢?到目前为止,我所做的是: # Convert Data from DTM to Dataframedata_fr2<-as.data.frame(a