我正在尝试使用tm包进行文本挖掘。所以我从一个字符串向量创建了一个corpus。然后使用tolower删除所有大写字母,这将导致错误。words lower case
unable to fork, possible reason: Cannot allocate memory
我用来创建语料库的字符串向量有5621行,最长的字符串有4590个字符。我已经使用rm(l
我正在格式化一个语言语料库,以便在短语生成模型中输入文本。现在,语料库本质上是一个包含相关行的长文本文件,如下所示:*CHI: I know [!]我已经可以使用grep来获取所有以“*”开头的行。我想要做的是打印出所有那些删除了5个字符+制表符标题的行(删除*EXP:或*CHI:或其他任何字符),并删除所有非字母