来自程序包tm的函数DocumentTermMatrix的默认控制设置是将文本转换为文档-词矩阵时,使用默认的控制参数。具体而言,这些默认设置包括:
- 控制参数"tolower":默认为TRUE,表示将文本转换为小写形式。
- 控制参数"removePunctuation":默认为TRUE,表示移除文本中的标点符号。
- 控制参数"removeNumbers":默认为FALSE,表示保留文本中的数字。
- 控制参数"stopwords":默认为NULL,表示不移除常见的停用词。
- 控制参数"stemming":默认为FALSE,表示不进行词干提取。
- 控制参数"weighting":默认为"term frequency - inverse document frequency" (tf-idf),表示使用tf-idf权重来表示文档-词矩阵中的词项。
这些默认控制设置可以根据具体需求进行修改,以满足不同的文本分析任务。