许多自然语言处理( Natural Language Processing,NLP)算法和库都很难处理来自web的随机文本,这通常是因为它们的前提是干净、清晰的写作。我的问题是:给定一段随机的文本,是否有一个过程来确定该文本是否写得很好,是否适合在NLP中使用?这些算法的通用名称是什么?
我会感谢链接到文章,算法或代码库,但我会满足于好的搜索词。
我已经创建了一个程序,使用谷歌语音识别听我们的声音,然后执行程序,为这个短语编写脚本。例如,如果我说"open chrome and photoshop",那么它只会打开chrome,因为它是先列出的,然后程序就会结束。但是我想从演讲中提取出所有的命令,那么,怎么做呢?任何帮助都会被认为是伟大的,并且为我糟糕的英语感到抱歉。