在现代文本数据分析中,NLP 工具和 NLP 库是必不可少的。研究人员和企业使用自然语言处理工具从文本数据分析中提取信息。这种分析包括分析客户反馈、自动化支持系统、改进搜索和推荐算法,以及监控社交媒体。
现在,市面上有很多NLP工具和服务可用,了解它们的特性是获得良好结果的关键。虽然有些工具非常适合小型项目,但也有些工具更适合从事大数据工作的专家,这完全取决于项目本身。
为帮助大家为自己的项目找到完美的解决方案,我们整理汇编了一份最佳 NLP 工具、库和服务的列表。在本文中,你将可以找到免费的开源库、众包解决方案和专门的注释公司。
免费 NLP 工具
- NTLK:Natural Language Toolkit 是一个用于构建 Python 程序以处理人类语言数据的平台。它包括词法分析、命名实体识别、标记化、词性标注、句法分析和语义推理。它还提供了一些很好的入门资源。但是,由于 NLTK 在处理大数据时会占用大量资源,因此推荐用于简单项目。
- PyTorch-Transformers:该 NLP库包含了NLP的预训练模型。它具有 PyTorch 实现、预训练的模型权重、使用脚本和转换工具,包括 BERT、GPT-2、Transformer-XL 和 RoBERTa。
- TextBlob:TextBlob 构建在 NLTK 的基础上,就像是一个扩展,简化了 NLTK 的许多功能,它为任务提供了一个易于理解的界面,包括情感分析、词性标注和名词短语提取等。TextBlob 是一个推荐给初学者的自然语言处理工具,它也具有可扩展性。
- SpaCy:SpaCy 是一个流畅、快速、高效的开源库,由Cython编写。它具有一个简单的 API、预训练的词向量、11种语言的23个统计模型、用于语法和 NER 的内置可视化工具,它的更新时间表也非常一致。
- Stanford CoreNLP:CoreNLP 用于对文本片段进行语言分析。它提供了7种语言的支持,可扩展性使其成为一个很好的自然语言处理工具,可用于信息抓取、聊天机器人训练以及文本处理和生成。需要说明的是,它是按照 GNU通用公共许可证 V3 许可的,因此在构建任何专用软件时,都需要商业许可证。
- Apache OpenNLP:这个由 Java 编写的 NLP 库以其简单性而备受推崇。它包括标记化、句子分割、词性标注、分块、解析和基于感知器的机器学习。然而,Apache 是一个由志愿者开发的项目,因此更新计划是不稳定的。
- AllenNLP:Allen NLP 是一个基于PyTorch构建的Apache 2.0研究库,是为那些想要快速简单地建立语言分析模型的研究人员提供的。AllenNLP 具有广泛的文本分析选项,它是一个简单的NLP工具,也是可扩展的。
- GenSim:GenSim 是一个用于自然语言处理的免费 Python 库,是主题建模和文档相似性比较的推荐选项。此外,它还提供了可扩展的统计语义和语义结构分析。GenSim 具有高水平的处理速度和处理大量文本的能力。
- NLP Architect:NLP Architect 由 Intel AI Lab 开发,是一个开源 Python 库,用于优化 NLP 和探索深度学习拓扑。它旨在使训练和运行模型成为一个简单的过程。
对于业余爱好者、数据研究人员以及有时间在内部执行注释任务的团队来说,上述选项非常适合。但是,如果你的项目时间表比较紧迫且有大数据要处理,那么寻求合格的NLP服务的帮助可能会更简单、更高效。
下面我们整理汇总了四个 NLP 服务列表,以帮助你满足数据分析的需求。
在这些 NLP 服务中,你可以找到可定制的时间表、项目管理帮助、访问专业注释器以及质量保证。
NLP 服务
- Lionbridge:作为训练数据和数据注释的领先提供商,Lionbridge拥有 500000 名众包专业人员,能够使用 300 多种语言进行工作。他们的定制注释平台使得针对各种用例的数据分析变得容易,并且可以轻松满足特殊的项目需求。Lionbridge 是快速、大规模进行高质量数据注释的理想选择。
- Amazon Mechanical Turk:AMT 集群是一种廉价、可扩展的 NLP解决方案,用于数据收集和数据标记。由于它们并不提供项目管理、质量保证或定制发票,因此对于那些不需要这些因素的项目来说,AMT 是一个很好的服务。
- Figure Eight:Figure Eight 现在是 Appen 的子公司,提供了一个机器学习辅助的数据标注平台,能够处理各种 NLP 服务。Figure Eight 很适合创建独特的项目本体。
- Scale:Scale 提供 NLP 数据注释服务,包括实体注释、OCR 转录、文本分类和情感分析。通过将人工和机器学习的注释实践相结合,它们的分类和内容审核服务是可扩展的。
还是不能确定如何实现文本数据分析解决方案吗?Lionbridge 可以帮助你定义项目目标,然后根据你的特定需求构建和注释定制的数据集。
作者介绍:
Hengtee Lim,是供职于 Lionbridge 营销团队的作家。他是澳大利亚人,现居日本东京。
本文最初发表在 LionBridge 官网,经原作者 Hengtee Lim 授权,InfoQ 中文站翻译并分享。
原文链接:
https://lionbridge.ai/articles/best-nlp-tools-libraries-and-services/