如何使用AllenNLP和coref-spanbert-large在没有互联网的情况下解析共引？

在没有互联网的情况下解析共引，可以使用AllenNLP和coref-spanbert-large进行处理。AllenNLP是一个基于PyTorch的开源自然语言处理（NLP）库，而coref-spanbert-large是AllenNLP中的一个模型，用于共指消解任务。

共指消解是指在文本中识别出指代同一实体的词语或短语，例如代词、名词短语等。使用AllenNLP和coref-spanbert-large进行共指消解的步骤如下：

安装AllenNLP和coref-spanbert-large：可以通过pip安装AllenNLP和coref-spanbert-large库。
加载模型：使用AllenNLP的from_archive方法加载coref-spanbert-large模型。
准备输入数据：将待解析的文本转换为模型可接受的格式，通常是一个包含句子列表的字典。
运行共指消解：使用加载的模型对输入数据进行共指消解，得到解析结果。
解析结果：解析结果通常是一个包含共指链的数据结构，每个链表示一个共指实体。

在没有互联网的情况下，可以在本地环境中安装和使用AllenNLP和coref-spanbert-large。这样可以在没有网络连接的情况下进行共指消解任务。

腾讯云相关产品和产品介绍链接地址：

腾讯云自然语言处理（NLP）：https://cloud.tencent.com/product/nlp
腾讯云人工智能（AI）：https://cloud.tencent.com/product/ai

相关·内容

都说 AllenNLP 好用，我们跑一遍看看究竟多好用

处理NLP任务需要不同类型的神经网络单元，因此在开始学习如何使用AllenNLP框架之前，我们先快速回顾这些单元背后的理论。...— AllenNLP documentation 数据集是 20个新闻组，我们将在稍后定义如何读取(在 python 类中)。先来定义模型的其余部分。...我们先来看一下第一个，其余的两个将在稍后说明。通过'model_text_field_embedder'，我们告诉AllenNLP数据在传递给模型之前应该如何编码。...我们在'iterator'键值中设置这些参数。 4 训练器最后一步是设置训练阶段的配置。训练器使用AdaGrad优化器作10代训练，如果最后3代的验证准确性没有提高，则停止。...在这种情况下，我们为文本设置了“符号”词汇（代码中未显示，是在背后使用的默认值），以及我们试图预测的标签的“标签”词汇。

1.6K2 0

自然语言处理顶会EMNLP2019最佳论文出炉！霍普金斯大学、斯坦福获得

大会共举办了 18 场 Workshop、多个 Tutorial 和多场主题演讲，涵盖自然语言处理、社会计算学、计算机社会科学、AI 系统和深度学习等话题。...在本文中，研究者则提出了一个非常快速的变分信息瓶颈方法，能够用非线性的方式压缩这些嵌入，仅保留能够帮助句法解析器的信息。研究者将每个词嵌入压缩成一个离散标签，或者一个连续向量。...在离散的模式下，压缩的离散标签可以组成一种替代标签集。通过实验可以说明，这种标签集能够捕捉大部分传统 POS 标签标注的信息，而且这种标签序列在语法解析的过程中更为精确（在标签质量相似的情况下）。...而在连续模式中，研究者通过实验说明，适当地压缩词嵌入可以在 8 种语言中产生更精确的语法解析器。这比简单的降维方法要好。...对于这些语言，很少有领域外的平行语料可用，但它们的免费可用单语数据非常丰富。研究者描述了收集和交叉验证翻译质量的过程，并使用几种学习方法报告基线性能，包括完全监督、弱监督、半监督和完全无监督。

7503 0

【NLP】EMNLP 2019 参会小结及最佳论文解读

介绍基于深度学习的NLP的背景，指出自然语言无处不在的离散性及其在神经信息处理中的挑战。特别是，我们将集中讨论这种离散性如何在神经网络的输入空间，潜在空间和输出空间中发挥作用。...我们构造了英文词性标注和依赖项边缘预测的控制任务，并证明了常用的ELMo表示的探针是没有选择性的。...对于机器翻译，世界上绝大多数语言对都是低资源的，因为它们几乎没有可用的并行数据。除了在有限的监督下学习这一技术挑战之外，由于缺乏自由和公开的基准，很难评估在低资源语言对上训练的方法。...我们描述了收集和交叉检查翻译质量的过程，并使用几种学习设置报告了基准性能：完全监督、弱监督、半监督和完全无监督。...我们通过在各种模型和任务上演示了五种解释方法(例如，显著性映射和对抗性攻击)，展示了该工具包的灵活性和实用性。 ? 使用AllenNLP Interpret为NER生成的解释。

1.1K2 0

教程 | 利用AllenNLP，百行Python代码训练情感分类器

选自realworldnlpbook 作者：Masato Hagiwara 机器之心编译参与：Geek AI、路本文介绍了如何利用 AllenNLP，使用不到一百行代码训练情感分类器。...它提供了灵活的 API、对 NLP 很实用的抽象，以及模块化的实验框架，从而加速 NLP 的研究进展。本文将向大家介绍如何使用 AllenNLP 一步一步构建自己的情感分类器。...你会注意到这个脚本和 AllenNLP 的词性标注教程非常相似——在 AllenNLP 中很容易在只进行少量修改的情况下使用不同的模型对不同的任务进行实验。...该工作包括把单词和标签（在本例中指的是「积极」和「消极」这样的极性标签）转换为整型 ID。在 AllenNLP 中，该工作是由 Vocabulary 类来处理的，它存储从单词/标签到 ID 的映射。...这就是像 AllenNLP 这样的高级框架的亮点所在。你只需要指定如何进行数据迭代并将必要的参数传递给训练器，而无需像 PyTorch 和 TensorFlow 那样编写冗长的批处理和训练循环。

1.4K1 0

流水账︱Elmo词向量中文训练过程杂记

最常用的模型是 word2vec 和 GloVe，它们都是基于分布假设的无监督学习方法（在相同上下文中的单词往往具有相似的含义）。...虽然有些人通过结合语义或句法知识的有监督来增强这些无监督的方法，但纯粹的无监督方法在 2017-2018 中发展非常有趣，最著名的是 FastText（word2vec的扩展）和 ELMo（最先进的上下文词向量...但是引用的是hub中预训练的模型，没有自带训练模块；项目二：strongio/keras-elmo 的 Elmo Embeddings in Keras with TensorFlow hub，在...来自allennlp/Using pre-trained models，三种使用方式，其中提到的使用方式为整段/整个数据集一次性向量化并保存，There are three ways to integrate...而如果用ELMo对其进行编码, 仅编码时间就近一个小时, 全部使用的话因为维度非常大, 显存占用极高, 需要使用多张卡, 加上多张卡之间调度和数据传输的花销一个epoch需要2+小时(在4张卡上).

2.4K2 0

干货 | 陪伴我学习NLP、知识图谱的那些资源（教程+书籍+网站+工具+论文...可以说很全面了）

NLTK和OpenNLP对中文支持非常差，这里不光是中文分词的问题，有些NLP算法需要一定的语言模型数据，但浏览NLTK官方的模型库，基本找不到中文模型数据。...AllenNLP AllenNLP是 Allen AI实验室的作品，采用深度学习技术，基于PyTorch开发。...但是在中文场景下，这个Word Hashing估计没有这么有效了。....pdf 词汇共现是指词汇在文档集中共同出现。...以一个词为中心，可以找到一组经常与之搭配出现的词，作为它的共现词汇集。

2.8K1 0

四种常见NLP框架使用总结

因此，本文主要针对于如何使用框架实现自定义模型，帮助大家快速了解框架的使用方法。...官网提供了一个很好的入门教程[2]，能够让初学者在30分钟内就了解AllenNLP的使用方法。...具体方法是，在__init__方法中定义评价函数，可以从在官方文档[3]上看看有没有，如果没有的话就需要自己写。...由于AllenNLP是基于PyTorch的，代码风格和PyTorch的风格基本一致，因此如果你会用PyTorch，那上手AllenNLP基本没有什么障碍。代码注释方面也比较全，模块封装方面比较灵活。...AllenNLP最大的优点在于简化了数据预处理、训练和预测的过程。代码改起来也很灵活，但是一些工具目前官方还没有实现，需要自己写。

2.1K1 0

AAAI 2020论文解读：关注实体以更好地理解文本

他们还表明，这种语法的自注意力可以与ELMo嵌入结合使用，从而在仅具有ELMo和自注意力但没有辅助监督的情况下进一步提高基线的性能。本文旨在研究语义结构的语言知识能否以类似的方式注入。...因此，我们将依赖关系解析和共指链相结合，以构建另一种反映高级叙事知识的self-attention目标，如图3b的右列所示：对于每个事件参数a，我们在a和所有与a有共同引用的论据的谓词之间的权重加上1。...我们使用了斯坦福CoreNLP工具包中的神经依赖性解析器和统计共指系统对整个数据集进行预处理。将在第5节中进一步讨论关于预处理的可替代选择。...4.2实验细节我们构建模型并使用AllenNLP进行所有实验。...表4显示，在没有监督的情况下，BIDAF-SA-EARLY与BIDAF-SA-LATE相比，EARLY有着更好的结果。

7691 0

词向量发展历程：技术及实战案例

本节通过一个简化的实例和Python代码演示，来说明如何使用预训练的Word2Vec模型进行词的密集向量表示。...这些向量不仅可以捕捉词之间的语义和语法关系，还可以在许多NLP任务中被有效地使用，如文本分类、情感分析等。...GloVe的实际案例考虑到使用预训练的GloVe模型可以直接为我们提供密集的词向量，我们将通过一个简单的例子来展示如何使用这些预训练的向量。...ELMo的实际案例为了简化示例，我们将使用AllenNLP库来加载预训练的ELMo模型，并获取句子 "I have a green pen" 中"green"这个词的向量表示，以观察ELMo如何处理上下文信息...由于BERT使用subword分词机制，我们需要特别注意如何精确地定位到我们关心词语的表示。

6331 0

【论文】AAAI 2020论文解读：关注实体以更好地理解文本

他们还表明，这种语法的自注意力可以与ELMo嵌入结合使用，从而在仅具有ELMo和自注意力但没有辅助监督的情况下进一步提高基线的性能。本文旨在研究语义结构的语言知识能否以类似的方式注入。 ?...因此，我们将依赖关系解析和共指链相结合，以构建另一种反映高级叙事知识的self-attention目标，如图3b的右列所示：对于每个事件参数a，我们在a和所有与a有共同引用的论据的谓词之间的权重加上1。...正如第3节所述，我们还需要从数据中得到依赖关系树和共指链，以便构造辅助监督的目标attention权重。我们使用了斯坦福CoreNLP工具包中的神经依赖性解析器和统计共指系统对整个数据集进行预处理。...5.分析在本节中，我们旨在理解共值监督为什么有帮助，什么是应用辅助监督的最佳使用方式，以及不同类型的监督信号该如何比较。 5.1 预处理质量会影响性能吗？...表4显示，在没有监督的情况下，BIDAF-SA-EARLY与BIDAF-SA-LATE相比，EARLY有着更好的结果。

7173 0

词向量(1)--从Word2Vec到ELMo

则其共现矩阵X如下：矩阵定义的词向量在一定程度上缓解了one-hot向量相似度为0的问题，但没有解决数据稀疏性和维度灾难的问题。...在自然语言处理应用中，我们会使用跳字模型的中心词向量。...在使用softmax的跳字模型和连续词袋模型中，词向量和二叉树中非叶子节点向量是需要学习的模型参数。...（比如句法和语义）（2）这些用法在不同的语言上下文中如何变化（比如为词的多义性建模） ELMo与word2vec最大的不同： Contextual: The representation for each...ELMo方法已经集成到AllenNLP中，AllenNLP是一个相对成熟的基于深度学习的NLP工具包，它构建于 PyTorch之上。

8752 0

词向量技术 | 从word2vec到ELMo

把词映射为实数域上向量的技术也叫词嵌入（word embedding）。近年来，词向量已逐渐成为自然语言处理的基础知识。那么，我们应该如何使用向量表示词呢？...则其共现矩阵X如下： ? 矩阵定义的词向量在一定程度上缓解了one-hot向量相似度为0的问题，但没有解决数据稀疏性和维度灾难的问题。...和跳字模型一样，训练结束后，对于词典中的任一索引为i的词，我们均得到该词作为背景词和中心词的两组词向量vi和ui。在自然语言处理应用中，我们会使用连续词袋模型的背景词向量。...（比如句法和语义）（2）这些用法在不同的语言上下文中如何变化（比如为词的多义性建模） ELMo与word2vec最大的不同： Contextual: The representation for each...可以直接使用pip安装： pip install allennlp 适用于python3.6以上的版本或者，也可以直接clone源码到本地[https://github.com/allenai/allennlp

2.5K4 1

AllenNLP系列文章之七：ELMO

在AllenNLP的主页上有个单独的菜单（http://allennlp.org/elmo），一直不太了解为何将它单列出来，主要在AllenNLP的许多任务中如文本蕴含里面等已经用到了这个模型所产生的词向量...即ELMO(Embeddings from Language Models) ，来自于语言模型的词向量表示，也是利用了深度上下文单词表征，该模型的好处：（1）能够处理单词用法中的复杂特性（比如句法和语义...）（2）这些用法在不同的语言上下文中如何变化（比如为词的多义性建模）。　　...（基于字符的，所以具有更好的鲁棒性）　　效果上：ELMo虽然看起来很简单，非常有效。但在论文的6项句法语义实验中，使用ELMo显著提高了强基线模型的性能，取得了相对值5%到25%的提升。...从前面的几篇涉及AllenNLP的几大任务相关文章中大多采用了ELMO的词向量结果。 ?

1K2 0

【NLP】竞赛必备的NLP库

NLP必备的库本周我们给大家整理了机器学习和竞赛相关的NLP库，方便大家进行使用，建议收藏本文。...开源的，社区驱动的项目，提供了50多种语料库和词汇资源（如WordNet），还提供了一套用于分类，标记化，词干化，标记，解析和语义推理的文本处理库。...CoreNLP提供了Java版本的服务器部署，也有python版本的调用，用途非常广泛。在工业界和学术界都有广泛的应用。...AllenNLP官网：https://allennlp.org/ TorchText TorchText是Pytorch下对NLP的支持库，包含便利的数据处理实用程序，可在批量处理和准备之前将其输入到深度学习框架中...其包含的高度可配置的模型和培训过程，让它成为了一个非常简单的框架。因其开源且简单的特性，建议大家使用 OpenNMT 进行各种类型的序列学习任务。 ?

1.8K1 1

254页教程《Writing Code for NLP Research》

如何为NLP任务写出良好的代码呢? EMNLP2018 254 页的《为NLP研究写出好代码》(Writing Code for NLP Research)的教程会给出答案。...该教程，借鉴了最近发布的基于PyTorch的深度学习NLP研究库AllenNLP的代码，旨在分享编写NLP研究代码的良好实践经验。...教程中将使用AllenNLP中实现的NLP模型作为示例，解释具有正确抽象化和组件化的库如何实现更好的代码和研究。...通过该教程，你将学习如何编写NLP研究实验代码，如何设计和简单化实验代码，从而推进研究，产出好的研究成果。教程目录： 1....在原型设计时如何编写代买（How to write code whenprototyping） 2. 构建良好的代码流程（Developing good processes） 3.

8632 0

吾爱NLP(5)—词向量技术-从word2vec到ELMo

把词映射为实数域上向量的技术也叫词嵌入（word embedding）。近年来，词向量已逐渐成为自然语言处理的基础知识。那么，我们应该如何使用向量表示词呢？...则其共现矩阵X如下：矩阵定义的词向量在一定程度上缓解了one-hot向量相似度为0的问题，但没有解决数据稀疏性和维度灾难的问题。 (2)....和跳字模型一样，训练结束后，对于词典中的任一索引为i的词，我们均得到该词作为背景词和中心词的两组词向量vi和ui。在自然语言处理应用中，我们会使用连续词袋模型的背景词向量。...（比如句法和语义）（2）这些用法在不同的语言上下文中如何变化（比如为词的多义性建模） ELMo与word2vec最大的不同： Contextual: The representation for...allennlp] 使用ELMo获得词向量替换Glove的词向量作为多项特定NLP模型的输入，在ELMo的论文实验中表明具有一定的效果提升： 4.结束词向量技术为文本的额数值化表示提供了解决方案，

1.7K7 0

2022年必须要了解的20个开源NLP 库

它具有最先进的神经网络模型，可以用于标记、解析、命名实体识别、文本分类、并且使用 BERT 等预训练Transformers进行多任务学习，可以对模型进行打包、部署和工作，方便生产环境的部署。...该框架直接构建在 PyTorch 上，可以轻松地训练自己的模型并使用 Flair 嵌入和类库来试验新方法。 6、AllenNLP 10.8k GitHub stars....AllenNLP是基于 PyTorch 构建的 NLP 研究库，使用开源协议为Apache 2.0 ，它包含用于在各种语言任务上开发最先进的深度学习模型并提供了广泛的现有模型实现集合，这些实现都是按照高标准设计...它为超过 50 个语料库和词汇资源（如 WordNet）提供易于使用的接口，以及一套用于分类、标记化、词干提取、标记、解析和语义推理的文本处理库。...注意：该库已经2年没有更新了 Pattern 是 Python 的web的挖掘工具包，它包含了：网络服务（谷歌、推特、维基百科）、网络爬虫和 HTML DOM 解析器。

1.2K1 0

这是一份写给NLP研究者的编程指南

机器之心编辑机器之心编辑部、赤乐君最近 AllenNLP 在 EMNLP2018 上做了一个主题分享，名为「写给 NLP 研究者的编程指南」（Writing Code for NLP Research...该演讲从写原型和写模块两方面介绍了 NLP 研究该如何复制别人的代码、测试自己的代码块、记录及分享研究等，总之在研究者也要高效码代码的年代，这是一份浓缩的实践经验。...比如上图中如果写 training loop 的部分，已经有人写好了。我们只要看懂后，直接拿来用就行，没有必要从头开始自己写所有部分。 ? 上面提到的一些内容，都是可以找到现成框架来套用的。...其次复现 SOTA 基线结果对于理解模型和做更多的研究是非常有帮助的。 ? 要想快速开发，另一个建议就是先复制，再重构。要记住，我们是在写原型，不用在乎什么可用性，先把代码写 work 了再说。...因此使用多态可以借助更高级的抽象扩展代码，这样在换模块时就能只修改少量代码。跟踪实验结果在写原型的时候你需要运行很多东西，这导致很难追踪发生了什么以及对应的代码部分。 ?

7094 0

一文搞懂如何高效学习与进阶NLP or CV！

知乎 https://zhuanlan.zhihu.com/p/48504619 导读最近AllenNLP在EMNLP2018上做了一个主题分享，名为“写给NLP研究者的编程指南”（Writing...通过这次演讲，你可以学到如何写代码来促进你的研究，以及可复现的实验。 ? 这里有两种写研究代码的模式，一种是写原型，一种是写组件。 ? 我们先从写原型的方式开始介绍。 ?...我们只要看懂后，直接拿来用就行，没有必要从头开始自己写所有部分。 ? 上面提到的一些内容，都是可以找到现成框架来套用的。 Don’t start from scratch!...至于Python的包管理系统，AllenNLP采用了ANACONDA。 ? Docker是不错，但不适合做本地开发，这样的话，使用一些本地的包管理系统反而更方便。最后做个总结。总结 ?...快速开发原型（要安全）写安全的产品代码（要快）好的流程有利于做出好的研究使用正确的抽象查看AllenNLP（广告）这次分享的slide看了几遍，很多地方看得自己脸上发热，不写测试什么的说到了痛处

1.9K4 0

JVM底层—Java Class字节码文件解析

如何阅读class文件 Java的可移植性是基于.java文件编译后形成的唯一的字节码文件.class文件可以在不同操作系统上的jvm运行的机制。....class文件是一组以8位字节为基础单位的二进制流，各个数据项目严格按照顺序紧凑的排列在.class文件中，中间没有任何分隔符。...具体访问标志的映射详见【查阅表格】类引索&父类引索&接口引索集合类引索（this_class）和父类引索（super_class）都是一个u2类型的数据，接口引索集合是一组u2类型的数据集合。...在访问标志之后，紧接着是类引索、父类引索，共占据4个字节。...在属性表集合之后就是Code属性，具体对应的类型详见【查阅表格】使用javap解析class文件对于.class文件的解析工作，jdk为我们提供了类解析工具javap。

3952 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云