我正在训练一个做序列预测的模型。例如,给定某人写的前10个单词,我正在训练LSTM来预测他们将写的下一个单词。我有一个模型,它有时是有效的,所以我想创建一个度量来跟踪模型通过词性标签预测下一个单词的能力(即预测动词时的损失的一个度量,预测名词时的损失的一个单独度量,以及预测其他所有词性时的损失的最后一个度量)。所以,我拥有的数据看起来像这样: |----------------------------------------------------------|----------|----------------|
| X
我有这个函数,它使用NLTK从给定的文本中推断出词性,并在用冒号替换每个单词及其词性之间的cammas后将它们成对压缩,但我在regex中有一个我无法理解的错误。请帮我纠正一下我的功能。这是我的功能:
def getTokenss(tweet):
poses = []
words = tweet.split()
for i in nltk.pos_tag(words):
re.sub(r",", ":", j)
poses.append(i)
我正在使用python和nltk来研究一些文本,我想要比较不同文本中词性的频率分布。
我可以通过一条文本来实现:
from nltk import *
X_tagged = pos_tag(word_tokenize(open('/Users/X.txt').read()))
X_fd = FreqDist([tag for word, tag in X_tagged])
X_fd.plot(cumulative=True, title='Part of Speech Distribution in Corpus X')
我试着添加另一个,但没有太多的运气。
我想知道一个句子在python中是否真的有意义。例如
Hello, how are you today? --> Correct
Hello, are today are how --> Incorrect
到目前为止,我已经有了这段代码,它执行以下操作:
1-从nltk.browns语料库中获取20000个句子。
2-混淆最后10000个句子的单词(用于不正确的数据)
3-使用斯坦福词性标记器标记所有句子
from nltk.corpus import brown
from nltk.tokenize import sent_tokenize, word_tokenize
fro
我想知道如何在Python的列表中找到专有名词的位置。我知道如何找到特定单词在list中的位置,如下所示:
for position, item in enumerate(list):
if item == 'word':
print position
理想情况下,我希望能够找到文本中专有名词的位置,然后找到离'word'最近的专有名词。
任何帮助都是最好的,谢谢。
我正在尝试使用Python包装器来处理TreeTagger,这是一个词性标注器.用于导入和调用包装器的代码是:
import TreeTaggerWrapper
tagger = TreeTaggerWrapper.TreeTagger(TAGLANG='en',TAGDIR='D:/Programme/TreeTagger')
tags = tagger.TagText("This is a very short text to tag.")
print tags
错误是:'AttributeError: 'module'
我正在用JWNL做这项工作。我想让usery输入一个查询,然后我需要找到组成查询的单词。我需要从这些单词中识别出名词。下面是我写的代码:
public class graph
{
public static void main(String[] args) throws JWNLException
{
WordNetHelper.initialize("F:\\file_properties.xml");
System.out.println("Enter the query term!!!"