CRF++/Wapiti包含整个句子的类别作为特征

文章/答案/技术大牛

发布

0回答

、、、、

我如何将从朴素贝叶斯预测的句子类别表示为CRF++或Wapiti中的一个特征？例如，如果句子Tumblr merges with Yahoo.被归类为Business，那么在编写crf的训练文件时，我可以在哪里将标签Business表示为特征？那么模板应该如何建模呢？列车文件应该是这样的吗merges business O with

浏览 10提问于2017-06-07得票数 1

1回答

如何在CRF++中使用目标标签作为特征？

、、、

如果我理解正确的话，他们在CRF++中使用了两个标签的分割方法。我的问题是，如何将论文中的标签转换(例如T(-1)C(0)T(0))作为CRF++中的特征模板？例如，对于这样的训练数据：同M造M好M新B紀M 在CRF++中是否可以有特性T(-1)C(0)T(0) -> M/美/B？我尝试添加诸如U01:%x-1,1&

浏览 3提问于2015-12-18得票数 0

1回答

如何将地名词典或字典表示为crf++中的功能？

、、、

如何将地名词典或字典用作中的要素详细说明:假设我想对人名执行NER，并且我有一个包含常用人名的地名词典(或字典)，我想使用这个地名词典作为crf++的输入，我该怎么做呢？我正在使用条件随机场包crf++来执行命名实体识别任务。我知道如何在crf++中表示一些常用的特性。例如，如果我们想要使用大写作为一个特征，我们可以在crf的特征模板中添加一个单独的</

浏览 4提问于2015-10-18得票数 4

1回答

使用类别列表的学习器

、、、、

在培训CRF++的模板中，我如何为上市公司包括一个定制的dictionary.txt文件，另一个用于流行的欧洲食品，例如，或几乎任何类别。然后，为每个类别提供一个样本培训数据，从而了解如何在该类别的上下文中使用这些特定的命名实体。这样，我和这个系统都可以确保它正确地理解了某些命名的实体是如何在文本中被构造的，无论是推特还是普利策获奖新闻文章，而不是提供上百兆字节的数据。这会很酷的

浏览 5提问于2017-04-22得票数 0

1回答

基于WEKA的命名实体识别

、

我对WEKA是新手，我想问你几个关于WEKA的问题。我遵循了本教程()。 @attribute text string所以，当我过滤字符串时，它将字符串标记为word，但我想要的是根据短语对字符串进行标记/过滤。例如，根据分块的<

浏览 1提问于2015-04-07得票数 2

回答已采纳

2回答

文本分类/机器学习:我还需要“默认”类别吗？

、、、

对于我的任务，我需要做一个机器学习程序，它做以下工作：作为输入，程序得到一个项目的建筑计划(以PDF格式写成)，主要是桥梁和水闸。机器学习程序以PDF中的每个句子作为样本(该句子中的单词是特征)，并需要将每个示例/句子分类为以下类别之一:与硬件相关的和软件相关的。(我将朴素贝叶斯算法与TF结合使用。)然而，正如你所能想象的，也有很多不相关的</

浏览 1提问于2016-11-01得票数 2

回答已采纳

4回答

从说话人的句子中学习SelectKBest单词

、

我试图在一个包含两个发言者的句子的数据库中使用scikit-learn函数SelectKBest。我的目标是找出30个最好的词，可以作为功能分开这两个发言者，我想打印到屏幕上。这些句子存储在一个列表sentences[]中，我有关于每个句子的说话人的信息(存储在另一个列表speakers[]中)。我还需要为那些K最好的特征创建向量，并能够在这些向量上使用分类器。

浏览 0提问于2018-12-09得票数 1

4回答

使用Python从语料库中提取句子

、

我正在尝试使用Python从文本中提取句子。文本中的每个单词都写在一行中，并带有与该单词相关的附加信息：loves Verb No-Name.Punct No-Name到目前为止，我只提取了感兴趣的单词

浏览 0提问于2012-10-16得票数 1

3回答

非常短的刑期

、、

我正在尝试构建一个回归模型，其中一个特性包含文本数据。我在考虑使用scikit-learn的sklearn.feature_extraction.text.TfidfVectorizer。然而，问题是实际字符串包含的单词非常少。平均1.8。这是一个样本：1 car stereo3 refrigeratorTfidfVectorizer或者，这种稀疏的结果矩阵不会对

浏览 0提问于2019-09-06得票数 4

2回答

打开NLP名称查找器培训

根据在线手册()，我正在构建一个15k行的训练数据文档，名为: en-ner-person.train。例如，我是否在我的训练数据中使用了整个报告： <START:person> Pierre Vinken <END>或者我是否只在我的</

浏览 1提问于2012-07-05得票数 4

回答已采纳

1回答

使用weka对word2vec进行分类

、、、、

我已经在一个大约有70k个句子的语料库上训练了一个word2vec模型。每个句子都包含一个唯一的关键字，如'abc-2011-100‘，后面跟着描述它的某些特征。一个类别可以有多个abc id分配给它。我有大约70000个唯一的abc Id，其中70000个已经被适当地分类了。现在我想在已经分类的5000个id上检查我的分类准确率。为此，我将使用80%作为训练数据，20%

浏览 6提问于2017-03-02得票数 1

1回答

使用NLTK从分类语料库中获取给定句子的类别

、、

使用NLTK，我创建了一个分类语料库，包含大约100 k个句子，分为36类。我可以获得这样一个特定类别的句子：但是，给定一个标记化的list (如["You", "had", "me", "at", "hello"] )形式的<

浏览 3提问于2017-01-30得票数 0

回答已采纳

1回答

如何使用机器学习从文档中提取更大的文本块？

、、

我目前正在学习机器学习，因为我认为它可能有助于解决我的问题。然而，我不确定我应该应用什么技术来解决我的问题。我提前道歉，因为我可能对这一领域的了解不够，甚至没有提出一个适当的问题。，比如句子和单词，还有一些像命名实体识别之类的东西，但它们似乎都集中在文本的很小部分上。我目前的想法是使用监督学习，但我也不确定如何从文本中提取特征。天真的方法，比如使用字母、单词甚至句子作为特征，似乎没

浏览 1提问于2015-04-05得票数 1

2回答

NLP & ML短语提取

、、、、

我可以使用什么ML算法来训练给定句子中的动作短语。play cricket Label2: wash clothes 我有一个大约2k个句子和相应的动作短语(标签)的数据，需要根据它们预测另一组句子。使用哪个Algo来做同样的事情？(最好是python)

浏览 0提问于2017-02-04得票数 0

5回答

查找引文解析器

、、、

我需要一个解析器，将扫描学术文本，提取引文，并将这些引文解析成它们的组成部分(作者，标题，出版日期等)。我试过Paracite，但它的速度非常慢，而且不能产生高质量的结果。

浏览 1提问于2011-09-16得票数 5

回答已采纳

2回答

基于文本的特征检测的最佳方法

、、

我有一个“简单”的问题:我有文本章节，在此基础上，应该决定它是“A类”还是“B类”。或或B类或(这一节的文字多达20个字，变化很大) 如果我用这个示例数据训练了算法，它应该决定文本是否包含“蓝色”--它是“分类A”，如果它包含“红色”，则是“类别B”等

浏览 4提问于2014-01-02得票数 0

回答已采纳

1回答

如何训练以pos序列为特征的朴素贝叶斯分类器？

、、、、

我有两类句子。每一个都有相当不同的pos序列。如何训练带有POS标签序列的朴素贝叶斯分类器？Stanford /NLTK (Java或Python)提供了以pos作为特性构建分类器的方法吗？我知道在python中，NaiveBayesClassifier允许构建一个NB分类器，但是它使用contains-a-word作为特性，但是它可以扩展到使用pos序列作为一个特性吗？

浏览 1提问于2015-02-27得票数 6

回答已采纳

1回答

我正试图用Python开发一个程序，它可以处理原始聊天数据，并对意图相似的句子进行聚类，这样它们就可以作为训练示例来构建一个新的聊天机器人。其目标是使其尽可能快速和自动(即不需要手动输入参数)。对于特征提取，我标记每个句子，停止其单词，并使用Sklearn的TfidfVectorizer对其进行矢量化。然后我用Sklearn的DBSCAN对这些句子向量进行聚类。整个算法在相对较小的数据集(10000句)上工作，并生

浏览 2提问于2017-12-14得票数 0

回答已采纳

1回答

只使用肯定句的分类训练

、

我正在启动一个项目来构建一个自动的事实检查分类器nad，我对接下来的过程有一些疑问。我有一个数据库，里面有1000个句子，每个句子都是事实检查阳性的。为了建立一个有监督的机器学习模型，我需要一大组带有真假结果的标记句子，这取决于它是否是事实检查候选句。这将需要大量的时间和精力，所以我想先得到结果(我猜不太准确)，而不是那样做。我的想法是使用已经标记的肯定句，并将PoS标记器应用于它们。这将给我提供

浏览 2提问于2016-10-17得票数 0

回答已采纳

点击加载更多