腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(618)
视频
沙龙
1
回答
nlp
多
标签
分类
tf
vs
tfidf
、
、
、
、
我正在尝试解决一个
NLP
多
标签
分类
问题。我有大量的文档,这些文档应该分为29个类别。在清理文本、停止单词删除、标记化等之后,执行以下操作: 为了创建特征矩阵,我查看了每个文档中术语的频率分布,然后创建了这些术语的表(其中删除了重复的术语),然后计算了每个单词在其相应文本中的术语频率(
tf
在对它们进行缩放之后,我使用OneVsRestClassifier(SVC)进行
分类
。 我得到了一个关于0.58的F1 score,但它根本没有改善,我需要得到0.62。 我是否正确地处理了问题?我是否需
浏览 29
提问于2019-02-12
得票数 4
回答已采纳
1
回答
Keras-日志和
标签
必须具有相同的形状((无,1)和(无,363))
、
、
、
、
我一直使用"CMU电影摘要语料库“作为我自己学习的电影类型
分类
,因为我是相对较新的
NLP
。这是一个
多
标签
分类
任务。然后将输出输入到神经网络中,但当我试图训练我的模型时,我得到了以下错误:创建
TF
-以色列国防
浏览 3
提问于2021-08-16
得票数 0
1
回答
用于
多
标签
分类
问题的
tf
-idf向量器
、
、
、
、
我有一个针对大量文本的
多
标签
分类
项目。我对文本(train_v‘’doc_text‘)使用
tf
-Idf向量器,如下所示:
tfidf
_transformer = TfidfTransformer()X_
tfidf
=
tfidf
_transformer.fit_transform(X_counts) x_train_
tfid
浏览 13
提问于2019-02-13
得票数 2
回答已采纳
3
回答
[文本
分类
]
、
、
、
我遵循这个指南,尝试使用上面的指南中所示的MeanEmbeddingVectorizer和TfidfEmbeddingVectorizer作为输入来创建二进制
分类
器和
多
标签
分类
器。以下是每种模型的准确性(二进制
分类
器):extraT_countVect: 0.8855randomF_
tfidf
多
标签
分类
器也产生了相似的结
浏览 0
提问于2017-05-24
得票数 1
1
回答
如何用Python建立
多
类文本
分类
问题的ROC - AUC曲线
、
我正在研究一个
多
类文本
分类
问题,并试图绘制ROC曲线,但到目前为止没有成功。尝试了许多可用的解决方案,但没有奏效。请有人帮我把下面的代码画成ROC曲线。实际上,有五个不同的类,我正在为其执行文本
分类
。= count_vector.fit_transform(train.data)x_train_
tfidf
=
tfidf
_transformer.fit_transform(x_trian_
tf</em
浏览 0
提问于2020-07-04
得票数 3
回答已采纳
2
回答
TF
-IDF向量化器的效果并不比countvectorizer好(sci-kit学习
、
、
我正在研究一个有10个
标签
的
多
标签
文本
分类
问题。数据集很小,总共+- 7000个项目和+-7500个
标签
。我正在使用python sci-kit learn,在结果中出现了一些奇怪的东西。作为基准,我从使用countvectorizer开始,实际上计划使用
tfidf
向量器,我认为它会工作得更好。但它不..。使用countvectorizer,我可以获得0,1更高的f1score。(0,76
vs
0,65) 我不明白为什么会出现这种情况?有10个类别,其中一个被称为杂项
浏览 1
提问于2016-07-05
得票数 0
3
回答
将scipy.sparse.csr.csr_matrix转换为列表列表
、
、
、
、
我正在学习
多
标签
分类
,并试图从scikit learning中实现
tfidf
教程。我正在处理一个文本语料库,以计算其
tf
-idf分数。purpose.Using、CountVectorizer和TfidfTransformer使用了模块sklearn.feature_extraction.text,现在我已经将语料库矢量化,并为每个词汇表使用了
tfidf
0.0285015996586我想把这个sparse.csr.csr_matr
浏览 3
提问于2016-11-20
得票数 6
回答已采纳
3
回答
带有GridSearchCV的随机森林-- param_grid上的误差
、
、
、
我对文件进行
分类
,所以我也把
tf
-国防军的向量器推到管道上。confusion_matrixpipeline = Pipeline([ ('
tfidf
浏览 3
提问于2016-01-19
得票数 30
1
回答
为什么我会在单词袋(CountVectorizer)后使用
TF
-国防军?
、
、
在我最近对机器学习
NLP
任务的研究中,我发现了一个非常好的教程,教我如何构建第一个文本
分类
器: https://towardsdatascience.com/machine-learning-
nlp
-text-classification-using-scikit-learn-python-and-nltk-c52b92a7c73a要点是,我一直认为你必须在使用单词袋或WordEmbeddings或
TF
-以色列国防军之间进行选择,但在本教程中,作者使用了单词包(CountVectorizer)
浏览 0
提问于2020-11-20
得票数 1
回答已采纳
1
回答
如何用OneVsRestClassifier的输出来训练FastText
、
、
、
、
0.963977575302124), ('Baseball', 0.9581758379936218), ('Cyberpunk', 0.9565480351448059)]clf = OneVsRestClassifier(lr) // xtrain_
tfidf
, ytrain are
浏览 8
提问于2021-08-17
得票数 0
2
回答
将word2vec融入具有数据帧结构的训练集中
、
、
我是
NLP
的乞丐,我有一些关于
分类
任务的问题。我在数据帧结构中有一个数据集,其中包含两列,第一列是文本(所以字符串),第二列在每个测试的
标签
中。为了应用MLP,我可以使用以下代码Test_X_
Tfidf
=
浏览 3
提问于2021-06-01
得票数 0
回答已采纳
2
回答
面向大数据集的
多
标签
分类
、
、
、
、
我正在解决一个
多
标签
分类
问题。我有大约600万行要处理,这些行是巨大的文本块。它们在单独的列中使用多个标记进行标记。('vectorizer', CountVectorizer(min_df=1)), ('
浏览 3
提问于2013-11-29
得票数 6
1
回答
在小数据集上使用GridSearch并在大数据集上应用结果是个好主意吗?
、
、
、
、
这是我要执行的gridSearch的参数: '
tfidf
-vect__stop_words': (None,'english'), '
tfidf
-vect__max_
浏览 1
提问于2015-10-07
得票数 0
回答已采纳
1
回答
Scikit文本
分类
-输入形状错误
、
、
、
我已经修改了本教程(),以便在路透社语料库上构建文本
分类
器。但是,我得到了一个错误的输入形状:train_
tf
=
tf
_transformer.transform(train_counts)
tfidf
_transformer = TfidfTransformer() train_
tfidf
浏览 7
提问于2017-09-03
得票数 2
回答已采纳
1
回答
如何评价
tfidf
和kmeans的结合
、
、
、
对于我的
nlp
问题,我使用了一个
TF
下手和KMeans的组合从学习包。
tfidf
获取向量,然后使用Kmeans对文本进行基于向量的聚类。我有一些类似于n_gram、输入特性和stop_words之类的
TFIDF
参数。问题是如何评估这个模型?我的猜测是,我不需要评估KMeans模型,因为它的作用只是计算点之间的距离,而我只需要专注于
TFIDF
模型和我最终使用的参数。这是正确的吗?编辑:我忘了说:我没有目标
标签
。我基本上是把看起来像集群一样的文本分组。
浏览 0
提问于2022-12-06
得票数 0
1
回答
在OneVsRestClassifier中处理50,000个类
、
、
、
我是数据科学和
NLP
的新手。我试图解决一个问题,那就是有100万行和大约5万个不同的类。dataset有一些文本列作为预测器,另一个是
多
标签
响应。我一直在使用
tfidf
来表示文本字段,使用MultiLabelBinarizer来转换
标签
。但MultiLabelBinarizer给了MemoryError。而且,我不可能使用序列序列传递遗留的
多
标签
数据表示,因为在sklearn包中似乎不再支持。那么,我该怎么做呢? 任何帮助都是非常感谢的。提前谢谢。
浏览 0
提问于2018-11-24
得票数 0
回答已采纳
1
回答
一个
多
标签
文本
分类
问题
、
、
、
我想解决一个
多
标签
的文本
分类
问题,但是我真的不知道如何正确地表述它,这样我就可以查找它。我的问题是:我想把句子分为三个
标签
(例如)目标、方法和结果。其结果将是: object
浏览 0
提问于2022-03-11
得票数 2
回答已采纳
4
回答
NLP
-如何添加更多功能?
、
、
、
、
我想使用sklearn
分类
器训练一个模型,使用文本特征(内容)、数字特征(人口)和
分类
特征(位置)对数据条目(是,否)进行
分类
。 ? 下面的模型仅使用文本数据对每个条目进行
分类
。在将文本导入
分类
器之前,使用
TF
-IDF将文本转换为稀疏矩阵。 有没有办法添加/使用其他功能?这些特征不是稀疏矩阵格式,因此不确定如何将它们与文本稀疏矩阵相结合。pipeline = Pipeline([('bag_of_words',CountVectorizer(anal
浏览 91
提问于2019-05-31
得票数 2
回答已采纳
2
回答
理解
多
类
分类
中的
tf
.keras.metrics.Precision与召回
、
、
、
、
我正在为一个
多
类
分类
问题建立一个模型。因此,我想用召回和精确性来评估模型的性能。我在dataset中有4个类,它是以one hot表示形式提供的。我正在阅读和
tf
.keras文档,并有一些问题: 在计算
多
类
分类
的精确性和召回性时,如何求出所有
标签
的平均值,即全局精度和召回率?如果要分别计算每个
标签
的精度和召回,可以使用参数class_id对每个
标签
进行one_
vs
_rest或binary
分类
。就像我在下面代码中
浏览 25
提问于2022-06-22
得票数 2
1
回答
如何改进我对德语文本的
多
类文本
分类
?
、
、
、
、
我是
NLP
的新手,这让我有点困惑。我试图在我的数据集上使用SVC进行文本
分类
。我有一个6个类的不平衡数据集。这篇文章是健康、体育、文化、经济、科学和网络课程的新闻。我用
TF
-以色列国防军进行矢量化。category']y_test = test['category'] text_clf_lsvc = Pipeline([('
tfidf
然后我决定降低维数:所以在我的第二次尝试中,我添加了Tr
浏览 1
提问于2020-12-04
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
机器学习100天-Day1403多类分类&多标签分类&多输出分类
基于多标签SVM的DNS隧道分类
NLP之文本分类:“Tf-Idf、Word2Vec和BERT”三种模型比较
何为多标签分类?这里有几种实用的经典方法
Gensim,一个主题建模与文档相似度的Python库!
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券