腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Tf-Idf
的
输出
不
理想
、
、
我在一个文本文件中有一个2行
的
文档,如下所示。我想要对它应用
tf-idf
,但我得到了如下所示
的
错误:我不确定int对象在我
的
文件中
的
什么位置?它为什么会抛出这个错误?
浏览 14
提问于2020-05-25
得票数 0
2
回答
在python
的
gensim工具中,
TF-IDF
是如何实现
的
?
、
、
、
从我从网上找到
的
文档中,我计算出了用于确定语料库中术语
的
词频和反向文档频率权重
的
表达式我正在研究gensim中提到
的
tf-idf
的
实现。文档中给出
的
示例如下>>> print tfidf[doc_bow] # step 2 -- use the model to transformve
浏览 7
提问于2012-02-28
得票数 4
0
回答
TF-IDF
和余弦相似度
的
替代方法(比较不同格式
的
文档)
、
、
、
我一直在做一个小型
的
个人项目,这个项目需要用户
的
工作技能,并根据这些技能为他们提供最
理想
的
职业建议。我使用一个职位列表数据库来实现这一点。目前,代码
的
工作方式如下:2)对于每个职业(例如“数据分析师”),将该职业
的
职务列表
的
处理文本合并到一个文档中 3)计算职业文档内各技能
的
TF-IDF
我见过
的
最流行
的
方法是将
浏览 8
提问于2017-01-03
得票数 3
回答已采纳
2
回答
Python (TextBlob)
TF-IDF
计算
、
我研究了几种使用Python计算文档中单词
的
TF-IDF
分数
的
方法。我选择使用TextBlob。我已经查看了这里发布
的
以下问题:,但它没有任何帮助。我是如何计算分数
的
: return blob.words.count(word) / len(blob.words) def n_containing
浏览 0
提问于2015-09-07
得票数 2
1
回答
TF-IDF
按字符串行而不是整个文本文档
、
、
我已经在一个简单
的
程序中实现了
TF-IDF
,但希望计算每行
的
TF-IDF
,而不是整个文件。我使用了from sklearn.feature_extraction.text import TfidfVectorizer,并以下面的链接为例from sklearn.feature_extraction.texttestDB1.txt = i live in chelmsford and i play football chelmsford is a
浏览 0
提问于2015-04-08
得票数 0
1
回答
如何给一句话中
的
每一块打分?
、
、
为了将每个句子分成有意义
的
部分,我首先对词性进行标注,然后根据语言规则仅提取名词短语。每个名词短语都是一个潜在
的
待提取关键字。然而,因为我只需要为每个给定
的
文档提取'k‘关键字,所以我需要一个很好
的
方法来对提取
的
名词短语进行排名。一种简单
的
方法是计算每个术语(在每个名词短语中)
的
TDIDF得分,然后每个名词短语
的
得分将是其构成术语
的
TDIDF得分
的
乘积。我想知道是否有人有更好
的
方法,或者对
浏览 1
提问于2015-10-15
得票数 0
1
回答
拟火花:稀疏向量到枕叶稀疏矩阵
、
、
、
我有一列短句
的
星星之火数据,还有一个带有范畴变量
的
列。我想在句子上执行
tf-idf
,在分类变量上执行one-hot-encoding,然后一旦它变得更小,就
输出
到驱动程序上
的
稀疏矩阵(对于一个scikit-learn模型)。以稀疏
的
形式从火花中获取数据
的
最佳方法是什么?在稀疏向量上似乎只有一个toArray()方法,它
输出
numpy数组。然而,文档中确实有这样
的
说法: say稀疏数组。还请记住,tf_idf值实际上是稀疏数组
的
浏览 16
提问于2016-11-11
得票数 12
回答已采纳
1
回答
如何在scikit学习中保存TFIDF向量器?
、
、
、
这是我
的
矢量化代码 analyzer='word', strip_accentsvectorizer.transform(data['text']) pickle.dump(tfidf, open('tfidf.pickle', 'wb'))当我打开矢量器文件(tfid
浏览 2
提问于2019-10-24
得票数 3
1
回答
tfidf w2v给出tfidf值
、
、
在对亚马逊精品食品数据集进行采样到100k数据点后,使用TFIDF Word2Vec在审查亚马逊精品食品数据集时给出NaN值,我在句子向量中获得了NaN值...我尝试了几乎所有的代码,但没有得到真正
的
价值在打印句子数组之后,这是我得到
的
输出
- nan nanexcept: sent_vec /= weighted_sum print(s
浏览 1
提问于2018-07-28
得票数 0
2
回答
如何消除主题建模噪声?
、
、
、
我正在做主题建模,在删除停用词之后,给定
的
文本语料库在支持词
的
形式下有很多噪音。这些词具有很高
的
词频,但通过使用LDA以及其他有用
的
高频词,无助于形成主题词。怎样才能消除这种噪音?
浏览 1
提问于2015-04-20
得票数 0
3
回答
scikit学习TfidfVectorizer
的
意义?
、
、
、
、
我读到了关于scikit learn
的
TfidfVectorizer
的
文章,我不明白这个方法
的
输出
是什么,例如:print tfidf_vectorizer.vocabulary_
输出
,我不能理解
输出
是什么: [[ 0.5773502
浏览 0
提问于2014-09-18
得票数 25
回答已采纳
1
回答
我是否在k折cross_validation中使用相同
的
Tfidf词汇表?
、
、
、
我正在做基于
TF-IDF
向量空间模型
的
文本分类,我只有
不
超过3000 samples.For
的
公平评估,我正在使用5折交叉验证对分类器进行评估,但令我困惑
的
是,是否有必要在每次折叠交叉验证中重建
TF-IDF
也就是说,在每个折叠交叉验证中,我是否需要重新构建词汇表并重新计算词汇表中
的
IDF值? 目前,我正在基于scikit-learn工具包进行
TF-IDF
变换,并使用SVM训练我
的
分类器。我
的
方法如下:首先,我将手头<
浏览 1
提问于2017-09-02
得票数 12
1
回答
如何在文本数据中基于冒号分隔符
的
pandas列上应用
TF-IDF
、
、
我在pandas dataframe中有一个专栏,在那里我捕获了一个访问者
的
旅程。我想在这个文本专栏中实现
TF-IDF
。, 'pagename': ['home:cart:checkout:buy:home','home:cart:cart:home','home:account:home']})现在,我想应用
tf-idf
技术,我
的
单词由:这样
的
分隔符分隔。tf_idf_df =
浏览 9
提问于2021-06-12
得票数 0
1
回答
weka下
的
StringToWordVector过滤器
、
、
我
的
数据是通过StringToWordVector过滤器传递
的
。StringToWordVector可以
输出
二进制存在/不存在指示符、词频或
TF-IDF
分数。在weka下,这个过滤器
的
默认
输出
是什么?
浏览 1
提问于2012-06-22
得票数 0
回答已采纳
2
回答
不
理想
的
输出
、
、
预期
的
产出是2 24 4但我得到
的
结果是1 23 45 print(num)我试图在python解释器中执行这个python代码,但是得到了错误
的
输出
。
浏览 8
提问于2022-12-02
得票数 -3
1
回答
素面
输出
不是
理想
的
输出
、
我想使用质数面来创建一个面板,我
的
.xhtml是:<!icon="ui-icon-check" style="margin:0"/></p:panelGrid>结果是:但期望
的
输出
浏览 1
提问于2014-02-07
得票数 0
回答已采纳
1
回答
有没有办法在python中用
TF-IDF
查找句子
的
权重?
、
、
我有一个清单我已经完成了
TF-IDF
的
矢量化 from sklearn.feature_extraction.text, 0. ]])如果是,那么如何??
浏览 0
提问于2019-12-10
得票数 2
3
回答
如何在python中打印sklearn中
的
tf-idf
分数矩阵
、
、
我使用sklearn获取
tf-IDF
值,如下所示。vocabulary = myvocabulary, ngram_range = (1,3))现在,我想在矩阵中查看我计算
的
tf-idf
idf = tfidf.idf_print(dic) 但是,然后我会得到如下
输出
。
浏览 1
提问于2017-10-06
得票数 5
回答已采纳
1
回答
tf-以色列国防军计算
的
MapReduce迭代值
、
、
我正在尝试一个还原器,输入(键、值)对
的
格式如下:
浏览 3
提问于2017-02-08
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
用TF-IDF算法提升商品关联销售的效果
谷歌Stadia“云”不起来?理想很美好现实很残酷
影响搜索引擎对页面权重的判断-研究TF-IDF
视频转理想类型的格式如何转?用了不后悔的三种转换办法
其他的输出类型
热门
标签
更多标签
云服务器
ICP备案
对象存储
即时通信 IM
实时音视频
活动推荐
运营活动
广告
关闭
领券