腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
为什么
当我
传递
词汇表
的
参数
时
,
sklearn
的
TfidfVectorizer
会
返回
一个
空
矩阵
,
而
不是
这样
呢
?
、
、
wáéíóúↄḟṁṅæǽ⁊ɫ֊̃]+\b", vocabulary=vocab)print(vectors)
当我
这样
做
的
时候,
矩阵
是
空
的
。如果我尝试使用print([vectors]),我可以看到
矩阵
的
形状,但其中没有数据。,
当我
删除vocabulary=vocab
参数
时
,我可以获得文档中所有单
浏览 13
提问于2021-05-28
得票数 0
回答已采纳
1
回答
为什么
TfidfVectorizer
在scikit中-学习显示这种行为?
、
、
在创建
TfidfVectorizer
对象
时
,如果显式
传递
token_pattern
的
默认值,则会在执行fit_transform
时
抛出错误。以下是错误: 我
这样
做是因为最终我希望
传递
一个
token_pattern
参数
的
不同值,
这样
我也可以将单个字母标记作为tfidf
矩阵
的</e
浏览 4
提问于2015-06-03
得票数 1
回答已采纳
1
回答
将术语文档
矩阵
限制为最频繁
的
unigram
、
、
、
、
下面的代码是
一个
分析海量语料库
的
例子。我希望将术语文档
矩阵
限制为1000个最频繁
的
unigram,但是将max-features
参数
更改为n仅
返回
第
一个
n unigram。有什么建议吗?from
sklearn
.feature_extraction.text import
TfidfVectorizer
corpus = ['Hi my namevectorizer =
T
浏览 1
提问于2021-01-17
得票数 0
1
回答
将预先计算
的
估计值馈送到
TfidfVectorizer
、
我训练了
一个
scikit learn
的
TfidfVectorizer
实例,并希望将其持久化到磁盘上。我将IDF
矩阵
( idf_属性)作为numpy数组保存到磁盘,并将
词汇表
(vocabulary_)作为JSON对象保存到磁盘(出于安全性和其他考虑,我正在避免pickle )。我正在尝试
这样
做:from idf import idf # numpy array with the pre-computed IDFs from
sklearn
.fea
浏览 1
提问于2015-12-07
得票数 1
1
回答
如何在k-means聚类中使用tfidf值
、
、
、
、
我在使用sckit-learn库
的
TF-IDF中使用K-means聚类。我知道K-means使用距离来创建聚类,距离用(x轴值,y轴值)表示,但tf-idf是
一个
单独
的
数值。我
的
问题是,这个tf-idf值是如何通过K均值聚类转换为(x,y)值
的
。
浏览 20
提问于2020-02-19
得票数 2
回答已采纳
2
回答
HashingVectorizer上
的
scikit learn- Tfidf
、
、
、
、
我正在使用SciKit Learn对
一个
大型数据集(+- 34.000个文件)执行一些分析。现在我在想。HashingVectorizer
的
目标是低内存使用率。这些特征可以从HashingVectorizer中计算出来,因为可以存储计数并推断文档
的
数量。path in paths: data.append(pickle.load(handle)) tfidf =
TfidfVectorizer
我怎么才能让魔法发生<
浏览 2
提问于2016-01-05
得票数 3
1
回答
Scikit-学习向量器`max_features`
如何在max_features模块中选择
TfidfVectorizer
参数
的
数目?我是否应该使用数据中
的
最大元素数?
参数
的
没有给我
一个
清晰
的
愿景,说明如何选择它
的
价值: 如果没有,那么构建
一个
词汇表
,它只考虑所有语料库中按词频排序
的
顶级max_features如果
词汇表
不是</em
浏览 1
提问于2017-09-08
得票数 23
回答已采纳
2
回答
获取所选特征名称TFIDF矢量器
、
、
我使用
的
是python,我想要获得大量数据
的
TFIDF表示,我使用以下代码将文档转换为TFIDF格式。from
sklearn
.feature_extraction.text import
TfidfVectorizer
min_dffor unseen words tfidf_df = tfidf_vectorizer.fit_transform(df['text&
浏览 9
提问于2017-03-01
得票数 18
回答已采纳
1
回答
在Scikit
TfidfVectorizer
中同时使用min_df、max_df和max_features
、
、
、
我正在尝试弄清楚是否可以同时使用min_df、max_df和max_features作为Scikit.
Sklearn
中
TfidfVectorizer
类
的
参数
。我完全理解它们各自
的
用途。我已经向
TfidfVectorizer
()
传递
了
一个
数据来修复min_df = 0.05和max_df = 0.95,这意味着只有不到5%
的
文档中出现
的
术语被忽略,超过95%
的
文档中出现
的
术语被忽略(
浏览 0
提问于2018-10-01
得票数 0
2
回答
使tfidf向量器
返回
作为文档数量
的
特性。
、
、
我使用
的
是适合于N个文档
的
Sklearn
,
而
不是
我想要得到
一个
基于每个文档中
的
tfidf分数
的
一个
单词
的
向量表示。一些代码可以帮助: corpuswords like car and pla
浏览 2
提问于2020-01-11
得票数 0
1
回答
在scikit中向文本向量器中添加新单词-学习
、
、
、
、
Scikit-学习单词包CountVectorizer方法目前提供了两个子选项:(a)使用自定义
词汇表
(b)如果无法使用自定义
词汇表
,则根据语料库中
的
所有单词生成
一个
词汇表
。我
的
问题是:我们能否首先指定
一个
自定义
词汇表
,但确保在处理语料库
时
看到新单词时会更新它。我假设这是可行
的
,因为
矩阵
是通过稀疏表示存储
的
。有用性:当
一个
人必须在培训数据中添加额外
的</e
浏览 4
提问于2013-11-13
得票数 5
3
回答
在已经标记化
的
输入中使用
sklearn
TfidfVectorizer
?
、
我有
一个
标记化
的
句子列表,并希望适合tfidf矢量器。this', 'is', 'one'], ['this', 'is', 'another']] return text tfidf =
TfidfVectorizer
在此之前,它们在另
一个
阶段被标记化。
浏览 2
提问于2018-02-08
得票数 14
回答已采纳
2
回答
scikit-学习:将数据整合到块中,
而
不是
一次将其全部拟合起来。
、
、
我正在使用scikit-学习构建
一个
分类器,它工作(有点大)文本文件。我现在需要
一个
简单
的
词包特征,所以我尝试使用
TfidfVectorizer
/HashingVectorizer/CountVectorizer来获得特征向量。但是,一次处理整个列车数据以获得特征向量
会
导致numpy/scipy中
的
内存错误(取决于我使用
的
向量器)。当从原始文本中提取文本特性
时
:如果我将数据以块
的
形式匹配到向量器中,这是否
浏览 2
提问于2015-08-03
得票数 9
回答已采纳
1
回答
TFIDF矢量化标记文档
时
出现
的
问题?
、
、
、
、
(vectorizer.idf_)[::-1]问题是,
当我
执行上述提取关键字
的
过程
时
,我怀疑向量器对象正在从我
的
textblob因此,我可以使用tfidf向量器对象中
的
哪个
参数
来保存括号中
的
此类信息?更新from
sklearn
.feature_extraction.text import
TfidfVectorizer
def du
浏览 1
提问于2018-07-27
得票数 1
回答已采纳
1
回答
TfIdfVectorizer
:固定
词汇表
的
向量器是如何处理新单词
的
?
、
、
、
我在考虑三个领域: 我使用
TfIdfVectorizer
获取纯文本字段
的
TfIdf表示,并将由此产生
的
词汇表
反馈到标题和抽象
的
向量器中,以确保所有三个表示都在同
一个
词汇表
上工作我
的
想法是,由于明文字段比其他两个字段大得多,所以它
的
词汇表
很可能涵盖其他字段中
的
所有单词。但是如果
不是
这样
的话,
TfIdfVectorizer
浏览 2
提问于2017-02-06
得票数 6
回答已采纳
2
回答
在日语文本上使用带有
TfidfVectorizer
的
it-idf
、
、
、
、
我正在处理用几种语言编写
的
大量文档。我想计算文件之间
的
余弦距离从他们
的
tf-以色列国防军
的
分数。到目前为止,我已经:vocabulary = vectorizer.vocabulary_ 当doc1、doc2和doc3三种文档包含英
浏览 3
提问于2017-01-17
得票数 2
回答已采纳
1
回答
函数在另
一个
方法中调用时
返回
空数组,
而
不是
参数
对象
下面是我发明
的
一个
简单函数,用于测试JavaScript
的
argument对象和rest
参数
。:f(1,2,6,5,8,9,10,'a')我将获得两个控制台日志,然后
返回
参数
对象。但是,如果我将此函数
传递
给:Array.prototype.slice(f(1,2,6,5,8,9,10,'a'), f.length),我将
返回
一个
空
数组,
而
不是
浏览 6
提问于2017-08-02
得票数 0
回答已采纳
1
回答
CountVectorizer给出
空
词汇表
错误是文档基数
我遇到了
一个
问题,在使用
sklearn
与
一个
文档,其中包括
一个
词- 'one‘。我已经知道,当文档只包含POS标签CD (基数)
的
单词
时
,就会发生错误。以下文档都会导致
空
词汇表
错误:“一”、“二”cv = CountVectorizer(stop_words='english', analyzer='word', lowercase‘1’,‘2’
这样
浏览 0
提问于2016-04-22
得票数 5
回答已采纳
1
回答
GridSearchCV是否调用管道中对象
的
初始值?
、
我写了
一个
代码来处理Kaggle
的
泰坦尼克号数据。我所写
的
课程如下:svc_grid_clf=Pipeline([('SVC'
浏览 1
提问于2017-07-25
得票数 0
回答已采纳
1
回答
当文档数量非常少时,LSA在术语文档
矩阵
中
的
应用
、
、
、
、
我有
一个
形状(6, 25931)
的
术语文档
矩阵
(X) .前5个文档是我
的
源文档,最后
一个
文档是我
的
目标文档。该列表示
词汇表
中不同单词
的
计数。我想得到最后
一个
文档与其他每个文档
的
余弦相似性。但是,由于SVD产生
一个
S
的
大小(min(6, 25931),),如果我使用S来缩小我
的
X,我得到
一个
6*6
矩阵
。但是在这种情况下,我觉得我会
浏览 2
提问于2020-04-12
得票数 0
点击加载更多
相关
资讯
Python机器学习sklearn模块-特征提取
外国网友如何使用机器学习将邮件分类?其实很简单
词向量之DNN模型
文本分类方法及词向量概述
字符数组-第十一课
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券