腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(217)
视频
沙龙
1
回答
如何将
主题
列表
(
从
gensim
lda
get_document_topics
())更
改为
DataFrame
格式
、
、
、
我使用以下命令执行了一些
主题
建模
gensim
.models.ldamodel.LdaModel() 我想标记我的数据,以可视化我的发现。这就是我到目前为止所知道的: 我当前的
dataframe
有以下列: ['text']['date']['gender']['tokens']['topics']['main_topic'] Text只是纯文本数据,date
格式
为(yyyy-mm-dd),性别为二进制,女
浏览 120
提问于2021-02-28
得票数 1
回答已采纳
2
回答
如何在新闻文章中使用
gensim
for
lda
?
、
、
我正在尝试从一个庞大的新闻文章语料库中检索
主题
列表
,我计划使用
gensim
使用
LDA
来提取每个文档的
主题
分布。我想知道
lda
的
gensim
实现所需的处理文章的
格式
,以及
如何将
原始文章转换为该
格式
。我在维基百科上看到了关于使用
lda
的链接,但我发现语料库处于已处理状态,其
格式
在任何地方都没有提到
浏览 5
提问于2012-04-02
得票数 3
回答已采纳
1
回答
应用
gensim
LDA
主题
建模后,如何为每个
主题
获取概率最高的文档,并将其保存在csv文件中?
、
、
、
、
我使用
gensim
LDA
Topic Modeling
从
语料库中获取相关
主题
。现在,我希望获得代表每个
主题
的前20个文档:在一个
主题
中概率最高的文档。我想将它们保存在CSV文件中,
格式
如下:
主题
ID、
主题
单词、
主题
中每个单词的概率为4列,每个
主题
的前20个文档。我已经尝试过
get_document_topics
,我认为它是完成此任务的最佳方法: all_topics =
l
浏览 49
提问于2019-06-02
得票数 3
1
回答
csv矩阵在一个模型中的
主题
相似性
、
、
我想要生成一个
主题
到
主题
矩阵,以找到类似的
主题
,以生成内部集群的函数
gensim
.models.ldamodel.diff
从
gensim
LDA
。
如何将
生成的数据保存到包含
主题
和单元格中的距离(在本例中为hellinger距离)的csv中?此代码不适用于我:import pandas dateiname_model1 = "
lda
.m
浏览 2
提问于2018-05-31
得票数 1
回答已采纳
4
回答
python -将
列表
转换为
dataframe
、
、
、
、
问题:--我想将
列表
列表
转换为数据
格式
。2,0.3),(3,0.4),(4,0.2)]]请注意,虽然一些文档(如第三
列表
)最多可以有五个元组(
主题
概率),但是
gensim
LDA
浏览 2
提问于2015-11-04
得票数 0
3
回答
从
gensim
LDA
模型中提取
主题
分布
、
、
我使用python中的
gensim
包为一些文本文件创建了一个
LDA
模型。我想获得学习模型的
主题
分布。在
gensim
ldamodel类中是否存在从模型中获取
主题
分布的方法或解决方案?例如,我使用一致性模型来寻找一个模型,该模型的值与1到5的
主题
数有关。得到最佳模型后,我使用
get_document_topics
方法(感谢)来获取用于创建该模型的文档中的
主题
分布。= None <e
浏览 1
提问于2018-08-29
得票数 2
回答已采纳
1
回答
使用
gensim
从
词袋向量创建
LDA
模型
、
、
、
我想从Jstor提供的数据(例如)中创建一个
主题
模型。但是,由于版权的原因,它们不允许全文访问。取而代之的是,我可以在文档(以纯.txt
格式
提供)中请求一个单字符
列表
,后面跟着它们的频率。但是,我只找到了
从
全文构建
Gensim
LDA
模型的示例。是否有可能将这些向量传递给它呢?
浏览 1
提问于2019-11-16
得票数 1
10
回答
如何
从
gensim
打印
LDA
主题
模型?Python
、
、
、
、
使用
gensim
,我能够
从
LSA中的一组文档中提取
主题
,但是如何访问
从
LDA
模型生成的
主题
呢?):代码:from itertools import izip
浏览 7
提问于2013-02-22
得票数 27
1
回答
Gensim
:为每个
主题
提取100个最具代表性的文档
、
、
、
我有几个
gensim
模型,适用于大约500万个文档。我想从每个
主题
的每个模型中提取前100个最具代表性的文档,以帮助我选择最佳模型。假设我有一个模型
lda
和语料库corpus,我可以获得以下形式的
主题
概率:其中topic_probs是元组
列表
:(topic_num, topic_prob如何依次按
主题
和概率对此元组
列表
进行排序,然后
从
语料库中检索前100个文档?我猜答案看起来有点像
浏览 1
提问于2020-06-03
得票数 0
7
回答
层次Dirichlet过程
Gensim
主题
数与语料库大小无关
、
、
、
我在一组文档上使用
Gensim
HDP模块。hdp.print_topics(topics=-1, topn=20)150111317 为什么
主题
的数量与语料库长度无关
浏览 1
提问于2015-07-21
得票数 14
回答已采纳
2
回答
从
gensim
的
LDA
获得统一的
主题
分布吗?
、
、
、
我试图学习每个文档在一个语料库中的
主题
分布。这是非常不可能的,因为文档有不同的
主题
。相关的代码片段是: vecs = [vec for ve
浏览 0
提问于2016-09-08
得票数 2
回答已采纳
4
回答
从一组文档中提取最重要的关键字
、
、
、
、
此外,仅仅根据Tf-Idf分数
从
每个文档中选择前k个单词也不会有什么帮助,对吧? :我可以做一些很酷的事情,比如查找相似的单词,但不确定如何使用它来查找重要的关键字。
浏览 3
提问于2017-08-24
得票数 3
1
回答
Top2Vec模型的一致性度量
、
、
我基本上是在更改HDBScan簇大小,以获得表示不同
主题
#的不同的Doc2Vec嵌入集群。我还尝试使用托克利特。虽然我可以轻松地获得文档术语矩阵( Document,DTM),但我无法使用Top2Vec获得
主题
词分布。问题:还有其他指标可以用来比较Top2Vec模型吗?
浏览 0
提问于2021-08-06
得票数 0
6
回答
用
gensim
学习矢量器和词汇表
、
、
、
我正在尝试回收scikit-学习带有
gensim
主题
模型的向量器对象。原因很简单:首先,我已经有了大量的矢量化数据;第二,我
更
喜欢scikit的界面和灵活性--学习向量器;第三,尽管使用
gensim
的
主题
建模非常快,但在我的经验中,计算它的字典(Dictionary())和也曾提出过类似的问题,其桥接方法是
gensim
的Sparse2Corpus()函数,它将一个稀疏矩阵转化为一个
gensim
语料库对象。为了打印每个
主题
的判别词(
gensim
浏览 14
提问于2014-02-04
得票数 20
回答已采纳
2
回答
如何衡量Doc2vec模型的准确性?
、
、
有没有办法使用
Gensim
而不是使用
Gensim
的most_similar()函数来测量Doc2Vec模型的精度
浏览 44
提问于2020-04-04
得票数 1
回答已采纳
1
回答
以Pandas为中间人将多个html表导出到Excel中
、
、
、
、
我正在从一个网站收集1981-2018年的数据,其中显示2018年的数据:data_url = [pd.read_csv(url[i], sep=" ", header=None) for i in range(len(url))]首先,是否有一种比上述清单理解
更
清晰第二,
如何将
整个
列表
理解导出到Excel电子表格?data_url)): data_url[i].to_excel(
浏览 1
提问于2018-02-20
得票数 1
回答已采纳
1
回答
SparkSQL: intra应用程序表注册
上下文。I将数十个查询存储在单独的文件中。为了进行基准测试,我创建了一个应用程序,它遍历每个查询文件并将其传递给独立的Spark应用程序。后一种方法首先解析查询,提取使用过的表,注册它们(在Spark <2中使用:registerTempTable(),在Spark 2中使用createOrReplaceTempView() ),并有效地执行查询(spark.sql())。 由于注册这些表可能很费时,所以我想惰性地注册这些表,即第一次使用时只注册一次,并将其保持在元数据的形式,这些元数据可以很容易地在后续查询中使用,而无需在每次查询中重新注册表。据我所知,这是一种作业内缓存,但不是Spa
浏览 1
提问于2016-11-11
得票数 1
3
回答
将未知大小的
列表
拆分为带有no的
dataframe
。列数
、
、
、
、
lol)0 [1, 2, 3]2 [3, 2]4 [2, 3, 4]
如何将
列表
拆分为如果
列表
小于3,则使用None填充
列表
0 1 21 3 1.0 1.0n = 3 for row in
浏览 2
提问于2017-10-09
得票数 1
回答已采纳
1
回答
如何用Pandas删除小于一定数量项或字符串的行?
、
、
、
、
我希望删除
列表
中包含少于3个字符串或项的任何行。我的问题将进一步得到
更
明确的解决。dr = pd.
DataFrame
(r) dr0 = dr[dr.astype(str)['PLATSBESKRIVNING'] !我现在的问题是,我希望删除
列表
中包含少于3个字符串的任何行,例如第3、第6和第7行。我也想知道是否
浏览 1
提问于2017-08-06
得票数 3
回答已采纳
5
回答
从
文本内容生成标签
、
、
、
、
我很好奇是否存在一种算法/方法,通过使用一些权重计算、出现比率或其他工具,
从
给定的文本生成关键字/标签。谢谢
浏览 2
提问于2010-04-18
得票数 51
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券