腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Doc2Vec
-余弦相似矩阵的求值
python
、
nlp
、
gensim
、
doc2vec
我正在106k文档(每个文档100-600字)上训练我的
Doc2Vec
模型
。目标是检索目标文档的相似文档。由于
Doc2Vec
是一个无监督
模型
,因此除了测试它在下游任务中的执行情况外,没有可能进行真正的评估。因此,我创建了一个
小
的
数据
集
,每个目标包含大约200个目标文档和5个类似的文档。我的想法是计算每个文档与我的测试
数据
集中所有其他文档的余弦相似度,并获得每个目标文档的前5个相似文档。 有没有一种用
Doc2Vec
创建余弦相似度矩阵的有
浏览 23
提问于2021-02-10
得票数 1
1
回答
Gensim
Doc2Vec
模型
根据
数据
集
返回不同的余弦相似度。
gensim
、
word2vec
、
doc2vec
我用两个
数据
集训练了两个版本的
doc2vec
模型
。
数据
集
1= doc1,doc2,doc2400我认为两个
doc2vec
模型
都应该返回相同的doc1
浏览 4
提问于2021-07-02
得票数 0
回答已采纳
1
回答
训练一个
doc2Vec
模型
实际上需要多少
数据
?
neural-network
、
gensim
、
doc2vec
我一直在使用gensim的库来训练
doc2Vec
模型
。在对不同的训练
数据
集
进行了实验之后,我对什么是
doc2Vec
模型
的理想训练
数据
大小感到非常困惑? 关于通用
数据
集
的培训----如果我想使用对通用
数据
集
进行培训的
模型
,那么在特定的用例中,我需要对很多
数据
进行培训。关于上下文相关
数据
浏览 2
提问于2018-01-02
得票数 6
回答已采纳
1
回答
尝试在gensim中创建
doc2vec
模型
时出现键入错误
python
、
gensim
、
doc2vec
我正在尝试使用gensim训练一个
Doc2Vec
模型
。我已经使用gensim文档中的示例来创建
模型
。= enumerate(docs)model =
Doc2Vec
(documnets, ve
浏览 18
提问于2019-11-12
得票数 0
回答已采纳
2
回答
基于
Doc2Vec
的情感分类
python
、
nlp
、
gensim
、
doc2vec
对于如何将
Doc2Vec
(使用Gensim)用于IMDB情感分类
数据
集
,我感到困惑。在对语料库进行训练后,得到了
Doc2Vec
嵌入,并利用该
模型
建立了Logistic回归
模型
。sklearn -以色列国防军有一种转换方法,可用于训练
数据
训练后的测试
数据
,其在Gensim
Doc2Vec
中的等效性是什么?
浏览 6
提问于2019-12-27
得票数 0
回答已采纳
1
回答
如何抓取语义相似的句子
python
、
nlp
、
data-science
、
sentence-similarity
、
semantic-analysis
我有一个
小
的文本
数据
集
,并想从网络上抓取相似的句子。使用Bert相关
模型
、
doc2vec
和空间相似度的sentence_transformers软件包进行相似性度量。
浏览 33
提问于2020-06-06
得票数 1
1
回答
保存/重用基于
doc2vec
的
模型
以进行进一步预测
machine-learning
、
scikit-learn
、
gensim
我一直在遵循以下使用
doc2vec
进行文本分类的示例: https://github.com/susanli2016/NLP-with-Python/blob/master/Text%20Classification%20model%20selection.ipynb 我在我的
数据
集
上运行了这个笔记本,并希望将其中一个
doc2vec
模型
应用于第三个
数据
集
(例如,构建测试/训练
模型</
浏览 35
提问于2020-01-21
得票数 0
回答已采纳
1
回答
gensim
doc2vec
"intersect_word2vec_format“命令
nlp
、
gensim
、
doc2vec
只需阅读gensim页面上的
doc2vec
命令。 我对命令“intersect_word2vec_format”很好奇。我对这个命令的理解是,它允许我将经过预先训练的word2vec
模型
中的向量值注入到我的
doc2vec
模型
中,然后使用预训练的word2vec值来训练我的
doc2vec
模型
,而不是从我的文档语料库生成单词向量值结果是,我得到了一个更精确的
doc2vec
模型
,因为我使用的是经过预先训练的w2v值,与相对较小的文档语料库相比,该值是从更大的
浏览 9
提问于2017-09-02
得票数 2
回答已采纳
1
回答
Doc2Vec
预训练和推断向量
python
、
nlp
、
word-embedding
、
doc2vec
、
pre-trained-model
假设我已经用50000个文档训练了
doc2vec
模型
,并且我想为包含36000个文档的单独
数据
集
推断向量。在这种情况下,推断的向量对于下游分类任务是否有效,因为我的假设是推断的向量取决于训练
模型
的文档的大小。注意:这两个
数据
集
,即一个用于训练
doc2vec
,另一个用于推断向量,是唯一的,但来自美国最高法院的同一领域。 如果我有正当理由错了,请纠正我。
浏览 66
提问于2020-03-20
得票数 0
回答已采纳
2
回答
如何衡量
Doc2vec
模型
的准确性?
gensim
、
unsupervised-learning
、
doc2vec
我有一个不同酒店的评论
数据
集
。我正在尝试使用酒店的评论来查找类似的酒店。因此,我使用
Doc2vec
算法来实现这一点。有没有办法使用Gensim而不是使用Gensim的most_similar()函数来测量
Doc2Vec
模型
的精度
浏览 44
提问于2020-04-04
得票数 1
回答已采纳
1
回答
为训练
doc2vec
嵌入建立一条学习曲线
python
、
machine-learning
、
scikit-learn
、
doc2vec
X_all.todense(), y, ylim=(0.7, 1.01), cv=cv, n_jobs=4)from gensim.models.doc2vec import
Doc2Vec
[TaggedDocument(words=word_tokenize(_d.lower()), tags=[str(i)]) for i, _d in enumerate(X)] model =
Doc2Vec
浏览 2
提问于2019-03-30
得票数 0
回答已采纳
2
回答
是否有预先训练好的
doc2vec
模型
?
gensim
、
doc2vec
有没有像维基百科或类似的具有大型
数据
集
的预先训练好的
doc2vec
模型
?
浏览 3
提问于2018-07-02
得票数 12
1
回答
如何提高
Doc2Vec
模型
(Gensim)在玩具大小
数据
集
情况下的准确性?
neural-network
、
nlp
、
word2vec
、
gensim
、
similar-documents
我正在使用Python的
Doc2Vec
包中的gensim技术构建一个NLP问答应用程序。我的培训问题非常
小
,只有20个文档和我变得非常不准确和不同的相似之处,即使是同一文档运行在多个实例。我所提到的几乎所有的资料来源都是经过培训的
数据
集
,里面有数千份文件。因此,我推断我的
模型
不准确的原因是我的
数据
集
的大小。 是否有任何方法来改善文档之间的相似性,可能通过改变参数或特征工程?如果不是,有什么其他的方法或者其他的神经网络
模型
来解决这个问题?
浏览 0
提问于2017-06-27
得票数 0
1
回答
如何使用spark在亚马逊网络服务集群上训练
doc2vec
python-2.7
、
amazon-s3
、
aws-lambda
、
doc2vec
我正在使用python Gensim来训练
doc2vec
。是否有可能允许此代码在亚马逊网络服务(s3)上分发。提前谢谢你
浏览 0
提问于2017-05-30
得票数 0
1
回答
Doc2Vec
在线培训
python
、
python-3.x
、
nlp
、
gensim
、
doc2vec
我训练我的
doc2vec
模型
: "Sentence 2", "Sentence 4d.lower()), tags[str(i)]) 培训部分: model =
Doc2Vec
我想在我的词汇和
模型
中添加一些句子。我在
浏览 0
提问于2018-12-04
得票数 0
回答已采纳
2
回答
Gensim
Doc2Vec
-将语料库语句传递给
Doc2Vec
函数
python
、
text-mining
、
gensim
、
word2vec
、
doc2vec
我使用MySentences类从目录中的所有文件中提取句子,并使用这个句子来训练word2vec
模型
。我的
数据
集
没有标签。line.split() model = gensim.models.Word2Vec(sentences)AttributeError:
浏览 1
提问于2016-07-07
得票数 1
1
回答
从未经训练的
数据
集
构建
doc2vec
中句子的向量
python
、
machine-learning
、
nlp
、
gensim
、
word2vec
我有一个从我的
数据
构建的
doc2vec
模型
,现在我在运行时有了一个不属于训练好的
数据
集
的新句子。我该如何处理这句话中的生词?
浏览 1
提问于2015-09-26
得票数 2
1
回答
Doc2vec
:在gensim
doc2vec
模型
中只有10个docvecs?
machine-learning
、
nlp
、
word2vec
、
gensim
、
doc2vec
我使用gensim拟合
doc2vec
模型
,并以标记文档(length>10)作为训练
数据
。目标是获取所有训练文档的doc向量,但在model.docvecs中只能找到10个向量。培训
数据
示例(length>10) dtype='<U32'), tags='117') 拟合
doc2
浏览 0
提问于2018-02-28
得票数 6
回答已采纳
1
回答
使用infer_vector()检查
doc2vec
的
模型
过拟合
python
、
testing
、
nlp
、
gensim
、
doc2vec
我的目标是从df"text“列创建文档嵌入,作为第一步,然后第二步将它们与其他变量一起插入到XGBoost回归
模型
中,以便进行预测。这对于train_df非常有效。我目前正在尝试评估我训练过的
Doc2Vec
模型
,方法是在看不见的test_df上用infer_vector()推断向量,然后再用it.However进行预测,结果非常糟糕。我假设,这意味着
Doc2Vec
严重过度拟合了?实际上,我不确定这是否是评估我的
doc2vec
模型
(由infer_vector)的正确方法?如何防止
浏览 0
提问于2020-10-26
得票数 2
1
回答
doc2vec
中的文档长度
machine-learning
、
python
、
gensim
、
similar-documents
我使用
doc2vec
将句子向量化为20维向量,并应用kmeans对它们进行聚类。我还没有得到想要的结果。 我已经读到
doc2vec
只在大型
数据
集
上表现良好。我想知道是否增加每个
数据
样本的长度,是否会弥补样本数量少的问题,并帮助
模型
更好地进行训练?
模型
能更好地理解上下文吗?
浏览 0
提问于2019-08-26
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
MNIST 数据集载入线性模型
基于自制数据集的MobileNet-SSD模型训练
基于Doc2vec训练句子向量
分享用小型数据集处理数据的7个小技巧
在RLHF偏好数据集上,SFT模型怎样来训练
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券