优化word2vec模型比较

Word2Vec是一种用于将文本转换为向量表示的技术，它是自然语言处理领域中的一个重要工具。优化Word2Vec模型是指改进和提升Word2Vec算法的性能和效果。

Word2Vec模型的优化可以从多个方面进行，下面是一些常见的优化方法：

数据预处理：在训练Word2Vec模型之前，需要对原始文本进行预处理，包括分词、去除停用词、词干提取等。这样可以减少噪音和冗余信息，提高模型的准确性和效率。
调整模型参数：Word2Vec模型有一些重要的参数，如窗口大小、向量维度、负采样数量等。通过调整这些参数，可以影响模型的性能和结果。例如，增大窗口大小可以捕捉更多的上下文信息，增加向量维度可以提高表示能力。
增加训练数据量：增加训练数据量可以提高模型的泛化能力和准确性。可以通过收集更多的文本数据或者使用数据增强技术来扩充训练数据。
使用更复杂的模型结构：Word2Vec模型有两种主要的结构，分别是CBOW和Skip-gram。CBOW模型通过上下文预测目标词，而Skip-gram模型则通过目标词预测上下文。在一些复杂的语境中，Skip-gram模型通常表现更好。
增加迭代次数：增加训练的迭代次数可以提高模型的收敛性和效果。但是需要注意，过多的迭代次数可能会导致过拟合。
使用负采样：Word2Vec模型在训练时需要对每个词进行softmax计算，这个计算量非常大。为了减少计算复杂度，可以使用负采样方法来近似计算，提高训练速度。
使用层次Softmax：层次Softmax是一种优化Word2Vec模型的方法，它通过构建二叉树来减少softmax计算的复杂度，提高训练效率。

Word2Vec模型的应用场景非常广泛，包括自然语言处理、信息检索、推荐系统等。在自然语言处理中，Word2Vec可以用于词义相似度计算、文本分类、命名实体识别等任务。

腾讯云提供了一系列与自然语言处理相关的产品和服务，例如腾讯云智能语音、腾讯云智能机器翻译等。这些产品可以与Word2Vec模型结合使用，提供更全面的解决方案。

参考链接：

页面内容是否对你有帮助？

有帮助

没帮助

用于查找相似句子的Gensim和Annoy

、、

我在数据库中有大量的句子，我想找到这些句子中与用户输入的单个句子最相似的句子。看起来我可以用做到这一点，但我能看到的所有例子都是使用word2vec，我相信它对于查找单个相似的单词很好，但不适用于句子。但是，我注意到AnnoyIndexer()可以采用word2vec或doc2vec模型。我说的过程是一样的，但是把word2vec模型换成doc2vec模型，并使用搜索句子的doc2vec向量，对吗？我是否需要以任何方式使用预训练的单词嵌入，或者我是否只需要使用数据库中的句子语料库来训练doc2vec模型？谢谢!

浏览 19提问于2020-02-19得票数 0

1回答

用Word2Vec解决多义问题

、

我有一些关于Word2Vec的问题：是什么决定了结果模型向量的维数？这些向量的元素是什么？如果我已经对每个词的意思都有文本，我可以使用Word2Vec来解决多义问题(state =管理单元与state =条件)吗？

浏览 0提问于2018-07-13得票数 1

回答已采纳

1回答

Word2Vec与Gensim参数等价

、、、、

Gensim是Word2Vec的一个优化的python端口(参见) 我目前正在使用以下向量：我将用gensim重新运行模型培训，因为他们的模型中有一些噪音标记。因此，我想找出word2vec在gensim中的一些等价参数是什么他们从word2vec中使用的参数是： 2字上下文窗口，PMI加权，无压缩，300 K尺寸当我训练一个Word2Vec模型时，gensim等价性是什么？是： >>> model = Word2Vec(sentences, size=300000, window=2, min_count=5, workers=4) 在gensim中有P

浏览 2提问于2015-04-29得票数 3

回答已采纳

1回答

在gensim实现中，DBOW doc2vec的word2vec映射来自哪里？

、、

我试图在doc2vec和word2vec中使用gensim。由于PV方法可以同时生成word2vec和doc2vec，所以我认为PV是正确的模型。因此，我通过指定PV-DM的gensim来创建一个使用dm=1的模型。我的问题如下：当我在word2vec对象上调用train时，train模型会和doc2vec一起被训练吗？？似乎属性wv包含word2vec，甚至在培训之前就可用。这是word2vec的静态版本吗？我还创建了DBOW模型，并注意到它还包含wv。这也是我在上一个问题中提到的word2vec的静态版本吗？

浏览 0提问于2019-06-06得票数 2

回答已采纳

2回答

从已清理的数据中使用代理语句

、、、、

Gensim的Word2Vec模型将包含单个标记/句子单词的内部列表的列表作为输入。据我所知，Word2Vec用于使用向量“量化”文本中单词的上下文。我目前正在处理一个文本语料库，这些文本已经被分割成单独的标记，并且不再包含明显的句子格式(标点符号已被删除)。我想知道如何将这些输入到Word2Vec模型中？如果我简单地将语料库分割成长度一致的“句子”(例如，每句10个标记)，这会是将数据输入模型的好方法吗？本质上，我想知道输入句子的格式(列表列表)是如何影响Word2Vec?输出的。

浏览 0提问于2018-07-10得票数 0

1回答

关于字嵌入(Word2vec)的几个问题

、、

我正在尝试理解word2vec(word embedding)体系结构，而且我对它几乎没有疑问：首先，为什么word2vec模型被认为是一个对数线性模型？是因为它在输出层使用了一个软最大值吗？第二，为什么word2vec要删除隐藏层？这是因为计算的复杂性吗？第三，为什么word2vec不使用激活函数？(与神经网络语言模型(NNLM)相比)。

浏览 5提问于2017-02-28得票数 1

回答已采纳

1回答

如何加快word2vec相似度的计算？

、

我使用Gensim训练了一个Word2Vec模型，我有两组单词： S1 = {'','','' ...} S2 = {'','','' ...} 对于S1中的每个单词w1，我想找出与w1最相似的前5个单词。我现在就是这样做的： model = w2v_model word_similarities = {} for w1 in S1: similarities = {} for w2 in S2: if w1 in model.wv and w2 in model.

浏览 0提问于2020-03-08得票数 0

1回答

不同word2vec模型的主成分是相同的吗？

、、、

总之，我需要在一段时间内运行多个word2vec。例如，我将每月运行一次word2vec。为了减少计算工作量，我只想在上个月积累的数据上运行word2vec。我的问题源于这样一个事实:为了进一步处理，我需要从我在前几个月运行的模型中嵌入。我也从其他文章中了解到，如果单个word2vec模型运行在不同的样本上，而每个样本都不是一个总体语料库的代表性样本，那么获得具有可比性的单词嵌入是不可能的。我有一个类似的问题，我正在分析网络数据，它会随着时间的推移而发展(有效地做一种graph2vec，但分析节点行为)。然而，我一直在想，是否可以使用PCA实现类似的嵌入，具体如下：所有模型都创建长度

浏览 0提问于2019-07-24得票数 2

1回答

窗口大小如何影响word2vec，如何根据不同的任务选择窗口大小？

、

例如，如果我选择了两个窗口大小，分别是5和50，并且训练了word2vec模型，那么这50个窗口是否需要更多的时间来训练呢？“50”的嵌入会更多地关注文本的语义，而“5”的嵌入将更多地集中在单个单词上吗？顺便说一句，以上两个问题只是我想要的。我真正的问题只是标题“窗口大小如何影响word2vec，我们如何根据不同的任务选择窗口大小？”

浏览 2提问于2020-12-23得票数 0

回答已采纳

1回答

替换Word2Vec Gensim中的守恒函数

、、

我正在做我的最后一个学位项目。我需要创建一个扩展版本的word2vec算法，更改原始论文的默认目标函数。此操作已经完成(请检查此)。在这篇论文中，他们只说了新的目标函数，但没有说明他们是如何运行模型的。现在，我也需要用另一个函数来扩展这个模型，但是我不确定我自己是否需要用新函数来实现word2vec，或者在Gensim word2vec实现中有一种替代它的方法。我已经检查了，但还没有看到任何参数来执行此操作。你知道怎么做吗？甚至有可能吗？我不确定这个StackExchange站点是否正确，也许更合适。

浏览 13提问于2022-02-19得票数 0

回答已采纳

1回答

tsne与word2vec的关系是什么？

、、

据我所知，tsne正在减少单词向量的维数。 Word2vec是利用大量的数据生成单词嵌入模型。两者之间的关系是什么？ Word2vec在里面使用tsne吗？ (我使用来自Word2vec的Gensim)

浏览 7提问于2017-04-02得票数 3

回答已采纳

1回答

WikiCorpus是否删除gensim中的stop_words？

、、、

我在最新的维基百科文章转储上构建了一个盒子嵌入模型，我需要将它与gensim中的word2vec模型进行比较。我看到，如果我使用WikiCorpus类中的get_texts()方法将语料库数据生成为txt文件，会有很多停用词，所以这让我认为WikiCorpus不会删除停用词，不是吗？现在，一旦在维基语料库txt上训练了我的盒子模型，我注意到调用我为盒子嵌入打印创建的“最相似”函数经常会停止单词，而不是将相同的单词传递给在相同语料库txt上训练的word2vec模型的最相似函数，从而产生最佳结果。有人能告诉我为什么Word2vec模型在语料库txt上有很多停用词，而我的盒子模型在同一语料库上没有

浏览 13提问于2021-11-05得票数 0

2回答

NER的线性CRF与Word2Vec

、

我已经做了很多关于线性CRF和Word2Vec的阅读，并想知道哪一个是最好的做命名实体识别。我使用Stanford (这是一个线性CRF实现)训练我的模型，精度达到85%。我知道Word2vec将相似的单词组合在一起，但它是一个很好的模型吗？

浏览 7提问于2017-07-13得票数 2

回答已采纳

1回答

两种不同Word2Vec模型中单个词余弦相似度的计算

、、、

我使用word2vec构建了两个单词嵌入( gensim模型)，并将其保存为(word2vec1和word2vec2)，方法是对两个不同的语料库使用model.save(model_name)命令(这两个语料库有些相似，它们的关系类似于书的第1部分和第2部分)。假设，两个身体的顶部单词(频率或出现频率)是同一个单词(让我们把它说成是a)。对于这两个cosine-similarity or similarity模型，如何计算提取的顶部单词(如a)的相似度( word2vec )？在这种情况下，most_similar()能有效地工作吗？我想知道，对于两个不同的生成模型，同一个词(a)是否有多

浏览 0提问于2018-09-11得票数 1

回答已采纳

2回答

我可以使用公共预培训的word2vec，并继续培训它的领域特定的文本？

、、

我有一套来自服装领域的评论，大约100000篇评论(200万字)。我想训练word2vec用它做一些很酷的NLP员工。然而，规模不足以创建足够的word2vec模型，它需要数十亿字。因此，我们的想法是使用公共语料库(如维基百科)，甚至使用一些预先训练过的模型(例如，gensim酷框架)并添加我的领域特定文本。我假设这个模型会注意到未见过的公开单词，并且可以纠正普通单词的向量。说得通吗？这两百万字会有什么效果吗？

浏览 0提问于2018-08-21得票数 5

14回答

如何用python的gensim word2vec模型计算句子相似度

、、

根据，我可以使用gensim软件包中的word2vec模型来计算两个词之间的相似度。例如： trained_model.similarity('woman', 'man') 0.73723527 然而，word2vec模型无法预测句子的相似性。在gensim中，我发现了具有句子相似性的LSI模型，但这似乎不能与word2vec模型相结合。我的每句话的语料库都不长(短于10个字)。那么，有什么简单的方法来实现这一目标呢？

浏览 13提问于2014-03-02得票数 144

回答已采纳

1回答

为什么在word2vec模型下，相似的词会彼此接近呢？

、、、

使用word2vec模型可以完成的任务之一是使用余弦相似度为给定单词查找最相似的单词。如何直观地解释为什么一个好的word2vec模型下的相似词在空间中会彼此接近？

浏览 2提问于2021-06-22得票数 1

回答已采纳

2回答

如何在星火集群环境下有效地训练word2vec模型？

、、

我想在我的星团上训练关于10G新闻语料库的word2vec模型。以下是我的星星团的心声： 1名硕士和4名工人每个都有80G内存和24个核。但是，我发现使用Spark进行Word2vec培训并没有充分利用集群的资源。例如：如上图所示，只有100%的cpu用于一名工人，其他三名工人没有使用(所以没有粘贴他们的图片)，刚才我如何训练一个关于2G新闻语料库的word2vec模型，大约需要6小时，所以我想知道如何更有效地训练这个模型?谢谢大家：) UPDATE1 1:下面的命令是我在星火壳中使用的如何启动火花壳spark-shell \ --master spark://i

浏览 7提问于2015-12-20得票数 3

2回答

如何在图像上应用word2vec？

、、、

我一直在研究谷歌的word2vec模型。我能够为文本单词语料库生成最多300个维度的向量。这是一个非常令人印象深刻的工具，而且对于大数据来说，它的准确性更高。我很好奇，有没有办法用word2vec来生成灰度图像上的向量。我确信这个方法是一样的，你根据像素强度生成向量，然后计算余弦相似度。我试图建立一个模型来计算灰度图像上的相似距离。除了在文本上工作的word2vec或手套之外，任何库都可以这样做吗？

浏览 5提问于2015-06-18得票数 4

回答已采纳

1回答

'similar_by_word‘没有比迭代更好

、、

我用Gensim来训练一个跳过的word2vec模型。该数据集有100万句，但词汇量为200。我希望看到模型在迭代中的准确性，所以我在回调函数中使用了model.wv.similar_by_word来查看分数。但是返回的值没有在迭代过程中更新。 iter设置为100。我试图更改window和size的值，但没有任何效果。模型是通过回调初始化的： Word2Vec(self.train_corpus, workers=multiprocessing.cpu_count(), compute_loss=True, callbacks=[A_CallBack], **word2vec_params

浏览 1提问于2019-11-07得票数 0

回答已采纳

1回答

是否有一种语义相似性方法在语义准确性方面优于word2vec方法？

、、、、

我正在研究各种语义相似方法，如word2vec、word移动距离(WMD)和fastText。就语义相似性而言，fastText并不比Word2Vec更好。大规模毁灭性武器和Word2Vec几乎有相似的结果。我在想，在语义准确性方面，是否有比Word2Vec模型更好的替代方案？ My use case:为两个句子查找单词嵌入，然后使用余弦相似度来查找它们的相似性。

浏览 1提问于2017-08-08得票数 2

回答已采纳

2回答

Word2Vec比较不同尺寸模型的向量

、、、、

我已经为不同的语言训练了几个使用gensim的word2vec模型，但是每个语言的size都是不同的。向量如下所示： vec_sp = word_vectors_sp.get_vector("uno") 如何将vec_sp用作不同向量大小的不同模型的输入： word_vectors_en.most_similar(positive=[vec_sp], topn=1) 在第二个模型中获得相应的单词

浏览 3提问于2020-02-18得票数 3

1回答

用Gensim 4.0微调预训练的Word2Vec模型

、、、

使用Gensim < 4.0，我们可以使用以下代码重新训练word2vec模型： model = Word2Vec.load_word2vec_format("GoogleNews-vectors-negative300.bin", binary=True) model.train(my_corpus, total_examples=len(my_corpus), epochs=model.epochs) 然而，我理解的是Gensim 4.0不再支持Word2Vec.load_word2vec_format。相反，我只能加载keyedVectors。如何用我的领域专用语

浏览 10提问于2021-07-08得票数 0

回答已采纳

2回答

评估文档相似度/基于内容的推荐系统

、、、

我计划建立一个基本的基于内容的推荐系统与word2vec和余弦相似。数据由300 k个不同长度的文档组成。如果我没有任何标签/类别，我如何评估我的模型？

浏览 0提问于2020-11-23得票数 1

回答已采纳

1回答

使用预训练的Bert，Elmo获得两个单词之间的相似度分数

、、、、

我正在尝试使用预训练的维基模型来比较Glove，Fasttext，Bert，Elmo在两个单词之间的相似度。Glove和Fasttext有预训练的模型，可以很容易地与python中的gensim word2vec一起使用。Elmo和Bert有这样的模型吗？

浏览 74提问于2019-09-15得票数 1

1回答

在gensim word2vec模型中获取给定单词嵌入模型的文本概率

、、、、

我正在尝试使用gensim word2vec模型来获得最可能的单词序列。我找到了一个预先训练好的模型，它提供了这些文件： word2vec.bin word2vec.bin.syn0.npy word2vec.bin.syn1neg.npy 这是我的代码，试图用这个模型获得句子的概率： model = model.wv.load(word_embedding_model_path) model.hs = 1 model.negative = 0 print model.score(sentence.split(" ")) 在运行这段代码时，我得到了这个错误： Attribute

浏览 0提问于2017-09-06得票数 1

1回答

如何评估Word2Vec的性能？

、

我想知道一种有效的方法来评估我的word2Vec模型的性能，这样我就可以适当地调整我的超参数。例如，如果我使用监督学习进行文档分类，则模型性能评估很容易，因为我可以将预测标签与测试数据集的预定义标签进行比较。但我不确定如何使用Word2Vec来做到这一点。有没有人可以用代码来解释如何做到这一点，或者提供一个链接到一个这样做的页面？请不要把链接放到一篇论文上。我真的厌倦了阅读困难的论文。

浏览 24提问于2019-04-24得票数 3

1回答

如何在非常大的数据集上训练Word2vec？

、、、

我正在考虑在web爬虫转储上训练10 TB+以上的大型数据的TB+。我亲自在我的iMac上训练了c实现GoogleNews-2012转储(1.5gb)，花了大约3个小时来训练和生成向量(速度给人留下深刻印象)。不过，我没有尝试python实现:(我在某个地方读到，在wiki转储(11 to )上生成300向量长度的向量需要大约9天的时间。如何加快word2vec的速度？我需要使用分布式模型，还是需要在2-3天内使用哪种类型的硬件？我有8gb内存的iMac。哪个更快？Gensim python还是C实现？我看到word2vec实现不支持GPU培训。

浏览 1提问于2015-06-01得票数 20

回答已采纳

1回答

一个gensim word2vec模型能以联邦的方式训练吗？

、、、、

我试图找出如何以联邦的方式训练word2vec模型。这些数据将被分成多个部分，例如4个“机构”，我想对每个机构的数据分别进行word2vec模型的培训。这里的主要限制是，机构的数据不能转移到另一个地方，因此永远不能集中训练。我知道可以迭代地训练word2vec模型，这样可以读取来自第一个机构的数据，用于训练和更新word2vec模型，但我不知道是否有可能在所有四个机构同时进行，然后，例如，将所有四个word2vec模型合并成一个模型。如有任何意见或建议，请见谅。

浏览 4提问于2021-09-06得票数 1

回答已采纳

2回答

如何加载预先训练好的doc2vec模型并使用它的向量

、、、

谁知道如果我想在这个网站中使用预先训练好的doc2vec模型，我应该使用哪个函数我知道我们可以使用Keyvectors.load_word2vec_format()从预先训练的word2vec模型中laod词向量，但是我们有没有类似的功能来加载预先训练的doc2vec模型呢？非常感谢。

浏览 1提问于2017-10-17得票数 1

2回答

如何从经过训练的world2vec模型中提取超参数？

、、、

我有一个经过训练的word2vec模型，我需要用更多的数据进行进一步的训练。我也希望在训练新模型时使用相同的超参数。但我不想硬编码。在训练现有模型的过程中，是否有一种方法可以用来获取所使用的超参数。我正在使用Gensim word2vec。

浏览 5提问于2021-03-26得票数 0

回答已采纳

1回答

我应该使用什么方法将单词转换为机器学习应用程序的功能？

、、、

我正计划建立一个性别分类器。我知道这两种流行的型号是tf-以色列国防军和word2vec。TF-国防军关注文档中单词的重要性和文档的相似性，而word2vec则更多地关注单词之间的关系和它们之间的相似性。然而，似乎没有一个主题能够完美地构建用于性别分类的矢量特征。还有其他适合这一任务的矢量化模型吗？

浏览 2提问于2017-06-11得票数 2

回答已采纳

1回答

在CPU环境中使用预训练的LSTM和Bert模型--如何加速预测？

、、、、

我在Azure上使用GPU训练了两个文本分类模型。模型如下伯特(火车) Word2Vec (tensorflow) 代码的实例可以在这里找到：nlp 我将模型保存到文件(.h5)中供以后使用。文件很大，例如lstm为27,613 gb，伯特为1.2 gb。我加载了模型，并在只有CPU可用的计算机中。它们都工作得很好，但是model.predict(text)函数预测文本类的速度非常慢，例如，平均每秒有1条tweet大小的消息。在计算机上添加GPU不是一个选项。我想知道还有什么办法能让它跑得更快吗？例如，以不同的方式训练模型(不影响准确性)，还是以不同的文件格式保存模型？

浏览 0提问于2020-10-15得票数 0

回答已采纳

1回答

如何检查单词嵌入的性能

、、

我已经使用了gensim Word2Vec模型，并在我的文档列表中应用了它。好了，嵌入这个词正在被创造出来。我想知道Word2Vec在我的文档列表中是否执行得很好。有什么指标可以衡量这一点吗？我如何理解Word2Vec在我的文档语料库上是否真的工作得很好，或者我应该尝试一些不同的嵌入？下面是我在gensim中使用的代码。 import gensim model = gensim.models.Word2Vec(documents , size=150, window=10, min_count=2, sg=1, workers=10)

浏览 9提问于2019-07-11得票数 0

回答已采纳

1回答

在gensim中创建新的向量模型

、、、

我已经用gensim库训练了一个word2vec模型。例如，我的模型包含两个单词的向量："new“和"york”。但是，我还想为单词"new york“训练一个向量，因此我将"new york”转换为"new_york“，并训练一个新的向量模型。最后，我想将单词"new“、"york”和"new_york“的向量组合成单词"new”的一个向量表示。如何将新的向量值保存到模型中？我尝试将新的向量分配给模型，但gensim不允许为向量模型分配新值。

浏览 14提问于2019-06-02得票数 1

回答已采纳

1回答

Word2Vec是如何帮助情感分析的呢？

、、、

我正试着读一整篇文章，用句子把文章分开，然后再用单词。然后我把它传递到Word2vec模型中，输出就出来了。然而，我的目标是找到文章的正面或负面情绪。输入不受监督，因为它没有标签。在输入到word2Vec之前，我需要在文章上做一些情绪评分吗？我不明白word2vec是如何帮助情感分析的。它告诉我的是，单词是相近的/有相同的背景，但实际上并不是积极的还是消极的。我读过一些声称“使用word2vec进行情感分析”的文章，但实际上没有一篇文章是这样做的，所以我不确定我是不是误读了什么东西。我在想我该怎么做。谢谢。

浏览 0提问于2021-07-02得票数 0

回答已采纳

1回答

如何利用word2vec和CNN (2D)一起进行文本分类？

、、、、

有Convolution1D示例没有word2vec。目前，我正在使用gensim来训练word2vec模型。我想使用word2vec和keras (2D而不是1D)来进行文档分类(中文文本)。我在cnn上学习了文本分类的基本流程，并想做一个测试。例如(我想象的步骤)：使用一个好的中文标记文本集来训练word2vec模型 model = gensim.models.Word2Vec(new_sentences，workers=10，size=200，min_count=2) 将我的句子数据集标记为单词列表数据集(最长的句子有8000多个单词，最短小于50) 1‘你们’，‘好’，

浏览 4提问于2017-01-17得票数 2

回答已采纳

1回答

Pyspark ML Word2vec模型上的save()正在创建空文件夹

、、、、

我正在尝试保存我在Spark2.0上用pyspark构建的word2vec模型。 word2vec_model.write().overwrite().save('filepath/word2vec') 这成功完成并在文件夹word2vec下创建了两个子文件夹(data和metadata)，但除了标题为_SUCCESS的空文件外，这两个子文件夹都是空的。并且随后load失败。 w2vw = Word2Vec.load('filepath/word2vec') 但有一个例外：java.lang.UnsupportedOperationException: emp

浏览 0提问于2017-03-24得票数 1

1回答

在Word2Vec向量空间中沿特定方向移动

、、、

我已经使用gensim训练了一个Word2Vec模型，并且想要查询附近的术语。但是，不是只获取各个方向上最接近的单词： model = models.Word2Vec.load('MyModel') # load up my trained model nearest = model.most_similar(['mushroom']) # nearby words all around 我想在向量空间中以特定的方向和距离移动，并检索最接近的单词，本质上是： nearest = nearest_by_vector(word, directi

浏览 0提问于2016-11-30得票数 1

1回答

有多少文本足够训练一个好的嵌入模型？

、、、、

我需要使用Gensim在维基百科文章上训练一个word2vec嵌入模型。最终，我将使用整个维基百科但是目前，我正在做一些实验/优化来提高模型的质量，我想知道有多少篇文章足够训练一个有意义/好的模型？每个单词在词汇表中需要多少个例子？

浏览 0提问于2018-02-10得票数 6

2回答

使用to跟踪词向量嵌入模型的过程。陷阱？

、、、

我已经在大量的文本上训练了word2vec/doc2vec模型。我最近偶然发现了t-SNE包，我发现它在高维数据中找到隐藏的结构非常棒。可以作为跟踪像这样的硬机器学习任务的一种方法，在这种情况下，模型的理解从无法理解的胡说八道发展到具有隐藏结构的东西？。我在the上看到了MNIST数据集的例子，其中所有的单个数字都彼此聚集在一起。(如这个答案所解释) 📷 当我增加doc2vec模型中的向量数和训练集的大小时，我开始看到the图中的丛集(如果你斜视的话)。到目前为止，这些集群主要是与非常相似的文字的帖子(一组主要是“早上好/晚上好！”)推特)。(图片生成时，困惑为400) 📷 ，随着模型的

浏览 0提问于2019-02-01得票数 2

回答已采纳

2回答

我们能以分布式的方式建立word2vec模型吗？

、、、、

目前，我有1.2tb文本数据来构建gensim的word2vec模型。它几乎要花15到20天才能完成。我想为5tb的文本数据构建模型，那么创建模型可能需要几个月的时间。我要尽量缩短执行时间。有什么办法可以使用多个大系统来创建模型吗？请提出任何能帮助我缩短执行时间的方法。 FYI，我的所有数据都在S3中，我使用smart_open模块对数据进行流。

浏览 5提问于2017-10-06得票数 3

回答已采纳

3回答

如何使用经过训练的模型创建模型？

、、、、

我使用gensim word2vec创建了两个模型。现在我想把这两个模型合并起来，这样我就可以得到这两个模型的结合。例：模型一有如下词汇表 {"Hi", "Hello", "World"} 模型二具有以下词汇表 {"Hi", "King", "Hello", "Human"} 现在，我想使用这两个模型，并创建一个新模型，它将具有以下词汇表 {"Hi", "Hello", "World", "King&

浏览 2提问于2017-08-22得票数 2

回答已采纳

1回答

PySpark ML Word2Vec模型到Gensim Word2Vec模型的转换

、、

我生成了一个类似于这样的PySpark Word2Vec模型： from pyspark.ml.feature import Word2Vec w2v = Word2Vec(vectorSize=100, minCount=1, inputCol='words', outputCol = 'vector') model = w2v.fit(df) (我用来训练模型的数据与此无关，重要的是它的格式是正确的，并成功地生成了一个pyspark.ml.feature.Word2VecModel对象。) 现在，我需要将这个模型转换为Gensim Word2Vec模型。我

浏览 1提问于2018-12-28得票数 3

2回答

用Gensim减少谷歌的Word2Vec模型

、、

通过word2vec加载完整的预先训练的模型是耗时而乏味的，因此我想知道是否有机会删除低于某一频率的单词，从而将vocab计数降低到例如200k单词。我在Word2Vec包中找到了gensim方法来确定单词频率，并再次保存模型，但我不知道如何从经过预先训练的模型中提取pop/remove语音，然后再保存它。我在KeyedVector class和Word2Vec class中找不到这种操作的任何提示？如何选择预先训练的word2vec模型的词汇表的一个子集？

浏览 5提问于2017-02-25得票数 9

回答已采纳

2回答

word2vec支持多种语言吗？

我想知道我们是否可以使用word2vec算法来训练像西班牙语、汉语、意大利语这样的英语以外的语言的模型？

浏览 7提问于2017-02-06得票数 4

回答已采纳

1回答

词向量和段落向量查询

、、、、

在Gensim的实现中，我试图理解word2vec和doc2vec向量之间的关系。在我的应用程序中，我用相同的标签(主题)标记多个文档，我正在使用dbow_words=1在我的语料库上训练一个dbow_words=1模型，以训练单词向量。我已经能够以这种方式获得单词和文档向量之间的相似之处，这对ex来说是非常有意义的。获取类似于word的文档标签-doc2vec_model.docvecs.most_similar(正=[doc2vec_model“management”，topn = 50)) 然而，我的问题是关于word2vec和doc2vec向量之间计算相似性的理论解释。假设在相同维数(

浏览 1提问于2016-11-07得票数 0

回答已采纳

1回答

字移器距离(WMD)是如何使用word2vec嵌入空间的？

、、、、

根据大规模杀伤性武器( WMD )的说法，它受word2vec模型的启发，使用word2vec向量空间将文档1移动到文档2(在地球移动器距离度量的背景下)。从文件中： Assume we are provided with a word2vec embedding matrix X ∈ Rd×n for a finite size vocabulary of n words. The ith column, xi ∈ Rd, represents the embedding of the ith word in d-dimensional space. We assume text doc

浏览 2提问于2017-09-13得票数 2

回答已采纳

2回答

如何使用Word2Vec计算句子相似度得分

、、

我是NLP的新手，如何找到两个句子之间的相似度，以及如何打印每个单词的分数。以及如何实现gensim word2Vec模型。试试这个代码:下面是我的两句话： sentence1="I am going to India" sentence2=" I am going to Bharat" from gensim.models import word2vec import numpy as np words1 = sentence1.split(' ') words2 = sentence2.split(' ') #The

浏览 0提问于2019-06-29得票数 0

1回答

处理大量使用ML模型的请求

、、、、

我正在建立一个聊天机器人，其中每个用户发送的消息需要转换为一个向量(为其他ML相关的工作)。我正在使用一个预先训练好的Word2Vec模型来做这件事。Word2Vec模型是使用Gensim库创建的，并作为600MB文件保存到磁盘上，并在Django/Python web应用程序中使用。每次接收到作为API请求的新消息时，函数都会加载word2Vec模型并使用该对象生成消息的向量。这需要在实时基础上进行。我担心每次收到新消息时，应用程序都会加载Word2Vec模型的一个实例，如果同时有太多请求到来，这将导致内存问题(因为此时内存中将存在Word2Vec模型的多个实例)。如何有效地处理内存，使其

浏览 0提问于2017-11-20得票数 0