腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(8970)
视频
沙龙
1
回答
从单词中创建新单词嵌入所需的单词
、
、
、
、
我已经使用计数
向量
器为一些文本
数据
创建了word2vec。现在,我想将生成的单词(表示常见含义/方面)中的某些单词分组到新的单个单词中,从而找到新的word2vec表示。我该如何解决这个问题?1 0 0 1 # 2 1 0 1 0 0 0 0 1 1 0 1 0 我想将
词
袋中的某些单词分组到另一个单词中我应该如何继续获取新的所需的
词
嵌入?
浏览 17
提问于2021-10-12
得票数 1
1
回答
如何合并两个Word2Vec文件
、
、
所以我想加一个
词
。我第一次创建的代码是可以创建的,但不能添加。请告诉我怎么加法。
浏览 25
提问于2019-01-24
得票数 1
回答已采纳
2
回答
句子嵌入的文本相似性
、
、
我目前的做法如下:我平均这些
向量
来创建最终的特征
向量
。 利用余弦相似度对特征
向量
进行比较。
浏览 0
提问于2019-09-19
得票数 8
回答已采纳
1
回答
输入与
训练
集中的特性不匹配;我还需要多少培训
数据
?
、
、
我做了文字清理,删除了停止
词
。N克是我的特征。因此,我建立了一个频率矩阵,并建立了模型使用朴素贝叶斯。我的培训
数据
非常有限,所以我面临以下问题。当一个句子要我进行分类时,如果它的特征与
训练
中现有的特征不匹配,那么我的频率矢量就只有零。什么是理想
规模
的培训
数据
,以期待更好的结果?
浏览 4
提问于2016-01-29
得票数 0
回答已采纳
1
回答
Tensorflow嵌入层中的权值更新
、
在
训练
seq2seq模型时,我想在嵌入层中启动一组预先
训练
的快速文本权重,目的之一是减少测试环境中的未知单词(这些未知单词不在
训练
集中)。由于预
训练
的快速文本模型词汇量较大,在测试环境中,未知
词
可以用快速文本的词汇
向量
来表示,在
训练
集中,这些
向量
应该与语义相似的
词
具有相似的方向。我想知道更新的嵌入权重是否会扭曲
词
之间的语义相似性关系,并破坏快速文本词汇外
向量
的表示?(并且,在初始嵌入层中更新的嵌入权
浏览 2
提问于2017-05-19
得票数 2
回答已采纳
1
回答
从gensim.models.keyedvectors.Word2VecKeyedVectors类型的模型传递到gensim.models.word2vec.Word2Vec类型的模型
、
、
、
、
我下载了一个"glove.txt“格式的单词嵌入
训练
,并将其作为gensim.models.keyedvectors.Word2VecKeyedVectors类型的模型导入,这要归功于下面的文档: 但是我想要一个
浏览 18
提问于2021-03-10
得票数 0
回答已采纳
1
回答
词汇外初始化(OOV)标记
、
、
我正在为NLP任务建立TensorFlow模型,并使用预先
训练
过的GLOW300d字
向量
/嵌入
数据
集。 显然,一些标记不能被解析为嵌入,因为没有包含在
训练
数据
集中的
词
向量
嵌入模型,例如稀有名称。我可以用0的
向量
替换那些标记,但是我不想把这些信息丢在地板上,我更愿意对它进行编码,并将其包含到我的
训练
数据
中。比如说,我有“raijin”这个
词
,它不能作为嵌入
向量
来解析,那么如
浏览 5
提问于2017-08-03
得票数 3
回答已采纳
1
回答
如何使用有限的
数据
集为科学文本生成标签?
、
、
、
、
我遇到的问题是他们给我提供了一个有限的
数据
集。通常,科学文本使用复杂和不规则的单词,这些单词在预先
训练
的word2vec模型中是不存在的,比如谷歌新闻或推特,这些单词在文本的含义方面很有分量。所以我想知道,我能做些什么来使用这些预先
训练
的模型并预测新单词的含义?
浏览 5
提问于2017-07-11
得票数 0
1
回答
softmax对
向量
是如何工作的?
、
、
、
但是每个单词都表示为一个
向量
。所以我们在输出层有V矢量。现在,我们要将softmax应用到这些
向量
中,得到维数V的
向量
,其中每个分量代表一个输入
词
出现的概率。但是,我们如何将softmax函数应用于
向量
呢?根据定义,软件极大函数只输入一个
向量
,但每个V
向量
都是选择的维数N。 📷
浏览 0
提问于2023-04-26
得票数 0
1
回答
在图像匹配中,模型的作用是什么?
我正在学习图像匹配技术。我正在研究一种图像特征提取方法,如SIFT和匹配技术(如特征包)。我一直在读一些关于计算机视觉领域的文章,并且注意到他们一直在谈论“模型”。这个模型是什么?一个系统的作用是什么?他们谈论“学习模型”。这是什么意思??谢谢
浏览 1
提问于2014-07-14
得票数 1
回答已采纳
1
回答
Gensim的Doc2Vec -如何使用预先
训练
过的word2vec (词类相似)
、
、
、
我没有大量的
数据
来
训练
词语的相似性,例如,“热”比“冷”更类似于“温暖”。然而,我喜欢在一个相对较小的语料库~100个文档上对doc2vec进行培训,这样它就可以对我的领域特定文档进行分类。假设我只有4个
训练
医生,分别是“我喜欢热巧克力”、“我讨厌热巧克力”、“我喜欢热茶”和“我喜欢热蛋糕”。如果有一份测试文件“我喜欢热巧克力”,我想,doc2vec总是会返回“我喜欢热巧克力”。任何关于如何避免这种情况的建议,比如能够使用预先
训练
过的
词
嵌入,这样我就不需要冒险去
训练
“爱慕”,“恨”接近“
浏览 1
提问于2020-02-18
得票数 2
回答已采纳
1
回答
如何为特殊目的正确地
训练
Word2Vec模型
、
、
、
、
我的工作是识别名词-形容
词
(或)关系的
词
嵌入。当然,我并不是只想把这一对
词
联系起来,但是这种技巧应该适用于所有的关系。我担心如果我给它更多的
数据
来
训练
(例如,最新的维基百科转储
数据
集),它会学到更好的
向量
,但是额外的
数据
浏览 2
提问于2017-05-24
得票数 0
1
回答
单词嵌入中缺少单词
、
、
如果我有一个word2vec模型,并且我使用它来嵌入
训练
和测试集中的所有单词。但用恰当的话说,在word2vec模型中并不包含。我可以随机选择一个
向量
作为所有合适单词的嵌入吗?
浏览 1
提问于2017-10-25
得票数 0
2
回答
基于方面的机器学习情感分析
、
、
我已经用类别,方面,意见
词
和情感注释了
数据
。例如,对于下面的文本我有分类->食物,方面->苹果,意见
词
->tasty和情感->积极的。我有类似这种格式的
训练
数据
。如何使用这种
训练
集
训练
支持
向量
机分类器?如何提取n字元、词性和情感
词
等特征来
训练
分类器?您能否建议使用机器学习算法进行基于这方面的情感分析的开始步骤?
浏览 0
提问于2015-01-11
得票数 3
1
回答
用Word2Vec解决多义问题
、
我有一些关于Word2Vec的问题: 这些
向量
的元素是什么?如果我已经对每个
词
的意思都有文本,我可以使用Word2Vec来解决多义问题(state =管理单元与state =条件)吗?
浏览 0
提问于2018-07-13
得票数 1
回答已采纳
1
回答
同时
训练
Doc2Vec和Word2Vec
、
、
、
、
据我所知,典型的Doc2Vec实现(例如Gensim)首先
训练
单词
向量
,然后文档
向量
是固定的。此外,当将单个单词作为文件纳入培训
数据
时,这种结果能否通过典型的执行来实现?
浏览 0
提问于2018-02-08
得票数 3
1
回答
在doc2vec DBOW中,单词
向量
和段落
向量
是如何共同
训练
的?
、
、
我不明白在DBOW模式下如何使用gensim的 (dm=0)
训练
单词
向量
。我知道默认情况下,dbow_words=0是禁用它的。但是,当我们将dbow_words设置为1时会发生什么呢?在我对DBOW的理解中,上下文词是直接从段落
向量
中预测的。因此,模型的唯一参数是N p-dimensional段
向量
加上分类器的参数。但是多个源提示,在DBOW模式下,可以对word和doc
向量
进行联合
训练
。例如: 那么,这是怎么做到的呢?任何澄清都将是非常感谢的!注:对
浏览 1
提问于2019-04-09
得票数 1
回答已采纳
1
回答
不使用“查看”反义
词
的单词嵌入的解决方案
大多数单词嵌入并不是“查看”反义
词
。例如,在许多单词中,它们将“独立”和“独立”(例如)的
向量
放置得相当接近--实际上与“独立”和“自主”等同义
词
一样接近。因此,很容易将同义
词
识别为近距
向量
,但是如何识别反义
词
,或者通常与反义
词
一起工作?有一些罕见的论文试图开发嵌入算法“意识到”反义
词
(只是网络搜索
词
嵌入反义
词
)。但是我正在使用非常强大的标准,并且已经接受了大
规模
数据
嵌入库的培训。
浏览 0
提问于2019-09-22
得票数 2
1
回答
在Keras中使用的
训练
词
嵌入(Gensim)中的未知
词
、
、
、
、
我正在使用GENSIM (word2vec)
训练
一个单词嵌入,并在KERAS的神经网络中使用
训练
好的模型。的预
训练
单词嵌入中。哪个更好?)这种方法可以吗?此外,对于这个
词
嵌入,权重在这个神经网络中是不可
训练
的。
浏览 18
提问于2020-12-19
得票数 1
3
回答
字嵌入模型
、
、
、
、
我一直在搜索并尝试实现一个
词
嵌入模型来预测单词之间的相似性。我有一个由3550个公司名称组成的
数据
集,其想法是用户可以提供一个新单词(这个
词
不在词汇表中),并计算新名称与现有名称之间的相似性。然后,像BIOCHEMICAL这样的
词
最后变成了BIO CHEMIC,这个
词
被分成两个(前缀和词干
词
)。)之后,新的公司名称没有包含在词汇表中,那么我将再次创建模型,并计算出平均句子
向量
并再次保存。
数据
集的长度是否足以让word2vec“学习”单词之间的关系?考虑
浏览 5
提问于2019-10-04
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Hsigmoid加速词向量训练
噪声对比估计加速词向量训练
玩转词向量:用fastText预训练向量做个智能小程序
基于word2vec训练词向量(二)
CS224n笔记——词向量评价与再训练
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券