bert获取词向量_bert 获取词向量_bert 词向量 - 腾讯云开发者社区

、、、

我正在尝试使用BERT从不同的数据集中获取词嵌入，用于我的NLP任务。我使用了具有768个单词嵌入的“bert_base_uncased”，但它内存不足。256个单词嵌入的版本已经发布了吗？

浏览 9提问于2020-03-17得票数 0

1回答

如何在aclImdb数据集上使用预训练的静态词向量

、、、

我试着用LSTM和预先训练的BERT嵌入来进行情感分类，然后用转换器进行语言翻译，首先我下载了!在最快的收敛性和稳定性之间找到平衡model = text.text_classifier('bert', trn , preproc=preproc)is selected model, then preprocess_mode='%s' should be used and vice versa" --> 111

浏览 14提问于2022-06-19得票数 0

回答已采纳

1回答

是否可以在R中使用SET with data.table赋值多个列/值？

、、

as the index/columns of a list seems to do the trick, even if it seems a tiny bit repetitive/clunkybert_MISS <- paste0(bert, "_MISS") ## rename the c

浏览 12提问于2021-05-30得票数 2

回答已采纳

1回答

使用BERT通过word嵌入生成类似的单词或同义词

、、、、

由于我们都知道BERT模型用于字嵌入的能力，它可能比word2vec和其他任何模型都要好。我希望在BERT单词嵌入上创建一个模型，以生成同义词或类似的单词。

浏览 2提问于2021-07-14得票数 3

1回答

BERT词嵌入的大小/范数的意义是什么？

、

我们通常将词嵌入之间的相似度与余弦相似度进行比较，但这只考虑了向量之间的角度，而不是范数。对于word2vec，随着单词在更多的上下文中使用，向量的范数会减少。因此，停用词接近于0，并且非常独特，高意义的词往往是大的向量。BERT是上下文敏感的，所以这个解释并不完全涵盖BERT嵌入。有没有人知道矢量震级对BERT有什么意义？

浏览 1提问于2019-07-23得票数 4

1回答

部署前的ENS细化(Swaldman捕捉)

、、

User @Swaldman今天大获成功，并在ENS拍卖代码中发现了一个bug：在部署前修复/防止此攻击向量的各种方法是什么

浏览 0提问于2017-03-14得票数 5

1回答

具有加权平均池的XLM/BERT序列输出到池输出

、、、、

假设我有一个长度为10的符号化句子，我把它传递给一个BERT模型。bert_out = bert(**bert_inp)hidden_states.shape这将返回一个形状张量: batch_size，seq_length，d_model，其中顺序中的每个单词都被编码为一个768维向量。在TensorFlow中，伯特还返回一个所谓的池输出，它对应于整个句

浏览 3提问于2021-05-26得票数 0

回答已采纳

1回答

如何使用BERT获得单词的向量？

、、、

我需要使用BERT得到单词向量，得到这个函数，我认为它应该是我需要的。def get_bert_embed_matrix(sentences): model = transformers.AutoModel.from_pretrained('bert-base-uncased', config=model_config)tokenizer

浏览 0提问于2022-01-14得票数 1

3回答

比较一个文档和一个单词的向量

、、、

所以，我必须比较文章的向量和单个单词的向量。我完全不知道该怎么做。看起来Word2vec和BERT能很好地处理长文本，BERT能处理单个单词。但是如何将长文本与一个单词进行比较呢？

浏览 3提问于2019-03-11得票数 1

1回答

如何聚类关键字或获得关键字相似度时，我有他们的向量

、、、、

我使用Pickle方法(通过Bert- as -Service和Google的预训练模型)将python字典存储为Vector文件，如下所示： (关键)短语：(值)Phrase_Vector_from_Bert但我不知道如何像Gensim Word2Vec那样从Bert- as -Service模型中获得短语与向量文件的相似度，因为后者配备了.similarity方法。你能给我一个建议来获取短语/关键字的相似度，或者将它们与我的python-Pickle-dictionary向量文件进行聚类吗？

浏览 0提问于2019-09-26得票数 0

1回答

使用像BERT这样的预训练模型进行文档分类

、、、

我可以使用BERT (对于单词>500的文档)来实现这一点吗?或者是否有其他模型可以有效地完成这项任务？

浏览 7提问于2021-02-10得票数 1

5回答

如何使用BERT对相似句子进行聚类

、、、、

在这篇简短的文章中可以看到一个很好的实现示例：http://ai.intelligentonlinetools.com/ml/text-clustering-word-embedding-machine-learning/ 我想用BERT做同样的事情(使用hugging face中的BERT python包)，但是我不太熟悉如何提取原始的单词/句子向量，以便将它们输入到聚类算法中。我知道BERT可以输出句子表示-那么我如何真正从句子中提取原始向量

浏览 367提问于2019-04-11得票数 23

回答已采纳

3回答

在使用Spacy，Bert时，是否有必要对文本分类进行停用词删除、词干提取/词汇化？

、、、

当使用Spacy，Bert或其他高级NLP模型来获得文本的向量嵌入时，文本分类是否有必要进行停用词删除、词干提取和词汇化？Text=“婚礼上供应的食物非常美味” 1.由于Spacy，Bert是在巨大的原始数据集上训练的，在使用bert/spacy生成用于文本分类任务的嵌入之前，在这些文本上应用停用词删除、词干提取和词汇化是否有任何好处2.我可以理解，当我们使用countvectorizer，tfidf向量器来实现句子的嵌入时，去掉停用词，词干提取和词汇化会很好。

浏览 4提问于2020-08-28得票数 7

2回答

基于弹性搜索的语义相似度研究

、

我浏览了一些博客，他们说通用句子编码器用于语义相似性的弹性搜索，我们可以使用BERT而不是ULSE吗，他们还说嵌入搜索必须遍历所有文档。它能被优化吗。

浏览 33提问于2020-08-03得票数 0

1回答

结合BERT和其他类型的嵌入

、、、、

flair模型可以给出任何单词的表示(它可以处理OOV问题)，而BERT模型则将未知的单词分解成几个子单词。例如，单词"hjik“将有一个向量表示为flair，而在BERT中，它将被分成几个单词(因为它是OOV)，因此每个子单词都有几个向量。因此，从flair，我们将有一个向量，而从伯特，我们可能有两个或更多的向量。注意:如果你不知道，你能至少建议我一个正确的方法来处理吗？

浏览 16提问于2022-05-19得票数 0

回答已采纳

2回答

使用手动特性扩展BERT或任何变压器模型

、、

我刚刚实现了引用分类的Bert模型。我有4个输出类，我给出了一个输入语句，我的模型返回一个输出，该输出告诉引用类别。现在我的上司又给了我一项任务。您必须搜索是否可以使用手动特性扩展BERT或任何转换器模型。例如，你目前给出的句子是它的类后面唯一的输入。如果你可以给出一个句子，以及其他一些特征作为输入，就像我们在其他量词中所做的那样呢？我在用伯特托卡器然后，我将生成输入I和256大小的注意掩码的数据集

浏览 0提问于2022-09-01得票数 1

1回答

使用BERT编码器的二进制分类模型保持50%的准确率

、、

Load BERT编码器： gs_folder_bert = "gs://cloud-tpu-checkpoints/bert/keras_bert/uncased_L-12_H-768_A-12"config_dict = json.loads(

浏览 40提问于2020-09-27得票数 1

1回答

减少拥抱变形金刚中隐藏单位的数量(BERT)

、、、、

我得到了一个很大的csv，每一行都是一组BERT令牌，由hugging face BertTokenizer (https://huggingface.co/transformers/main_classes有900万行这样的代码现在，我正在尝试从这些标记中获取嵌入，如下所示： def embedding: tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased', do_lower_case=Fals

浏览 14提问于2020-04-07得票数 1

回答已采纳

1回答

BertTokenizer类似于字嵌入吗？

、、、

当我使用结果是否与将一个表示"Hello“的单一热向量传递给学习嵌入矩阵时有点类似？你好吗不同于 BertTokenizer.from_pretrained("bert</em

浏览 2提问于2021-09-05得票数 0

1回答

如何将新的向量连接到现有的Bert向量？

、、、

对于一个句子，我可以提取几个实体，每个实体都嵌入了256维向量。然后，我计算这些实体的平均值，使其成为表示这些实体表示的单个向量。现在，我想将bert的“池化输出”层与这个实体向量连接在一起，作为下一层的输入。这可能会提高原始Bert的性能。如何在Keras中做到这一点？preprocessing_layer(text_input) encoder = hub.KerasLayer(tfhub_handle_encoder, trainable=True, name='BERT</e

浏览 93提问于2021-06-24得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

具有256个隐藏嵌入的BERT

如何在aclImdb数据集上使用预训练的静态词向量

是否可以在R中使用SET with data.table赋值多个列/值？

使用BERT通过word嵌入生成类似的单词或同义词

BERT词嵌入的大小/范数的意义是什么？

部署前的ENS细化(Swaldman捕捉)

具有加权平均池的XLM/BERT序列输出到池输出

如何使用BERT获得单词的向量？

比较一个文档和一个单词的向量

如何聚类关键字或获得关键字相似度时，我有他们的向量

使用像BERT这样的预训练模型进行文档分类

如何使用BERT对相似句子进行聚类

在使用Spacy，Bert时，是否有必要对文本分类进行停用词删除、词干提取/词汇化？

基于弹性搜索的语义相似度研究

结合BERT和其他类型的嵌入

使用手动特性扩展BERT或任何变压器模型

使用BERT编码器的二进制分类模型保持50%的准确率

减少拥抱变形金刚中隐藏单位的数量(BERT)

BertTokenizer类似于字嵌入吗？

如何将新的向量连接到现有的Bert向量？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐