腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(3584)
视频
沙龙
1
回答
通过
TF-hub
导入
后
冻结
BERT
层
并
对
其
进行
训练
?
、
我想
通过
tf-hub
函数hub.module(
bert
_url,trainable = True)
导入
BERT
预
训练
模型,并将其用于文本分类任务。我计划使用一个大型语料库来微调
BERT
的权重,以及几个输入为
BERT
输出的密集
层
。然后我想
冻结
BERT
的
层
,只
训练
BERT
之后的致密
层
。我怎样才能有效地做到这一点呢?
浏览 25
提问于2020-03-29
得票数 0
3
回答
微调
BERT
的最后x
层
、
、
、
我试着微调
BERT
只在特定的最后一
层
(比方说最后三
层
)。我想使用谷歌Colab
进行
TPU培训。我使用hub.Module加载
BERT
并
对
其
进行
微调,然后将微调
后
的输出用于我的分类任务。
bert
_module = hub.Module(
BERT
_MODEL_HUB, tags=tags, trainable=True) hub.Module可以选择将模型设置为可
训练
浏览 67
提问于2019-05-08
得票数 2
3
回答
精密微调预培训变压器
、
、
预先
训练
的变压器(GPT2,
Bert
,XLNET)由于
其
传输学习能力而广受欢迎和有用。 作为提醒:迁移学习的目的是传递从一个领域/任务中获得的知识,
并
使用该转移/使用该知识来解决一些相关任务。这是
通过
对
大量标签数据(我们已经拥有并且可能很容易获得)
进行
模型培训来完成的,然后删除最后几层,用与任务相关的数据集
对
新的相关任务
进行
微调。我拿了谷歌最近发布的一个名为XLNET的预培训转换器,从上面添加了分类
层</e
浏览 0
提问于2020-08-12
得票数 4
2
回答
我是否可以使用
BERT
作为一个功能提取器,而不对我的特定数据集
进行
任何细化?
、
、
我试图解决一个由25K样本组成的相对平衡
训练
集和由~5K样本组成的评价集的10个类的多标签分类任务。
并
取得了较好的结果(ROC AUC = 0.98)。但是,我看到了一些奇怪的行为,我似乎没有意识到-for param in model.
bert
.parameters():gives当像这样配置模型时,
训练
模型
浏览 0
提问于2020-10-25
得票数 4
4
回答
如何在未标记的数据上微调
BERT
?
、
、
、
我想在特定的域上
对
BERT
进行
微调。我在文本文件中有该域的文本。我如何使用这些来微调
BERT
?我目前正在寻找。 我的主要目标是使用
BERT
实现句子嵌入。
浏览 3
提问于2020-05-23
得票数 6
2
回答
你能用特定于任务的体系结构从零开始
训练
BERT
模型吗?
、
、
BERT
对
基本模型的预
训练
是
通过
一种语言建模方法完成的,在这种方法中,我们在句子中掩蔽了一定百分比的标记,
并
让模型学习那些缺失的掩码。然后,我认为,为了完成下游任务,我们添加了一个新的初始化
层
,
并
对
模型
进行
了微调。 然而,假设我们有一个巨大的句子分类数据集。从理论上讲,我们能否从零开始初始化
BERT
的基本体系结构,同时
训练
额外的下游任务特定
层
+基模型权值,只使用这个句子分类数据集形
浏览 2
提问于2020-05-15
得票数 7
回答已采纳
3
回答
什么是
冻结
/解冻一
层
神经网络?
、
、
、
、
我已经和神经网络玩了很长一段时间了,最近我在
训练
神经网络之前遇到了“
冻结
”和“解冻”这两个术语,同时读到了关于迁移学习的知识&我很难理解它们的用法。 我如何确定我是否需要解冻?如果是这样的话,我如何确定哪些
层
需要解冻和培训以提高模型的
浏览 3
提问于2020-06-06
得票数 6
回答已采纳
1
回答
伯特微调需要很长时间
、
、
我决定把伯特的模型加载成一个预先
训练
过的模型,
并
对
其
进行
微调,以解决我的问题。事情是,
训练
是非常缓慢的(在GPU上),而我确保
冻结
伯特的
层
,所以我只需要
训练
一个密集的一
层
结束。tensorflow.keras import Model distil_
bert
= 'di
浏览 1
提问于2020-10-28
得票数 1
1
回答
由于内存问题,如何保存仅与预
训练
的
bert
模型的分类器
层
相关的参数?
、
、
、
、
我
通过
冻结
除分类器
层
之外的所有
层
对
预
训练
模型here
进行
了微调。并且我用pytorch作为.bin格式保存了体重文件。现在不加载400mb的预
训练
模型,有没有办法加载我重新
训练
的just分类器
层
的参数?顺便说一句,我知道我必须加载原始的预
训练
模型,我只是不想加载整个微调的模型。由于内存问题。classifier' not in name: # classifier layer
浏览 40
提问于2021-08-17
得票数 4
回答已采纳
1
回答
CNN中的反向传播是如何在文本分类中
进行
预
训练
的嵌入的?
、
、
在预先
训练
的word2vec嵌入的情况下,损失函数是如何工作的,因为在training.Then期间没有更新权值,反向传递是如何工作的,以及它更新了什么来
进行
预测?
浏览 1
提问于2019-03-26
得票数 0
回答已采纳
1
回答
如何使用Keras中的深度学习模型来解决不适合imagenet数据集的问题?
、
、
、
、
我关注了一篇关于如何从头开始实现vgg16-model的博客,我想用Keras的预
训练
模型来做同样的事情。我查了一些其他的博客,但我想找不到合适的解决方案。我在一篇论文中看到,他们使用vgg16的预
训练
imagenet模型
进行
织物缺陷检测,他们
冻结
了前七
层
,
并
针对自己的问题
对
后
九
层
进行
了微调。(来源:https://journals.sagepub.com/doi/full
浏览 14
提问于2020-07-15
得票数 0
回答已采纳
4
回答
伯特:可以把它用于主题建模吗?
、
、
我很难理解
BERT
的全部功能是什么:可以对文本
进行
主题建模,就像我们可以用LDA实现的那样?
浏览 0
提问于2019-06-05
得票数 7
1
回答
预
训练
卷积神经网络的微调
、
、
、
当我阅读和搜索关于预先
训练
的网络微调的内容时,它分为以下两个步骤(简单地说): 如果你想要更多的信息来澄清这个问题,请告诉我。
浏览 2
提问于2017-12-11
得票数 0
回答已采纳
2
回答
如何让千
层
面变得不可
训练
、
我想使用预
训练
的神经网络,
并
根据我的特定需求
对
其
进行
微调。我想使用Python和Lasagne框架来实现这一点。在以下位置: 我找到了一个如何
对
特定图像使用预
训练
网络的示例。我的问题是,我想使用上面链接中描述的网络作为起点,并在其上添加最后一
层
,使其实现两类分类器,这是我所需要的。因此,我希望
冻结
网络中的所有
层
,
并
只允许在我最后添加的
层
中
进行
训练</em
浏览 2
提问于2016-03-31
得票数 2
1
回答
如何使用经过预先
训练
的
BERT
字嵌入向量来初始化(初始化)其他网络?
、
、
、
、
当我过去使用textcnn
进行
分类工作时,我有经验使用预先
训练
过的单词嵌入(比如Word2Vec和fasttext文本)来细化textcnn。我想,“由于使用
BERT
预
训练
的嵌入到初始其他网络的嵌入
层
和细化应该没有什么不同,所以应该很容易!”但事实上,昨天我试了一整天,但还是做不到。得到每个sentence.Put的单词嵌入从2到textcnn,
并
训练
。
通过
使用这种方法,我终于可以
训练
,但认真思考,我认为我根本没有做一个最后的…… 因
浏览 4
提问于2021-01-20
得票数 0
2
回答
是否有任何理由
对
伯特
进行
关于具体文本的预培训?
、
、
、
例如,现在,假设我想使用
BERT
作为电影标签推荐。有什么理由让我在电影相关数据集上从无到有地培训一个新的伯特模型? 我的模型能变得更准确吗,因为我把它
训练
成电影相关的文本而不是一般的文本?
浏览 0
提问于2021-02-07
得票数 1
回答已采纳
1
回答
有没有一种方法可以改变DL4J中神经网络的拓扑结构,而不必
对
其
进行
再
训练
?
、
、
、
、
我需要对已经经过培训的现有deeplearning4j (DL4J)模型
进行
更改。网络由一个输入
层
、一个Graves LSTM和一个RNN输出
层
组成。我的问题是:是否有可能在LSTM
层
中添加一个或多个未经
训练
的神经元,而不必重新构建新的配置模型(我认为这需要再培训)?我想做这样的事情,比如,将一个或多个神经元添加到一个现有的
层
中,或者将一个完整的
层
(未经
训练
)添加到一个经过
训练
的模型中。 这些有可能吗?请忽略这一事实,它将搞垮了<em
浏览 2
提问于2018-05-27
得票数 3
回答已采纳
1
回答
如何在NiftyNet中实现迁移学习?
、
、
、
在TensorFlow中,这是可能的--我可以加载各种预先
训练
过的网络,
并
直接使用它们的
层
。为了
对
网络
进行
微调,我可以
冻结
中间层的
训练
,只
训练
最后一
层
,或者只利用中间层的输出作为特征向量输入到另一个分类器中。 我如何在NiftyNet中做到这一点?此外,我
训练
网络的唯一方法似乎是运行net_classify train,使用配置文件中的各种TRAIN配置选项,它们都没有
冻结
网络的选项。niftyne
浏览 0
提问于2018-06-08
得票数 4
1
回答
验证的准确性并没有增加
训练
ResNet50
、
、
我正在用ResNet50模型
进行
微调,以便使用数据拼凑来
进行
人脸识别,但观察到模型的精度在提高,但从一开始就没有提高验证的准确性,我没有搞错哪里,请检查我的代码。
浏览 3
提问于2018-10-28
得票数 4
回答已采纳
3
回答
如何在迁移学习过程中
冻结
批处理规范
层
、
、
、
、
这一
层
对于每一个可以想象的计数来说都是一个特例。这里有几件事要记住。 BatchNormalization包含2个不可
训练
的重量,在
训练
期间得到更新。这些是跟踪输入的均值和方差的变量。设置bn_layer.trainable = False时,BatchNormalization
层
将以推理模式运行,不会更新
其
均值和方差统计信息。对于一般的其他
层
,就不是这样了。当您解冻包含BatchNormalization
层
的模型以
进行
微调时,您应该在调用基
浏览 7
提问于2021-06-08
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何使用TF-Hub构建一个简单的文本分类器
基于transformer的BERT模型来做完形填空,直接无敌了
BERT的正确使用姿势
招商证券BERT压缩实践(二):如何构建3层8bit模型?
Pytorch用BERT对CoLA、新闻组文本数据集自然语言处理NLP:主题分类建模微调可视化分析
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券