搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏全栈程序员必看
预训练模型还要训练吗_多模态预训练模型
若使用已保存好的镜像reid_mgn:v1，在本机上可按如下操作训练 # 1.进入已保存环境的镜像（reid_mgn:v1（8.48G）、pytorch/pytorch:1.0.1-cuda10.0 personReID ufoym/deepo:testv1 /bin/bash (75服务器) # 2.进入到工程目录 cd /home/personReID/MGN-pytorch-master # 3.复制预训练模型到指定路径打开另一个终端 docker ps 查看容器内镜像（找到reid_mgn:v1 前对应的数字字符串%%%%） docker stats %%%%% 实时监测内存情况 # 4.训练（在原终端继续进行，注：demo.sh是已改好参数的） sh demo1.sh 补充：训练前需要修改的文件及代码 1.demo.sh文件修改data路径（把你的数据集路径添加到 –datadir）、：需将数据集文件名由原始的Market-1501-****改为和代码匹配的Market1501 2.trainer.py 修改train、test中的epoch 3.main.py 如果是单GPU训练
95220编辑于 2022-11-08
来自专栏磐创AI技术团队的专栏
transformer预训练模型
磐创AI分享来源 | Github 作者 | huggingace 编译 | VK 【导读】这里的预训练模型是当前提供的预训练模型的完整列表，以及每个模型的简短介绍。该模型是日语模型。在日语上字符级的训练。该模型是日语模型。使用Whole-Word-Masking在日语上字符级的训练。 XLM的英语-罗马尼亚多语言模型 xlm-mlm-xnli15-1024 12个层，1024个隐藏节点，8个heads。用MLM进行15种XNLI语言的预训练的XLM的模型。用MLM+TLM进行15种XNLI语言的预训练的XLM的模型。 xlm-clm-enfr-1024 6个层，1024个隐藏节点，8个heads。
5K30发布于 2020-03-31
来自专栏xiaosen
预训练模型介绍
，其核心在于利用大规模的文本数据进行预训练，从而能够生成连贯且符合语法规则的自然语言文本。 PyTorch：是一个动态图型的深度学习框架，提供了丰富的工具和API来构建、训练神经网络模型。它以其易用性、灵活性以及良好的社区支持而受到研究者和开发者的青睐。 GPT模型的训练过程包括两个主要阶段：预训练和微调。在预训练阶段，模型通过学习大量文本资料来把握语言的基本规律和模式；在微调阶段，模型则通过特定任务的训练数据进行精细调整，以适应具体的应用场景。人工智能的目标是使计算机能够像人一样思考、理解和适应环境，从而能够执行各种任务，从简单的自动化到复杂的认知任务六、神经网络语言模型我们知道的N-gram语言模型是基于统计的语言模型，是一种离散型的语言模型所以人们开始尝试使用神经网络来建立语言模型。关于神经网络的介绍：神经网络的激活函数-CSDN博客
59711编辑于 2024-05-03
来自专栏深度学习自然语言处理
【预训练模型】预训练语言模型的前世今生之风起云涌
在专题上一期推送【萌芽时代】里，我们介绍了预训练语言模型思想的萌芽。今天我们推出的这篇推送，将继续为大家介绍预训练语言模型是如何进一步发展和演进的。本文描述了一种通用的非监督预训练方法，提升了seq2seq模型的准确性。证明了预训练的过程直接提高了seq2seq模型的泛化能力，再次提出了预训练的重要性和通用性。同时文中通过做对比实验确认了，对机器翻译来说，模型对泛化能力的主要提升就来自于预训练的参数特征，而对摘要提取，encoder的预训练为模型效果的巨大提升和泛化能力的提高做出了贡献。图2为预训练seq2seq模型的结构，红色为encoder部分，蓝色为decoder部分，所有方框内参数均为语言模型预训练的，而方框外的参数为随机初始化。
1.8K20发布于 2020-03-05
来自专栏深度学习
GPT预训练模型介绍
它用一套极其聪明又略显简单的“预训练+微调”组合拳，告诉全世界：原来语言模型，可以这么玩！今天，我们就来拆解一下这位“祖师爷”，看看它当年是怎么“炼”成的。在预训练阶段，它装的是“文本预测头”，专心致志猜下一个词。到了微调阶段，就换成“任务分类头”，去解决具体的下游任务。这设计既专一又灵活。三、预训练：真正的“大力出奇迹” ✨ 理论基础再好，也得有数据“喂养”。GPT-1的“食谱”是一个名为BooksCorpus的语料库，里面是7000多本风格各异的英文小说，总计约8亿个词。这个过程的美妙之处在于：改动成本极低：预训练好的庞大模型参数几乎全部保留，只新增一个很小的分类层参数，训练起来又快又省资源。五、总结与启示回过头看，GPT-1的成功，不在于它有多复杂（其结构甚至比后来的模型更简洁），而在于它验证了一条清晰可行的技术路径️：“大规模无监督预训练 + 任务适配微调” 它证明了，通过海量数据、
25510编辑于 2026-02-04
来自专栏机器学习初学者精选文章
【NLP】预训练模型综述
预训练模型综述摘要：近年来，预训练模型的出现将自然语言处理带入了一个新的时代。本文概述了面向自然语言处理领域的预训练模型技术。我们首先概述了预训练模型及其发展历史。并详细介绍自然语言处理领域的经典预训练模型，包括最经典的预训练模型技术和现在一系列新式的有启发意义的预训练模型。然后梳理了这些预训练模型在自然语言处理领域的优势和预训练模型的两种主流分类。第 2 节按时间顺序简要概述了预训练语言模型的整个发展历史；第 3 节详细介绍自然语言处理领域的经典预训练模型；第 4 节小结了预训练模型的优点和其对比分类；第 5 节对自然语言处理领域的预训练语言模型的未来发展趋势进行展望 3 经典预训练模型本节主要梳理了经典的预训练模型，由于第一代 PTMs 更专注于词向量的产生，本节重点梳理了第二代 PTMs，包括ELMo、GPT、BERT以及最近的新型预训练模型。 4 预训练语言模型小结 4.1 预训练模型的优点上文介绍了深度学习时代的部分预训练模型，可以从它们中总结出预训练模型的优点：在大型文本语料库上的预训练可以学习通用语言表示并帮助完成后续任务；预训练提供了更好的模型初始化
2.4K12发布于 2020-05-26
来自专栏AI算法能力提高班
CLIP-图文预训练模型
-- paper https://arxiv.org/abs/2103.00020 code https://github.com/openai/CLIP ---- Abstract 连接文本和图像的预训练模型 ConVIRT Contrastive learning Methodology Overview image-20230810140327295 (1) Contrastive pre-training 模型架构分为两部分训练数据是网络社交媒体上搜集的图像文本对。前面实验分析发现，模型不能很好的区分cars，species of flowers, 以及variants of aircraft；b. abstract和systematic任务表现不好，比如统计图上在训练集中基本不会出现的比较novel的任务，表现欠佳，比如classifying the distance to the nearest car in a photo；训练集中没有出现的图片类型（out-of-distribution
1.1K30编辑于 2023-09-13
来自专栏算法一只狗
ACL2021：预训练模型
On the Monolingual Performance of Multilingual Language Models 本文主要针对在预训练模型中，单语言（monolingual）模型与多语言（Multilingual 目前多语言预训练模型，例如mBert，XLM-R，mT5等，可以涵盖100多种不同的语言。但是在以前的证据中，单语言模型在下游任务上会比多语言模型要好，因此本文主要是探讨这个假设是否成立。但是现有的预训练模型，往往会存在模型尺寸大、参数大等问题，从而限制了此类模型在实际中的部署。因此可以利用这种规律，根据不同的异常检测任务，从而定义预训练模型的层数。举个例子：左图eating是形态异常、右图laughed是语义异常。因此文本主要是在预训练的模型中，观察不同压缩比的情况下子网络的表现。从实验中观察到，随着压缩比的增加，“中奖彩票”的泛化性能先提高，然后在一定阈值后恶化。
39120编辑于 2022-11-04
来自专栏Soul Joy Hub
预训练语言模型合辑~
ERNIE 1.0 实体级别连续MASK 针对有两个及两个以上连续字组成的词，随机mask字割裂了连续字之间的相关性，使模型不太容易学习到词的语义信息。这三个数据集的侧重点不同，对模型应该也有较好的提升。对语料的处理加入了中文繁体–>简体，英文大写–>小写，词表大小为17964。随机替换R，然后让模型判断这个多轮对话是真的还是假的。 RoBerta 与bert区别更大的训练集，更大的 batch。不需要使用 NSP Loss。使用更长的训练 Sequence。从实践角度来讲，NLP任务中的vocab size本来就很大，如果E=H的话，模型参数量就容易很大，而且embedding在实际的训练中更新地也比较稀疏。原始BERT模型使用[MASK] token进行掩蔽，但是[MASK] token在微调阶段从未出现，这会造成预训练任务与下游微调任务不一致；因此 MacBERT 使用类似的单词来掩蔽需要被掩蔽的单词。
86620编辑于 2022-05-10
来自专栏DrugOne
AntiBERTy-抗体预训练模型
前几天，在NeurIPS 2021上，RosettaCommons的Gray Lab团队展示了抗体预训练模型AntiBERTy，相对于AntiBERTa的参数量增加了10倍，并展示了如何用于分析抗体在体内的亲和成熟轨迹以及抗体以OAS数据库中约5.58亿条(95% training，5% testing)的自然抗体序列作为训练集，采用Mask Language Model的方式进行训练。共计训练8个epochs。每个bag从中随机采样64条序列来产生阳性样本或负样本的训练数据集。（由于预印版本中的QKV维度有误，笔者将推理过程附着于上图）三、应用效果训练好模型之后，作者尝试将AntiBERTy用于两个场景：分析免疫组库进化路线：使用AntiBERTy对4组产生了VRC01 AntiBERTy提供了较为先进的预训练模型，结合fintuning应用到更多的针对抗体优化的任务。 No Code or Model Released。
1.1K20编辑于 2021-12-29
来自专栏ATYUN订阅号
慎用预训练深度学习模型
预训练的模型很容易使用，但是您是否忽略了可能影响模型性能的细节? 利用预训练模型的一种常见技术是特征提取，在此过程中检索由预训练模型生成的中间表示，并将这些表示用作新模型的输入。通常假定这些最终完全连接层捕获与解决新任务相关的信息。那么，当你利用这些预训练模型时，需要注意什么呢? 使用预训练模型的注意事项： 1.你的任务相似吗?您的数据有多相似? 看看这些有用的基准参考资料，了解这些不同的预训练模型运行时间。在实践中，您应该保持预训练的参数不变(即使用预训练模型作为特征提取器)，或者对它们进行微微调整，以避免在原始模型中忘记所有内容。
2.1K30发布于 2019-05-14
来自专栏计算机视觉理论及其实现
Pytorch预训练模型以及修改
，并且提供了预训练模型，可通过调用来读取网络结构和预训练模型（模型参数）。加载预先下载好的预训练参数到resnet18，用预训练模型的参数初始化resnet18的层，此时resnet18发生了改变。这里以resnet预训练模型举例。3、训练特定层，冻结其它层另一种使用预训练模型的方法是对它进行部分训练。具体做法是，将模型起始的一些层的权重保持不变，重新训练后面的层，得到新的权重。如何使用预训练模型，是由数据集大小和新旧数据集(预训练的数据集和自己要解决的数据集)之间数据的相似度来决定的。下图表展示了在各种情况下应该如何使用预训练模型：?? 到此我们实现了PyTorch中使用预训练的模型初始化网络的一部分参数。
21.2K31编辑于 2022-09-02
来自专栏全栈程序员必看
Tensorflow加载预训练模型和保存模型
使用tensorflow过程中，训练结束后我们需要用到模型文件。有时候，我们可能也需要用到别人训练好的模型，并在这个基础上再次训练。这时候我们需要掌握如何操作这些模型数据。 /checkpoint_dir/MyModel',global_step=1000) 3 导入训练好的模型在第1小节中我们介绍过，tensorflow将图和变量数据分开保存为不同的文件。，很多时候，我们希望使用一些已经训练好的模型，如prediction、fine-tuning以及进一步训练等。这时候，我们可能需要获取训练好的模型中的一些中间结果值，可以通过graph.get_tensor_by_name('w1:0')来获取，注意w1:0是tensor的name。，只会保存变量的值，placeholder里面的值不会被保存如果你不仅仅是用训练好的模型，还要加入一些op，或者说加入一些layers并训练新的模型，可以通过一个简单例子来看如何操作： import
2.1K30编辑于 2022-07-25
来自专栏GoCoding
TorchVision 预训练模型进行推断
本文将介绍 torchvision[3] 中模型的入门使用，一起来创建 Faster R-CNN 预训练模型，预测图像中有什么物体吧。 import torch import torchvision from PIL import Image 创建预训练模型 model = torchvision.models.detection.fasterrcnn_resnet50 , bias=True) (bbox_pred): Linear(in_features=1024, out_features=364, bias=True) ) ) ) 此预训练模型是于 COCO train2017 上训练的，可预测的分类有： COCO_INSTANCE_CATEGORY_NAMES = [ '__background__', 'person', 'bicycle 进行模型推断模型切为 eval 模式： # For inference model.eval() 模型在推断时，只需要给到图像数据，不用标注数据。
78820发布于 2021-05-06
来自专栏算法进阶
时间序列+预训练大模型！
如今，大型语言模型（LLM）在自然语言处理任务中表现出色，基于transformer架构，通常在文本语料库上进行训练，基于预训练LLM的预测模型包括将数值时间序列数据视为原始文本，利用预训练的LLM进行微调本文重点介绍下Chronos——一个结合预训练时间序列的大模型框架。 Chronos基于T5家族预训练大模型，该模型在大量公开可用数据集上进行了预训练，并补充了通过高斯过程生成的合成数据集以提高泛化能力。基于预训练LLM的预测模型包括将数值时间序列数据视为原始文本，利用预训练的LLM进行微调，或将数值数据编码为数字字符串，在预训练的LLM上进行零样本设置来获取预报。我们还评估了ForecastPFN，这是一个仅使用合成时间序列数据进行预训练的转换器模型。我们将Chronos模型和基准分为三组：本地模型、任务特定模型和预训练模型。更多详细信息请参阅附录C。
1.8K10编辑于 2024-05-21
来自专栏程序随笔
聊聊预训练模型的微调
翻译自：Fine-tuning a model with the Trainer API Transformers 提供了一个 Trainer 类，处理微调在数据集上提供的任何预训练模型。必须提供的唯一参数是保存训练模型的目录以及checkpoint。对于其余所有内容，可以保留默认值，这对于基本的微调应该非常有效。但是，它不会告诉你模型的表现有多好（或多差）。 BERT 论文中的表格报告了基本模型的 F1 分数为 88.9，这是非case的模型，而我们目前使用的是case的模型，这解释了更好的结果。 - 否则，我们将继续训练已经训练过的模型。
1.2K20编辑于 2023-10-19
来自专栏数据科学（冷冻工厂）
微调预训练的 NLP 模型
针对任何领域微调预训练 NLP 模型的分步指南简介在当今世界，预训练 NLP 模型的可用性极大地简化了使用深度学习技术对文本数据的解释。然而，虽然这些模型在一般任务中表现出色，但它们往往缺乏对特定领域的适应性。本综合指南[1]旨在引导您完成微调预训练 NLP 模型的过程，以提高特定领域的性能。动机尽管 BERT 和通用句子编码器 (USE) 等预训练 NLP 模型可以有效捕获语言的复杂性，但由于训练数据集的范围不同，它们在特定领域应用中的性能可能会受到限制。这一适应过程显着增强了模型的性能和精度，充分释放了 NLP 模型的潜力。 ❝在处理大型预训练 NLP 模型时，建议首先部署基本模型，并仅在其性能无法满足当前特定问题时才考虑进行微调。数据概览为了使用此方法对预训练的 NLP 模型进行微调，训练数据应由文本字符串对组成，并附有它们之间的相似度分数。
64831编辑于 2023-08-10
预训练大模型赋能：以 GPT-3 为代表的预训练模型
随着 OpenAI 系列大模型 API 的能力迭代，以及 New API 等第三方技术平台提供的高可用服务支撑，企业与开发者得以突破基础设施搭建的壁垒，快速构建具备深度语义理解与流畅对话能力的智能交互系统二、核心技术架构解析智能聊天机器人的核心能力源于自然语言处理（NLP）技术栈，其底层逻辑围绕 “语义理解 - 意图识别 - 响应生成” 三大环节构建，具体实现依赖两大关键支撑：预训练大模型赋能：以 GPT -3 为代表的预训练模型，通过海量文本数据学习语言规律，可精准解析用户输入的隐含需求，生成符合人类表达习惯的自然语言回复，无需开发者从零构建语言理解模型；高可用 API 平台支撑：New API 平台提供标准化 """ 生成聊天机器人回复 :param client: 已初始化的OpenAI客户端 :param user_prompt: 用户输入文本 :param model: 调用的预训练模型版本六、工程化落地实践建议体验优化策略：建立 “用户反馈 - 数据迭代” 闭环，通过分析用户对回复的满意度（如是否需要人工转接），持续调整模型参数（如 temperature、max_tokens）与对话逻辑
20520编辑于 2025-11-05
来自专栏机器学习AI算法工程
最强 NLP 预训练模型库 PyTorch-Transformers 正式开源：支持 6 个预训练框架，27 个预训练模型
PyTorch-Transformers（此前叫做pytorch-pretrained-bert）是面向自然语言处理，当前性能最高的预训练模型开源库。该项目支持 BERT, GPT, GPT-2, Transfo-XL, XLNet, XLM 等，并包含 27 个预训练模型。 pytorch-transformers#quick-tour 官网： https://huggingface.co/pytorch-transformers/index.html 该开源库现在包含了 PyTorch 实现、预训练模型权重 27个预训练模型项目中提供了27个预训练模型，下面是这些模型的完整列表，以及每个模型的简短介绍。注意，这里要使用分布式训练和16- bits 训练，你需要安装NVIDIA的apex扩展。
1.5K20发布于 2019-10-28
来自专栏CNN
Tensorflow加载预训练模型和保存模型
使用tensorflow过程中，训练结束后我们需要用到模型文件。有时候，我们可能也需要用到别人训练好的模型，并在这个基础上再次训练。这时候我们需要掌握如何操作这些模型数据。 /checkpoint_dir/MyModel',global_step=1000) 3 导入训练好的模型在第1小节中我们介绍过，tensorflow将图和变量数据分开保存为不同的文件。，很多时候，我们希望使用一些已经训练好的模型，如prediction、fine-tuning以及进一步训练等。这时候，我们可能需要获取训练好的模型中的一些中间结果值，可以通过graph.get_tensor_by_name('w1:0')来获取，注意w1:0是tensor的name。，只会保存变量的值，placeholder里面的值不会被保存如果你不仅仅是用训练好的模型，还要加入一些op，或者说加入一些layers并训练新的模型，可以通过一个简单例子来看如何操作： import
3.5K30发布于 2018-08-28

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

预训练模型还要训练吗_多模态预训练模型

transformer预训练模型

预训练模型介绍

【预训练模型】预训练语言模型的前世今生之风起云涌

GPT预训练模型介绍

【NLP】预训练模型综述

CLIP-图文预训练模型

ACL2021：预训练模型

预训练语言模型合辑~

AntiBERTy-抗体预训练模型

慎用预训练深度学习模型

Pytorch预训练模型以及修改

Tensorflow加载预训练模型和保存模型

TorchVision 预训练模型进行推断

时间序列+预训练大模型！

聊聊预训练模型的微调

微调预训练的 NLP 模型

预训练大模型赋能：以 GPT-3 为代表的预训练模型

最强 NLP 预训练模型库 PyTorch-Transformers 正式开源：支持 6 个预训练框架，27 个预训练模型

Tensorflow加载预训练模型和保存模型

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐