前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >聊聊大模型微调训练全流程的思考

聊聊大模型微调训练全流程的思考

作者头像
Ryan_OVO
发布于 2024-03-19 00:03:32
发布于 2024-03-19 00:03:32
1.2K0
举报
文章被收录于专栏:程序随笔程序随笔

参考现有的中文医疗模型:MedicalGPTCareGPT等领域模型的训练流程,结合ChatGPT的训练流程,总结如下: 在预训练阶段,模型会从大量无标注文本数据集中学习领域/通用知识;其次使用{有监督微调}(SFT)优化模型以更好地遵守特定指令;最后使用对齐技术使LLM更有用更安全的响应用户的提示。

训练流程的四个阶段,分别如下:

  1. 预训练(pre-training,pt),基于基座模型,经过海量中文医疗预料训练,得到领域适配的ChatGLM-6B。
  2. 监督微调(supervised finetuning,sft),通过在线问诊等数据,构建训练数据完成指令微调。
  3. RM模型构建(reward modeling, rm),人工对预测答案排序,训练一个打分模型
  4. 强化学习阶段(reinforcement learning, rl),基于PPO算法,采用RL的方式,完成fine-tuned ChatGLM-6B模型的优化。

预训练阶段-PT

该阶段的训练数据格式如下。对应是非结构化的自然语言文本,通过设定max_seq_len和block_size等方式,实现文本数据的chunk,batch化,作为模型的训练数据,处理完的单条数据包含input_ids,attention_mask和labels;训练的目标是模型需要根据提供的文本来预测 下一个单词。

监督微调阶段-SFT

该阶段的训练数据格式如下。一般对应的结构采用instruction/input/output/history,根据不同的场景,input与history可以做缺省处理。但是需要人工标注的指令数据集。

对齐

该阶段的主要目标是将语言模型喻人类的偏好、价值观进行对齐,这也是RHLF机制的作用。 RLHF主要包括两步:

  1. 基于有监督微调模型基础上创建一个reward model(RM)模型;
  2. 基于RM模型使用PPO/DPO算法微调SFT模型,返回最佳response。
奖励模型-RM

该阶段是RHLF的第一个阶段,训练得到一个rm模型用于rl阶段的模型打分,其结构格式如下:

有多种格式的数据,可自己选择,但需要程序做额外的处理,且这些数据都是人工标注好的。

强化学习-RL

该阶段是RHLF的第二个阶段,也是核心部分,用于优化一个RM模型,并完成打分。数据格式同SFT。一般在此阶段会使用特定的算法(DPO/PPO)来实现;引导优化后的大模型生成更符合人类偏好的内容。

总结

对于模型的微调,一开始我是想的太简单了,觉得只要按照基座官方模型文档调试即可;随着了解的深入与不断的学习,微调是个大工程而且对于领域模型来说,其训练流程:预训练 --> 监督微调 --> RHLF 中包含的事项与知识太多。 参考:【中文医疗大模型】训练全流程源码剖析

转载请注明出处:https://www.cnblogs.com/zhiyong-ITNote

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-03-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Fastqc安装中可能遇到的问题
一、安装JAVA环境 这一步个人并非按照xiaoming老师的步骤所做,而是直接输入sudo apt-get install default-jre完成,因为并不确定该方法是否会造成某些问题,大家姑且当做优先级较低的那一个吧
戈贝尔光和热
2018/12/27
5.1K0
生物信息学软件工具的大致分类
其中网页工具和云平台都不是针对专门的生物信息学工程师设计的,因为并不需要使用者会编程语言,所以使用起来非常简单。下面来一一介绍一下它们:
生信技能树
2023/11/21
6840
生物信息学软件工具的大致分类
RNA-seq 保姆教程:差异表达分析(一)
RNA-seq 目前是测量细胞反应的最突出的方法之一。RNA-seq 不仅能够分析样本之间基因表达的差异,还可以发现新的亚型并分析 SNP 变异。本教程[1]将涵盖处理和分析差异基因表达数据的基本工作流程,旨在提供设置环境和运行比对工具的通用方法。请注意,它并不适用于所有类型的分析,比对工具也不适用于所有分析。此外,本教程的重点是给出一般的分析流程。对于更大规模的研究,强烈建议使用集群来增加内存和计算能力。
数据科学工厂
2023/02/27
1.9K0
RNA-seq 保姆教程:差异表达分析(一)
chatGPT只能给你提示没办法代替你解决单细胞报错
EBI (European Bioinformatics Institute) 和 NCBI (National Center for Biotechnology Information) 都是全球领先的生物信息学研究机构,它们提供了大量的生物信息学数据库和工具,对全球的科研工作者开放。
生信技能树
2023/09/04
5410
chatGPT只能给你提示没办法代替你解决单细胞报错
RNAseq分析之FastQC
FastQC——高通量测序质量控制工具。用于检查原始数据以确认是否存在质量问题或偏差。它可以作为交互式应用程序用于少量文件的即时分析,也可以非交互式地运行,适合于作为大规模分析流程的一部分。FastQC与特定的测序技术无关,因此可以用于查看各种组学的测序数据(包括不限于 WGS、WES、RNAseq、ChIP-seq、BS-Seq等)
生信菜鸟团
2023/11/08
6981
RNAseq分析之FastQC
RNA-seq(3):sra到fastq格式转换并进行质量控制
把RNA-seq(2)-2下载的sra文件转换为fastq格式的测序文件,并且用fastqc软件测试测序文件的质量,理解各指标的意义。
Y大宽
2018/09/10
2.1K0
RNA-seq(3):sra到fastq格式转换并进行质量控制
学员的转录组实战笔记之胰腺癌差异
第一个数据集是胰腺癌的癌症和癌旁或者其它对照组织差异,就12个样品,处理起来比较方便,第二个数据集样品数量稍微有一点点多,后面有机会再处理它。文章描述的转录组测序数据的生物信息学处理方法非常陈旧了:
生信技能树
2023/09/04
3110
学员的转录组实战笔记之胰腺癌差异
转录组分析 | fastqc进行质控与结果解读
做转录组测序,通常公司是不给分析的,分析也要自己多花钱,当然不同公司收费不一样,有的可能带有简单的分析。之前测序的第一家公司给了简单的分析,后面换了一家测序公司,不给分析。所以我得自己分析啦,在分析的时候顺便写一下教程。分享给大家,要分析转录组数据,首先得知道测序原理【参考文章:illumina、Sanger、第三代和第四代测序技术原理】,还有就是了解生信分析中一些文件格式【参考文章:生信中常见的数据文件格式】,当然,还有其他一些生物背景知识,除此以外,还需要会Linux,这个是一个漫长的学习过程。本文就介绍转录组数据分析的第一步分析:质控,主要就是fastqc这个软件的使用和结果解读。
DoubleHelix
2020/09/23
14K1
转录组分析 | fastqc进行质控与结果解读
我的第一次ChIP-seq实践
1. 软件安装 整个过程基本是从零开始,也就是说服务器没有安装任何所需软件。因为我平时会用到Python,所以第一步安装的是Anaconda,版本是Anaconda3-4.4.0-Linux-x86_64.sh. Ananconda是一个用于科学计算的Python发行版,能够方便解决多版本Python并存(后面会看到)、切换以及各种第三方包安装问题(最大的好处)。 Anaconda和整个ChIP-seq分析没关系,提到它是因为安装Anaconda后可以用BIOCONDA,能够方便安装管理生物信息软件,无需自
生信技能树
2018/03/08
2.9K0
我的第一次ChIP-seq实践
很多事情不一定有答案(但是可以有交流渠道)
不过,最近几年我的教程都是conda和aspera高速下载啦,但即使是这样,仍然是很多人反馈下载失败,有一些是Linux命令不熟悉,自己把代码写错,有一些是数据库下载源的问题,部分数据缺失是数据库的责任,并不是你的错!还有一些是网络问题,甚至是玄学,比如前两天可以,今天就不可以,或者说前面奋战了两个星期都失败,但是今天却无缘无故下载成功了!
生信技能树
2021/01/18
1.1K0
很多事情不一定有答案(但是可以有交流渠道)
Ubuntu16.04:apt、dpkg使用
apt会解决和安装模块的依赖问题,并会咨询软件仓库, 但不会安装本地的deb文件, apt是建立在dpkg之上的软件管理工具。
新码农
2021/01/04
1.1K0
看优秀本科生如何一周内学会Linux进而搞定RNA-seq上游分析
我是武汉大学基础医学专业第一届的学生,2016年9月刚进大学的时候就选了导师进入实验室接受科研训练。虽然我们实验室不是专门做生物信息学的,但第一次和导师正式交流的时候,她就建议我要学点生信。(巧合的是2016年9月也是生信菜鸟团转型生信技能树的时间点,如果所有的导师都如此明智就好了)
生信技能树
2020/04/14
8.9K1
看优秀本科生如何一周内学会Linux进而搞定RNA-seq上游分析
FastQC | 对测序数据进行质控及质控报告解读
本期将演示如何使用FastQC对二代测序数据进行质控以及对质控报告进行全方位的解读。
生信real
2022/08/18
5.1K0
FastQC | 对测序数据进行质控及质控报告解读
Ubuntu翻译之man(8)apt-get
apt-get - APT package handling utility -- command-line interface
可学了些精致的淘气
2024/08/30
1280
Ubuntu 包管理的 20 个“apt-get”命令
使用 apt-get 命令,您可以在系统上安装、删除、升级、搜索和管理软件包。然而,从 Ubuntu 16.04 和 Debian 9 开始,apt 命令成为推荐的包管理命令行工具,尽管 apt-get 仍然可用且功能齐全。
数据科学工厂
2023/08/10
6960
Ubuntu 包管理的 20 个“apt-get”命令
Ubuntu翻译之man(8)apt
apt [-h] [-o=config_string] [-c=config_file] [-t=target_release] [-a=architecture] {list | search | show | update |
可学了些精致的淘气
2024/08/28
1610
ubuntu使用MAC主题
ubuntu使用MAC主题,步骤如下: 1. 下载mac壁纸(Download MacBuntu OS Wallpapers and extract to pictures directory) cd ~/Download wget http://drive.noobslab.com/data/Mac/MacBuntu-Wallpapers.zip unzip MacBuntu-Wallpapers.zip ---- 2:安装 MacBuntu OS Y Theme、Icons 和 cursors(I
若与
2018/04/25
2.2K0
ubuntu使用MAC主题
分享 | ATAC-Seq 分析流程
ATAC-Seq 是“Assay for Transposase-Accessible Chromatin with high-throughput Sequencing”的缩写。 ATAC-Seq 方法依赖于使用高活性转座酶 Tn5 的下一代测序(NGS)文库的构建。将 NGS 接头连接到转座酶上,该转座酶可以使染色质断裂并同时将这些接头整合到开放的染色质区域中。构建的文库可通过 NGS 测序,并使用生物信息学分析具有可及或可访问染色质的基因组区域。
用户7010445
2024/06/18
1.2K0
分享 | ATAC-Seq 分析流程
如何在 Linux 上使用 Apt 命令
apt是一个命令行工具,它用来安装,升级,移除和类似的管理操作 deb 软件包,它存在于 Ubuntu, Debian, 和相关 Linux 发行版中。它将经常使用的apt-get和apt-cache工具聚合在一起,并给一些选项设置默认值。
雪梦科技
2020/05/11
3K0
如何在 Linux 上使用 Apt 命令
一个优秀的ATAC-seq数据分析资源实战(一)
之前我们给大家介绍了两篇ATAC-Seq数据分析pipeline的优秀综述:综述:ATAC-Seq 数据分析工具大全 和 Omni-ATAC:更新和优化的ATAC-seq协议(NatProtoc),我们今天就来实战介绍!
生信技能树
2025/02/27
1910
一个优秀的ATAC-seq数据分析资源实战(一)
相关推荐
Fastqc安装中可能遇到的问题
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档