Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Zephyr模型详解

Zephyr模型详解

作者头像
deephub
发布于 2023-11-20 05:49:42
发布于 2023-11-20 05:49:42
6110
举报
文章被收录于专栏:DeepHub IMBADeepHub IMBA

Zephyr利用dDPO,显著改善了意图对齐和AI反馈(AIF)偏好数据,该方法遵循与InstructGPT相似的步骤。

训练方式

蒸馏监督微调(dSFT)

从原始LLM开始,首先需要训练它响应用户提示,传统上是通过SFT完成的。但是通过访问教师语言模型,可以通过迭代的自我提示构建数据集,其中教师用于响应指令并根据响应改进指令。蒸馏由SFT进行。终点是最终数据集,C = {(x1, y1),…,(xJ, yJ)}

AI偏好反馈(AIF)

人类反馈提供了额外的信号来校准llm。Ultra Feedback方法,将提示馈送到多个模型,并由教师模型评估其响应以提供分数。最终的反馈数据集D由这些三元组(x, yw, yl)组成。其中yw是得分最高的响应,yl是随机得分较低的提示。

Distilled Direct Preference Optimization (dDPO)

目标是通过优化偏好模型来改进学生模型(πdSFT),该模型旨在将偏好的回答与低质量的回答进行排序。

从模型的dSFT版本开始,dSFT模型(仅向前)计算(x, yw)和(x, yl)的概率。dDPO模型计算(x, yw)和(x, yl)的概率。最后计算目标并反向传播以更新。

模型细节

所有的微调实验都是在Mistral 7B上进行的。

使用了两个从开放和专有模型中提炼出来的对话数据集:

UltraChat是由GPT-3.5-TURBO生成的1.47万个多回合对话组成的数据集,包含30个主题和20种不同类型的文本材料。在应用truecasing启发式来修复语法错误,以及几个过滤器来删除不希望的模型响应,得到的数据集包含大约200k个示例。

UltraFeedback 由64k个提示组成,每个提示有四个LLM响应,这些响应由GPT-4根据指令遵循、诚实和有用性等标准进行评分。

SFT模型训练一到三个轮。DPO模型也训练一到三个轮。最终的ZEPHYR-7B模型是在SFT模型的基础上初始化的。

评价指标

dDPO改进了聊天功能

与其他的7B模型相比,Zephyr-7B在MT-Bench和AlpacaEval基准测试中展示了卓越的性能

在两个基准测试中都明显优于其他dSFT模型,与大型开放式模型相比,Zephyr-7B与Llama2-Chat 70B差距很小,在MT-Bench和AlpacaEval的近距离内得分更接近,差异不超过两个标准差。

dDPO提高了Academic Task

Zephyr优于所有其他7B模型,包括dSFT模型和Xwin-LM dPPO模型。模型规模是影响结果的一个重要因素,在知识密集型任务上,更大的模型比Zephyr表现得更好。但是Zephyr在某些方面确实达到了40B比例模型的性能。

偏好优化是必要的吗?

dDPO - dSFT在UltraFeedback上直接用DPO对基础模型进行一轮的微调。

dSFT-1在UltraChat上用SFT对一轮的基本模型进行微调。

dSFT-2首先应用dSFT-1,然后在superfeedback排名靠前对话上再进行一次SFT。

dDPO + dSFT先应用dSFT-1,然后在ultrafeback上进行一轮DPO训练。

可以看到如果没有初始的SFT步骤(dSFT),模型的表现就会很差,并且不能有效地从反馈中学习。dSFT显著提高了模型在两个聊天基准测试中的得分。直接在反馈数据(dSFT-2)上运行dSFT不会导致明显的性能改进。在完整的Zephyr模型中结合dDPO和dDSFT,可以在两个基准测试中大幅提高性能。

Zephyr 7B α与Zephyr 7B β

dSFT最初是在整个UltraChat语料库上运行的,得到了Zephyr 7B α,但后来作者发现,聊天模型倾向于用不正确的大写来回应,并且会用“我没有个人经验”这样的短语作为答案,即使是像很简单的问题。

所以为了在训练数据中处理这些问题,应用了truecasing启发式来修复语法错误(大约占数据集的5%),以及几个过滤器来关注有用性并删除不希望的模型响应。所得数据集包含约200k个样本,使用这些样本训练得到Zephyr 7B β模型。

Zephyr 通过应用各种不同的训练方式结合得到了一个非常小,但是效果却非常不错的模型,这也为以后的研究方向提供了一些有力的支持。所有有兴趣的话请看论文的原文:

https://arxiv.org/abs/2310.16944


喜欢就关注一下吧:

点个 在看 你最好看!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-11-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DeepHub IMBA 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
用户意图对齐,无需人工标注,Zephyr-7B 超越 Llama2-Chat-70B
该研究目标是创建一个与用户意图更符合的小型语言模型。通过应用蒸馏监督微调(distilled supervised fine-tuning, dSFT)和蒸馏直接偏好优化(distilled direct preference optimization, dDPO)以及利用AI反馈(AI Feedback, AIF)的偏好数据,研究者成功提升了模型的任务准确性和意图对齐度。ZEPHYR-7B模型以7B参数在聊天基准测试中创立了新标准,无需人工注释,且在MT-Bench测试中超过了之前的模型。此方法的优势包括较短的训练时间和无需额外采样,为开放大型语言模型(LLMs)的发展和微调提供了新方向。同时,研究未考虑模型安全性如可能产生有害输出等问题。
唐国梁Tommy
2023/11/02
7560
用户意图对齐,无需人工标注,Zephyr-7B 超越 Llama2-Chat-70B
UCLA华人提出全新自我对弈机制!LLM自己训自己,效果碾压GPT-4专家指导
在去年底,有网友扒出前OpenAI首席科学家Ilya曾经在很多场合表示过,LLM的发展不存在数据瓶颈,合成数据可以解决大部分的问题。
新智元
2024/02/06
2090
UCLA华人提出全新自我对弈机制!LLM自己训自己,效果碾压GPT-4专家指导
每日学术速递10.29
1.SD4Match: Learning to Prompt Stable Diffusion Model for Semantic Matching
AiCharm
2023/11/01
4080
每日学术速递10.29
全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型
为了将大型语言模型(LLM)与人类的价值和意图对齐,学习人类反馈至关重要,这能确保它们是有用的、诚实的和无害的。在对齐 LLM 方面,一种有效的方法是根据人类反馈的强化学习(RLHF)。尽管经典 RLHF 方法的结果很出色,但其多阶段的过程依然带来了一些优化难题,其中涉及到训练一个奖励模型,然后优化一个策略模型来最大化该奖励。
机器之心
2024/06/04
3480
全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型
当LLM学会左右互搏,基础模型或将迎来集体进化
金庸武侠小说中有一门武学绝技:左右互搏;乃是周伯通在桃花岛的地洞里苦练十余年所创武功,初期想法在于左手与右手打架,以自娱自乐。而这种想法不仅能用来练武功,也能用来训练机器学习模型,比如前些年风靡一时的生成对抗网络(GAN)。
机器之心
2024/01/11
2150
当LLM学会左右互搏,基础模型或将迎来集体进化
深入了解Deepseek模型的最佳三篇论文
DeepSeek-R1:通过强化学习提升大型语言模型的推理能力。 2025年1月发布,提出了一种使用强化学习而非监督学习的方法,显著提升了语言模型在数学和逻辑推理任务中的表现,开辟了新的研究方向。
致Great
2025/02/09
1.6K0
深入了解Deepseek模型的最佳三篇论文
ICLR 2025|大模型也需要好奇心,TeleAI 提出探索驱动的对齐方法,8B越级胜70B
在自然界中,好奇心驱使着生物探索未知,是生存和进化的关键。人类,作为地球上最具智能的物种,其探索精神引领了科技、文化和社会的进步。1492 年,哥伦布怀揣探索未知的理想,勇敢地向西航行,最终发现了新大陆。
机器之心
2025/02/03
1700
ICLR 2025|大模型也需要好奇心,TeleAI 提出探索驱动的对齐方法,8B越级胜70B
人类偏好就是尺!SPPO对齐技术让大语言模型左右互搏、自我博弈
Richard Sutton 在 「The Bitter Lesson」中做过这样的评价:「从70年的人工智能研究中可以得出的最重要教训是,那些利用计算的通用方法最终是最有效的,而且优势巨大。」
机器之心
2024/05/14
2710
人类偏好就是尺!SPPO对齐技术让大语言模型左右互搏、自我博弈
每日论文速递 | 使用对比Reward改进RLHF
摘要:来自人类反馈的强化学习(RLHF)是将大语言模型(LLM)与人类偏好相匹配的主流范式。然而,现有的 RLHF 在很大程度上依赖于准确、翔实的奖励模型,而奖励模型对各种来源的噪声(如人类标签错误)很脆弱、很敏感,从而使管道变得脆弱。在这项工作中,我们通过在奖励上引入惩罚项来提高奖励模型的有效性,该惩罚项被命名为contrastive rewards。我们的方法包括两个步骤:(1) 离线采样步骤,获取对提示的回应,作为计算基线;(2) 使用基线回应计算对比奖励,并将其用于近端策略优化 (PPO) 步骤。我们的研究表明,对比奖励使 LLM 能够惩罚奖励的不确定性、提高鲁棒性、鼓励改进基线、根据任务难度进行校准以及减少 PPO 中的差异。通过 GPT 和人类的评估,我们的实证结果表明,对比性奖励可以大幅提高 RLHF,而且我们的方法始终优于强基线。
zenRRan
2024/03/25
6850
每日论文速递 | 使用对比Reward改进RLHF
清华SuperBench全球测评出炉,Claude 3拿下多个冠军!合成数据才是人类未来?
此次测评,还增加了Llama 3-8b 和Llama 3-70b两个最近炙手可热的模型。
新智元
2024/05/06
3070
清华SuperBench全球测评出炉,Claude 3拿下多个冠军!合成数据才是人类未来?
教会羊驼说话:Instruction Tuning的最新进展
大型语言模型(LLM),凭借其数十亿的参数和数万亿token的庞大训练数据,展现了强大的功能。为了成为一种全能的任务解决工具,LLM必须学会根据用户指令作出连贯且有益的回应,而不仅仅是重复网络上的语言模式。基于此,开放式指令调整open-ended instruction tuning[1]应运而生。这种方法对LLM进行微调,使其能够按照用户的指令作出有用、诚实和无害的回应。随着ChatGPT取得巨大成功,人们对这种方法的兴趣日益浓厚。开放式指令调整通常包括两个阶段:
zenRRan
2023/12/15
5100
教会羊驼说话:Instruction Tuning的最新进展
Deita: 有限高质量数据在LLM的潜力是真的大
数据工程在指令调优中的有着关键作用。当选择适当时,只需要有限的数据就可以实现卓越的性能。然而,什么是良好的指令调优数据以进行对齐,以及如何自动有效地选择数据仍需研究。本文深入研究了对齐的自动数据选择策略。在复杂性、质量和多样性三个维度上评估数据。并提出DEITA(Data-Efficient Instruction Tuning for Alignment),一个从LLaMA和Mistral模型中微调的模型
zenRRan
2024/01/05
6260
Deita: 有限高质量数据在LLM的潜力是真的大
每周AI论文速递(240610-240614)
最近在大语言模型 (LLMs) 方面的进展显示了其在自然语言理解和生成任务中的显著能力。随着LLMs数量的增加,如何利用多个LLMs的集体智慧成为一个令人期待的研究方向。为此,我们提出了一种新的方法,通过Mixture-of-Agents (MoA) 方法来利用多个LLMs的集体优势。在我们的方法中,我们构建了一个分层的MoA架构,每层包含多个LLM智能体。每个智能体在生成响应时将前一层所有智能体的输出作为辅助信息。MoA模型在AlpacaEval 2.0、MT-Bench和FLASK上实现了最先进的性能,超过了GPT-4 Omni。例如,我们仅使用开源LLMs的MoA在AlpacaEval 2.0中以65.1%的得分显著领先,而GPT-4 Omni的得分为57.5%。
叶子的技术碎碎念
2025/04/08
960
每周AI论文速递(240610-240614)
120亿Stable LM 2上线即开源!2万亿token训练,碾压Llama 2 70B
见状,不少网友纷纷喊话:干的漂亮!但,Stable Diffusion 3啥时候出啊?
新智元
2024/04/12
1620
120亿Stable LM 2上线即开源!2万亿token训练,碾压Llama 2 70B
LeCun力荐!进化算法淘汰77%低质数据:RIP方法让模型性能狂飙60%
在LLM的开发中,推动模型进步的主要驱动力是精心挑选高质量的训练示例。虽然Scaling Law的确能实现「力大砖飞」,但仅仅增加数据量并不能保证模型性能的提升,数据的质量才是关键。低质量的数据可能会引入噪声,影响模型的训练效果。
新智元
2025/02/25
1140
LeCun力荐!进化算法淘汰77%低质数据:RIP方法让模型性能狂飙60%
南洋理工提出简单如精细理念,通过双向负反馈损失进行LLM定位 !
直接偏好优化(DPO)作为一种比从人类反馈中学习的强化学习(RLHF)更具有计算效率的替代方案,结合了接近策略优化(PPO),消除了奖励模型和在线采样的需求。
AIGC 先锋科技
2025/01/01
1780
南洋理工提出简单如精细理念,通过双向负反馈损失进行LLM定位  !
Hugging Face:2023开源LLM大爆发,数据竞赛已开启!
下面,让我们跟随Hugging Face的研究员Clémentine Fourrier一起,
新智元
2024/01/04
3950
Hugging Face:2023开源LLM大爆发,数据竞赛已开启!
73页,开源「后训练」全流程!AI2发布高质量Tülu 3系列模型,拉平闭源差距,比肩GPT-4o mini
只进行过「预训练」的模型是没办法直接使用的,存在输出有毒、危险信息的风险,也无法有效遵循人类指令,所以通常还需要进行后训练(post-train),如「指令微调」和「从人类反馈中学习」,以使模型为各种下游用例做好准备。
新智元
2025/02/15
880
73页,开源「后训练」全流程!AI2发布高质量Tülu 3系列模型,拉平闭源差距,比肩GPT-4o mini
DeepSeekMath:突破开放式语言模型中数学推理能力的极限,提出了GRPO,值得关注学习
由于数学推理具有复杂且结构化的特性,这对语言模型构成了重大挑战。在本文中,我们介绍了 DeepSeekMath 7B 模型,该模型在 DeepSeek-Coder-Base-v1.5 7B 模型的基础上,使用从 Common Crawl 获取的 1200 亿个与数学相关的标记,以及自然语言和代码数据继续进行预训练。在不依赖外部工具包和投票技术的情况下,DeepSeekMath 7B 在竞赛级 MATH 基准测试中取得了 51.7% 的优异成绩,接近 Gemini-Ultra 和 GPT-4 的性能水平。通过对 DeepSeekMath 7B 生成的 64 个样本进行自洽性验证,其在 MATH 基准测试上的准确率达到了 60.9%。DeepSeekMath 的数学推理能力归因于两个关键因素:首先,我们通过精心设计的数据选择流程,充分利用了公开可用的网络数据的巨大潜力。其次,我们引入了组相对策略优化(Group Relative Policy Optimization,GRPO)算法,这是近端策略优化(Proximal Policy Optimization,PPO)算法的一个变体,它在增强数学推理能力的同时,还能优化 PPO 的内存使用。
AI浩
2025/06/08
2110
DeepSeekMath:突破开放式语言模型中数学推理能力的极限,提出了GRPO,值得关注学习
使用ORPO微调Llama 3
ORPO是一种新的微调技术,它将传统的监督微调和偏好对齐阶段结合到一个过程中。减少了训练所需的计算资源和时间。论文的实证结果表明,ORPO在各种模型大小和基准上都优于其他对齐方法,所以这次我们就来使用最新的Llama 3来测试下ORPO的效果。
deephub
2024/04/26
5410
使用ORPO微调Llama 3
推荐阅读
用户意图对齐,无需人工标注,Zephyr-7B 超越 Llama2-Chat-70B
7560
UCLA华人提出全新自我对弈机制!LLM自己训自己,效果碾压GPT-4专家指导
2090
每日学术速递10.29
4080
全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型
3480
当LLM学会左右互搏,基础模型或将迎来集体进化
2150
深入了解Deepseek模型的最佳三篇论文
1.6K0
ICLR 2025|大模型也需要好奇心,TeleAI 提出探索驱动的对齐方法,8B越级胜70B
1700
人类偏好就是尺!SPPO对齐技术让大语言模型左右互搏、自我博弈
2710
每日论文速递 | 使用对比Reward改进RLHF
6850
清华SuperBench全球测评出炉,Claude 3拿下多个冠军!合成数据才是人类未来?
3070
教会羊驼说话:Instruction Tuning的最新进展
5100
Deita: 有限高质量数据在LLM的潜力是真的大
6260
每周AI论文速递(240610-240614)
960
120亿Stable LM 2上线即开源!2万亿token训练,碾压Llama 2 70B
1620
LeCun力荐!进化算法淘汰77%低质数据:RIP方法让模型性能狂飙60%
1140
南洋理工提出简单如精细理念,通过双向负反馈损失进行LLM定位 !
1780
Hugging Face:2023开源LLM大爆发,数据竞赛已开启!
3950
73页,开源「后训练」全流程!AI2发布高质量Tülu 3系列模型,拉平闭源差距,比肩GPT-4o mini
880
DeepSeekMath:突破开放式语言模型中数学推理能力的极限,提出了GRPO,值得关注学习
2110
使用ORPO微调Llama 3
5410
相关推荐
用户意图对齐,无需人工标注,Zephyr-7B 超越 Llama2-Chat-70B
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档