LLM入门2 | 羊驼AIpaca | Stanford

机器学习炼丹术

发布于 2023-09-02 13:53:31

4610

发布于 2023-09-02 13:53:31

文章被收录于专栏：机器学习炼丹术机器学习炼丹术

<<大型语言模型LLM>>

LLM入门1 | 初见LLaMA | MetaAI

附录
- self-instruct
- self-instruct seed set
AIpaca: A strong, Replicable Instruction-Following Model
web: https://crfm.stanford.edu/2023/03/13/alpaca.html
github：https://github.com/tatsu-lab/stanford_alpaca
转自微信公众号：机器学习炼丹术（已授权）

正文

概述

斯坦福的研究，从LLaMA 7B模型在52k的instruction-following demonstrations上微调得到的模型，AIpaca 7B. 主打就是一个低成本，小于600刀。据说和text-davinci-003具有相类似的性能，也就是我们所说的GPT-3.5。

Instruction-following models指令跟随模型有很多的deficiencies缺陷：他们生成虚假信息generate false information，传播社会刻板印象propagate social stereotypes,产生有毒语言produce toxic language。

学术界参与解决这些问题是很必要的，但是学术界在instruction-following models的研究很难进行，因为没有易于访问的开源模型在功能上接近闭源模型，比方说GPT3.5.

我们发布AIpaca模型，是META的LLaMA 7B模型中微调得到的，使用了text-davinci-003在以self-instruct的方式生成得得52k的指令跟随预料。

Training recipe

目前学术条件下，训练高质量的语言模型有两个重要的挑战：

好的预训练模型
高质量的指令数据

第一个挑战的解决方案就是最近Meta公开的LLaMA模型。第二个挑战，则是根据self-instruct这个研究提出了一种方法，利用现有的strong language model来自动化生成指令数据集。所以具体来说，AIpaca 7B.是LLaMA 7B模型在52k的text-davinci-003生成的指令集上微调得到的。

下图展示了我们如何得到ALpaca model。对于数据，我们首先有175个human-writen的指令输出对from self-instruct seed set【见附录】。我们然后通过text-davinci-003来生成更多的指令，在将上面的175个人为指令作为in-context example。我们简化了生成指令方法的流程（具体可见github），并且减少了成本。我们生成了52k的指令及其对应输出，总计花费了OpenAI API的成本少于500刀。

我们使用了Hugging Face的寻来你框架，利用了 Fully Sharded Data Parallel and mixed precision training等方法进行训练。对于我们的第一次运行，微调7B LLaMA模型在8块80G的A100上花费了3个消失，而这仅仅花费了100刀（在大多数的云供应商）

主要的测试

主要就是说AIpaca和text-davanci-003性能类似，但是规模却很小。

附录

self-instruct

Self-Instruct: Aligning Language Model with Self Generated Instructions

paper：https://arxiv.org/pdf/2212.10560.pdf
github：https://github.com/yizhongw/self-instruct

这个方法的目的在于降低语言模型训练当中对human-written instruction data的依赖，因为human-written样本会有质量、多样性和创造性的局限性。

我们生成指令有如下步骤：

使用语言模型生成一组指令
然后使用指令生成输入和输出对。
再根据他们的质量和多样性进行修建

上图是自我指导的高级概述。该过程从一组小的任务种子（每个任务的一条指令和一个输入输出实例）作为任务池开始。从任务池中抽取随机任务，并用于提示现成的 LM 生成新指令和相应的实例，然后通过过滤低质量或相似的生成，然后添加回任务的初始存储库。所结果的数据可用于稍后对语言模型本身进行指令调整，以更好地遵循指令。任务图中所示是GPT3生成的。