前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【论文解读】Panda LLM —— 新加坡南洋理工发布中文版LLM模型

【论文解读】Panda LLM —— 新加坡南洋理工发布中文版LLM模型

作者头像
唐国梁Tommy
发布2023-09-01 09:53:56
2870
发布2023-09-01 09:53:56
举报
文章被收录于专栏:唐国梁Tommy

注:本图由stable diffusion生成

代码语言:javascript
复制
① 论文:
https://arxiv.org/pdf/2305.03025.pdf

② github:
https://github.com/dandelionsllm/pandallm/

1.1 摘要

我们的目标是通过定量分析来补充评估,为开源聊天模型的持续发展提供有价值的洞见。

1.2 引言

(1)提出的蒲公英项目(Dandelion Project)旨在部署的大型语言模型不仅准确,而且透明,可信,可定制。

(2)我们的Panda LLM模型已经在Chinese-Wiki-2019,Chinese-News-2016,Chinese-Baike-2018,Chinese-Webtext-2019,以及Translation-2019和COIG数据集上进行了训练,并在LLaMA模型的基础上进行了指导精调(instruction tuning)。

(3)为此,这个项目的贡献是三方面的

①我们采用了两阶段的训练方法,取得了出色的结果,超越了所有先前可用的具有相同参数数量的开源中文大型语言模型

②我们进行了首次的开源中文大型语言模型的比较评估

③我们已经提供了一系列模型文件和相应的源代码,目的是推动人工智能的民主化。

1.3 训练方法

我们以强大的LLaMA基础模型作为我们的基础,通过对六个中文语料库进行指令精调来进一步优化其性能,使其能够在各种任务上表现良好。

1.3.1 基础模型

(1)我们的Panda LLM建立在各种LLaMA模型的基础上,包括Meta最近发布的LLaMA-7B,LLaMA-13B,LLaMA-33B和LLaMA-65B,作为我们的基础模型。

png-01

(2)利用各种改进来增强模型的容量,包括预归一化(pre-normalization),SwiGLU激活函数和旋转嵌入(SwiGLU activation function,rotary embeddings)。

代码语言:javascript
复制
# pre-normalization
Root mean square layer normalization
https://proceedings.neurips.cc/paper_files/paper/2019/file/1e8a19426224ca89e83cef47f1e7f53b-Paper.pdf
代码语言:javascript
复制
# SwiGLU activation function ,rotary embeddings
Roformer: Enhanced transformer with rotary position embedding
https://arxiv.org/pdf/2104.09864.pdf

png-02

1.3.2 训练数据集

(1)为了使我们的Panda LLM在中文数据集上获得强大的性能,我们利用了强大的指令精调(instruction tuning)技术在五个开源的中文数据集的混合上训练基础LLaMA模型

代码语言:javascript
复制
# 五个开源的中文数据集
https://zenodo.org/record/3402023#.ZFXIAOxBy7M

png-03

2)为了增强Panda LLM的指令(instruction-following)执行能力,我们进一步将中文开放指令通用(COIG)数据集纳入我们的语料库。

代码语言:javascript
复制
# COIG
https://arxiv.org/pdf/2304.07987.pdf
https://github.com/BAAI-Zlab/COIG

1.3.3 训练基础设施

为了便于模型的高效训练,我们使用了DeepSpeed ZERO-1配合bfloat16和梯度checkpointing。

1.4 实验

1.4.1 评估数据集

png-04

1.4.2 结果

我们展示了在不同阶段Panda LLM的性能。

• Panda-7B:在Chinese-Wiki-2019,Chinese-News-2016,Chinese-Baike-2018,Chinese-Webtext-2019和Translation-2019上进行微调的模型。

• Panda-7B-instruction-3k:Panda-7B + 在COIG数据集上进行3k步的指导调整。

• Panda-7B-instruction-6k:Panda-7B + 在COIG数据集上进行6k步的指导调整。

• Panda-7B-instruction-9k:Panda-7B + 在COIG数据集上进行9k步的指导调整。

png-05

png-06

1.4.3 关键发现

(1)在推理任务中取得高性能的关键因素是在各种领域进行调整。

(2)随意混合数据并不能提高性能。

(3)简而言之,一个包含大量预训练,然后在一小部分但是多样性的数据上进行指导调整的流程可以导致一个高效的中文语言模型。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-05-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 唐国梁Tommy 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
人工智能与机器学习
提供全球领先的人脸识别、文字识别、图像识别、语音技术、NLP、人工智能服务平台等多项人工智能技术,共享 AI 领域应用场景和解决方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档