大语言模型--Llama3新特性

原创

aaronwjzhao

修改于 2024-05-29 17:04:07

1500

修改于 2024-05-29 17:04:07

文章被收录于专栏：AI工程落地AI工程落地

Embedding层

词表大小从32000增加到128256，这也是导致参数量从7B增至8B的主要原因。更大的词表使得模型涵盖的语言更多、更加通用

Attention层--MultiHeadAttention算子

Llama3 8B和70B都使用了分组查询注意力机制(GQA)，4个Query共享一对Key、Value。减少了计算量，同时保持了模型的性能。

Attention层--RoPE算子

计算旋转位置的角度使用的超参数theta值是500000.0（Llama2用的是默认值10000.0）

上下文窗口中的最大Tokens从 4096增加到 8192

数据类型

Llama2开源的参数是float16格式的，但Llama3开源的参数都是bfloat16。

依赖软件包

transformers包升级到4.40.0以上

模型版本

2024年4月21号初版 Llama3 8B的HellaSwag分数：acc 0.6039、acc_norm 0.776

2024年5月14号第二版 Llama3 8B的HellaSwag分数：acc_norm 0.822

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

pytorch

huggingface-transformers

LLM

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

pytorch

huggingface-transformers

LLM

登录后参与评论

0 条评论

热度