前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大语言模型--Llama3新特性

大语言模型--Llama3新特性

原创
作者头像
aaronwjzhao
修改2024-05-29 17:04:07
1500
修改2024-05-29 17:04:07
举报
文章被收录于专栏:AI工程落地AI工程落地

Embedding层

词表大小从32000增加到128256,这也是导致参数量从7B增至8B的主要原因。更大的词表使得模型涵盖的语言更多、更加通用

Attention层--MultiHeadAttention算子

Llama3 8B和70B都使用了分组查询注意力机制(GQA),4个Query共享一对Key、Value。减少了计算量,同时保持了模型的性能。

Attention层--RoPE算子

计算旋转位置的角度使用的超参数theta值是500000.0(Llama2用的是默认值10000.0)

上下文窗口中的最大Tokens从 4096增加到 8192

数据类型

Llama2开源的参数是float16格式的,但Llama3开源的参数都是bfloat16。

依赖软件包

transformers包升级到4.40.0以上

模型版本

2024年4月21号 初版 Llama3 8B的HellaSwag分数:acc 0.6039、acc_norm 0.776

2024年5月14号 第二版 Llama3 8B的HellaSwag分数:acc_norm 0.822

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Embedding层
  • Attention层--MultiHeadAttention算子
  • Attention层--RoPE算子
  • 数据类型
  • 依赖软件包
  • 模型版本
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档