真开源！史上第一个100%开源的AI大模型：OLMo！公布了代码！数据集！训练全过程！

文章来源：企鹅号 - AI变革指南

AI大语言模型的意义不言而喻！如今它的商业价值不断提升，最强大的模型（对说的就是你，openAI）也变得越来越封闭。隐藏在API后面的训练数据、架构和开发细节不为人知。

鉴于开源精神，还有对于不透明带来的风险担忧，艾伦人工智能研究所、华盛顿大学、耶鲁大学、纽约大学和卡内基梅隆大学的研究人员做了一个一个划时代的举动！他们将训练一个AI大模型的一切数据都开源了，包括数据和调试细节！

为此，今天详细介绍了OLMo，这是一个先进的、真正开放的AI大语言模型！

希望借此给其他的开源们做个好榜样，这才是 真开源！

OLMo的特点

OLMo目前有两个版本1B和7B，65B正在路上，还未公布。

OLMo使用了Dolma这个开放的数据集进行预训练。Dolma是一个由3万亿个来自多样化的网络内容、学术出版物、代码、书籍和百科资料的令牌组成的开放数据集。它是目前最大的用于LLM训练的开放数据集。

OLMo提供了Paloma这个基准，用于评估开放的语言模型在多个不同领域的表现（从小众的艺术社区到关于心理健康的reddit论坛）。

在相同规模下，OLMo-7B评分还是可以的。

OLMo的所有开源资料

代码

https://github.com/allenai/OLMo

Weights

https://huggingface.co/allenai/0LMo-7B

Data

https://huggingface.co/datasets/allenai/dolma

Evaluation

https://github.com/allenai/0LMo-Eval

Adaptation

https://github.com/allenai/openinstruct

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货