Common Corpus,由Pleias、HuggingFace等机构联合打造,是目前最大的公共领域数据集,专为训练大型语言模型(LLMs)而构建。该数据集汇集了来自全球多样文化遗产项目的 5000 亿词汇,涵盖了英语、法语、荷兰语、西班牙语、德语和意大利语等多种语言,是迄今为止最全面的语言资源库。其拥有迄今为止最大的英语数据集,包含 1800 亿词汇,包括美国重要数字化报纸项目Chronicling America的2100万份文献,Nomic AI原创语料库地图,以及Sebastian Majstorovic收集的专著数据。此外,它还包含了目前最大的法语(1100 亿词汇)、德语(300 亿词汇)、西班牙语、荷兰语和意大利语的开放数据集,以及许多在大型语言模型训练中鲜少涉及的低资源语言。Common Corpus的推出,展示了无需依赖Common Crawl等版权受限内容,亦能训练出LLMs,旨在建立一个强大的AI数据共享平台,简化研究流程,提升研究可复制性,推动AI的普及、多样性和民主化,确保大型模型的知识普及与应用。
详情请参见五号雷达:https://www.5radar.com/result?key=Common+Corpus
领取专属 10元无门槛券
私享最新 技术干货