上海人工智能实验室发布新一代高质量大模型预训练语料“万卷CC”(WanJuan-CC),首批开源的语料覆盖过去十年互联网上的公开内容,包含1千亿字符(100B token),约400GB的高质量英文数据。研究团队通过对CC原始数据进行清洗,去除了网页代码和重复内容,同时利用分类模型剔除了广告和质量较差的信息,并通过内容一致性、语法正确性、数据噪声和信息价值等四个维度,对语言的流畅性进行评估,最终以1.38%的超低留存率提炼出精华数据。该数据集将为学界和业界提供大规模、高质量的数据支撑,助力构建更智能可靠的AI大模型。
详情请参见五号雷达:https://www.5radar.com/
数据集地址: https://opendatalab.com/OpenDataLab/WanJuanCC
领取专属 10元无门槛券
私享最新 技术干货