首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【五号雷达-数据快讯】万卷CC - 高质量英文网络文本数据集

上海人工智能实验室发布新一代高质量大模型预训练语料“万卷CC”(WanJuan-CC),首批开源的语料覆盖过去十年互联网上的公开内容,包含1千亿字符(100B token),约400GB的高质量英文数据。研究团队通过对CC原始数据进行清洗,去除了网页代码和重复内容,同时利用分类模型剔除了广告和质量较差的信息,并通过内容一致性、语法正确性、数据噪声和信息价值等四个维度,对语言的流畅性进行评估,最终以1.38%的超低留存率提炼出精华数据。该数据集将为学界和业界提供大规模、高质量的数据支撑,助力构建更智能可靠的AI大模型。

详情请参见五号雷达:https://www.5radar.com/

数据集地址: https://opendatalab.com/OpenDataLab/WanJuanCC

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Oeq0CZjVioRfJR96d25ohgXQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券