首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【五号雷达-数据快讯】The Stack v2 - 超过600种编程语言的代码数据集

The Stack v2为BigCode发布的代码数据集,该数据集作为大型代码项目(BigCode Project)的一部分而创建,包含了超过30亿个来自600余种编程与标记语言的文件。该数据集源自Software Heritage档案(最大的公共软件源代码及其开发历史档案)。The Stack v2包含四个版本,全量数据为67.5TB,超过了The Stack v1的10倍,Tokens数约9000亿,可作为代码大模型的预训练数据集。

详情请参见五号雷达:https://www.5radar.com/

数据集地址:https://huggingface.co/datasets/bigcode/the-stack-v2

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OXpd98napYIjFc9u1kJu6OAQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券