9 月 6 日,国家工业信息安全发展研究中心公布“智赋百业”2023年人工智能融合发展与安全应用典型案例评选结果,星尘数据凭借业内领先的“COSMO大模型数据金字塔解决方案”成功入选!
星尘COSMO大模型数据金字塔解决方案入选方向为启智型——AI 基础支撑。众所周知,AI 大模型训练数据需求激增,高质量数据集成为 AI 大模型进化的关键支撑。本次入选,是国家工业信息安全发展研究中心给予星尘数据的充分肯定,也是星尘作为 AI2.0 时代的数据标注和数据策略专家,赋能千行百业的又一例证。
今年 6 月,星尘数据正式对外发布COSMO大模型数据金字塔解决方案,致力于通过一个完整的、结构化的、多元化的、包罗万象的数据体系提升模型的上限。我们的目标是用数据赋予AI理解世界的能力,让AI拥有人类般的思维和逻辑,塑造其价值观,使其明辨善恶,同时保证其输出内容健康、无害,最终通往AGI。
该方案包含四层数据结构,以满足各行各业不同场景的需求,为大模型提供一站式数据策略和数据服务解决方案。
0层 :公共数据
作为大模型预训练的基础,提供大量经过清洗和加工的公共数据集,打造大模型的知识体系和世界观。
1层:通用能力数据
为大模型微调提供高质量的数据,包括SFT、RLHF数据集以及涵盖语文、数学、化学、多轮对话等领域的难例数据,弥补公共数据的不足。
2层:专有能力数据
针对特定领域和应用场景,我们提供了丰富的专有能力数据集。如:思维链、插件调用能力、社会主义价值观对齐、行业专业词汇等,这些专有能力数据集将帮助模型实现更精准的定位和更高效的性能表现。
3层:企业私有化部署数据
面向各行各业的企业和单位,提供可进行私有化部署的私域数据集搭建服务,以满足定制化需求和内部知识库的构建。
领取专属 10元无门槛券
私享最新 技术干货