近日,腾讯云存储解决方案总监温涛受邀在2024数据基础设施技术峰会-“智算中心技术创新论坛”分享了腾讯云的数据智能生态创新之路,剖析腾讯云数据湖在赋能AIGC多模态大模型方面的应用实践。
去年年底到今年年初,很多客户开始致力于在视频方面的训练,我们直观感受到多模态大模型的冲击,也带来了一些机会和挑战。一旦进入到多模态,有了图片和视频之后,数据量特别大,现在原始数据量有的客户达到百PB级别,训练数据也到了几PB、几十PB,数据的流动、读取要求高很多,算力也是成倍增长,系统成本很高,我们的解决方案一方面解决性能问题,另一方面也要解决成本问题。
AIGC流程:包含数据采集,数据清洗,模型训练,模型推理,内容智理五步。
AIGC 时代,存储系统面临着如下几点挑战:
1. 海量数据:数据决定模型性能的上限。存储系统需要在成本可控的情况下提供PB级以上的存储能力。
2. 高性能:数据的清洗、训练和推理环节,需要存储系统提供Tbps吞吐和ms级别延迟。
3. 稳定可靠:GPU的单位作业成本非常可贵,存储系统需要提供连续可用的服务。
在这五个不同的阶段,对存储数据的处理和存储其实有不同的要求:
对于采集来说需要非常高效灵活的数据采集接入的协议和接入的节点,另外数据采集阶段原始数据量很大,我们能承接EB级数据的存储,这是采集的要求。
清洗的要求主要支持多种文件协议,这里面有HDFS、S3。海量的吞吐能力,达到Tbps级别。
训练阶段要求就比较高了,无论是吞吐量和时延要求更高,我们认为需要亚毫秒级的时延。
内容治理,一方面是要有一个合规的要求,需要溯源,所以现在很多客户越来越关注内容的合规。
数据检索,为什么在第五个阶段很关注,当你生成的数据越来越大,很重要的一点是怎么把这些数据检索出来,能随时高效地找到你想要的数据,这个能力以后会备受关注。
总体来说,多模态大模型对存储系统提了五个方面的要求,低成本、高性能、海量存储、高可用、安全。
这五个阶段有不同的数据要求,也有不同的存储的数据,他们之间数据的流动就成为一个问题,如果是每个阶段有独立的存储系统不现实,无论是成本还是效率都是问题,就非常适合于用一个数据湖的统一存储平台,去实现数据的底座,减少数据无谓的流动。
腾讯云COS Data Lake向智能数据湖演进,打造一体化AIGC多模态存储解决方案
腾讯云通过在数据湖原来的基础上增加了数据的加速能力,增加了AI能力之后,就可以把数据湖系统的业务范围扩展到AIGC、数据的智能检索,还有数据的资产管理,我们认为存储系统不只是要存数据,一定要把数据管起来,而且数据价值的挖掘逐步会变成企业资产,数据挖掘的越多,无形资产就越多,这个是能给客户带来一个新的增值的价值,这就是我们的思路,向智能数据湖演进。
架构分为四部分,底层是用对象存储,因为对象存储是低成本,五大要求第一个要求就是低成本,基于COS之上有三个子系统,包括数据的导入,因为数据量越来越大的时候,原始数据越来越大,原始数据会分散在全球各地,数据如何高效地导入进来是一个很大的问题,无论是成本还是效率,我们也做了很多事情,我们提供了数据迁移MSP的迁移服务,还有全球加速的能力,因为数据从全球各个地方收集的,如果没有加速能力,时间和网络成本是非常高的。
还有数据加速,数据湖通常是基于对象存储,但对象存储传统定位是低成本的海量的存储类型,强调就是低成本,低成本往往就代表性能也不可能太高,如果让对象存储能做对接AI,做AI的数据底座,一定是要有数据加速的支撑才行,所以在数据加速这个地方做了很多方面的开发。有五个组件,包括GooseFS-Cache,包括GooseFS-lite、GooseFS-X,还有一个元数据加速,还有AZ的加速器,不同类型解决不同的问题,总之是为了让对象存储跟得上计算的速度,不要成为整个计算系统里面的关键路径。
数据的分析和洞察,这是我一直强调第五个阶段的事情,这里面是基于数据万象的服务的集,里面功能很多,前不久新发布了一个服务能力Meta Insight。
GooseFS数据加速服务,提升数据预处理、模型训练、推理应用效率
腾讯云如何将数据快速导入,从全球范围内快速收集数据。重点介绍一下缓存加速,也就是GooseFS缓存能力集,重点看两个,一个是GooseFS-Cache,GooseFS-Cache以前简称GooseFS,后来把GooseFS的能力扩展了一下,我们管它叫GooseFS能力集,以前的GooseFS现在只对应的叫GooseFS-Cache。
Cache是利用计算侧本地的资源,可以用内存,可以用SSD,甚至可以用GPU节点的HDD做本地化加速,这样能够减少网络的传输,实现低延迟和高带宽,特点是近计算侧,可以用于大数据、AI、HPC、基因测序、渲染这些场景,配合COS既实现低成本同时达到高性能的存储能力,它支持多种协议,同时可以支持容器化的部署,也可以跟Hadoop做集成,缓存的类型也可以很多,可以分级,可分好几级的缓存,来实现不同的性能要求。实际测算过使用不同的缓存介质,性能提升可以到2到10倍之间。
方案优势
一站式内容审核、智能检索服务,为数据安全合规保驾护航
介绍一下关于数据分析和数据共享,数据万象能力的应用场景,包括内容审核、图片、视频、音频和文档的处理能力,既是服务于AIGC,也是基于AIGC,用AI对AI进行支持,这里面包括影像、图片、音频、视频里面的一些智能的标签,智能的搜索,包括评分,能力有很多,大概有100多种,而且在不断地增加。
最近数据万象产品围绕AIGC场景的新能力发布,主要包括一体化内容安全方案,和全新的MetaInsight服务。我们先了解下一体化内容安全方案。通过对用户输入和AIGC模型输出这两个阶段的内容审核,可以充分保障内容安全的合规要求。审核能力中包括了涉黄、涉政、暴恐、广告、违法违禁等等,并提供了盲水印、数据格式转换和内容标注等文件处理能力。并可以根据存储数据智能地调度处理集群,通过近存储侧的处理能力从而提供更优的数据传输时延和更低的成本。
数据万象产品重点发布的新服务—MetaInsight的特点和能力。MetaInsight是基于AI大模型和向量数据库,为用户提供对全媒体类型进行跨模态的检索能力,从而可以更深入更高效的挖掘数据的内容价值。
这个新服务有三个重要的特点:
第一,跨模态。支持以文搜图、以图搜图、以文搜视频、以视频搜视频、以文本搜音频等多种数据检索的手段,并支持对对象元信息的高效查询和统计分析。
第二,全覆盖。当前已覆盖上千个细分场景,用户可根据业务场景挑选预置模板,快速搭建检索应用,从而实现最大化的释放内容价值。
第三,高性能。可以在毫秒级延时的情况下,实现千亿级数据的查询。并实现了95%以上的召回率。 数据万象Meta Insight演示视频
举一个例子,可以用两种输入方式,一种是文本输入,可以输入穿着红色长裙的舞者,还有可以导入一个图片,可以根据输入的要求,在后面的媒体库里面找最相近的,匹配度最高的图片,不仅是单纯的一个界面,界面像是一个ToC的服务,我们提供的是一个API的接口。
通过API进行数据的输入和输出,有两个数据流,一个数据流是把原来的媒体库,把用户要做内容搜索的媒体库,当然可以在AIGC把推理出来之后的生成的文件作为媒体库的内容,通过万象的API导入到里面,接下来是万象图文的大模型,这个大模型是我们自己训练的,基于公司内部的通用大模型,我们做了一个进一步的调优和训练,专门用于图文内容搜索模型的模型。
通过我们自己的图文大模型之后,就把导入的这些文档进行向量化,保存到腾讯云的向量数据库里面去,用户展示搜索的时候,我们把搜索请求通过图文大模型做向量化,从向量维度,在向量数据库里面进行搜索,找到匹配度比较高的,在向量空间匹配度比较高的对象,返回给用户,这就是一个技术原理和主要组成部件,当然数据是基于中间的对象存储COS。
刚刚我们讲的Meta Insight的应用场景主要在推理,我们在AIGC的过程中在推理,对于一个生成的数据进行一些管理和检索,其实还有另一个应用场景,我们可以把它用作训练前数据的筛选,可以在数据清洗那个地方,让它发挥作用,为什么呢?
因为原始数据量很大,这里面质量很难得到保证,尤其是基于内容的时候,如果想生成一个特定场景的,垂直行业的小模型,或者是调优的模型,这时候你的内容相关性越强训练的效率越高,训练的效果越好,怎么喂质量更高的数据?可以用Meta Insight的能力,先过一轮,按照内容的要求把匹配度比较高的挑出来,再去喂给模型进行训练,这样的好处是可以大幅度减少训练的数据,也可以减少训练所需要的算力,也能提升整个训练过程的时间,所以效率和成本会带来很大的提升,当然里面也会结合GooseFS的加速,Meta Insight的能力一头一尾都可以用。
总结一下,腾讯云智能数据湖的方案针对AIGC场景提供了一系列的能力,包括数据迁移的能力,包括GooseFS缓存加速集的能力,还有数据万象集的能力,共同支撑AIGC的5个业务流程,一起提供一个低成本、高性能海量存储、高可用和安全合规的数据基座、数据平台。