00:00
呃,各位朋友大家下午好,非常荣幸能够呃受邀啊,参加咱们腾讯云主办的这次向量数据库的一个产业活动,呃,那么呃这个中国新通院呢,我们其实长期以来致力于怎么让中国的数据技术呃产业化,呃怎么让我们的这个数据能力能够数数据要素的能力能够得到很好的这个释放,呃所以在呃我们在数据库领域建立了呃这个有一个实验室,是这个是个开放的,就是我们的数据库应用生态的实验室,呃这个实验室腾讯是最重要的一个呃参与者啊,那么现在这个实验室也是跟我觉得跟咱们腾讯的这个目标是一样的,就是能够让这个数据基础设施的产业能够繁荣发展。那么今天呢,就是跟各位分享,呃,我们对于全球数据库产业发展的一个观察,呃,那么特别是最新的这个这个热点,就是向量数据库的这个发展,呃,那么几个洞察跟大家做一个分享,呃,那么数据库其实是个生命力很顽强的一类软件,而且它每隔几年就有一个新的热点,呃,那个呃,其实有一段时间这个我们的很多呃大数据的这个存储都逃离了数据库是吧,到了好多普这些这个这个软件里头去了,那么最终他还是回到了数据库里头,所以推动了这几年数据库全球产业产值的这个不断的这个走高,我们从全球的市场来看,这个现在是一个830多亿美元的一个市场,呃,那么这个增长也是非常快,呃,而且这个云化的这个趋势也是很明显的,那么这个我们。
01:52
国家不管是全球还是中国来看,那么数据库上云是一个很重要的趋势,而且我们看到2022年的数据来看的话,呃,这个国内的公有云的这个数据库市场首次超过了一半,呃就是跟私有部署相比,所以这个呃这个产业规模不断扩大,呃云化的趋势是日趋的明显,这是第一个。
02:15
呃,就是数据库的这个全球的这个趋势,呃,那么从这个呃,刚才说数据库这个技术是一个生命力很就是很旺盛,而且它的历史很悠久的一种基础软件,呃那么在全世界来看,经历了几个创新的呃浪潮,那么最早是这个呃八九十年代对吧,那么再到呃这个2000年,两千一零年以后的这个分布式数据库,还有这个no数据库其实就经历了,其实可以说是呃两个大的这个热潮,那么尤其是新的这个互联网热潮出现以后,让这个数据库真的是百花齐放了啊,所以这个这个热潮仍然在持续,那么现在大模型的出现,又给数据库的行业从业者带来了新的机会,我觉得这都是非常好的这种呃,这种趋势,呃,所以可以说其实数据库确实生命力非常顽强的一种技术软件,它在不断的演进,不断的在包容更多数据类型。
03:16
更多数据模态,更多的计算任务,所以这是一个呃不断呃这个推陈出新的一个产业。那么我们国家的这个数据库产业的发展呢,其实晚于这个这个美国啊,这个是实际上是在呃这个90年代呃末,然后两两千年初才开始有了国内自主的这个数据库软硬软件产品,但是大发展实际在2020年左右啊,那也是这个呃云化呃还有分布式,还有国产化,给中国的数据库产业带来了巨大的机会,所以真正的爆发,中国的数据库产业的爆发实际上是在呃这个2020年以后,呃,那么我们从这个呃这个企业创立的时间就能看到这样的一个趋势,所以产业周期呃这个变化是是这样一个趋势,那么我们实际上在全球呃,中国的数据库产业在全球数据库浪潮的第二浪上赶上了这个时候,赶上了好时候哈,呃,那么从这个,呃,全世界的这个。
04:24
数据库企业的集聚分布来看也是,呃,一个。分布极不均衡的一个一个状况,那么全世界主要的数据库厂商都集中在中国和美国,呃占了65%,呃,那么呃,中国和美国各有150多家,呃,这个是一个非常呃好有意思的现象,呃那么在国内来看呢,这个又是非常不均衡的,那么大部分集中在北京这个呃,150家这个数据库企业一有一半以上在在北京,呃这是这个区域的这个这个分布,其实这个主要就是人才的集聚,人在哪,这个新的企业就在哪诞生哈,呃那么从这个呃数据库的这个类型来看呢,呃,中国和国外是有显著的差异的,那么我们呃看到这个国外的这个数据库产品的数量分布来看,呃这个呃结构化数据就是这个。
05:27
呃,这个关系型数据库的占比不如这个非关系型数据库占比大啊,稍稍这个非关系型数据库占比稍稍大一些,呃,那是因为市场已经高度,就是这个关关系型数据库市场已经高度集中了,呃那么留给创业空创业者的这个空间就在非关型数据库市场上,而且确实全球,呃这个互联网爆发以后,这个非结构化数据增长,呃那么让像像mango DB啊,Red这些这些数据库余数春存慢出现,所以这个全世界来看这个非关系数据库,呃这个市场,呃,它的这个活跃度更高一些啊,那么那是因为这在世界上这个这个关系系数据库的格局已经定了,基本没有什么新的机会,呃,国内刚好相反,国内这个这个占比最大的是这个,呃,这个关系数据库,因为我们正处于一个替换的,升级的分布式改造的这个过程中,所以我们国内的新出现的这个关系数据。
06:27
库的玩家会比非关系型数据库还多,这是一个比较有意思的这个现象,呃,那么第五个观察就是从这个呃发展的模式上来看呢,呃,开源是一个绝对的一个主流,呃,这个潮流那么。呃开源数据库的这个玩家也是很多的,而且我们国内的开源数据库,呃2010年以后,呃就是越来越多的,那么现在我们数了一下,大概40几家开源数据库,呃那么呃这个开源数据库,大概这个开源数据库可能刚好跟国内的这个数据库数量分布还不太一样,它主要在呃这个也是这个主要是关系数据库的这个开源为主啊产业其实要呃形成比较大的规模,其实标准话是非常重要的,呃一个手段,那如果没有标准的话,我们的很多的产品还停留在只会停留在做项目的这个阶段,那么你的呃这个客户的招投标呃非常复杂对吧?呃那么我们的供应商呃也很难去呃形成一个高高利润率的一个一个生态,呃,所以呃,我们信通院牵头的这个,呃,中国通信标准化协会的大数据技术委员会。
07:46
对,我也是这个委员会的主席,呃,那么一直在推动我们国内的呃,很多企业联合起来,呃能够在数据库技术的标准化上做一些贡献,那么这些年呢,我们你看那个圈圈其实都是我们,呃对这个数据库的这个细分领域制定了大量的呃这个标准,那包括了产品标准,这个测试标准,那么测试又包括了基本能力的测试,性能测试,稳定性测试,安全性测试等等这些。
08:17
好,这个覆盖了呃,这个数据库的所有的新的门类啊,图的,流的,时序的,呃,这个等等吧,啊,那么不仅覆盖这个产品侧,我们也对这个用户怎么使用数据库,怎么运维数据库,也有一些标准化的这个沉淀,所以希望这个能够从供需两端呃,让我们数据库产业呃能够走得更稳。呃,那毫无疑问,这个向量数据库是我们这个数据库行业一个最让人兴奋的一个点,那是因为这个大模型的拉动,呃那么大家突然发现其实这个这个背后,其实大模型的背后其实离不开向量数据库,呃那么这个也是经历了一个呃这个很这个很短暂的爆发啊,那大家对对向量数据库的这种重要性呃认识是越来越高了,呃大家突然发现其实对于呃很多这个物理世界里头的呃这个非结构化数据用向量表示,呃是最自然的形式,那机器学习其实第一步就先要把这个东西转成把我们的语言对吧,把图片转成向量,呃那么在在接下来去做操作,呃那么呃这个向量数据库就是这个呃这个存储检索这个呃我们呃。
09:40
这个呃多维度向量数据的一个非常重要的这个工具,那么它与这个呃这个传统呃这个关型数据库相比,在这类业务上的表现呃是可以说是非常非常高的,具有非常独特的这个呃能力,尤其是。
10:00
呃,这个呃这个支持海量的这个非结构化数据的查询,呃这个语义语义匹配,因为它是在一个高维空间上做做语义查询,它可以支持模糊是模糊查询,但是能够又可以通过这个呃语义去精确的这个匹配,呃所以这个呃优势还是非常明显的,呃那么这里头的很多关键技术其实也是。呃这几年也取得了很好的这个发展,特别是怎么把一个呃非结构化的自然呃物理的这种这种这个信号,呃包括语言,图像,音频等等,变变成一个向量的表示,这个需要呃很多的呃机器学习的方法来计算,来处理,形成向量,呃这里也是一个非常关键的这个技术,那除此之外呢,呃那向量本身的呃查询技术,能够精确的呃得到想要的这个结果,也是这个向量数据库最关键的一个技术之一,那同时呢,向量数据库其实也要分布化,因为他的这个呃量会呃上来以后呢,单机肯定是无法。
11:09
这个这承载的,所以他要呃分布式系统去支持,那如何在一个分布式系统上支持向量的这些操作,呃,那这个就需要去软件架构的这个变化,同时呢,还需要硬件加速,呃需要GPU,需要专用的硬件去呃还有网络去加速这个销量数据库的这个操作,所以整体上呃向量数据库的技术也还是挺复杂的,一个呃,一个呃技术站呃,那么呃大体上我们也看了这个国内国国内外的一些呃学者对于向量数据库做的一些综述性的分析,其实基本上就两大类,一类是向量原生的数据库,就是他只做向量数据库,向量数据数据结构的存储、检索、查询,呃,那么他出生的时候就就是为向量呃设计的,呃,那么还有一类就是它是在这个传统数据库上加了向量的这个,呃,这个插件,呃,使它能够支持这个向量的这个检索,那大体上就这两条。
12:09
条路,呃,那么大家都在呃这个积极的探索,那各有优缺点,呃,现在其实向量数据库跟大语言模型的结合,这毫无疑问是一个呃热门中的热门,呃,那么怎么结合呢?其实。呃它有很多路径,那么一种路径就是像long和呃相量数据库的呃这样的一个结合方式,就是用户在呃这个提示词生成以后,呃首先去用提示词去查询本地知识库,呃查询呃,呃就是这个向量数据库,那么得到一个呃精确的匹配以后呢,再把这个跟原来的提示词重新去做一个混合,让大语言模型做更好的平滑的符合人类语言习惯的输出,呃这样一个呃一个结构,呃这样的话,其实就一方面它让这个事实更加的靠谱,同时呢,它的输出更加的自然,实际上这个就是很好的把这个大语言模型的呃这个创造性和这个向量数据库的这个这个相对精确性结合的一个一个一个场景吧,啊那总这个探索其实还有很多模式,这个还没有,远远没有定。
13:24
行啊,这个有待于我们去呃挖掘向量数据库的呃这些特征啊,这个呃去呃这个去挖掘它的性能的特征,功能的特征,呃呃那么当然这个线上数据库技术还在成熟过程中,我们如何提升它的呃性价比,呃去在算法上,在结构上去做创新,还有很多呃路去走,那么呃我想我们呃中国新通院其实呃立志于致力于其实是培育陪伴这个产业从小到大,从呃这个无到有的这个呃这个呃发展呃那么呃我们也有非常强的意愿跟呃包括腾讯和腾讯的合作伙伴一起呃共同来呃这个打造我们销量数据库这个产业生态,呃也给也为我们国家的AG的发展奠定一个坚实的数据基础。呃我就分享这么多,谢谢大家嗯。
我来说两句