信通院在2024年7月16日发布了年度《数据库发展研究报告》,摘录部分我感兴趣的内容和大家分享。在公众号回复:下载,可以找到报告下载地址。
【大模型与数据库】
关于大模型,报告中分析表示:大语言模型降低数据库操作门槛。这是LLM为数据库带来的一个确定性交互进展,大模型和数据库相结合,有助于进一步降低SQL对开发者甚至所有用户的交互门槛,让数据库交互更加简单。报告中的描述包括:
报告中以 AI 为主论调,认为“随着智能化时代来临,业务应用场景不断丰富”,数据库技术发展的主要特征包括3点:
【多模和全密态】
多模:康奈尔大学 Sawhan Jo 和 Immanuel Trummer 介绍了如何将多模数据库 Thalamus DB通过自然语言的方式对多模态数据进行 SQL 查询。用户可以将图片、文本及音频等信息作为查询字段从而建立模型寻找满足用户需求的相关产品。跨模访问是指在一个数据库系统中,用户可以通过一种数据模型的访问接口来查询和操作另一种数据模型的数据。
全密态:密态数据库的概念最早可追溯至2011年 MIT 提出 CryptDB,该项目不是指某种特定的数据库,而是一种针对加密数据库的查询技术,允许用户将加密后的 SQL 数据库在不解密数据的情况下返回结果。全密态数据库是指能够提供对应用透明的加解密能力,在数据库系统中数据的全生命周期以密文形式进行处理,同时密钥掌握在授权用户手中的数据库管理系统。近年来,随着数据要素市场不断完善,在数据可信流通过程中,全密态数据库发挥了重要作用。
【最终结论】
产业层面看,全球数据库市场变革不断,形成多强竞争格局;我国数据库市场规模持续扩大,公有云市场占比进一步提升。数据库产品成熟度不断提升,人才生态日益丰富;开源和学术影响力显著增加,向量数据库等非关系型数据库成为学术研究新方向。
技术层面看,一方面,数据库持续与GPU、RDMA 等新兴硬件及云计算、图技术、隐私计算等新兴 IT 技术不断融合发展,以满足不断变革的新兴业务需求。另一方面,人工智能技术的高速发展也为数据库创新应用拓宽了更加丰富的应用场景。
从应用侧看,我国数据库应用创新走深走实,由周边系统向核心系统逐步升级,不断推动组织数智化转型提质增效,大力激活数据要素价值,助力培育新质生产力,促进数字经济与实体经济深度融合。
【延伸阅读】
关于数据库和LLM的结合,是当下数据库领域具备相当确定性的事件,在Stonebraker教授的文章中同样有这样一个观点:
注意,Stonebraker强调,尽管ML辅助优化对数据库大有益处,但是“它并没有消除对高质量系统工程的需求”。数据库的核心仍然需要精确性,特别是优化器技术。