首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Apache Doris MCP:AI时代的数据访问革命!

Apache Doris MCP:AI时代的数据访问革命!

作者头像
苏奕嘉
发布2025-07-14 18:42:30
发布2025-07-14 18:42:30
8880
举报

引言

最近一直没有时间写公众号,鸽了很久。

一方面是最近工作非常忙,时间有限。

另一方面是从零开发 Apache Doris MCP Server 的代码,所以时间基本都被占用了。

周末应邀参加了 Doris 社区联合阿里云团队在汇付天下提供的场地做了 Doris MCP Server 的演讲,会后很多同学想要一份演讲稿,故此简单整理了一下,给大家做一个分享。

话不多说,以下为正文。

正文

各位朋友,大家好!

PPT封面

今天我要和大家分享的主题是 "Apache Doris MCP:AI时代的数据访问革命"。当我们站在2025年这个时间节点,回望过去十年的技术发展,我们会发现一个令人震撼的事实:我们正在经历一场前所未有的技术变革。这场变革的核心,就是AI Agent的全面崛起。

想象一下,如果您的数据分析师可以在几秒钟内回答 "最近一周哪些商品销量增长最快" 这样的问题,而不需要花费数小时编写SQL;想象一下,您的开发者可以在编码过程中直接询问"这个用户表有哪些字段",而不需要离开IDE查看文档。这不是科幻,这就是我们今天要介绍的Apache Doris MCP正在实现的现实。

目录页

今天的分享将围绕四个核心话题展开:

首先,我们会深入探讨Agent时代的到来,理解这个新时代对数据基础设施提出的全新挑战;

接下来,我们会剖析Apache Doris如何在技术层面应对这些挑战,展现其作为AI时代智能数据平台的强大能力;

然后,我们会重点介绍MCP协议——这个被誉为AI应用"USB-C接口"的革命性标准;

最后,通过四个精彩的实战案例,让大家直观感受Doris MCP在真实场景中的强大威力。

Agent时代的到来

让我们首先回到一个根本性的问题:什么是Agent时代?

如果说2014-2024年是传统BI的黄金十年,那么从2025年开始,我们正式进入Agent时代。这不仅仅是技术的迭代升级,而是一场用户角色的根本性变革。

在传统模式下,数据分析是一个相对线性的过程:业务人员提出问题,数据分析师编写SQL,等待结果,然后进行解读。这个过程可预测、有序,但效率有限。一个复杂的业务报表可能需要数天甚至数周才能完成,因为涉及需求沟通、数据理解、SQL编写、测试验证等多个环节。

工作模式对比

但Agent时代完全不同。让我用一个具体例子来说明这种差异:

在传统模式下,当业务人员想了解 "哪些用户流失风险最高" 时,需要向数据团队提交需求,数据分析师花费数小时理解业务逻辑,编写复杂的SQL查询,涉及用户行为表、订单表、产品表的多表关联,然后生成报表。整个过程可能需要数天。

而在Agent时代,用户直接询问AI Agent同样的问题,Agent会在几秒钟内:首先分析用户表结构获取用户基础信息,然后查询行为日志表分析用户活跃度,接着关联订单表计算购买频率,再计算用户价值评分,最后应用流失预测模型。这一系列操作可能触发十几个数据库查询,但对用户来说只是一次简单的对话。

这种工作模式的转变,对底层数据基础设施提出了三大前所未有的挑战。

图片
图片

三大数据挑战

第一个挑战是并发性能的指数级增长。让我们用数字来说话:传统企业BI系统,同时在线分析的用户可能是几十到几百人。但在Agent时代,一个中等规模的电商企业可能同时运行数百个Agent:

  • • 客服Agent处理客户咨询,每分钟可能查询用户信息数百次
  • • 推荐Agent为每个访问用户生成个性化推荐,每秒数千次查询
  • • 库存Agent实时监控库存状态,持续查询商品数据
  • • 价格Agent动态调整价格策略,频繁分析竞品数据
  • • 营销Agent优化广告投放,实时查询转化效果
  • • 风控Agent检测异常交易,毫秒级响应每笔交易

这意味着数据库需要同时处理的并发查询从传统的数百个QPS跃升到数万甚至数十万QPS。

第二个挑战是实时性要求达到新高度。在传统BI中,昨天的数据分析今天的业务是完全可以接受的。但Agent需要基于最新数据做即时决策。

举个例子,智能风控Agent在用户刷卡的瞬间,需要在100毫秒内完成:查询用户历史信用记录、分析当前交易模式、检查地理位置异常、比对消费习惯、计算风险评分。任何一个环节的数据延迟都可能导致误判,要么错失欺诈检测,要么误伤正常用户。

第三个挑战是智能查询优化的必要性。Agent生成的查询具有高度动态性和不可预测性。传统BI的查询模式相对固定,我们可以预先优化。但Agent可能会生成各种"创意"组合:

比如一个智能客服Agent可能会问:"找出所有在北京、购买过苹果手机、最近30天没有登录、但购买金额超过5000元的用户"。这种查询在传统BI中很少见,但对Agent来说是日常操作。传统的查询优化器很难应对这种动态性。

图片
图片

Doris四大技术优势

面对这些挑战,Apache Doris展现了卓越的技术优势。让我们深入了解这些技术如何解决Agent时代的数据难题。

MPP分布式架构方面,Doris采用了无主节点的分布式设计,这对Agent应用具有重要意义。想象一下,当数百个Agent同时访问数据库时,传统的主从架构会在主节点形成瓶颈。而Doris的每个BE节点都可以独立处理查询请求,避免了单点故障。

更重要的是,Doris的向量化执行引擎专门针对现代CPU进行了优化,充分利用SIMD指令集,这让Agent生成的大量聚合查询和复杂分析的性能提升达到5-10倍。当一个推荐Agent需要同时计算数千个用户的个性化推荐时,这种性能优势就显得至关重要。

Multi-Catalog联邦查询能力上,这是Agent时代的一个关键需求。企业的数据往往分散在不同系统中:用户信息在MySQL,行为数据在Hive,商品信息在PostgreSQL,日志数据在HDFS。传统方案需要为每个数据源开发专门的访问接口。

而Doris的Multi-Catalog功能为Agent提供了统一的数据访问视图。一个智能分析Agent可以通过单一SQL语句,同时查询内部用户表、外部Hive数据湖的行为数据、以及云存储中的商品信息。这种统一访问能力让Agent获得了完整的数据全景,而不是局部的数据片段。

向量检索方面,随着RAG技术和多模态AI的发展,越来越多Agent需要同时处理结构化数据和向量数据。比如一个智能客服Agent需要理解用户的文本询问,同时查询相关的产品数据。

Doris原生支持向量数据类型和向量索引,这意味着Agent可以在同一个查询中完成:语义相似度搜索找到相关FAQ,同时关联用户的订单历史和产品信息。这种向量与结构化数据的融合查询,为Agent提供了更加丰富和准确的上下文信息。

安全与可观测性上,Agent的自主性和高频访问特性带来了新的安全挑战。Doris提供了企业级的安全框架,包括多层级权限控制、SQL注入防护、数据脱敏等功能。同时,完整的审计日志系统可以追踪每个Agent的数据访问行为,确保合规性。

图片
图片

MCP协议介绍

这就引出了今天的核心主题:Model Context Protocol,简称MCP。

想象一下,如果每次连接不同的设备都需要不同的线缆和接口,我们的数字生活会是什么样子?你的笔记本需要一种接口,手机需要另一种,相机又需要第三种。USB-C的出现彻底改变了这一切——一根线缆连接所有设备,一个标准解决所有连接问题。

MCP协议正在为AI应用领域带来同样的革命。在MCP出现之前,AI应用开发就像是在没有USB标准的时代:每个AI应用要连接数据库需要开发JDBC接口,连接云存储需要开发S3接口,连接API服务需要开发REST接口。这种烟囱式开发模式不仅成本高昂,更严重的是维护困难。

让我用具体数字来说明这个问题:一个企业级AI应用可能需要连接10-15个不同的数据源和服务。传统方式下,开发团队需要为每个数据源编写专门的连接代码,涉及不同的认证方式、数据格式、错误处理机制。这意味着70%的开发时间花在了"管道工程"上,而不是核心的AI逻辑。

MCP协议的出现改变了这一切。它基于成熟的JSON-RPC 2.0协议构建,这个协议已经在互联网应用中经过了十多年的验证。MCP定义了三种核心交互模式:

  1. 1. 资源访问模式:用于获取静态或准静态的数据资源,比如数据库表结构、文件内容等
  2. 2. 工具调用模式:用于执行特定的操作或计算,比如SQL查询、数据分析等
  3. 3. 提示模板模式:为AI模型提供结构化的上下文信息,优化AI的理解能力

更重要的是,MCP内置了企业级的安全机制。支持API密钥、OAuth 2.0、JWT等多种认证方式,提供细粒度的权限控制,确保每个AI应用只能访问被授权的资源。

图片
图片

Doris MCP架构

Doris MCP的架构设计体现了对AI时代需求的深刻理解和技术前瞻性。

首先是通信模式的多样化支持。在大部分 MCP 都只提供了 Stdio 标准输入输出的本地化模式时,Doris MCP就已全面支持两种主要通信模式

  1. 1. Streamable HTTP模式:这是我们的主推模式,基于HTTP协议提供统一的请求/响应和流式传输能力。它特别适合Web应用集成,支持大数据量传输,具有良好的防火穿透能力和负载均衡支持。
  2. 2. Stdio模式:标准输入输出模式,专门为开发工具集成设计。当您在Cursor等IDE中使用时,这种模式提供了零延迟的进程间通信,资源占用极低,特别适合开发环境。

核心工具集的设计更是体现了对AI应用全生命周期的考虑。我们提供了超过15个专业工具,涵盖:

  • • 元数据发现工具:get_db_list、get_table_schema等,让AI快速理解数据结构
  • • 查询执行工具:exec_query,支持高性能SQL执行和安全检查
  • • 性能分析工具:get_sql_explain、get_sql_profile,为AI提供查询优化建议
  • • 监控工具:get_monitoring_metrics_data,实时监控系统状态
  • • 安全审计工具:get_recent_audit_logs,确保操作可追溯

基于Doris的Multi-Catalog能力,MCP Server实现了真正的联邦查询。AI应用可以通过三部分命名(catalog.database.table)无缝访问内部Doris表和外部数据源,包括MySQL、PostgreSQL、Hive、Iceberg等,真正实现了"一个接口,连接所有数据"的愿景。

图片
图片

应用场景

Doris MCP的应用场景极其广泛。从企业内部的业务分析、实时监控,到面向客户的智能客服、个性化推荐,再到开发者的工具集成、数据探索——每一个场景都展现了MCP协议标准化带来的巨大价值。

这种广泛的适用性,正是MCP作为"AI应用USB-C接口"的最好证明。

现在,让我们通过四个精彩的实战案例,直观感受Doris MCP的强大威力。

图片
图片

Dify + Doris MCP 构建 ChatBI

第一个案例是ChatBI——数据分析领域的范式革命。

ChatBI代表了将专业数据分析能力民主化到每一个业务人员的愿景。通过Dify的AI开发平台和Doris MCP的Streamable HTTP通信模式,我们彻底打破了传统BI的技术壁垒。

让我用一个真实的业务场景来说明这种变革:传统模式下,当销售总监想了解"最近一周哪些商品销量增长最快"时,需要向数据团队提交需求,数据分析师需要理解业务逻辑,查询销售表、商品表、库存表,进行复杂的时间窗口计算和同比分析,然后制作报表。整个过程可能需要2-3天。

现在通过ChatBI,销售总监直接问:"最近一周哪些商品销量增长最快?"系统在几秒钟内完成:

  1. 1. 通过get_table_schema工具自动发现销售相关表结构
  2. 2. 通过get_db_table_list找到商品和库存关联表
  3. 3. 生成包含时间窗口、同比计算的复杂SQL
  4. 4. 通过exec_query执行查询获取结果
  5. 5. 自动生成可视化图表和洞察分析

,时长00:34

技术架构上的创新在于Streamable HTTP模式的应用。这种模式特别适合Web应用集成,支持大数据量的流式传输。当查询涉及数百万条销售记录时,系统可以实时流式返回结果,用户无需等待完整查询完成就能看到初步结果。

更重要的是多轮对话能力。当用户继续问"这些快速增长的商品主要是哪些品类?"时,系统能够基于前一次查询的上下文,自动关联商品分类数据,提供更深层的分析。

这种变革的战略意义在于:首先,重新定义了数据分析的用户边界,从少数专家垄断转向全员数据驱动,让每个业务人员都成为数据分析师;其次,实现了从静态报表到动态洞察的跨越,数据不再是冰冷的数字,而是实时的业务助手;最后,构建了企业级的知识积累体系,每一次查询都在训练系统理解业务,形成组织的智慧资产。

图片
图片

Cursor + Doris MCP 智能开发环境

第二个案例展示了智能开发环境的革命性变化。

这代表了MCP协议在开发者工具领域的突破性应用——让复杂的数据库交互变得如同日常对话般自然。让我用一个典型的开发场景来说明:

传统开发模式下,当开发者需要编写用户查询功能时,需要:

  1. 1. 打开数据库管理工具查看user表结构
  2. 2. 切换到文档查看字段说明
  3. 3. 回到IDE编写查询代码
  4. 4. 再次切换到数据库工具测试查询性能
  5. 5. 查看执行计划优化SQL 整个过程需要在4-5个工具间频繁切换,严重打断开发思路。

,时长03:54

现在通过Cursor + Doris MCP,开发者在编码过程中直接询问:"这个用户表有哪些字段?"系统立即通过get_table_schema工具返回完整的表结构信息,包括字段类型、注释、索引等。接着问"帮我优化这个查询的性能",系统通过get_sql_explain工具分析执行计划,提供具体的优化建议。

技术实现上,Stdio通信模式是关键。它基于标准输入输出协议,实现了真正的零网络延迟。当您在Cursor中提问时,MCP Server作为子进程直接响应,没有HTTP请求的网络开销,响应时间控制在几十毫秒内。同时资源占用极低,不会影响IDE的性能。

更令人兴奋的是智能代码补全能力。系统不仅知道表结构,还能理解数据分布。当您输入"SELECT * FROM users WHERE"时,系统会基于实际数据特征建议最优的过滤条件,比如"age BETWEEN 18 AND 65"或"created_at > '2024-01-01'"。

安全特性同样重要。开发环境中的MCP Server配置了适当的权限控制,确保开发者只能访问开发数据库,防止误操作生产环境。同时,所有的查询都会通过内置的SQL安全检查,自动阻止潜在的危险操作。

这种变革的深层意义远超工具层面:首先,彻底消除了开发流程中的工具切换成本,开发者可以保持专注的心流状态,编程效率提升70%以上;其次,实现了基于真实数据结构的智能代码补全,从猜测式编程转向精确式开发,显著降低Bug率;最后,系统沉淀了数据库最佳实践,让每个初级开发者都能获得资深DBA级别的优化建议。

这不仅仅是效率的提升,更是开发范式的根本性变革——从"人适应工具"到"工具理解人"的智能化转型。

FastGPT + Doris MCP 企业级RAG

第三个案例展示了企业级RAG知识库的强大能力,这是AI与数据融合的最高形态。

FastGPT作为领先的开源RAG平台,与Doris MCP的结合创造了企业知识管理的全新范式。这不仅仅是简单的文档检索,而是实现了结构化业务数据与非结构化知识内容的深度融合。

让我用一个具体场景说明:当产品经理询问"我们的产品在哪些市场表现最好,相关的市场分析报告有哪些?"时,传统RAG系统只能检索文档库中的报告,而无法提供实时的销售数据分析。

但通过FastGPT + Doris MCP的组合,系统会同时进行:

  1. 1. 语义检索:在向量数据库中找到相关的市场分析报告、竞品研究文档
  2. 2. 数据查询:通过MCP协议实时查询销售数据库,分析各市场的实际销售表现
  3. 3. 智能融合:将静态的研究报告与动态的业务数据进行关联分析
  4. 4. 洞察生成:基于多模态数据提供全面的市场洞察

技术创新在于Doris的原生向量支持能力(半个月左右发Preview版本)。与传统需要单独部署向量数据库的方案不同,Doris可以在同一个Session中同时处理向量检索和结构化数据查询。这意味着系统可以执行这样的复杂查询:"找到与用户问题语义相似度最高的前10个文档,同时关联这些文档涉及的产品在过去6个月的销售数据"。

架构优势体现在:FastGPT专注于知识向量化和语义理解,Doris MCP提供统一的数据访问接口,两者通过标准MCP协议协同工作。这种松耦合的设计让系统具有强大的扩展性,可以轻松集成更多数据源和AI能力。

Coze + Doris MCP 智能运维

让我们再看一个前瞻性的应用场景——智能运维,这展现了MCP协议的巨大潜力。

智能运维代表了MCP应用的另一个重要方向——让复杂的技术操作变得简单直观。想象一下,传统运维需要运维工程师具备深厚的数据库知识,熟悉各种监控工具,能够分析复杂的性能指标。

而通过Coze的工作流编排能力和Doris MCP的全面工具集,运维工作变得前所未有的简单。运维人员可以用自然语言描述需求:"帮我检查昨天的慢查询情况",系统会自动调用get_recent_audit_logs和get_sql_profile等工具,不仅显示慢查询列表,还提供详细的性能分析和优化建议。

"为订单表创建合适的分区策略"这样的复杂需求,系统会通过get_table_data_size分析表的数据分布,结合get_monitoring_metrics_data了解历史查询模式,自动生成最适合的分区方案。

这种智能化运维的价值在于:降低运维门槛,让更多人能够参与数据库管理;提供7x24小时自动化响应,从被动响应转向主动预防;沉淀运维经验,实现知识的标准化和可复用。

总结与展望

回顾今天的分享,我们见证了一个激动人心的技术变革时代。Apache Doris MCP不仅仅是一个技术产品,更是连接AI与数据的重要桥梁,是Agent时代数据基础设施的核心组件。

让我们回顾一下它的核心价值:

首先,技术标准化价值。MCP协议为AI应用提供了标准化的数据访问接口,就像USB-C统一了设备连接标准一样,MCP正在统一AI与数据的交互标准。这种标准化让开发效率提升了数倍,维护成本大幅降低。

其次,应用生态价值。从ChatBI的民主化数据分析,到智能开发环境的无缝集成,再到企业级RAG的知识融合,每个场景都展现了MCP生态的巨大潜力。我们不是在构建单一产品,而是在打造一个完整的AI数据生态系统。

最后,商业模式创新。MCP的出现催生了全新的AI应用场景和商业模式。企业可以更快速地构建AI应用,更低成本地维护数据集成,更高效地挖掘数据价值。

展望未来,我们相信随着AI技术的不断成熟和MCP生态的持续发展,会有更多令人兴奋的创新应用涌现。Apache Doris将继续在这个过程中发挥重要作用,为AI时代的数据智能化提供坚实的技术基础。

我们的愿景是:让每个企业都能轻松构建自己的AI数据应用,让每个开发者都能专注于业务创新而不是技术集成,让每个用户都能享受到AI带来的智能化体验。

各位朋友,我们正站在一个历史性的转折点上。AI时代的到来不是渐进式的改进,而是颠覆性的变革。在这个变革中,数据将成为AI的血液,而像Apache Doris MCP这样的技术,正是让这些血液流动起来的血管。

今天我们看到的不仅仅是技术的进步,更是一个全新商业文明的开端。当数据分析师可以用自然语言秒级获得答案,当开发者无需离开IDE就能完成所有数据操作,当企业知识可以与实时数据无缝融合,我们就真正进入了智能化时代。

Apache Doris MCP项目现已开源发布,我们诚挚邀请全球开发者加入这个激动人心的生态建设。无论您是AI应用开发者、数据工程师,还是企业架构师,都能在这个开放平台上找到自己的位置,共同推动AI与数据融合的技术边界。

让我们携手共进,在这个智能数据的新时代,用标准化的力量、开源的精神、创新的勇气,共同创造一个更加智能、更加开放、更加美好的未来!

小结

Doris MCP Server 在接下来的规划方向重点会有两部分:

  1. 1. 与 Dify、FastGPT、Coze 等 Agent 平台进行进一步融合,总结提供大量的 DSL 之类的模板文件,以便于整合开箱即用。
  2. 2. 进一步完善 Doris MCP Server 的安全、权限、策略、工具、资源、Prompt等方面的能力,快速迭代发布。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-06-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Apache Doris 补习班 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 正文
  • 小结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档