最近一直没有时间写公众号,鸽了很久。
一方面是最近工作非常忙,时间有限。
另一方面是从零开发 Apache Doris MCP Server 的代码,所以时间基本都被占用了。
周末应邀参加了 Doris 社区联合阿里云团队在汇付天下提供的场地做了 Doris MCP Server 的演讲,会后很多同学想要一份演讲稿,故此简单整理了一下,给大家做一个分享。
话不多说,以下为正文。
各位朋友,大家好!
PPT封面
今天我要和大家分享的主题是 "Apache Doris MCP:AI时代的数据访问革命"。当我们站在2025年这个时间节点,回望过去十年的技术发展,我们会发现一个令人震撼的事实:我们正在经历一场前所未有的技术变革。这场变革的核心,就是AI Agent的全面崛起。
想象一下,如果您的数据分析师可以在几秒钟内回答 "最近一周哪些商品销量增长最快" 这样的问题,而不需要花费数小时编写SQL;想象一下,您的开发者可以在编码过程中直接询问"这个用户表有哪些字段",而不需要离开IDE查看文档。这不是科幻,这就是我们今天要介绍的Apache Doris MCP正在实现的现实。
目录页
今天的分享将围绕四个核心话题展开:
首先,我们会深入探讨Agent时代的到来,理解这个新时代对数据基础设施提出的全新挑战;
接下来,我们会剖析Apache Doris如何在技术层面应对这些挑战,展现其作为AI时代智能数据平台的强大能力;
然后,我们会重点介绍MCP协议——这个被誉为AI应用"USB-C接口"的革命性标准;
最后,通过四个精彩的实战案例,让大家直观感受Doris MCP在真实场景中的强大威力。
Agent时代的到来
让我们首先回到一个根本性的问题:什么是Agent时代?
如果说2014-2024年是传统BI的黄金十年,那么从2025年开始,我们正式进入Agent时代。这不仅仅是技术的迭代升级,而是一场用户角色的根本性变革。
在传统模式下,数据分析是一个相对线性的过程:业务人员提出问题,数据分析师编写SQL,等待结果,然后进行解读。这个过程可预测、有序,但效率有限。一个复杂的业务报表可能需要数天甚至数周才能完成,因为涉及需求沟通、数据理解、SQL编写、测试验证等多个环节。
工作模式对比
但Agent时代完全不同。让我用一个具体例子来说明这种差异:
在传统模式下,当业务人员想了解 "哪些用户流失风险最高" 时,需要向数据团队提交需求,数据分析师花费数小时理解业务逻辑,编写复杂的SQL查询,涉及用户行为表、订单表、产品表的多表关联,然后生成报表。整个过程可能需要数天。
而在Agent时代,用户直接询问AI Agent同样的问题,Agent会在几秒钟内:首先分析用户表结构获取用户基础信息,然后查询行为日志表分析用户活跃度,接着关联订单表计算购买频率,再计算用户价值评分,最后应用流失预测模型。这一系列操作可能触发十几个数据库查询,但对用户来说只是一次简单的对话。
这种工作模式的转变,对底层数据基础设施提出了三大前所未有的挑战。
三大数据挑战
第一个挑战是并发性能的指数级增长。让我们用数字来说话:传统企业BI系统,同时在线分析的用户可能是几十到几百人。但在Agent时代,一个中等规模的电商企业可能同时运行数百个Agent:
这意味着数据库需要同时处理的并发查询从传统的数百个QPS跃升到数万甚至数十万QPS。
第二个挑战是实时性要求达到新高度。在传统BI中,昨天的数据分析今天的业务是完全可以接受的。但Agent需要基于最新数据做即时决策。
举个例子,智能风控Agent在用户刷卡的瞬间,需要在100毫秒内完成:查询用户历史信用记录、分析当前交易模式、检查地理位置异常、比对消费习惯、计算风险评分。任何一个环节的数据延迟都可能导致误判,要么错失欺诈检测,要么误伤正常用户。
第三个挑战是智能查询优化的必要性。Agent生成的查询具有高度动态性和不可预测性。传统BI的查询模式相对固定,我们可以预先优化。但Agent可能会生成各种"创意"组合:
比如一个智能客服Agent可能会问:"找出所有在北京、购买过苹果手机、最近30天没有登录、但购买金额超过5000元的用户"。这种查询在传统BI中很少见,但对Agent来说是日常操作。传统的查询优化器很难应对这种动态性。
Doris四大技术优势
面对这些挑战,Apache Doris展现了卓越的技术优势。让我们深入了解这些技术如何解决Agent时代的数据难题。
在MPP分布式架构方面,Doris采用了无主节点的分布式设计,这对Agent应用具有重要意义。想象一下,当数百个Agent同时访问数据库时,传统的主从架构会在主节点形成瓶颈。而Doris的每个BE节点都可以独立处理查询请求,避免了单点故障。
更重要的是,Doris的向量化执行引擎专门针对现代CPU进行了优化,充分利用SIMD指令集,这让Agent生成的大量聚合查询和复杂分析的性能提升达到5-10倍。当一个推荐Agent需要同时计算数千个用户的个性化推荐时,这种性能优势就显得至关重要。
在Multi-Catalog联邦查询能力上,这是Agent时代的一个关键需求。企业的数据往往分散在不同系统中:用户信息在MySQL,行为数据在Hive,商品信息在PostgreSQL,日志数据在HDFS。传统方案需要为每个数据源开发专门的访问接口。
而Doris的Multi-Catalog功能为Agent提供了统一的数据访问视图。一个智能分析Agent可以通过单一SQL语句,同时查询内部用户表、外部Hive数据湖的行为数据、以及云存储中的商品信息。这种统一访问能力让Agent获得了完整的数据全景,而不是局部的数据片段。
在向量检索方面,随着RAG技术和多模态AI的发展,越来越多Agent需要同时处理结构化数据和向量数据。比如一个智能客服Agent需要理解用户的文本询问,同时查询相关的产品数据。
Doris原生支持向量数据类型和向量索引,这意味着Agent可以在同一个查询中完成:语义相似度搜索找到相关FAQ,同时关联用户的订单历史和产品信息。这种向量与结构化数据的融合查询,为Agent提供了更加丰富和准确的上下文信息。
在安全与可观测性上,Agent的自主性和高频访问特性带来了新的安全挑战。Doris提供了企业级的安全框架,包括多层级权限控制、SQL注入防护、数据脱敏等功能。同时,完整的审计日志系统可以追踪每个Agent的数据访问行为,确保合规性。
MCP协议介绍
这就引出了今天的核心主题:Model Context Protocol,简称MCP。
想象一下,如果每次连接不同的设备都需要不同的线缆和接口,我们的数字生活会是什么样子?你的笔记本需要一种接口,手机需要另一种,相机又需要第三种。USB-C的出现彻底改变了这一切——一根线缆连接所有设备,一个标准解决所有连接问题。
MCP协议正在为AI应用领域带来同样的革命。在MCP出现之前,AI应用开发就像是在没有USB标准的时代:每个AI应用要连接数据库需要开发JDBC接口,连接云存储需要开发S3接口,连接API服务需要开发REST接口。这种烟囱式开发模式不仅成本高昂,更严重的是维护困难。
让我用具体数字来说明这个问题:一个企业级AI应用可能需要连接10-15个不同的数据源和服务。传统方式下,开发团队需要为每个数据源编写专门的连接代码,涉及不同的认证方式、数据格式、错误处理机制。这意味着70%的开发时间花在了"管道工程"上,而不是核心的AI逻辑。
MCP协议的出现改变了这一切。它基于成熟的JSON-RPC 2.0协议构建,这个协议已经在互联网应用中经过了十多年的验证。MCP定义了三种核心交互模式:
更重要的是,MCP内置了企业级的安全机制。支持API密钥、OAuth 2.0、JWT等多种认证方式,提供细粒度的权限控制,确保每个AI应用只能访问被授权的资源。
Doris MCP架构
Doris MCP的架构设计体现了对AI时代需求的深刻理解和技术前瞻性。
首先是通信模式的多样化支持。在大部分 MCP 都只提供了 Stdio 标准输入输出的本地化模式时,Doris MCP就已全面支持两种主要通信模式:
核心工具集的设计更是体现了对AI应用全生命周期的考虑。我们提供了超过15个专业工具,涵盖:
基于Doris的Multi-Catalog能力,MCP Server实现了真正的联邦查询。AI应用可以通过三部分命名(catalog.database.table)无缝访问内部Doris表和外部数据源,包括MySQL、PostgreSQL、Hive、Iceberg等,真正实现了"一个接口,连接所有数据"的愿景。
应用场景
Doris MCP的应用场景极其广泛。从企业内部的业务分析、实时监控,到面向客户的智能客服、个性化推荐,再到开发者的工具集成、数据探索——每一个场景都展现了MCP协议标准化带来的巨大价值。
这种广泛的适用性,正是MCP作为"AI应用USB-C接口"的最好证明。
现在,让我们通过四个精彩的实战案例,直观感受Doris MCP的强大威力。
Dify + Doris MCP 构建 ChatBI
第一个案例是ChatBI——数据分析领域的范式革命。
ChatBI代表了将专业数据分析能力民主化到每一个业务人员的愿景。通过Dify的AI开发平台和Doris MCP的Streamable HTTP通信模式,我们彻底打破了传统BI的技术壁垒。
让我用一个真实的业务场景来说明这种变革:传统模式下,当销售总监想了解"最近一周哪些商品销量增长最快"时,需要向数据团队提交需求,数据分析师需要理解业务逻辑,查询销售表、商品表、库存表,进行复杂的时间窗口计算和同比分析,然后制作报表。整个过程可能需要2-3天。
现在通过ChatBI,销售总监直接问:"最近一周哪些商品销量增长最快?"系统在几秒钟内完成:
,时长00:34
技术架构上的创新在于Streamable HTTP模式的应用。这种模式特别适合Web应用集成,支持大数据量的流式传输。当查询涉及数百万条销售记录时,系统可以实时流式返回结果,用户无需等待完整查询完成就能看到初步结果。
更重要的是多轮对话能力。当用户继续问"这些快速增长的商品主要是哪些品类?"时,系统能够基于前一次查询的上下文,自动关联商品分类数据,提供更深层的分析。
这种变革的战略意义在于:首先,重新定义了数据分析的用户边界,从少数专家垄断转向全员数据驱动,让每个业务人员都成为数据分析师;其次,实现了从静态报表到动态洞察的跨越,数据不再是冰冷的数字,而是实时的业务助手;最后,构建了企业级的知识积累体系,每一次查询都在训练系统理解业务,形成组织的智慧资产。
Cursor + Doris MCP 智能开发环境
第二个案例展示了智能开发环境的革命性变化。
这代表了MCP协议在开发者工具领域的突破性应用——让复杂的数据库交互变得如同日常对话般自然。让我用一个典型的开发场景来说明:
传统开发模式下,当开发者需要编写用户查询功能时,需要:
,时长03:54
现在通过Cursor + Doris MCP,开发者在编码过程中直接询问:"这个用户表有哪些字段?"系统立即通过get_table_schema工具返回完整的表结构信息,包括字段类型、注释、索引等。接着问"帮我优化这个查询的性能",系统通过get_sql_explain工具分析执行计划,提供具体的优化建议。
技术实现上,Stdio通信模式是关键。它基于标准输入输出协议,实现了真正的零网络延迟。当您在Cursor中提问时,MCP Server作为子进程直接响应,没有HTTP请求的网络开销,响应时间控制在几十毫秒内。同时资源占用极低,不会影响IDE的性能。
更令人兴奋的是智能代码补全能力。系统不仅知道表结构,还能理解数据分布。当您输入"SELECT * FROM users WHERE"时,系统会基于实际数据特征建议最优的过滤条件,比如"age BETWEEN 18 AND 65"或"created_at > '2024-01-01'"。
安全特性同样重要。开发环境中的MCP Server配置了适当的权限控制,确保开发者只能访问开发数据库,防止误操作生产环境。同时,所有的查询都会通过内置的SQL安全检查,自动阻止潜在的危险操作。
这种变革的深层意义远超工具层面:首先,彻底消除了开发流程中的工具切换成本,开发者可以保持专注的心流状态,编程效率提升70%以上;其次,实现了基于真实数据结构的智能代码补全,从猜测式编程转向精确式开发,显著降低Bug率;最后,系统沉淀了数据库最佳实践,让每个初级开发者都能获得资深DBA级别的优化建议。
这不仅仅是效率的提升,更是开发范式的根本性变革——从"人适应工具"到"工具理解人"的智能化转型。
FastGPT + Doris MCP 企业级RAG
第三个案例展示了企业级RAG知识库的强大能力,这是AI与数据融合的最高形态。
FastGPT作为领先的开源RAG平台,与Doris MCP的结合创造了企业知识管理的全新范式。这不仅仅是简单的文档检索,而是实现了结构化业务数据与非结构化知识内容的深度融合。
让我用一个具体场景说明:当产品经理询问"我们的产品在哪些市场表现最好,相关的市场分析报告有哪些?"时,传统RAG系统只能检索文档库中的报告,而无法提供实时的销售数据分析。
但通过FastGPT + Doris MCP的组合,系统会同时进行:
技术创新在于Doris的原生向量支持能力(半个月左右发Preview版本)。与传统需要单独部署向量数据库的方案不同,Doris可以在同一个Session中同时处理向量检索和结构化数据查询。这意味着系统可以执行这样的复杂查询:"找到与用户问题语义相似度最高的前10个文档,同时关联这些文档涉及的产品在过去6个月的销售数据"。
架构优势体现在:FastGPT专注于知识向量化和语义理解,Doris MCP提供统一的数据访问接口,两者通过标准MCP协议协同工作。这种松耦合的设计让系统具有强大的扩展性,可以轻松集成更多数据源和AI能力。
Coze + Doris MCP 智能运维
让我们再看一个前瞻性的应用场景——智能运维,这展现了MCP协议的巨大潜力。
智能运维代表了MCP应用的另一个重要方向——让复杂的技术操作变得简单直观。想象一下,传统运维需要运维工程师具备深厚的数据库知识,熟悉各种监控工具,能够分析复杂的性能指标。
而通过Coze的工作流编排能力和Doris MCP的全面工具集,运维工作变得前所未有的简单。运维人员可以用自然语言描述需求:"帮我检查昨天的慢查询情况",系统会自动调用get_recent_audit_logs和get_sql_profile等工具,不仅显示慢查询列表,还提供详细的性能分析和优化建议。
"为订单表创建合适的分区策略"这样的复杂需求,系统会通过get_table_data_size分析表的数据分布,结合get_monitoring_metrics_data了解历史查询模式,自动生成最适合的分区方案。
这种智能化运维的价值在于:降低运维门槛,让更多人能够参与数据库管理;提供7x24小时自动化响应,从被动响应转向主动预防;沉淀运维经验,实现知识的标准化和可复用。
总结与展望
回顾今天的分享,我们见证了一个激动人心的技术变革时代。Apache Doris MCP不仅仅是一个技术产品,更是连接AI与数据的重要桥梁,是Agent时代数据基础设施的核心组件。
让我们回顾一下它的核心价值:
首先,技术标准化价值。MCP协议为AI应用提供了标准化的数据访问接口,就像USB-C统一了设备连接标准一样,MCP正在统一AI与数据的交互标准。这种标准化让开发效率提升了数倍,维护成本大幅降低。
其次,应用生态价值。从ChatBI的民主化数据分析,到智能开发环境的无缝集成,再到企业级RAG的知识融合,每个场景都展现了MCP生态的巨大潜力。我们不是在构建单一产品,而是在打造一个完整的AI数据生态系统。
最后,商业模式创新。MCP的出现催生了全新的AI应用场景和商业模式。企业可以更快速地构建AI应用,更低成本地维护数据集成,更高效地挖掘数据价值。
展望未来,我们相信随着AI技术的不断成熟和MCP生态的持续发展,会有更多令人兴奋的创新应用涌现。Apache Doris将继续在这个过程中发挥重要作用,为AI时代的数据智能化提供坚实的技术基础。
我们的愿景是:让每个企业都能轻松构建自己的AI数据应用,让每个开发者都能专注于业务创新而不是技术集成,让每个用户都能享受到AI带来的智能化体验。
各位朋友,我们正站在一个历史性的转折点上。AI时代的到来不是渐进式的改进,而是颠覆性的变革。在这个变革中,数据将成为AI的血液,而像Apache Doris MCP这样的技术,正是让这些血液流动起来的血管。
今天我们看到的不仅仅是技术的进步,更是一个全新商业文明的开端。当数据分析师可以用自然语言秒级获得答案,当开发者无需离开IDE就能完成所有数据操作,当企业知识可以与实时数据无缝融合,我们就真正进入了智能化时代。
Apache Doris MCP项目现已开源发布,我们诚挚邀请全球开发者加入这个激动人心的生态建设。无论您是AI应用开发者、数据工程师,还是企业架构师,都能在这个开放平台上找到自己的位置,共同推动AI与数据融合的技术边界。
让我们携手共进,在这个智能数据的新时代,用标准化的力量、开源的精神、创新的勇气,共同创造一个更加智能、更加开放、更加美好的未来!
Doris MCP Server 在接下来的规划方向重点会有两部分:
本文分享自 Apache Doris 补习班 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!