遥遥领先！Apache Doris 实时分析性能刷新行业天花板

数据极客圈

发布于 2025-09-02 10:28:10

2340

当实时分析场景的性能比拼进入白热化，一款数据库的真实实力，终究要靠权威基准测试说话。近日，实时分析领域标杆测试 RTABench 最新榜单揭晓 ——Apache Doris 以绝对优势登顶，其性能是 ClickHouse 的 6 倍、PostgreSQL 的 30 倍、MongoDB 的 100 倍，用数据重新定义了实时分析数据库的性能上限。

一、先看懂 RTABench：为什么它的榜单有说服力？

在聊 Doris 的亮眼成绩前，得先搞懂：RTABench 究竟是个怎样的 “裁判”？

不同于传统基准测试（如 TPC-H）侧重批处理场景，RTABench 是专为实时分析设计的开源测试工具 —— 它基于 Clickbench 框架升级，却更贴近真实业务，解决了 “测试场景与实际应用脱节” 的痛点。其核心特点可概括为三点：

★RTABench 官网地址：https://rtabench.com

1. 多表模型：复现真实业务的 “关联查询”

传统测试常用 “单表设计”，但实际业务中，实时分析离不开跨表关联（比如订单表关联用户表、商品表）。RTABench 模拟电商订单追踪系统，构建了 5 张核心表的关联结构：

customers（用户表）：1102 位用户基础信息
products（商品表）：9255 件商品数据
orders（订单主表）：约 1001 万条订单记录
order_items（订单明细表）：拆解订单商品明细
order_events（订单状态表）：1.71 亿条高频状态变更记录（如发货、签收）

这种结构能精准测试数据库处理 “多表 Join” 的能力 —— 这正是实时业务（如 “实时计算每位用户 30 天消费总额”）的核心诉求。

2. 31 类查询：覆盖实时分析全场景

RTABench 设计了 31 条代表性查询，分为 4 大类，全面考验数据库的综合能力：

查询类型	测试目标	业务场景示例
原始事件查询	高频轻量化计数 / 过滤	统计每天某终端的已发货订单数
选择性过滤查询	索引 / 分区效率	查某一订单的最新物流状态
多表连接查询	复杂业务逻辑关联分析	计算过去 30 天每位客户的总收入
预聚合查询	预计算 vs 原始查询性能差异	快速获取上月延误订单的预聚合计数

比如 “多表连接查询”，直接对标电商大促时的实时 GMV 统计；“选择性过滤查询” 则对应用户实时查物流的高频场景 —— 这些都是企业每天要面对的真实需求。

3. 分类测试：不搞 “跨维度对比”

RTABench 将数据库分为三类，避免 “用实时库和批处理库比性能” 的不公平对比：

实时分析型（核心测试组）：Doris、ClickHouse、TimescaleDB
通用型（对照组）：PostgreSQL、MySQL
批处理型（参考组）：DuckDB

这种分类让测试结果更具参考价值 —— 企业选型时，能清晰看到 “同赛道选手” 的真实差距。

二、Doris 的 “统治级” 表现：数据不会说谎

先看核心结论：在 RTABench 的关键指标 “Relative time”（数值越低性能越好）中，Apache Doris 以1.28的成绩断层第一，把其他数据库远远甩在身后。

同机型对比：Doris 性能碾压竞品

在 “c6a.4xlarge 机型 + 500GB gp2 存储” 的统一硬件条件下，各数据库性能差距一目了然：

数据库	Relative time（越低越好）	与 Doris 性能差距
Apache Doris	×1.28	基准（1 倍）
TimescaleDB	×5.52	Doris 是其 4.3 倍
ClickHouse	×7.94	Doris 是其 6.2 倍
PostgreSQL	×31.11	Doris 是其 24.3 倍
MySQL	×94.88	Doris 是其 74.1 倍
MongoDB	×128.17	Doris 是其 100.1 倍