1.
Doris简介
▍1.1 简介
Apache Doris是一个现代化的MPP分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。Apache Doris的分布式架构非常简洁,易于运维,并且可以支持10PB以上的超大数据集。
Apache Doris可以满足多种数据分析需求,例如固定历史报表,实时数据分析,交互式数据分析和探索式数据分析等。令您的数据分析工作更加简单高效!
▍1.2 架构
我们的业务背景,就是想秒级实时数据呈现。
2.
▍2.1 我们的历史架构
数据量介绍:
计算问题:
存储问题:
计算替代思考🤔?
结论:doris可以替代flink做join计算,并且doris的udf函数齐全,自带colocate join模型(按照相同key分桶,join的时候可以避免网络shuffle)和聚合模型(降低数据量,提升查询效率),还有好多优势,我就不多说了,doris真的是个神器😝。
看上面👆这个图,你就知道doris的优势了,千万级数据join,秒级产出,非常赞👍。
存储替代思考🤔?
总结:直接换成doris,es本身就不适合做olap多维聚合分析,尤其是在join的场景,无法满足业务需求。
计算上olap可以替代部分flink的join任务:
最后架构:
总结:doris内部做join可以节省开发时间,并且自已维护,不用考虑数据延迟落后的问题。doris内部自带物化视图,既可以存明细,也可以实现聚合模型,既方便报表查询,也方便线上通过明细数据问题排查,同时还方便维护,模型训练也支持秒级查询。
3.
业务数仓架构应该具备哪些能力?
4. END