Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >诺亚财富 X Hologres : 统一OLAP分析引擎,全面打造金融数字化分析平台

诺亚财富 X Hologres : 统一OLAP分析引擎,全面打造金融数字化分析平台

作者头像
大数据技术架构
发布于 2022-12-01 07:57:44
发布于 2022-12-01 07:57:44
7520
举报

客户简介

诺亚控股有限公司以“诺亚财富”为品牌,源起于中国,是首家在港美两地上市的中国独立财富管理机构,首家开创了财富管理和资产管理的双轮驱动业务模式,同时也是国内首家获得标准普尔“投资级”评级的财富管理公司,公司业务涵盖财富管理、资产管理和其他业务。诺亚数据智能部门负责公司大数据体系框架建设,主要工作是支撑日常的BI分析,数据看板,人群画像,自助分析等场景。

在公司数字化转型的背景下,业务增长带来了数据量的激增,不同的数据需求衍生出各种数据服务,不同的数据服务选择不同的数据库和数仓技术,比如MySQL,Impala, Greenplum,ElasticSearch等。为了最大化的降低运维成本,提供高性能的数据服务,做到真正的极速统一,从2021年上半年开始,诺亚数据智能部门开始上云,将自建CDH替换成阿里云统一大数据平台,同时正式引入Hologres,替换核心的Impala OLAP分析部分,提升数据查询效率,全面打造金融数字化分析平台。因此在本文中,我们将会详细介绍诺亚从CDH迁移阿里云大数据平台的前因后果,以帮助更多的业务更加方便快捷的建设实时数仓。

业务挑战

自建CDH组件多运维难、交易指标多元查询慢

为了支持业务,诺亚原大数据架构采用Impala和CDH构架构建,架构图如下:

在最初的架构中,我们从Cloudera购买了License 基于CDH 搭建了一套数据服务平台:上游的源数据库主要是 MySQL,Oracle,Mongo等 ,业务相关的数据和部分日志数据都记录在里面。我们通过 DataX 和 Sqoop 将数据库中的数据导入到 HDFS,通过 Hive的元数据映射生成 Schema,并接入 Impala 实现数据的即席查询。数据仓库的分层和建模全部都在 Hive 中完成,借助 LDAP 和 Sentry 进行用户权限管理,分析师在HUE中进行查询。

对于实时指标,我们通过Debezium 采集 MySQL 的 Binlog 日志,解析到Flink中对数据进行处理建模,并关联Kafka中的埋点日志数据,生成实时指标写入到 MySQL 中。该流程适用于大部分的报表需求,但是由于 MySQL 对于 OLAP 的任务执行效率较低,在单日报表超过50万记录的情况下,一些多维分析结果可能需要8+秒以上才能返回,非常影响报表查看体验。同时我们也提供了相应的数据服务,分析师通过 JDBC 的连接方式对数仓数据进行查询,数仓数据通过数据API直接应用于一线业务,相应的 BI 报表展示也基于 Impala 计算实现。

随着业务的增长,此架构面临如下挑战:

1、业务方面:

  • 数据分析性能不足:因为我们的用户可能多年的存量和交易指标特别多,数据需要复杂关联查询才能得到数据指标,还有高并发查询时间周期比较长的数据,返回时间太长,业务方体验很差。
  • 实时分析场景不足:历史的数据架构导致数据延迟频繁,无法满足业务方及时做出决策。
  • 查询引擎不统一 :系统可能有多种查询引擎组成,每一种查询引擎都有自己的DSL,增加了用户的学习成本,同时需要跨多数据源查询也是一种不方便的的事,异构查询引擎也容易形成数据孤岛。
  • 用数据难 :由于数据分布在各个系统中,用户无法在一个系统满足所有的数据需求。特别是一线的运营和分析同学,需要通过各个系统导出大量的excel表格的方式做数据分析,费时费力,同时也存在一定的数据隐患。

2、技术方面:

  • 使用的组件过多:实现不同的需求需要不同的组件,例如批处理采用的Hive , 即席查询使用的Greenplum和 Impala ,这对于数仓内部的管理提出了较高的要求,对于分析师和报表同学不够友好。
  • 运维难度大:CDH 虽然是商业软件平台,提供了界面化操作,但是大多数组件依然需要自己去探索维护,并且官方文档严重缺失。由于CDH已经不在中国市场提供更新,暴露出来的漏洞也越来越多,并且未来的不确定性也在增加,缺乏稳定性。
  • 大数据量查询较慢:我们使用Impala进行加速查询,但是数据文件没有有效的索引,对于数据量的扫描过大的查询,有时候需要几十秒才能返回结果。并且自身的SQL优化器比较粗糙,SQL稍微写的不够规范,就会产生不必要的资源开销,导致查询卡死。
  • Impala的自身的缺陷:在表数据或者表结构更新的情况下,需要手动的刷新元数据才能查询到最新的数据,极其不方便。
  • 成本高:业务发展快,产生数据快速膨胀,Impala的线性扩容成本比较高。

技术选项多维对比

为了解决上面的痛点,我们想要对架构进行升级,在寻求解决方案的过程中,OLAP分析是我们非常看重的一个部分,因此我们根据业务需求评估了四个维度:

功能

Hologres

Starrocks

Clickhouse

标准SQL

支持

支持,兼容Mysql协议

不完全支持

高并发查询

端到端的全异步处理框架,可以避免高并发系统的瓶颈,充分利用资源,并且最大可能地避免存储计算分离系统带来的读数据延迟的影响。

有限支持

不支持高并发,官方建议QPS 为 100

运维

完善的dashboard,包括查询日志,慢SQL等都可以查询

社区版不提供dashboard,需要自己实现自动化部署

依赖zookeeper,运维成本高

性能

Hologres支持行存储、列存储和行列共存多种存储模式, 可以根据业务场景选择合适的存储类型

大宽表和多表join性能比ck更好

单机性能强悍,但是单表查询效率快。

社区(技术支持)

响应时间较快,版本迭代快。

较快

较慢,社区活跃度较低

解决方案

自建CDH迁移上云,Hologres助力统一OLAP分析

经过4个维度的充分考虑和论证,我们决定将自建CDH迁移成阿里云大数据平台。迁移后诺亚基于阿里云大数据平台架构图如下:

诺亚数据智能中心在2021年进行了上云的计划,全面实现数据中台的云原生,抛弃掉原来的CDH那套数据架构,我们花了一年的时间进行了整个数据中台的改造和迁移,原来的数仓基于impala的表大概有1w+ 张,烟囱式开发,老架构的数仓是DL层 + DH 层,没有对于数据进行分层和沉淀 ,导致数据冗余严重,任务之间互相依赖严重,没有很好的进行对于业务模块的划分。

整个数据中台依托于DataWorks,离线部分在MaxCompute中进行,通过DataWorks的数据同步模块把离线部分同步到MaxCompute和实时部分同步到Hologres,然后利用Flink的把神策埋点的Kafka数据清洗同步到Hologres中,同时也通过Hologres的外表把MaxCompute的数据迁移到Hologres中,保证统一OLAP分析引擎。

在迁移的过程中,我们是两套中台并行,新的业务我们直接依赖阿里云进行开发,老的任务,我们根据业务线对于数仓进行了重构和分层,ODS , CDM (DIM,DWD,DWS) ,ADS 层,对于表进行了梳理和整合,计算资源和任务减少了一半,任务之间的依赖关系通过DAG图清晰明了,不要再为了改一个脚本,进行俄罗斯套娃式的改造脚本,大大节省了人力成本。

业务价值

更简的架构,更快的查询,更低的成本,全面金融数字化分析

通过将将技术架构从自建CDH全面上云后,对我们以及业务来说,都带来了非常多的好处,主要有以下几点:

  • 原来的IDC的CDH ,每年花费在机房的费用也很高,现在上云也满足了公司降本增效的整体方针,自动上云之后,我们在大数据运维层面的投入变少,让一些基础设施、基础服务交给阿里云去做 ,更多的时间专注于业务,缩短了需求的交付时间,同时也保证了交付的质量 ;其次,阿里云的云原生的拓展性,弹性计算,可以随时的扩容缩容,能够满足业务膨胀带来的紧急需求,高效稳定。阿里云的平台能力很强,对于开发,分析师都很友好,上手能力很快,操作简单便捷,学习成本较低。
  • 实时的广告投放多维分析,帮助市场部门及时提供数据支撑,及时调整投放策略,提高投资回报率。原来的神策埋点数据是通过Kafka直接进入到HBase,然后通过挂载hive的外表的方式来做各种维度的聚合,指标类的计算,然后再借助Impala的加速查询,这样的方式整个数据链路太长,经常出现数据丢失的情况,无法满足业务方的真正的实时数据需求,后续我们把kafka的数据直接sink到Hologres中,借助于Hologres+ Flink的实时数仓的能力,满足业务部门的实时需求。
  • 作为用户指标的载体,完成用户画像等的精细化分析需求,为公司数字化赋能。精确的数据去重,Hologres兼容PostgreSQL生态,原生支持Roaring Bitmap函数。通过对标签表构建索引,将用户ID编码后以Bitmap格式保存,将关系运算转化Bitmap的交并差运算,进而加速实时计算性能。在超大规模用户属性洞察分析的场景中,使用RoaringBitmap组件能够实现亚秒级的查询响应。
  • 以Hologres作为业务部门访问数据仓库的入口和核心,完善交互式查询体验。使用Hologres,在性能上明显明显,之前千万级的表的查询在5s+ , 当前在查询在 300ms左右,查询平均性能提升 90%以上,目前整体已经迁移了全部的报表800张+。Hologres可以根据业务场景做行列存储的优化,既减少了运维压力,又对于查询性能提升明显。
  • 作为数据部门提供OneSevice的数据服务平台的底座,稳定性和高性能的支撑业务系统,提高了客户的体验感。原来提供的API是查询MySQL,但是面临一个问题就是数据量大和并发数大时,接口相应速度很慢,影响到客户的体验,后面我们借助于DataWorks的数据服务模块,把这块的接口的底层查询引擎全部切换到Hologres,接口又原来的平均800+ms缩减到 300+ms ,同时也减少了数同步,借助于Hologres和MaxCompute的生态完整性,直接刷成Hologres的外表,加速查询。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-10-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据技术架构 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
千万级数据秒级响应!碧桂园服务技术引擎重构智慧社区新标杆
每天清晨,当碧桂园服务(以下简称“碧服”)的一线团队忙碌于各社区的常规巡检时,后台系统里已悄然汇聚了数以万计的设备状态和用户反馈。作为行业领先的综合服务集团,碧服每天要为8000多个社区的各类建筑和设备提供保障服务,海量数据就像洪流涌入到数据湖仓:设备监控、业户需求、物业运维……这些数据如果没有高效的管理,企业决策和服务优化都无从谈起。
StarRocks
2025/04/11
1120
千万级数据秒级响应!碧桂园服务技术引擎重构智慧社区新标杆
波克城市:从Impala到StarRocks,让游戏分析焕发新活力
波克科技股份有限公司(以下简称“波克城市”)成立于 2010 年,立足于精品休闲游戏的全球化研发、发行,旗下拥有《爆炒江湖》《我是航天员》《猫咪公寓》等精品休闲游戏,连续五年入选中国互联网百强。目前,波克游戏积极探索和发展“游戏+”模式,努力构建以游戏产业为核心、多产业交融发展的互联网新生态。
从大数据到人工智能
2022/06/27
1.2K0
波克城市:从Impala到StarRocks,让游戏分析焕发新活力
自建大数据平台迁移腾讯云EMR最佳实践
自建开源大数据平台会随着企业数据的增长遇到:性能慢、扩容周期长、平台稳定性差、运维难、投入成本高等问题。在这里我们将从 EMR 的简介、EMR与自建Hadoop对比优势、自建迁移上云的实践案例来介绍 EMR 是如何解决这些问题的。
腾讯QQ大数据
2023/07/26
6680
自建大数据平台迁移腾讯云EMR最佳实践
自建迁移EMR实践案例
自建开源大数据平台会随着企业数据的增长遇到:性能慢、扩容周期长、平台稳定性差、运维难、投入成本高等问题。在这里我们将从 EMR 的简介、EMR与自建Hadoop对比优势、自建迁移上云的实践案例来介绍 EMR 是如何解决这些问题的。
腾讯云大数据
2023/03/20
3.9K0
重新定义OLAP!新型多维分析架构全揭秘!
2022年6月11日,DataFun将举办第二届线上DataFunSummit2022:多维分析架构峰会。本次峰会共设置9大主题论坛,并邀请目前工作在大数据多维分析领域的负责人、架构师、数据工程师和开源多维分析项目的核心成员分享,内容既涵盖了开源多维分析、新一代MPP数据库架构、数据湖分析型架构、实时多维分析等核心技术,也包含金融、互联网、交通、物流、工业、画像、营销等多个应用场景的实践经验。非常期待这次峰会的到来,同时也希望各位能从中收获更多的知识,结识更多的朋友,让大数据的多维分析能力达到新的高度! ▌
腾讯云大数据
2022/06/08
5.3K0
重新定义OLAP!新型多维分析架构全揭秘!
干货 | 如何基于DataWorks构建数据中台?
阿里妹导读:为了应对众多业务部门千变万化的数据需求和高时效性的要求,阿里巴巴首次提出了数据中台的概念,经过众多项目的实践已经沉淀出了标准化的流程和方法论。如何构建一个数据中台?一个好的数据中台需要具备哪些功能?原盒马在线数据平台研发负责人欢伯向大家分享新零售企业如何基于DataWorks构建数据中台的经验心得,从商业模式及业务的设计,到数据中台的架构设计与产品选型,再到数据中台构建的最佳实践,最后利用数据中台去反哺业务,辅助人工与智能的决策。
CloudBest
2021/01/20
1.2K0
干货 | 如何基于DataWorks构建数据中台?
万字详解大数据架构新概念
来源:五分钟学大数据 本文约10000+字,建议阅读10+分钟 本文将从历史的角度对数据湖和数据仓库的来龙去脉进行深入剖析。 随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断。有人说数据湖是下一代大数据平台,各大云厂商也在纷纷的提出自己的数据湖解决方案,一些云数仓产品也增加了和数据湖联动的特性。 但是数据仓库和数据湖的区别到底是什么,是技术路线之争?是数据管理方式之争?二者是水火不容还是其实可以和谐共存,甚至互为补充? 本文作者来自阿里巴巴计算平台部门,深度参与阿里巴巴大数据/数
数据派THU
2023/02/23
6110
万字详解大数据架构新概念
数据湖VS数据仓库?湖仓一体了解一下
导读:随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断。有人说数据湖是下一代大数据平台,各大云厂商也在纷纷的提出自己的数据湖解决方案,一些云数仓产品也增加了和数据湖联动的特性。
Spark学习技巧
2021/03/11
3.2K0
数据湖VS数据仓库?湖仓一体了解一下
云厂商贡献全球第一!腾讯云 TCHouse-D 荣获 Apache Doris 社区年度卓越贡献奖
根植于开源、坚持开源开放的理念,腾讯云 TCHouse 团队致力于通过技术创新回馈开源社区,推动 Apache Doris 社区的不断演进和发展,目前已成为 Apache Doris 社区在全球范围内贡献者最多、贡献度最大的云厂商。追求卓越,砥砺前行,未来 TCHouse 仍将持续深耕实时 OLAP 分析及实时湖仓场景,在引领开源社区发展的同时,帮助更多客户在降本增效、实现业务价值持续增长。
小腾资讯君
2025/01/23
1410
金融信创湖仓一体数据平台架构实践
大数据基础设施的发展经历了四个主要阶段,每个阶段都有着标志性的技术进步来应对新的应用需求。
ApacheHudi
2024/03/18
4240
金融信创湖仓一体数据平台架构实践
数字化转型时代的企业数据新基建 | 爱分析报告
刚刚过去的21世纪的第二个十年,是消费互联网蓬勃发展的十年,也是云计算、大数据、人工智能等新一代信息技术,即“数字化技术”快速崛起的十年。
爱分析ifenxi
2022/07/22
5110
数字化转型时代的企业数据新基建 | 爱分析报告
招商信诺人寿基于 Apache Doris 统一 OLAP 技术栈实践
当前,大数据、人工智能、云计算等技术应用正在推动保险科技发展,加速保险行业数字化进程。在这一背景下,招商信诺不断探索如何将多元数据融合扩充,以赋能代理人掌握更加详实的用户线索,并将智能分析贯穿业务全链路,实现对用户、产品、场景策略的全面洞察与闭环迭代。本文将详细介绍招商信诺在大数据基础建设方面的探索之旅,从最初为线报表、Ad-hoc 分析提供服务的 OLAP 引擎,逐步发展至基于 Apache Doris构建的统一实时数据仓库,通过一套架构实现各业务领域的多元数据实时分析与融合统一管理,最终实现保险一线业务降本增收的目标。
SelectDB技术团队
2023/09/19
1.1K0
数据中台怎么选型?终于有人讲明白了
数据仓库选型是整个数据中台项目的重中之重,是一切开发和应用的基础。而数据仓库的选型,其实就是Hive数仓和非Hive数仓的较量。Hive数仓以Hive为核心,搭建数据ETL流程,配合Kylin、Presto、HAWQ、Spark、ClickHouse等查询引擎完成数据的最终展现。而非Hive数仓则以Greenplum、Doris、GaussDB、HANA(基于SAP BW构建的数据仓库一般以HANA作为底层数据库)等支持分布式扩展的OLAP数据库为主,支持数据ETL加工和OLAP查询。
Lucifer三思而后行
2022/04/13
2.4K0
数据中台怎么选型?终于有人讲明白了
《2022中国企业数智化转型升级服务全景图/产业图谱3.0版》重磅发布
本次“数据猿年度金猿策划活动——《2022中国企业数智化转型升级服务全景图/产业图谱3.0版》”为2022年度图谱版本的升级更新版,下一次版本迭代将于2023年4月底发布2023年1.0版,敬请期待,欢迎报名。
数据猿
2023/03/03
1.3K0
《2022中国企业数智化转型升级服务全景图/产业图谱3.0版》重磅发布
猿辅导 x DorisDB:构建统一OLAP平台,全面升级数据分析能力
猿辅导公司的数据中台部门为猿辅导、斑马、猿编程、小猿搜题、猿题库、南瓜科学等各个业务线的产品、运营、研发提供标准化的数据集(OneData)和统一数据服务(OneService)。OLAP平台作为数据中台的一个核心部分,为各个业务线提供统一标准化的、可复用的、高可靠的数据服务,支持各个业务线人员进行快速灵活的查询和分析,是连接前台和后台的桥梁。
伊泽瑞尔
2022/06/01
7370
猿辅导 x DorisDB:构建统一OLAP平台,全面升级数据分析能力
中原银行:基于StarRocks构建OLAP全场景架构解决方案,迈入极速统一时代 | 案例研究
近年来,随着银行业务场景的不断丰富、业务规模的不断扩张,用户线上线下交易大幅上升,数据量与数据种类愈加丰富,大量创新型数据分析和应用场景出现,对分析型数据库的存储与计算能力提出了更复杂的需求,尤其在对实时数据价值的深入挖掘、数据库查询与分析性能的提高上提出了更高要求。为满足以上需求,银行纷纷开始重塑数据库体系,对已有分析型数据库进行改造,在支撑业务需求的同时简化架构。
爱分析ifenxi
2022/11/16
7490
中原银行:基于StarRocks构建OLAP全场景架构解决方案,迈入极速统一时代 | 案例研究
直播|分析型湖仓论坛
随着湖仓技术的持续演进,数据仓库和数据湖方案在快速演进和弥补自身缺陷的同时,二者之间的边界也逐渐淡化,湖上建仓、仓中数据降冷到湖、物化视图、冷热融合查询等方案也越来越多的成为各个公司的标配,各大厂商也陆续提出了自己的湖仓融合方案,通过湖仓融合技术来提升业务使用体验的同时也降低了业务的使用成本。
腾讯大数据
2023/07/12
4150
直播|分析型湖仓论坛
快狗打车实时数仓演进之路
快狗打车业务快速发展是公司众多人员的努力,同时对数据侧提出了更高的要求。数据的价值随着时间的增加而降低,分析以及运营更加希望实时数据助力业务发展,研发也希望借助BI侧的大数据综合计算能力得到汇总数据。
用户6543014
2023/03/02
4750
快狗打车实时数仓演进之路
客快物流大数据项目(三):项目解决方案
干线运输指的是运输的主干线, 在主干线上有最大的运力,一般快件的运行都是由支线去向主干线去汇集, 由主干线运输过去
Lansonli
2021/12/27
9220
客快物流大数据项目(三):项目解决方案
十年项目经验面试官亲传大数据面试__大数据面试独孤九剑
本项目涉及的业务数据包括订单、运输、仓储、搬运装卸等物流环节中涉及的数据、信息。由于多年的积累、庞大的用户群,每日的订单数上千万,传统的数据处理技术已无法满足企业需求。因此通过大数据分析可以提高运输配送效率、减少物流成本,更有效地满足客户服务要求,并对数据结果分析,提出具有中观指导意义的解决方案。
Maynor
2021/12/30
3840
十年项目经验面试官亲传大数据面试__大数据面试独孤九剑
推荐阅读
相关推荐
千万级数据秒级响应!碧桂园服务技术引擎重构智慧社区新标杆
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档