首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >统一数据服务架构

统一数据服务架构

作者头像
一个会写诗的程序员
发布于 2021-12-16 02:39:01
发布于 2021-12-16 02:39:01
2.1K0
举报

大数据服务化架构

关键技术一:配置即开发

平台用户分为两类角色:其一是数据服务生产方,其二是数据服务调用方。数据服务生产方只需要配置,做到“配置即开发”,配置包括:1)数据源;2)数据加速到何处;3)接口形态,访问方式;4)配置独立的测试环境,访问隔离的测试数据。当配置完毕后,数据服务平台便会根据配置清单,完成接口的自动化生产和部署。生产和部署完毕后,调用方在平台申请服务权限调用。通过自动化生产,达到配置即开发的目的,从而极大的提升效率。

关键技术二:多模式服务形态

数据服务有多种服务形态,包括:

KV API:简单点查,可以支撑百万QPS、毫秒延迟。这类API是通过模板自动化创建出来,支持单查、批量查询等接口,返回的结果是 Protobuf (PB) 结构体,从而将结果自动做了 ORM,对于主调方更加友好。典型场景包括:根据IP查询geo位置信息、根据用户Id查询用户标签画像信息等。

SQL API:复杂灵活查询,底层基于 OLAP/OLTP 存储引擎。通过 Fluent API 接口,用户可自由组合搭配一种或若干种嵌套查询条件,可查询若干简单字段或者聚合字段,可分页或者全量取回数据。典型场景包括:用户圈选(组合若干用户标签筛选出一批用户)。

Union API:融合API,可自由组合多个原子API,组合方式包括串行和并行方式。调用方不再需要调用多个原子API,而是调用融合API,通过服务端代理访问多个子查询,可以极大降低访问延迟。

关键技术三:高效数据加速

前面提及的数据资产,通常是存在于低速的存储引擎中,无法支撑线上业务高访问流量。因此需要以系统化的方式进行数据加速。目前有两种加速方式:1)全量数据加速;2)多级缓存(部分数据加速)。

全量数据加速

从多个数据源摄入原始数据(如KafkaMySQL、线上访问日志等),进行加工建模后,得到数据资产。数据资产经由独立的数据同步服务,同步至其他更高速的存储引擎,如 redishbase、druid等。数据同步支持一次性或者周期性(小时、天、周等)将数据从Hive同步至其他存储中,数据同步本身是基于分布式的调度系统,内核是基于 datax 进行数据同步。大数据服务化平台单日同步的数据量达到1200亿条,数据size达到20TB。

多级缓存

大数据服务化平台会使用 Redis、Hbase、Druid、Clickhouse 等方式存储所有数据,但是部分存储如Hbase速度可能较慢,针对热点数据需要使用额外的热点缓存来Cache数据。热点缓存是多级缓存,针对每个API接口,用户可自由搭配组合多级缓存、灵活设置缓存策略。此外,针对数据较大的API,还可配置数据压缩,通过多种压缩方式(如 ZSTD, SNAPPY, GZIP 等),可将数据量显著减少(部分API 甚至能减少90%的数据存储量)

关键技术四:高可用保障

服务可用性是微服务领域内的一大核心,服务的高可用通常需要组合多种手段来保障。快手数据服务化平台通过多种方式来达到高可用的目的,主要包括:

弹性服务框架

资源隔离

全链路监控

弹性服务框架

数据服务是部署在容器云环境,容器云是快手自研的弹性可伸缩的容器服务,部署在其中的RPC服务会注册到 KESS (快手自研服务注册与发现中心),供主调方去调用,如有离群坏点,会自动摘除。服务调用是基于 RPC,全链路都有监控,包括服务可用性、延迟、QPS、容器CPU、容器内存等情况。

资源隔离

资源隔离是可用性保障的常见手段之一,通过隔离将意外故障等情况的影响面降低。不管是微服务,还是存储,我们都按照业务 + 优先级(高、中、低)粒度隔离部署,独立保障,业务之间互不影响、业务内不同级别也互不影响。同一业务线内可能有多个不同数据服务,通过混合部署,提高资源使用率。

全链路监控

服务很难避免出现问题或者故障,一旦出现问题,及早发现及早介入是非常重要的。服务平台构建了全链路监控,包括:

数据同步:对数据资产同步至高速存储的过程进行监控,包括数据质量检测(过滤脏数据)、同步超时或者失败检测等

服务稳定性:构建一个独立的哨兵服务,来监测每个API的运行指标(如延迟、可用性等),客观的评估健康度

业务正确性:数据服务需要确保用户访问的数据内容和数据资产表内容是一致的,因此哨兵服务会从数据一致性层面去探查,确保每个API的数据一致性

总结和展望

大数据服务化平台从2017年演化至今,已经支持多类应用场景,涵盖直播、短视频、电商、商业化等在线业务,生产者中台等准在线业务,运营系统等偏内部数据系统等,目前平台在线业务总 QPS 达到 1000W,平均延迟在毫秒级;对于准在线业务和内部数据系统,基于CH、Druid等多种数据引擎,支持多种灵活查询。数据服务平台支持了多种模式API,很好满足了多元化需求。此外数据服务平台也支持服务权限、API市场等丰富功能,进一步赋能业务。

大数据服务化平台未来进一步发展方向主要包括:

贴近业务需求:数据服务平台本身是为业务服务,通过赋能业务而对企业带来价值,业务本身在不断发展,未来也会有更多的需求出现,因此数据服务平台本身会不断抽象和沉淀出公共数据服务能力。

深耕数据资产:数据资产是数据服务之根本,如果没有完善的数据资产建设,上面就很难构建出结构化的统一的数据服务,针对数据资产有较多内容,包括资产注册和审核、资产地图、资产标签、资产管理、资产开放和服务。

大数据服务平台的能力建设会朝着统一的 OneService 体系前进。主要包括三个方面:

支持丰富的数据源:包括大宽表、文本文件、机器学习模型(模型也是一种数据资产),来构建完善的数据服务。

支持多样取数方式:除了支持同步快速取数之外,还支持异步查询取数、推送结果、定时任务等多样化方式,以满足业务多种场景需求。

建设统一的API网关:集成权限管控、限流降级、流量管理等于一体,不仅平台创建的服务可以注册进API网关,用户自己开发的API也可注册进API网关,从而享受已有的基础网关能力,为业务提供数据服务能力。

参考文章:

https://www.linkedin.com/pulse/%E5%BF%AB%E6%89%8B%E6%95%B0%E6%8D%AE%E4%B8%AD%E5%8F%B0%E5%BB%BA%E8%AE%BE-%E5%A4%A7%E6%95%B0%E6%8D%AE%E6%9C%8D%E5%8A%A1%E5%8C%96%E4%B9%8B%E8%B7%AF-shun-ni/?originalSubdomain=cn

统一数据架构业务概念视图

统一数据架构业务概念视图: 分级(data staging)

统一数据服务层框架(Unified Data Service Layer, UDSL)

MongoDB、HBase、Redis等NoSQL数据库的应用使得持久层的开发变得更为复杂,开发者需要掌握和使用不同类型的开发接口。统一数据服务层框架(Unified Data Service Layer, UDSL)是一个持久层框架。它统一了持久层开发的API,开发者通过UDSL可以使用一致的读写接口进行持久层的开发,无需再关心数据源接口的差异。对不同类型的数据源,UDSL通过相应的扩展模块提供支持,比如DB模块对应着关系型数据库,Text模块则对应着MongoDB数据库,这种良好的模块化设计使UDSL具备了对新数据源进行扩展能力。

Cache模块

Cache模块是UDSL的核心模块之一, 它在很大程度上提升了UDSL的查询性能。在Cache模块中,UDSL实现了一个基于Redis的高性能分布式缓存,还提供了缓存规则的功能。通过制定缓存规则,应用可以把大部分不经常被访问的查询结果滤掉,以减少缓存的空间消耗。得益于面向切面的编程设计,UDSL的缓存是无侵入式的,只需要使用Java注解在被缓存的方法上进行配置即可使缓存生效,无需修改任何的业务逻辑代码。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021/9/27 下,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
快手大数据平台服务化实践
快手是一家数据驱动的公司,数据扮演了非常重要的角色,而数据的生产加工主要依靠数据开发工程师,其工作内容会涉及多个方面:数据开发工程师则首先根据业务需求开发好高质量的数据,通常是结构化数据(数据表);其次,开发稳定可靠的数据服务,并通过API方式交付给业务方使用。数据开发工程师有两个痛点:1)开发数据服务门槛高;2)重复开发数据服务。
肉眼品世界
2021/01/25
1.5K0
快手大数据平台服务化实践
干货 | 4小时上线一个接口,高效统一的携程酒店数据服务平台实践
作者简介 小丰,携程研发总监,专注于分布式数据库研究,大数据领域实时计算和大数据应用的系统架构设计。 背景 随着携程酒店数据的膨胀以及个性化需求的增多,每个数据接口个性化的排期开发,因为没有标准化,从需求讨论,数据准备、接口封装、上线调试到接口api说明,期间需要花费大量的时间。一个接口的实现到生产上线至少需要2天甚至更多时间,这个时间成本不得不依赖排期开发; 随着历史接口的迭代,已对外提供的700多数据接口中,其中500多个还在使用,并且每年的增量在100多,开发和维护成本高,特别是在追溯上游离线数据逻
携程技术
2022/07/12
1.1K0
干货 | 4小时上线一个接口,高效统一的携程酒店数据服务平台实践
数据编织与数据中台、数据湖、数据治理、DataOps的关系
【摘要】“数据编织”一词高频出现,似乎已经进入落地阶段,本文介绍了数据编织产生的背景及其定义,详细分析了数据编织与数据中台、数据治理、DataOps的关系,以及未来数据编织发展的方向和需要关注的问题。
大数据学习与分享
2024/07/15
6201
数据编织与数据中台、数据湖、数据治理、DataOps的关系
Elasticseach:从微服务架构演变到大宽表思维的架构转变
Elasticsearch 简称"ES”, 在DB-Engine 综合排名第8,已经持续了相当长的时间,按照当下热度应该会继续保持或者上升一个名次;ES在多数工程师印象中最深刻可能是ELK三件套或者全文检索领域,但在笔者看来,应该是业务系统领域“大宽表查询”场景,或者叫“数据库查询加速”场景。
铭毅天下
2022/09/26
1.2K0
Elasticseach:从微服务架构演变到大宽表思维的架构转变
京东零售数据资产能力升级与实践
本文主要聚焦于京东零售在数据资产管理方面的升级与实践。在数字经济时代,数据资产已成为企业核心竞争力之一,京东零售作为国内领先的电商平台,积极探索并优化数据资产管理,旨在提升运营效率、优化用户体验。文章详细阐述了京东零售在数据资产能力升级过程中的关键举措,包括数据治理、数据挖掘、数据应用等方面的创新实践,为零售行业的数据资产管理提供了有益的借鉴和启示。通过阅读本文,读者可以深入了解京东零售在数据资产领域的探索成果,以及如何将这些成果应用于实际业务中,推动企业持续增长。
京东技术
2024/03/06
6270
京东零售数据资产能力升级与实践
宜人贷PaaS数据服务平台Genie:技术架构及功能
随着数据时代的到来,数据量和数据复杂度的增加推动了数据工程领域的快速发展。为了满足各类数据获取/计算等需求,宜人贷自研了PaaS数据服务平台Genie,本文将重点介绍其技术架构及功能模块。
宜信技术学院
2019/06/28
3.3K0
唯品会亿级数据服务平台实践
数据服务是数据中台体系中的关键组成部分。作为数仓对接上层应用的统一出入口,数据服务将数仓当作一个统一的 DB 来访问,提供统一的 API 接口控制数据的流入及流出,能够满足用户对不同类型数据的访问需求。
开发者技术前线
2021/08/20
1.2K0
数据中台产品体系简介:一文带你了解数据产品经理都忙什么
毕业入行数据产品时这个岗位并不成熟,很多公司都不设这一岗位,也缺少数据产品经理相关的书籍理论。第一次职业生涯的迷茫期是工作的第三年,毕业前两年一直做数据可视化、数据报表产品经理,从单点的C端埋点、流量统计逐步拓展到管理驾驶舱、销售分析、商品分析、营销分析、画像标签、服务分析等更多业务板块,这个阶段每天忙于和各种业务指标、报表需求,为业务提供数据支撑,乐此不疲,以为数据产品经理的工作就是这些内容了,处于“愚昧山峰”之巅。第三年的时候随着数据可视化平台从0-1的逐步完善,指标覆盖健全,业务新增的需求数量明显降低,很难再挖掘出新的需求,每个版本可提前规划的需求紧急程度看起来似乎都无足轻重了,危机感顿生,担心自己即将失业,不知道还能做些什么,处于绝望之谷。所以在薪资、环境、团队都不错的情况下,选择了离职,想出去看看别人家公司都在做些什么。
数据干饭人
2022/07/01
2K1
数据中台产品体系简介:一文带你了解数据产品经理都忙什么
Moonbox计算服务平台架构功能与应用场景
导读:业务系统或者日志系统产生了大量的原始数据,我们根据业务场景需求将数据保存到不同的存储中。然而,数据只有通过整合、加工、计算,才能提取出其潜在的信息,让数据变为资产,从而实现数据的价值。Moonbox就是这样一款计算服务平台,在敏捷大数据(Agile BigData)理论的指导下,围绕“计算服务化”和“数据虚拟化”两个核心概念进行设计,支持多种数据源混合计算。Moonbox的设计理念是怎样的?又有什么功能特点呢?本文带您初步走进Moonbox~
宜信技术学院
2019/07/01
8560
Moonbox计算服务平台架构功能与应用场景
读《数据中台-让数据用起来》笔记整理
这本书是我和中台战略一起购买的另外一本中台方面的书,今天读完前面4个小章节,并对整个书籍内容做了下泛读,整体质量还是不错,但是比中台战略要偏技术化点,适合数据规划和数据架构师阅读。
人月聊IT
2025/06/24
1010
读《数据中台-让数据用起来》笔记整理
数据服务化——打通企业数据应用的最后一公里
大量企业积累了海量数据,形成了丰富的数据资产金矿,在有价值的数据和数据产生价值之间仍然存在最后一公里的跨越;同时面对全球化的API经济的冲击,服务化已经成为各行各业的趋势诉求,如何将企业大量的数据资产金矿通过服务化的形式进行规整、盘活,已经成为关系企业长远发展的关键。
yuanyi928
2019/12/31
2.5K0
数据服务化——打通企业数据应用的最后一公里
金融信创湖仓一体数据平台架构实践
大数据基础设施的发展经历了四个主要阶段,每个阶段都有着标志性的技术进步来应对新的应用需求。
ApacheHudi
2024/03/18
4610
金融信创湖仓一体数据平台架构实践
关于数据中台的深度思考与总结
数据汇聚是数据中台必须提供的核心工具,把各种异构网络、异构数据源的数据方便地采集到数据中台中进行集中存储,为后续的加工建模做准备。数据汇聚方式一般有数据库同步、埋点、网络爬虫、消息队列等;从汇聚的时效性来分,有离线批量汇聚和实时采集。
架构之家
2022/07/12
9770
关于数据中台的深度思考与总结
详解数据中台的底层架构逻辑
笔者认为数据中台不应该是一个单纯的系统或者是一个软件工具,而应该是一套架构、一套数据流转模式。
肉眼品世界
2021/09/27
1.2K0
详解数据中台的底层架构逻辑
数据服务:保障数据安全、提升数据价值的利器
04-08把元数据以及在它基础上的五大应用场景:数据发现(数据地图)、指标管理、模型设计、数据质量、成本优化,全部讲完。这部分内容对应的就是数据中台OneData 方法论。学完这部分内容,你已了解OneData方法论在企业内部落地的方法。
JavaEdge
2023/07/31
3340
数据服务:保障数据安全、提升数据价值的利器
数据湖在大数据典型场景下应用调研个人笔记
数据湖是一种不断演进中、可扩展的大数据存储、处理、分析的基础设施;以数据为导向,实现任意来源、任意速度、任意规模、任意类型数据的全量获取、全量存储、多模式处理与全生命周期管理;并通过与各类外部异构数据源的交互集成,支持各类企业级应用。
王知无-import_bigdata
2021/03/26
1.4K0
数据湖在大数据典型场景下应用调研个人笔记
诺亚财富 X Hologres : 统一OLAP分析引擎,全面打造金融数字化分析平台
诺亚控股有限公司以“诺亚财富”为品牌,源起于中国,是首家在港美两地上市的中国独立财富管理机构,首家开创了财富管理和资产管理的双轮驱动业务模式,同时也是国内首家获得标准普尔“投资级”评级的财富管理公司,公司业务涵盖财富管理、资产管理和其他业务。诺亚数据智能部门负责公司大数据体系框架建设,主要工作是支撑日常的BI分析,数据看板,人群画像,自助分析等场景。
大数据技术架构
2022/12/01
7680
诺亚财富 X Hologres : 统一OLAP分析引擎,全面打造金融数字化分析平台
关于数据中台的深度思考与总结(干干货)
本文将总结下数据中台的相关理论知识。Flink平台化需要改进的点等等,参考《数据中台》。
架构之家
2022/07/12
6020
关于数据中台的深度思考与总结(干干货)
数据仓库建设经验总结
导读:本案例描述的数据仓库建设问题和解决经验,在企业数仓初期建设时多少都会遇到,对制定数仓初期建设方案有一定的参考意义,推荐收藏。
大数据学习与分享
2023/10/23
5540
数据仓库建设经验总结
银联商务:Apache Doris 赋能“科技银商”,助力金融机构挖掘增长新机遇
如今,数据已经成为了推动经济增长的新动力,数字技术正在成为社会发展的重要引擎。随着数字经济的迅猛发展,金融企业纷纷加大在金融科技领域的投入,以提升自身的数字化运营能力,加速数字化转型的进程。在这一背景之下,银联商务以 “全量打通、准确实时、随需自助、智能交互” 为数字化转型目标,加快推进数字基础设施建设。
SelectDB技术团队
2024/01/11
2920
推荐阅读
相关推荐
快手大数据平台服务化实践
更多 >
交个朋友
加入腾讯云官网粉丝站
蹲全网底价单品 享第一手活动信息
加入讨论
的问答专区 >
技术总监架构部总经理擅长3个领域
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档