网易数帆案例
本项目案例由网易数帆投递并参与“数据猿年度金猿策划活动——《2022大数据产业年度创新服务企业》榜单/奖项”评选。
数据智能产业创新服务媒体
——聚焦数智 · 改变商业
2022年1月12日,国务院印发《“十四五”数字经济发展规划》提出,到2025年,数字经济迈向全面扩展期,数字经济核心产业增加值占GDP比重达到10%,数字化创新引领发展能力大幅提升,数字技术与实体经济融合取得显著成效,我国数字经济竞争力和影响力稳步提升。
2022年10月,中国人民银行正式发布了《关于开展深化金融科技应用推进金融数字化转型提升工程的通知》,从“加快数字化基础能力建设,提升数字金融核心竞争力”、“筑牢依法合规安全底线,提升数据要素综合应用水平”、“发挥数字技术驱动作用,提升金融服务的可得性公平性”、“强化金融科技手段运用,增强敢贷愿贷能贷会贷能力”、“深化金融科技多向赋能,提升公共领域金融服务质效”5个方面规范了银行业金融机构的数字化转型提升工作,并提出了体系化的要求。
同时,在ABCD(人工智能、区块链、云计算、大数据)技术的创新驱动下,越来越多的商业银行开启数字化转型之路。数字技术与金融的结合改变了传统的金融机构业务模式,新兴金融科技逐渐应用到客户服务、业务受理、信贷流程、运营管理、风险管理和经营决策等银行核心业务之中。同时,新冠疫情催化了线上化业务办理的需求,银行业服务朝着数字化、智能化的阶段迈进。传统村镇银行的业务模式亟需变革,加快落实数字化转型,是实现村镇银行业务可持续发展的重要途径。
随着日益复杂的行业监管与内部管理要求,杭州联合银行主发起村镇银行原先基于DB2的数据平台越来越无法满足现阶段高并发、大批量、跨部门的数据需求,由于数据质量差,指标口径不统一,数据开发、数据可视化等数据生产力工具缺乏,导致开发效率低,为应对监管部门数字化转型要求和杭州联合银行全行数字化转型的大背景,亟需建立一个统一的数据生产力平台来保障数字化转型的科技支撑。
实施时间:
项目开始时间:2022年6月23日
项目完结时间:2023年12月31日
·重要实施节点:
第一阶段:2022年6月—2022年12月
大数据平台搭建完成,以数据治理、自助分析、监管集市场景完成数据公共层建设。
第二阶段:2023年1月—2023年6月
深度挖掘村镇银行日常经营数据分析场景,实现统一大数据统一经营管理门户建设。
第三阶段:2023年7月—2023年12月
拓宽应用,向智能化方向进一步发展。
应用场景
本次项目包含了多项大数据核心技术及应用的建设:
1、大数据开发治理平台
① 搭建大数据基础平台:将基于DB2的传统数仓逐步迁移到基于分布式的大数据平台上,解决DB2上取数用数的性能瓶颈问题。
② 数据治理开发平台建设:建设全行统一的一站式数据治理开发平台,统一数据开发流程规范,形成数据质量监控机制,提升数据开发效率和质量。
2、数据治理
数据治理的目标是形成一套完善有效的数据治理机制,建立企业数据管理和控制的完整体系。
通过本期数据治理项目,拟对杭州联合银行主发起村镇银行数据治理现状进行梳理和全面评估,对比同业领先实践形成差异分析,并制定数据治理体系蓝图和实施路径规划;搭建全行数据治理组织架构,制定数据治理制度和流程;制定全行主要基础主题数据标准和涵盖监管报送、经营管理报表等应用的指标数据标准,建立完整、严格、一致的数据定义;设计数据质量检核规则,输出数据质量报告,提升数据质量水平;通过数据治理项目的实施,鼓励行内人员积极参与,相互支持,共同成长。
① 保障机制
现状分析及体系规划、组织架构与职责、管理办法及流程
② 数据标准
按照本阶段监管集市建设范围,包括EAST5.0、1104、人行金融基础数据采集规范,构建统一数据标准,保障数据一致、准确;
③ 数据质量
A. 覆盖EAST5.0、1104、人行金融基础数据采集规范及其交叉验证类质量规则;
B. 参考村镇银行需求,设计质量检核报告,并在BI中进行呈现。
3、 监管门户建设
基于网易数帆EasyData+有数BI的功能结合,以监管报送场景为驱动,初步形成监管报送数据的统一管控、统一收集、统一存储、统一应用。协助村镇银行提升监管报送数据的准确性、规范性、完整性、一致性,提高监管报送工作整体效率,建立全行级监管报送管理体系。
① 监管集市:基于数据治理开发平台,建设以业务台账为基础的监管集市,从DWD业务事实表-->监管台账-->监管报表-->监管指标,形成一整套完整的监管数据架构体系和可溯源的数据血缘链路;
② 监管门户:以数据填报、复杂报表、数据质量监控、可视化分析等功能为基础,形成手工台账在线化,监管报表自动化,质量监控可预警、可溯源,监管指标可视化、报送管理流程化等门户核心功能,提升面向监管的决策效率和业务合规性。
4、 自助取数平台建设
通过网易数帆EasyData的统一建模能力,以及有数BI的自助取数功能,以村镇银行各类日常经营分析取数需求场景为驱动,建设客户、存款、贷款等主题宽表体系,赋能村镇银行自主完成取数用数,解决业务科技间数据需求沟通实现效率问题,并且帮助村镇银行各个条线形成数据文化。
对CRM中客户、存款、贷款明细报表进行整合,建设初期宽表体系,配合有数BI自助取数功能,搭建自助数据平台,降低人工取数难度,提升数据准确性。具体涉及CRM清单报表32张,重构后一阶段开放14张自助取数宽表,供业务部门取数使用。
5、实时计算场景建设
基于网易数帆EasyData中的实时开发平台能力,以通知类场景为驱动,实现对相关业务决策逻辑规则、业务通知提醒规则在配置、维护、扩展层面的高效与可靠,进一步提升村镇银行对还款行为、资金流向变化等客户交易行为的洞察与管理。
① 场景一:大额资金流入流出实时提醒。
场景描述:当客户发生大额资金转入或转出时,通过实时通知方式,通知客户所属客户经理。
通知对象:村镇银行客户经理。
② 场景二:贷款提前还款、结清提醒。
场景描述:当客户发生贷款提前还款、提前结清操作时,通过实时通知方式,通知所述客户经理。
通知对象:村镇银行客户经理。
③ 场景三:客户还款提醒、客户归还利息提醒。
场景描述:将还款账户内余额不足的客户,向客户经理进行名单制推送;对发出还款通知后主动偿还利息的客户,向客户经理进行通知推送。
通知对象:村镇银行客户经理。
④ 场景四:贷款余额实时查询。
场景描述:贷款余额支持实时查询,其中支行贷款余额根据绩效比例进行拆分和汇总。
查询用户:支行层级、总行层级的管理岗。
7、AI场景建设
以村镇银行数驱产品场景为主,实现对精细化运营、客户价值提升、风险准入、个性化定价等场景提供AI技术支撑,进一步提升村镇银行的管理数字化水平,为数驱产品提供智能化基础。
本阶段AI拟建设用户贡献度画像场景,涉及用户贡献度数据分析和计算、用户贡献度预测模型。
① 模型:用户贡献度画像
描述:通过对用户在行内的行为数据分析和统计,计算用户的存款模拟利润、贷款模拟利润、粘度、联络员标识共四种画像标签,并通过AI算法对未来一段时间的存款模拟利润、贷款模拟利润、粘度三个标签进行预测,为客户经理提供业务参考。
输出:画像模型和画像预测模型,以T+1任务部署在机器学习平台上,定期输出画像表到数仓中,供后续界面化使用。
面临挑战
挑战1:制度落实缺抓手
制度落地缺少抓手,业务部门、技术部门数据治理工作缺乏定量的效果统计。一缺认责,无治理对接人,二缺考核,无考核则无重视。
挑战2:数据意识相对薄弱
由于战略属于高层次规划,依赖于银行内部的数据文化及数据共识,员工数据意识相对较为薄弱,部门间数据流通不顺畅,主观原因造成数据壁垒,影响各部门合力推进数据工作。按照监管要求,银行业金融机构应当建立良好的数据文化,树立数据是重要资产和数据应真实客观的理念与准则,强化用数意识,遵循依规用数、科学用数的职业操守。
挑战3:缺少业务导向
数据规范、数据质量要求应该从业务层面导向,到技术层面落地,单纯从科技角度开展数据治理,数据难以反映真实业务情况。
挑战4:只治标不治本
监管数据问题很多需要在科技或人工层面通过映射关系解决,满足了报送需求,但在源系统层面并没有规范流程,导致实际问题无法解决。
挑战5:架构偏传统
原先的应用大多采用烟囱式架构,无法复用。性能差、扩展难、维护难、效率低,缺少顶层设计和工具支撑。
挑战6:数据应用能力不足
缺少全量数据分析的架构支撑,实时应用少,缺少智能化业务场景创新。
挑战7:数据质量不佳
指标口径不一致、缺少统一的治理和标准体系建设,导致数据壁垒现象频发,各系统、旧数仓各层数据交叉取数,数据链路不清。
挑战8:监管压力大
缺失监管数据集市,存在数据缺失补录,时效要求高,1104依赖手工台账,可能存在人工加工失误的风险。
挑战9:IT人力紧张
业务支持强依赖IT团队,急需平台化释放人力资源,响应速度有瓶颈,容易造成业务取数效率低。
数据支持
该项目主要会从核心、信贷、卡、中间业务、网银、增值税、HR、短信平台等系统获取数据,每日处理的源系统导出压缩包共计约3GB。
由于银行的安全要求,不能直接对接源系统数据库。由源库导出IBM DEL格式的文件,该文件格式用换行符作为行分隔符,用英文逗号作为列分隔符,每个字段的首尾均添加双引号,从而确保字段内容中的换行符和列分隔符不会影响数据解析。若字段内容中有双引号,则替换为两个双引号。DEL格式的整体规则与CSV格式相似,文件入仓时可参考CSV格式处理。
源库的每张表导出一个对应的数据文件,同时生成一个记录了导出行数的校验文件。数据入仓时,指定该校验文件,若实际入仓的行数与校验文件记录的行数不一致,则任务报错。
每个系统导出的文件都打包成一个压缩包,并添加一个校验文件,记录数据文件压缩包的md5值。文件接收后,先对压缩包的md5值进行校验,校验通过后解压成单个数据文件,再分别入仓。
数据从源系统导出时,中文字段以GBK的编码格式存储。在入仓时转换成UTF-8编码。
应用技术与实施过程
数字化转型是一个长期的过程,通过技术平台支撑与核心能力的构建,最终需要达成提升数据技术、沉淀数据资产、释放数据价值、培养数据人才的目标效果。
网易数帆经过充分调研,结合村镇银行业务痛点,为杭州联合银行主发起村镇银行量身定制了一整套从技术平台支撑到核心能力构建,最终完成数字化转型的蓝图规划。
图:村镇银行数字化转型蓝图
技术平台支撑
考虑到目前发展的现状及银保监、人民银行对金融业数字化转型的要求,村镇银行希望引入一套自主可控的大数据平台,对传统数据仓库进行替换,实现数字化技术底座的搭建。网易数帆基于自身产品能力,提出了数据中台解决方案,该方案主要分为大数据集群和大数据开发套件两部分。
在大数据集群层面,本项目使用了网易数帆大数据基础平台(NDH)。NDH基于最新开源技术打造,并在Hadoop、Spark、Impala等多个核心组件做了功能增强,使其具有了自主可控、安全稳定、开发便利、智能运维等核心特性。
① 自主可控
NDH是整套完全自主掌握核心代码的大数据基础平台。如Hadoop,开源了安全回收站、元数据分析服务等特性,保障数据安全和平台稳定性。还有Impala、Spark、Hive等等大数据基础组件均进行了源代码级别的增强。
② 安全稳定
网易数帆大数据基础平台NDH集成了包括Ranger、Kerberos、LDAP等整套安全管理模块,并不同的组件进行了安全稳定上的优化和增强。
如上图:HDFS通过API进行数据删除时(如:Hive Drop Table操作),数据不会进入回收站,导致数据开发在误操作(insert overwrite/ drop table)时会误删数据,通过增强回收站功能确保数据会先被保存到回收站。
③ 开发便利
NDH还集成了Kyuubi(Kyuubi为基于Spark计算引擎上构建的SQL查询引擎,支持多租户隔离等特性),支持SQL on Spark,大大降低了数据开发门槛。
④ 智能运维
通过构建任务、主机、服务之间的映射关系,在集群出现异常时,快速分析导致异常的原因,进而进行快速处理。
在大数据开发套件方面,该项目则是重点使用到了网易数帆数据开发治理平台(EasyData),包含其中的子产品实时开发以及机器学习平台,涵盖离线开发、实时开发以及机器学习算法开发能力等能力,与大数据底座一起,完成了数据中台基础能力的构建。
① 网易数帆数据开发治理平台(EasyData)
一站式数据开发治理平台,覆盖大数据开发,任务调度,数据质量,数据治理及数据服务等功能。简单可视化的多人协作管理、开发,有效缩短开发周期;独创的数仓模型评估体系保障建模流程规范可控;结构化地构建统计指标体系,保障指标体系唯一可信,避免重复性建设。
图:系统功能示意图
② 实时开发
基于 Apache Flink 构建的高性能、一站式实时大数据处理方案,通过标准 SQL 服务和更高级的代码定制服务,提供低门槛、专业化的实时计算集成开发环境。
图:产品架构图
③ 机器学习平台
基于高性能计算架构和大数据底层平台构建,旨在为AI开发者打造一站式、高性能的分析建模平台 功能覆盖算法开发、模型训练评估、在线推理预测建模全流程。
核心能力构建:
本项目从架构和场景两个方面,对村镇银行数字化转型进行了核心能力的构建。
架构上包括了数据治理、技术架构、数据架构、业务架构等。
① 数据治理
从数据标准、数据质量两个角度,结合数据治理体系架构,流程制度等规范的制定,对村镇银行数据进行了整体评估及治理。依托于EasyData平台数据标准、数据质量模块,将数据治理成果进行了落地及监控,以数据质量报告及流程制度的把控相结合的方式,帮助村镇银行及时发现数据问题,解决数据问题,最终达到规范数据标准、提升数据质量的目的。
② 技术架构
以EasyData平台所提供的数据传输、离线开发、模型设计中心、数据地图等功能模块能力,实现了从传统数仓SHELL脚本+存储过程开发模式到数据中台一站式、可视化、可配置开发模式的转变。
另外引入了实时开发、机器学习两大平台,实现了实时、机器学习开发技术架构的搭建,为后续实时和算法场景搭建提供了技术支持。
③ 数据架构
项目整体建设按照统一指标体系,统一数仓建设,统一分析平台,统一数据服务总体思路来构建数据架构。
通过数据治理业务梳理分析,输出符合相关金融监管要求的数据标准,包括指标体系、指标清单、指标口径命名、指标加工逻辑等。
接入源端业务系统数据,结合使用离线开发和实时开发,在数据平台进行统一数仓建设。分为数据采集层、数据公共层、数据应用层。
a)数据采集层完成对源数据的采集,包括增量、全量、实时等采集方式。
b)数据公共层进行主题域划分,包括明细数据、维度数据、汇总数据。
c)数据应用层包含数据集市、实时和算法。
统一数仓建设完成之后,模型支撑应用能力逐渐释放,一方面模型复用度更高,另一方面快速支撑上层应用,比如监管上报,报表分析,自助取数,形成高效便捷统一的数据分析平台。
通过平台的数据服务模块,对外提供统一的数据服务能力,各个BI前端展示及外部应用调用API接口按需查询使用数据。
在场景方面,本项目规划从数字化合规、数字化管理、数字化运营、数字化风控四个方案进行构建场景化应用实现能力。
① 数字化合规
主要以人行金融基础数据上报、银监EAST5.0、1104上报等监管上报为内容,以网易数帆有数BI报告、门户为展现形式,构建集监管数据展示、下载、报备、监管数据质量报告展示以及监管指标监控等功能为一体的监管数据门户。
图:监管门户原型样例
② 数字化管理
在管理角度,后还规划建设各层级领导驾驶舱、绩效考核应用等等。
③ 数字化运营
在运营方面,规划从客户、产品角度进行深入分析,并依托有数BI便捷的跨终端能力(PC、PAD),为村镇银行客户营销等场景提供支持。
④ 数字化风控
在风控方面,计划结合业务实际情况,以及机器学习算法为预测手段,以短信、报告、API等形式为风险预测、欺诈识别等等场景需求提供支持。
外部合作
外部合作伙伴:上海熵衍信息技术有限公司
合作内容:1104监管报送咨询服务,以下简称监管报送咨询服务。
需求概述
本项目基于网易数帆EasyData+有数BI的功能,以监管报送场景为驱动,初步形成1104监管报送数据的统一管控、统一收集、统一存储,统一应用,协助杭州联合银行主发起村镇银行提升监管报送数据的准确性、规范性、完整性、一致性,提高监管报送工作整体效率,建立全行级监管报送管理体系。
需求详细内容
根据联合村镇银行的实际监管报送场景,本阶段需要完成35张1104报送报表业务逻辑梳理,并配合网易数帆完成相关逻辑在数据中台的落地。
交付内容要求
① 35张1104报送报表EXCEL版本业务制度建设,并对符合监管要求的业务逻辑准确性负责;
② 35张1104报送报表涉及台账模型的设计,以及台账到1104报送报表的加工逻辑;
③ 台账对应的字段业务口径解释及符合1104报表要求的数据、枚举值或码值表,尽可能与行方已有字段形成映射关系;
业务制度建设过程中发现问题的清单,并配合数据治理要求给出专家解决建议。
商业变化
变化1:制度落实
完善数据治理制度,截至2022年底共发布《数据治理管理办法》《数据标准管理细则》《数据质量管理细则》《元数据管理细则》及配套流程共27项,对数据治理各个环节的实现明确依据。在全行层面推动管理机制和考核机制落地,以“数据质量报告”得分为抓手,定期对考核结果进行评估。通过2022年10月至2023年6月试行,根据试行情况修订制度。
变化2:人人是数据管理者
定期进行数据治理、自助取数、业务流程等专项培训,并形成培训纪要,尤其是对客户经理进行信贷业务专项培训,减少前端数据录入差错问题。另外,通过激励模式,将问题发现、主动解决数据问题等指标纳入绩效考核,作为数据质量考核的加分项,鼓励村镇银行积极用数、主动治理。
变化3:业务参与力度加强
各村镇银行业务部门积极配合各项数据治理工作及1104专项监管线上化报表工作,集中办公测试数据问题,并讨论后续提升数据质量的常态化机制,尤其是在长兴村镇银行建立了“1104监管报送”的标杆形象,培养了一批专业的统计人员,业务与科技间配合更加深入。
变化4:积极推动源头治理
以1104监管项目为抓手,上线了10大基础台账和12项衍生台账,支撑报表生成,共维护117项1104字段,推动并支持源系统改造,并建立质量规则定期监控,防止后续重复问题的发生。
变化5:引用网易数帆大数据平台
网易数帆大数据平台性能强,数据反应时效快,基于内存的OLAP引擎,查询速度快,节约了时效约50%;分布式架构,支持存储的横向扩展,支持5~10年数据存储;支持离线、实时场景、满足AI应用需求。
变化6:数据赋能管理决策
利用大数据技术分析和挖掘用户、场景画像等是银行数字化智能化的重要应用方向,通过依法合规的整合行内行外数据资源,利用机器学习、深度学习技术对用户生命周期等进行分析和挖掘,在营销业务对客户经理等提供数据支撑,包括建设初步面向用户的数据画像和分析标签体系,指导后续技术落地。
建设数据分析标签,通过数据客观刻画用户基础标签;建设模型标签,通过AI技术挖掘复杂、潜在用户行为、画像。
变化7:数据管理能力提升率为172%
根据国标、行标及金融行业标准规则,建立数据标准、数据质量检核体系,整体提升村镇银行数据管理能力,针对涉及的能力项,预计总体提升15.5分,提升率为172%,同时提升数据的复用性,增强数据质量水平。
2022年10月中旬完成509项数据标准,149项公共代码及915项英文词根的制定,在大数据平台进行维护,并进行流程化管理;2022年底逐步建立数据标准映射关系,预计监管数据标准化率达90%,并在大数据平台进行展示。
建立监管数据质量检核规则,预计覆盖EAST的检核规则共1952条,覆盖金融基础数据的检核规则共2185条。建立监管数据质量检核监控任务,并生成问题数据,汇总至数据质量报告,并分发至相关责任部门,监控质量问题的落实和解决,并对成果进行评价与考核。
变化8:统一的监管集市,建立同源数据
建立数仓各层模型建设规范,输出规范文档,并在大数据平台进行落地与维护,预计覆盖9大主题域,明细层、公共层和应用层等多项数据模型,完成44张EAST数据报送,18张金融基础数据报送及25张1104报表建设;
在应用层建立统一的监管集市,按照数据标准落标,按照数据质量检核规则进行校验,提升监管数据质量。
变化9:取数用数效率预计提升14倍
建立自助取数宽表层模型建设方案,输出规范文档,并在大数据平台进行落地与维护,预计覆盖9大台账,2大主题域,16个宽表,25项报表模型;借助低代码平台,支撑我行在营销、风险、客户和绩效等领域所积累各种个性化需求,更高效地满足银行对业务创新的需求。业务团队和开发团队得以各司其职,专注“更有价值、更专业的事”,实现“取数用数效率预计提升14倍,取数时间由预计7天+降低至0.5天”的效果。
相关企业介绍
·网易数帆
网易数帆是网易集团旗下 TO B 企业服务品牌,定位于领先的数字化转型技术与服务提供商,依托网易20余年互联网技术积累,推出三大数字生产力模型,帮助企业发展软件生产力、数据生产力、智慧生产力,沉淀企业数字资产,为企业数字化转型提质增效。目前已服务不同行业头部客户三百余家。
·杭州联合银行
杭州联合银行,全称“杭州联合农村商业银行股份有限公司”,是一家立足于杭州本土的地方性银行,始终以服务社区和辖内“三农”、支持中小微企业和地方经济发展为己任。根据国际权威金融媒体——英国《The Banker》杂志公布的2018年度全球银行1000强排名,位列第380位;在中国银行业协会公布的商业银行稳健发展能力陀螺评价体系中,位列城区农商行第7位。