随着科技的迅速发展,基金行业已经成为一个数据密集型和科技驱动型的行业,加之近年来外部网络安全威胁的加剧,行业面临着严峻的信息安全风险挑战,业务系统的运行维护能力直接涉及到客户资产的安全和整个金融市场的稳定。
因此中国证券监督管理委员会面向境内所有为证券基金业务活动提供信息技术服务的机构发布了《证券基金经营机构管理办法》,主要从重要信息系统的开发、测试、集成及测评,以及重要信息系统的运维及日常安全管理两方面提出了管理要求与办法。其中针对“重要信息系统的运维及日常安全管理”部分的管理条目如下,涉及到监控告警、系统变更、应急预案管理与应急处置、基础设施运维等场景:

对于IT业务规模不断扩大的基金行业来说,尽早开展自动化运维建设,能够明显提升运维平台以及各类运维场景的建设效率与运维团队的工作效能,减轻运维人员工作压力、降低人为操作风险,同时释放运维人员精力、提升岗位价值,更好的应对各类挑战。
支撑自动化运维的主要包括通道能力、脚本原子能力、流程编排能力、场景化能力,其中场景化能力是决定自动化运维使用效果的关键因素,运维各部门人员将不再直面繁琐的脚本与流程编排,而是直接获取场景化中可持续复用的原子能力与规范化的任务模版发起自动化任务,降低自动化能力的使用门槛,并基于场景形成闭环管理。
本文将针对自动化运维经典场景进行相关内容介绍与实践分享。
定期对IT系统的硬件设备、数据库、中间件、主机等进行检查,以确保系统的正常运行和及时发现潜在的问题。巡检可以作为监控的补充,发现一些监控工具难以发现的问题。但人工巡检存在不标准、不规范、不及时等问题且耗费运维人员大量时间精力,而通过自动化巡检代替人工巡检则可以解决人工巡检的弊端,定期自动巡检生成报告并及时发现异常情况。

IT资源的管理分散在不同的平台并且由不同的部门进行管理,当产生一个资源申请需求时会面临跨系统、跨部门的复杂协作,同时需要层层严谨的评估审核,导致整个资源交付的周期较长,无法满足敏捷化的管理模式。若通过自动化+ITSM流程相结合的方式,则可以将整个过程实现规范化管理并大大减少交付周期。

由于严格的监管要求,基金公司的补丁安装工作任务相对较为繁重,人工打补丁的方式操作耗时长,跟踪统计困难,导致效果难以保障。通过自动化+ITSM流程相结合的方式,可实现补丁安装责任到人,分门别类,批量安装,同时便于统计复盘,能够不断减少在补丁安装上的人力投入,实现闭环管理。

在微服务及容器化技术大规模应用以及系统双活改造的背景下,传统的应用发布变得难以适应生产需求,每一次发布都面临着大量的需求对接、节点梳理、配置审核等工作,复杂场景下的发布更是需要投入大量人力进行保障。通过应用发布自动化+ITSM流程相结合的方式可将各系统常用的发布场景固化为发布任务模版,在每次需要发布时进行微调、检查、固定流程审批后即可进行快速、准确的发布。

当前基金行业面临的诸多监管要求中,对于灾备切换的RTO以及定期演练次数均有一定要求,而灾备切换的线下管面临着制度文件维护难、手工切换风险大、切换过程不直观、演练报告不完善、部门间协作效率低等问题。通过灾备切换自动化+ITSM流程相结合的方式,可解决线下管理的各类痛点,提高灾备切换的执行效率,提高整体管理水平。

除了灾备管理之外,应急管理是一个范围更大的课题,随着外部网络安全威胁的加剧,基金公司需要防患于未然,建立各类场景下的应急预案。与灾备切换同理,线下管理方式存在诸多弊端。通过应急管理自动化+ITSM流程相结合的方式,能够有效的对场景、预案、制度文件、组织人员、应急响应、应急任务、应急报告进行管理与能力持续提升,同时充分联动“监”(可观测)、“管”(CMDB、ITSM)、“控”(自动化)能力,让IT应急管理逐步朝“1-5-10”(1分钟发现、5分钟定位、10分钟恢复)靠近,实现事前、事中、事后的体系化管控。

某头部基金公司结合ITSM流程的自动化运维建设实践分享:
该企业IT部门通过引入蓝鲸平台,将平台作为整个运维体系的入口和枢纽,通过流程把人、工具与场景进行串联,实现资源交付、变更部署、主备切换、日常运维等运维场景的自动化以及闭环管理。
自动化运维业务架构分为基础设施即对象层、活动即原子层,场景层即SaaS层以及角色层,构建服务于角色、注重用户体验、合规安全,同时可持续横行、纵向扩展的灵活架构,满足当前基金公司敏态发展与管理的需求:

自动化运维技术架构如下,通过平台层提供的通道能力、运维PaaS能力、调度引擎能力、流程引擎能力、一体化集成能力不断沉淀自动化原子、标准运维流程、场景,满足上方的业务架构需求,将自动化能力转化为公司宝贵的IT资产:


以资源交付流程为例,通过ITSM流程引擎,实现了复杂的多资源交付,将分散的资源管理平台通过流程进行串联并实现自动化执行,将此类需求的周期从按周缩短到按小时交付。提高了交付效率的同时也满足了标准化、安全、合规、可追溯的需求。

在应用发布自动化场景中,支持统一管理程序包、配置文件、模板集、Helm、SQL包等不同类型的介质,支持可视化管理介质的版本。同时将CMDB中的应用资源拓扑、应用制品、基础资源(主机、容器)进行关联绑定,保障了在发布任务配置时的数据完整性与准确性,极大的减少了人工梳理与线下核对确认的时间。

基于自动化平台的分层技术架构,发布任务由两层引擎进行编排支撑,第一层编排引擎为平台底座提供的作业执行、单主机上的执行流程编排能力,第二层引擎专注于应用发布场景,提供应用发布策略的执行编排,包括多集群多应用发布、双中心发布、灰度发布、蓝绿发布等。实现了操作与策略分离,提高了操作层与执行层的标准化、高可复用性、高可维护性,将发布周期从天缩短为数小时。

作为管理者往往无法事无巨细的关注到每一个执行细节,但如果自动化只做到执行完成即结束则无法满足上层管理需求,因此该案例在打造每一个自动化运维场景时均将管理需求考虑其中,不但包括场景化的事前配置与事中执行,也加入了事后运营的相关能力,包括执行报告、执行历史、统计分析报表、运营分析指标等。

后续该企业将基于蓝鲸一体化运维平台,持续扩大已建设内容的使用范围,包括ITSM流程的扩展、应用发布自动化覆盖更多业务系统等,同时将新增基线核查、应用巡检、资源交付、灾备切换等自动化运维场景,实现敏捷化与闭环管理。
在信创战略深入实施的今天,选择一款真正懂中国政企需求的国产自动化运维系统,已成为保障数字化转型成功、提升IT自主可控能力的关键。嘉为蓝鲸自动化运维中心,正是这一领域的可靠选择。

选择嘉为蓝鲸自动化运维,不仅是选择一款工具,更是选择一份保障与未来:
对于正在寻求一款真正可靠、高效且深度适配国产化环境的自动化运维系统的企业而言,嘉为蓝鲸凭借其过硬的技术实力、顶尖的行业认可和丰富的头部客户实践,无疑是您的理想选择。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。