主营业务
数字化运维|数据中心运营指标体系建设实践

发表时间:2023-11-20 05:13:08 来源:主营业务

  银行业迈入Bank 3.0时代,科技对于金融的作用,正逐步从辅助业务的地位,上升成为决定金融未来发展的重要的条件,也成为目前传统金融公司竞争的核心支撑。金融科技将更加深入金融体系内部,降低行业成本,从本质上改变经营业态、提升效率,助力创造新型的金融业务模式和业务形态。如何构建安全、可靠、自主、创新的金融科技底座,更好支撑金融企业数字化转型,推动数据中心工作重点从“技术运维”向“数据运营”转型,是银行业正在积极实践的。

  数据中心转型为数据运营后,运营服务能力是数据中心的重要标尺,而如何度量、评估、提升运营服务能力,是需要一套标准的指标评价体系方法及落地的支撑平台,为度量与评估运营服务能力提供相关依据,为各级领导、员工提供数字化运营信息,为运营能力持续提升提供相关依据及辅助决策,实现数据中心“安全高效稳定、绿色创新”的目标。技术运营指标评价体系的建设和应用,可积极践行银行业数字化经营在数据中心领域的探索,为银行业积累可借鉴可推广的先进经验,逐步形成银行业技术运营标准规范。

  随着云计算、大数据、AI和区块链等新兴技术的探索,科技对于金融的作用被不断强化,创新性的金融解决方案层出不穷,云计算是底层设施,大数据、人工智能提高了生产力,区块链技术则推动了业务模式重构,ABCD四种技术发展起步不同,相互之间有所关联,整体为金融行业数字化转型起到推动作用。数字化转型对传统的银行业金融机构科技能力提出了新的挑战,不仅要稳定、安全、高效,更需要敏捷、高效、弹性、扩展,推进分布式及云架构系统应用。随义务和技术的不停地改进革新,传统的数据中心技术运营正面临着前所未有的巨大挑战。

  绿色、创新是未来数据中心发展的趋势,国家格外的重视,已出台多项纲要、规划和指导意见。数据中心运维工作目标从“确保信息系统安全稳定运行”转变为“安全稳定、高效敏捷、创造价值”。同时,随着金融业务向新生态、新模式、新体制方向发展,使用者真实的体验上更安全、快速、方便的需求层出不穷,要求数据中心从环境到应用对业务的支撑都更加的安全和高效。

  数据中心在自我发展转型过程中,遇到诸多挑战,需要顺应新的行业发展的新趋势,从运维到运营的转型的同时,快速满足外部需求的变化,这些都为数据中心提出了新的目标和要求。因此,如何准确衡量自己当前和目标之间的差距,如何确保自己就是向着既定目标发展的,就成了当前的首要目标。

  通过构建可量化、可对比的技术运营指标评价体系,整合数据中心各类运维系统数据,形成可检测运营效果与衡量发展趋势的数字化技术指标数据,揭示与分解各项技术运营管理活动要素,从而形成对数据中心运营管理活动的科学管理与指导,并为数据中心管理层提供决策依据,持续提升数据中心运营管理能力和水平,同时结合各行业先进管理理念及通过实践沉淀出的技术,逐步形成行业共识。

  ◎ 建立数据中心运营指标体系,提升数字运营能力。建立一套技术运营指标评价体系,对运营数据来进行分析,揭示与分解各项运营管理活动要素,形成指标体系,从而形成对运营管理活动的科学管理与指导。运营指标评价体系分别从事件处置、变更管控、服务交付与支持、资源管控、投产部署、数据治理、自主可控、绿色环保等25个领域对数据中心技术运营各组织单位、运维对象进行全面的评价,客观反映银行业技术运营能力,结合业务要求,制定中长期提升计划。

  ◎ 提升数据中心技术运营行业影响力,加强过程技术自主创新,降低能耗,打造国内一流国际领先的大型金融底座。通过指标评价体系在银行业持续推广,保证数据中心在安全稳定、高效敏捷的前提下,持续推动各项技术的国产化、降低数据中心能耗,打造国内一流、国际领先的大型金融底座,为银行业金融科学技术创新、业务数字化转型保驾护航。

  技术运营指标评价体系来量化、评估、提升数字运营能力与技术运营效果。指标评价体系提供了评价指标规范化设计能力,通过对配置、性能、业务等运行数据来进行加工计算,形成可量化运营效果、可衡量发展趋势的技术指标;提供了指标体系框架能力,形成可对比的指标体系与场景化应用,衡量银行业数据中心的具体运营状况,为技术运营活动提供管理和决策依据;提供了可视化管理工具,以运营指标为抓手,提升数据中心的运营管理能力和水平。

  在技术运营指标与评价体系设计时,依据了自顶向下的设计方法,分层分类进行分解,形成五级指标体系架构(如图1所示):根据数据中心数字化转型与国家政策引导,确定数据中心总体目标与关键领域;使用卡诺模型和ITIL价值创造理论,确定关键成功因素;在每个关键领域内,梳理要重点管理的运营活动及运营对象,对管理对象与管理活动进行技术运营指标定义;对技术运营指标进行逐级分解,确定测量与评估公式。

  技术运营指标评价体系采用微服务、松耦合设计理念,分为业务应用、指标体系、数据服务三层进行规划与落地(如图2所示)。同时按数据中心运营维护整体要求,实现账号、角色自动同步以及运维门户统一集成。

  ◎ 业务应用层以Vue为基础,ECharts、AntV等可视化框架为依托展示多角色的运营视图以及场景化应用,多维度、多视角灵活观测数据中心运营情况,使运维数据一目了然,构建可持续的数字运营机制。同时借用FineBI报表能力,定义各种通用与专用报表,分析、汇总运营评价报告、数据及时性、完整性报告。

  ◎ 指标体系层提供灵活的指标建模能力和评分算法库,实现指标、指标体系、运营对象管理能力。结合指标分层设计规划,收集运营对象,确定好可测量、可落地的五级指标,并分层组合出一至四级指标,从而完成指标评价体系定义。同时,按数据中心运营维护整体要求,实现账号、角色自动同步以及运维门户统一集成。

  ◎ 数据服务层由大数据平台统一对接数据源系统,采集各类结构化、非结构化原始数据,对源数据做解析、结构化处理,并形成结构化数据文件,通过SFTP、NFT等数据传输方式,将数据文件存入对象存储服务OSS,并通过COS数据池进行统一管理,依据业务需求将所需数据来进行清洗、转化,形成事实数据仓库。然后根据指标模型库,从事实数据仓库中抽取对应数据,根据指标得分计算规则进行计算,得到指标数值、指标得分、维度对象标签等评价数据,输出到指标数据库中。

  根据整体设计的具体方案,技术运营指标评价体系提供了展示、分析、报表三大类应用场景,为各级领导、员工提供数据中心数字化运营信息,为运营能力持续提升提供相关依据及辅助决策。

  ◎ 运营展示提供了指标查询浏览、事实数据查询以及多角色的运营视图以及场景化应用能力,多维度、多视角灵活观测IT运营情况。

  ◎ 运营分析提供了最优提升路径、趋势预测、运营对象标签管理以及指标试算等手段,支撑数字运营提升工作。

  ◎ 运营报表快速定义各种通用与专用报表,分析、汇总运营评价报告、数据及时性/完整性报告。

  提供多层次、多维度的可视化领导展示视图,各级领导全面掌控当前数据中心技术运营各项活动的能力全貌。总览视图从资源规模、安全运维、高效运营、创新发展四个方面为管理者提供了数据中心运营目标,快速了解数据中心整体数字化运营水平与关键能力。二级视图,向管理者呈现资产管控、投产部署、事件、变更、服务交付支持等各类运营活动的关键绩效数据,为后续绩效提升工作提供了抓手。三级视图,向管理者呈现各项具体工作运营数据与评价结果,为自我评价和自我提升提供了客观依据。

  提供按照指标、维度及维度对象、时间周期数据检索,查看指标数据、事实数据、明细数据三类数据,快速定位问题。借助体系指标树快速查找关注指标名称或指标标识,可自由指定运营对象、业务统计时间,浏览技术运营指标评价结果数据。同时,提供了钻取事实数据功能,查找指标评价相关的业务运行数据记录,快速定位评估发现运营问题。

  对体系中技术运营指标评价结果与权重影响,计算路径权重与指标数据异常度,分析出数据中心运营评价最优提升策略。管理人能在体系可视化视图中,选定某个评价较低的技术运营指标,查看该指标分解的下级指标优先的提升建议,以颜色变化渲染出提升路径,供运营决策管理人员参考。

  利用人工自定义规则、决策树等算法,分析运营对象的技术运营指标评价数据,得出运营对象画像,并更新至运营对象标签属性中。例如使用计算资源CPU使用率与合理区间的偏差、计算资源内存使用率与合理区间的偏差技术运营指标设置物理子系统“资源高效管控”标签规则,分析每个物理子系统是不是具备“资源高效管控”特征画像。再借助标签墙,查看当前数据中心运营对象的特征画像以及运营对象信息。

  以总览通用报表、排名分析专题报表以及各种个性化报表满足多种角色人员各种运营分析需要。总览报表按技术运营指标、处室、物理子系统分类提供了不同运营对象技术运营评价结果查询与导出能力。专题报表重点提供了高效运营、安全运维排名分析与处室、物理子系统评价分析报表,方便管理层、技术层获取运营质量数据。个性化报表按需提供处室、物理子系统、资源规划、国产化等图表,清晰直观呈现当前关注运营评价分析结果。

  通过数据中心运营指标体系的建设及项目的落地实施,为银行业技术运营效率提高、资源充分的利用、节省成本上提供全新思路,大多数表现在:

  ◎ 通过对事件处置中事件平均恢复时长、事件自动化处置比率、重大事件比率等指标及变更控制指标中应急变更占比、变更实施引入事件比率等指标的评价分析,提高业务连续性及降低技术运营日常生产风险。

  ◎ 通过对投产管控指标中版本投产的成功率、版本投产的自动化普及率等指标及服务交付与支持中服务按时交付率、服务满意度等指标评价分析,量化技术运营对业务应用的服务效率和质量。

  ◎ 通过对资源管控中资源分配率、合理区间偏差率、资源回收速度、自动回收比例等指标的评价分析,提高各类资源有效利用,以专业化、精细化数据为依托降低投入和运营成本。

  ◎ 通过对自主可控中各类资源(包含CPU芯片、服务器、网络信息安全及软件操作系统、数据库、中间件等)的国产化、自主知识产权占比的评价分析,评估其国产化程度,进而推动银行业自主创新软硬件体系的建设,来提升自主创新能力。

  ◎ 通过绿色环保类指标的评价,建立银行业数据中心绿色环保的运营制度,并落实能源利用效率、碳排放监测、可再次生产的能源电力消费、有害于人体健康的物质控制、废弃物合理处置率、可再次生产的能源利用率等指标的全面评估,制定数据中心绿色环保可持续性战略。

  ◎ 通过技术运营管理数字化转型的落地实践,建立可导向、场景化、可对比、可导向的指标评价体系,实现数据中心“安全稳定、高效敏捷、创造价值”的转型目标,通过指标沉淀运营经验,分享管理和技术的知识和成果,通过同行的互信交流,为银行业数据中心能力评估提供标准依据,逐步推动银行业技术运营标准及规范化的制定。