首页 > 新闻中心 > 江南体彩APP可以上U吗
【IT168 谈论】阿里巴巴的工程师有多凶猛?民间一向有传说,12306假如用了马云的工程师,每年春运期间就不用再被民众唾骂了。其实,淘宝每年“双11”的傲人成果,除了有技能支撑外,还少不了运维预案的预备。运维预案触及到的网络高可用、突发事件处理和应急处理流程等,从根底到使用,从技能到办理都是一个应战。
现在各大网站,各大电商体系都在预备各种大促活动,一个好的运维预案是必不可少的,那么该怎么做好运维预案呢?网友ge_johnny(以下简称囧尼)共享了他的本身故事。
大约10年前,囧尼在一家500强的咨询公司做data center的办理,其时该公司正在经过BS7799认证,该规范现在现已被ISO吸纳,叫ISO27001。在预备该认证的时分,有类似于运维预案里要求的应急处理流程,叫BCP - Business Continuity Plan,即事务持续性方案。该方案要考虑的维度同电商体系要求的不一样,但假如满意该方案的要求则可以满意电商体系的一切要求,并且考虑的方面要多得多,牵涉的部分也不仅仅是内部的IT。
因为囧尼地点公司的首要事务是为银行金融保险等各行业的TOP公司做外包项目,所以其时公司的BCP要求是在以下三种状况产生后,公司的事务中止到康复的时刻(乃至24*7的不中止服务)是否满意SLA(服务等级合同)的要求。
1. Building Outage:公司地点的几个大楼彻底不可用,怎么确保事务持续性?用什么方法可以确保用最小的人力和资源,最快在多长时刻康复事务?基于此想象规划相关流程并周期性的演练;
客户敢不敢把新项目拿到公司施行,需求各个相关部分证明确保对任何状况都有所预备,所以该方案包括无死角是能不能争取到客户的一个要害,也是项目可以顺畅施行直至准时交付使用的重要确保之一。
面临这样的方案项目,囧尼感觉有点无从下手,并且该方案触及资源太多,终究囧尼也仅仅牵强达到了City Outage的要求。他从人力和物力两方面资源切入,共享了做好预案的要害要素。
关于building outage,首要是IT部分的担任人和内勤部分的担任人,因为囧尼地点的公司是常识密集型企业,出产设备首要是服务器,没有粗笨的出产设备,所以产生building outage无非两种状况,要么机房被损坏,要么大楼变危楼。而关于city outage则由公司大老板决定是否需求履行这一等级的呼应;
各个项目部分的需求,以项目组为单位,各自依据自己项目的SLA所规则的事务康复时刻提出需求什么后备资源,根本需求都是IT根底设备,再加上各个项目的联络人,乃至是必要的出产人员,状况产生时需求搬运到备份站点,备份站点需求预备必要的保护人员。
在本城市内以及其他城市寻觅备份站点,装备必要的备份设备;各个需求搬运的要害人员,需求预备日期可更改的机票以应对city outage的状况产生并装备移动办公设备;
数据的备份磁带,首要是源代码及其他的出产体系的备份,存留若干份,每周的备份放银行保险柜以应对building outage的状况产生;每月的备份发一份到其他城市的某个分公司(备份站点),以应对City Outage的状况产生。
囧尼的故事片言只语说不完,仅仅供给了一个别的的视点考虑保证事务的安稳和功能的方案,可是因为高度不同,所以考虑要更全面一些,当然消耗资源也更多一些。
做好预案是一个根底作业,可以应对IT毛病时的事务快速康复。各大电商体系,在搞大型线上活动时,尽量保证多机房运转下做到负载均衡、毛病搬运、功能分配、弹性扩容;做限流处理以保证网络高可用;预留必定资源,快速呼应做好毛病切换;做很多活数据库的预案预备。
在实践作业中也要灵活应变,保证事务的可用性为榜首要务,此外只需能用程序完结的作业,尽量削减人为操作,自动化的处理才是王道。
下一篇:云呐企业运维主动化有什么优点