近年来,随着云计算、大数据、人工智能、物联网、区块链等技术的飞速发展,行业也从之前的信息化逐步地往数字化进行转型。在这个转型过程中,除了数字化技术之外,还有一个非常大的特点就是产生了大量的数据,这些数据正是企业可以不断自我更新、驱动业务变革的基础。
数字化转型的驱动力是数字技术,这也决定了转型的过程首先从企业的业务架构启动,这个过程体现在IT架构上,就是越来越多的虚拟化、集群化、云化和容器化的敏态架构,越来越灵活的业务架构,是企业高效的业务服务的基础。
这个过程无形中给IT的运维工作带来了更大的挑战,因为抓住市场的需求和机遇,就是建立在快速的业务创新和新功能模块的迭代基础上的,如何保障这些敏态业务持续稳定的运行,相较于传统的IT运维来说,数字化业务转型下的IT运维挑战更大。
缺乏全局性和预防性运维能力
以一个正在做数字化转型企业的典型IT业务架构为例,有面向用户的业务前台、提供数据和服务体系的中台、还有提供服务支撑的基础设施服务后台。
首先这个逻辑上的前台、中台和后台并不是相互割裂的,而是有着运维人员自己都很难说得清楚的千丝万缕的关系,这就给运维工作带来第一个挑战,缺少全局性的运维视角,出现问题很容易陷入局部的死角,甚至还会出现小团队之间的相互扯皮推诿。
海量告警存在大量告警噪声、漏报和误报
伴随着数字化转型的过程,越来越多的运维对象需要被监控,不论是硬件设备还是应用和服务的指标;这些运维的对象产生的告警数量非常庞大,以规模在1000人左右的成长型企业为例,每周产生的告警信息不经过处理的情况下能达到上万条,这对于运维团队来说是一个灾难,因为他们会被淹没在大量的告警信息中。
更头疼的是告警阈值的设置,当前配置告警,基本上都是做的静态阈值,这个是没法适应业务波动带来的正常监控指标波动。基于固定阈值下的告警,必然会出现大量的误报和漏报。
复杂业务故障难以快速定位
以正在做数字化转型的企业为例,整个IT系统中越来越多的虚拟化、集群、微服务,而为了避免重复造轮子,业务之间的交叉请求和资源共用等现象越来越多,这就必然导致“牵一发而动全身”。因为一个业务几乎都是跨多个系统和服务的,当用户端反馈,出现业务不可用时,运维人员在定位故障是哪个环节出现时就显得力不从心。
服务是否满足SLA缺乏量化指标
云计算时代,云服务提供方和使用方之间都会签订服务的SLA协议。SLA是服务提供商与客户之间定义的正式承诺,也是服务提供方对服务可用性的一个保证。但是,客户和服务提供如何确定服务是否满足SLA呢?这里需要一套公认的、准确的SLI指标计算公式,基于此来判断服务质量是否满足SLA要求。