作为事件管理过程进行监视

哈Ha! 今天,我们想与您分享由IT-GRAD技术支持负责人Alik Fakhrutdinova撰写的一篇文章,其中我们将讨论如何构建新的监视系统,这是与MTS PJSC合作的一部分。 这次我们省略了技术细节和细微差别,而只关注流程的管理复杂性。 削减开支后,我们将讨论什么事件促使我们建立了一个全新的监控系统(而不是“增加”旧的监控系统),讨论了新的监控芯片作为为客户提供服务的过程以及我们在此过程中遇到的困难。



如您所知,统一云提供商的概念目前由三个合作品牌代表:

  • #CloudMTS,由MTS创新中心创建;
  • IT-GRAD公司,基于云的IaaS提供商;
  • 1cloud服务。

现在,这个概念中的所有品牌都携手合作,并相互补充,试图满足不同受众群体的需求。 但是,在合并过程中,我们遇到了一些困难,其中之一导致了新监视系统的开发。

交易之后,启动了将IT-GRAD的云IT基础架构划分为单独部分的过程。 这是一个艰难的过渡时期,在此期间,大量设备和数据中心都断开了连接,这并未包括在交易大纲中。 内部和外部网络的路由已更改。 同时,截止日期很紧,并且监视系统中的触发器并非总是能够按时更新。 这导致从不存在的设备中产生许多错误事件。

在全球重组的过程中,这些员工的工作也很艰难。 支持-他们面临着大量的虚假警报,以至于很难正确,及时地处理所有事件。 需要完全重新配置监视系统,针对当前任务对其进行更新,并实际上将其转换为内部使用和客户使用的新服务。

结果,决定创建一个专用的事件管理单元,该单元将在IT-GRAD中建立监视系统,并随后成为监视集成云提供商基础结构状态的单个中心。

转换的结果是,主要要求是:

  • 监控系统不仅应在IT-GRAD上运行,而且还应成为统一云提供商的内部服务和客户的服务。
  • 需要一个可以从整个IT基础架构收集统计信息的解决方案。
  • 由于存在许多系统,因此所有监视事件都必须集中在一个数据聚合器中,在该数据聚合器中,将针对单个CMDB检查事件和触发器,并在必要时自动通知用户。

收集并分析了当时可用的所有数据之后,我们将项目的实施分为几个阶段:

  1. 定义监视系统的要求。
  2. 准备“健康组成部分”服务的模型。
  3. 分析监视系统的可靠性和容错性要求。
  4. 测试并一致地实施系统。
  5. 为客户组织监控服务。

为了清楚起见,我们以流程图的形式介绍此过程。





成长困难


当然,引入这样一个复杂的系统并不能顺利进行,我们遇到了一些困难。

  • 第一点是新部门的成立。 事实证明,要找到在各种监视系统上工作并具有实践经验的高度专业化的专家并不是那么简单。 我们的要求之一是了解作为服务的监视,而不仅仅是作为IT基础结构的组成部分之一。
  • 解决问题的截止日期。
  • 需要在地理上分散的IT基础结构,使其达到统一的标准。
  • 大量不同的监视系统需要组合为一个系统。

监视系统中的监视和报告




社会主义: IT基础设施是会计和控制。 即使是最微不足道的事件,也不应引起任何关注。 目前,我们已经成功建立了报告和控制流程,包括:

  • 报告和跟踪客户组成部分的统计数据;
  • 对我们内部基础架构的“运营状况”进行管理分析;
  • 根据收集的报告计划服务改进。

创建的单个CMDB使我们既可以跟踪整个基础架构,也可以跟踪每个组件的事件的状态和历史。
另外,我们开始监视单个服务的状态,例如备份,即备份任务的正确性。 如果由于某种原因任务失败,系统将记录该事件。 它指示备份服务器,任务本身和虚拟机-知道了这一点,我们可以快速对其进行修复。 此外,通过监视服务,我们可以向客户提供报告。



下面我们提供了Live Technologies报告的屏幕截图。



在下面,您可以查看有关对基础结构的影响程度的,按配置单位类别(KE)分组的事件数量的摘要报告。



监控系统结果


新的监控系统已经在积极运行中,我们准备与您分享其工作结果和我们的观察结果。

目前,我们已经设法完全恢复了对IT-GRAD基础架构的监控,并消除了错误事件的产生。 为客户提供的服务正在测试中,即将推出。 将来,我们计划通过将1cloud和#CloudMTS连接到单个IT-GRAD监控系统来完成基础架构的集成。



以前,触发警报触发时,会在1行支持上生成事件。 值班人员进行处理,并通过电话或电子邮件通知客户。

现在,一切都可以自动进行:触发触发器2分钟后,如有必要,会自动通知客户端。

我们将稍微注意警报的工作方式。



如果IT组件的状态发生更改,则监视系统会将事件注册到数据聚合器中,该事件将通过字母的正文进行处理,并根据警报中指定的组件状态的严重程度,生成具有所需优先级的请求,通知或事件。 此外,系统通过CMDB确定客户KE属于哪个客户,并根据健康模型通过电子邮件或SMS发出警报。 此外,目前,用于警报的特殊电报机器人正在定稿阶段,不久将对所有客户开放。



现在,作为监视和控制服务过程的一部分,我们正在实时监视工作IT环境的“运行状况”,并自动通知外部和内部用户。 监视IT基础架构和服务的状态以及所收集的数据,可以使您在出现问题之前采取主动行动。

如您所见,构建监视系统的过程充满了陷阱。 但是,我们确信,由于我们的工程师和分析师的共同努力,我们获得了一款出色的产品,可以立即解决两个业务问题:它为我们提供了高质量的监控,并允许我们将监控作为服务提供给客户。

Source: https://habr.com/ru/post/zh-CN479058/


All Articles