采矿监控系统

一家大型采矿公司提出了一项有趣的任务:许多站点都配备了IT系统。 他们位于城市和存款中。 这些是数十个地区办事处以及采矿企业。 针叶林500公里,无路可走! 在每个设施中,都需要将设备“折叠”到一个通用的基础架构中,并确定其在什么条件下工作。

这里需要的不仅是网络上所有设备的技术清单(序列号,软件版本等),而是一个完整的监控系统。 怎么了 为了识别事故的根本原因并及时进行警告,建立网络地图,绘制设备之间的连接,监视熨斗和通讯通道的状态,发出有关如何退出支持或打开新的不明设备的警告,等等。此外,还需要集成使用CMDB(考虑配置单元),以便将监视系统“找到的”所有铁与在特定分支中注册的内容(即实际上在网络中)进行比较。

另一个监视系统需要与星号电话成为“朋友”,以便后者
万一发生紧急情况,例如在克拉斯诺亚尔斯克(Krasnoyarsk)停电时,它会自动迅速致电责任人员。 还有一项任务是区分监视对象的可见性和用户组的权限。 操作员只能照看设备,莫斯科-莫斯科,只有现场工程师。

客户在多个监视系统之间进行选择:1)共享软件产品; 2)一种商业解决方案; 3)Infosim StableNet系统。 作为测试的结果,共享软件产品的缺点对客户显而易见:配置冗长且困难,加上它没有所需的功能量(例如,在同一部分中,在网络上的设备之间呈现连接)。 开箱即用,他不知道如何执行此操作,但是对于插件而言,事实如此。 商业产品没有分布式监视代理程序-它们安装在特定站点上,并且仅控制其“布什”。 因此,我们在Infosima停留-他关闭了所有心愿单。 这就是为什么。

这是InfoSim StableNet管理员主屏幕的外观(这不是采矿项目,而是测试基础结构)。

显示当前网络状态的主屏幕:



控制面板在左侧可见,我们可以在其中配置系统并显示所需的统计信息。 例如,使用“分析器”按钮可以显示我们收集的任何参数的统计信息,特别是特定铁片在一个小时内的往返时间。



“清单”按钮显示系统中每个设备的监视对象,邻居,MAC表的清单数据。 极其方便:通过序列号,设备类型,操作系统版本等在网络中查找任何设备参数的过程变得非常容易。



例如,当在针叶林的某个地方很远的地方,本地员工安装了一个新的交换机却没有告诉任何人时,它立即在系统中变得可见。 该设备属于“新设备”设备树中的特殊分支,并自动进入CMDB。



不仅为串行模型和模型轮询监视对象,而且还为加载内存,接口等轮询监视对象。支持许多供应商,尤其是服务器,存储,电信设备,最终用户机器。 如果缺少某些东西,则客户直接写信给我们或卖方,并添加新的铁片。 一切都很简单。



该系统与MS Active Directory和RADIUS服务器集成在一起,用于常规授权和组策略的应用。 系统架构如下所示:


中央服务器负责处理和显示从硬件收集的统计信息。

第二个重要组成部分是负责询问设备和检查铁可用性的代理。 可以有多个代理(远程软件),我们有一个地理分布的主题,每个站点都有一个代理。 为了避免将原始遥测流量传送到上级组织,这是必要的-客户拥有大量通过昂贵的卫星频道连接的站点,因此仅发送测量结果。 还有一个数据库来存储所收集的所有内容。

如果远程站点不可用,则即使没有访问中央服务器,现场员工也可以直接连接到代理并查看其网络“连接”的状态。

代理可以是运行RedHat,CentOS,Ubuntu,Windows Server(用于大型平台)的x64 / x86服务器,也可以是基于小型ARM计算机(如Raspberry PI)的微型代理(用于小型平台)。 我们不使用铁ping来加载该信道,代理会这样做,并且它已经聚合了具有统计信息的数据包。



我们还可以消除延迟,抖动,思科设备(IP SLA)和华为(NQA)的抖动变化。 因此,如果将来客户添加其他熨斗,公司将不会有任何问题-我们还可以帮助测量渠道质量指标,进行综合测试以及对代理商之间的沟通渠道进行负载测试。



监控系统能够接收系统日志消息,铁的SNMP陷阱,对其进行过滤并生成警报消息。 它会自动在L2和L3级别构建拓扑,并在此基础上自动配置紧急情况的相关性(根本原因分析)。 这非常酷,因为它可以让管理员知道事故的根本原因,从而减少了解决问题所需的时间。 例如,如果在五个开关的链中,一个在中间断开,则我们将收到一条消息,指出第三个开关(根本原因)已经断开,因此第四和第五个开关不可访问。



该解决方案开箱即用,但过程可以定制。 因此,例如,为了方便我们的技术支持工作,我们“添加了”不间断电源的状态和电源状态:如果站点的电源已关闭,则将得到30条警报,而不是30条警报。 根据拓扑,用户和规则进行关联。

设备有一组配置,您不仅可以被动轮询硬件,还可以在交换机上推出类似设置的配置。 在40台交换机上注册vlan或ntp? 容易!



该系统允许客户按计划备份设备配置也很酷:每天或在活动期间收集一次配置(例如,有关配置更改的消息-您可以设置一个任务,该任务将在事件发生时确定并收集更改的配置)。 斜坡和紧急事件也是如此。 这将大大有助于“汇报”和寻找配置更改的主要根源。 另外,实际上,将创建网络上所有设备配置的最新数据库。

有一个用于集成的API。 在我们的项目中,进行了与CMDB 1C的监视集成:ITIL企业信息技术管理,用于存储有关设备(有形资产)的所有信息。 系统在检测到未核算的设备时将调查信息与资产中的内容进行比较,系统会说:“这是一个难以理解的开关。” 找出它们是什么,它们会阻塞所有必填字段-安装位置,名称等。序列号,名称,部件号和固件版本可从硬件获得。 接下来,发送任务以进行监视-系统中铁片的名称已更改,已在位置树中设置为正确的位置,根据铁片的类型应用了监视设置(例如,应比其他装置更频繁地询问边界设备),更改设备本身的主机名,依此类推d。

实地过程


首先,我们建立了与AD的集成。 这使我们在实施以及后续操作中的工作变得更加轻松。 无需每次都为用户创建和删除帐户。 系统将自动接收来自AD的所有活动帐户。 如果突然有人退出,则系统本身会在家里停用此帐户,其他任何人都无法输入。

对于管理员和中层管理人员来说,一项紧迫的任务是获取大量报告。 在发布过程中,配置了有关通道利用率和可访问性的报告,站点上腺体的可用性,紧急情况的报告,特定类型的事故,操作系统版本的报告,设备配置更改的报告等。





可以HTML格式查看报告,以期望的频率(一天,一周,一个月等)以PDF和XLSX格式通过邮件接收报告。 对于不同的报告,设置了它自己的频率和报告消费者的个人目标。

该系统还具有灵活性,可以在紧急情况下通知并执行自定义操作,可以发送电子邮件,SMS消息(使用外部SMS网关),以及编写将要启动的自己的脚本。 例如,我们在云监控服务中创建了Telegram机器人,该机器人将操作情况通知我们运营服务中负责的员工。 也可以查询各种参数:“ CPU,10.1.1.100”返回“ 95%”,但是在移动应用程序的支持下,尽管方便,但这似乎有点多余。

接下来,我们编写了与电话交换机集成的脚本。 现在,当出现超临界情况(关键站点或数据中心的电源故障)时,系统会打电话给移动电话上的负责人,并以Siri之类的声音说:“这样的物体上的电压低于临界水平。” 这非常简单:事故是在电话交换机上的特定文件夹中复制的,由电话服务在该文件夹中进行处理-您只需要预先指定自动呼叫的号码即可。 实际上,如果发生事故,我们会自动通知负责的管理员或管理人员。 换句话说,他们代替了应召唤并报告事故的人员。

用户和腺体非常方便的搜索功能。 用户打电话说:“我的网络无法正常工作。” 通过其IP地址,您可以立即看到它的连接位置(哪个交换机,哪个端口,哪个罂粟)以及它的连接位置:



您可以构建不同类型的图形拓扑,从而使工程师的工作更加轻松。 例如,您需要查看我们在哪里进行某种切换。 很简单:他们在正确的分支中找到了它(或使用搜索)并打开了它的邻居。 支持多个级别的邻居(第一个级别是直接邻居,第二个级别是邻居的邻居,等等)。 您会立即看到我们的交换机在拓扑中的位置,哪些端口及其连接的位置,端口上有哪些罂粟地址。 或查看协议映射OSPF,BGP,EIGRP,STP,PIM,MPLS-系统将自行处理和绘制所有这些内容。



或直观地看到网络在其中一个站点上的“感觉”。 为方便起见,我们划分了WAN和LAN站点的部分,并用单独的卡绘制它们。 所有指示器和链接都是交互式的。 将鼠标悬停在它们上方时,您可以看到当前状态并落入任何特定设备中。 我还要提请注意以下事实:由工程师本人绘制的Microsoft Visio方案被用作此类报告的基础。 他多次将此方案看作是纸上或屏幕上的静态图片。 现在,它“栩栩如生”并提供实时反馈。 很舒服



根据客户的要求,对用户访问权限进行了划界。 角色很多,但可以灵活配置。 考虑到对象之间时区的差异,角色工作时间的功能非常有用:什么时间,什么事故,给谁发短信等等。

InfoSim StableNet收集事件统计信息。 根据我们的经验,在这种情况下,计划的工作存在问题-它们破坏了报告并引起了不必要的担心。 在这里可以注意到,这里到处都是工作:然后警报将以静默模式运行,并且报告将以不同的颜色指示该停机时间是计划的。 是的,计划的活动不会追溯宣布。



如果开箱即用的机会不足,则可以创建自写模板。 例如,该项目上有Motorola接入点。 没有适合他们的现成模板。 使用内置的“向导”,我们创建了模板并监视了客户想要查看的参数(信号级别,信噪比)。

在另一种情况下,系统“不了解”一家俄罗斯制造商,并显示了制造商代码而不是名称。 对于这种情况,系统具有允许您在几秒钟内添加新供应商和硬件型号的功能。

以下是监视系统当前允许客户执行的功能列表:

  1. 使用ICMP ping监视可用性。
  2. 使用SNMP收集信息。
  3. 扫描子网以查找新硬件。
  4. 定期发送报告。
  5. 实施备份配置。
  6. 分析可用性。
  7. 关于设备不可用或超出正常范围的指示器输出“发出警报”。
  8. 脚本SNMP陷阱可作为触发器,系统日志数据和任何输入。
  9. 与AD集成。
  10. 自动检测设备连接性(CDP,LLDP,L3邻居),并基于此自动绘制网络图。
  11. 创建“天气图”以可视化网络的状态,并具有使用图形底物的能力。
  12. 创建工作屏幕(仪表板)以显示有关网络和设备状态的操作信息。
  13. 进行设备清单(设备类型,制造商,型号,软件版本,EoS / EoL日期到来等)
  14. 有一个REST API可与CMDB 1C和其他外部系统进行深度集成。
  15. 从监视系统执行设备的组配置。
  16. 检查设备配置以了解公司政策

参考文献


- 一线支援自行车。
- 矿床的沟通渠道。
-我的邮件:DDrozhzhin@croc.ru

Source: https://habr.com/ru/post/zh-CN415621/


All Articles