我们如何使用Zabbix零售监控系统

诸如Zabbix之类的监控系统对于老练用户而言并不奇怪。 但是,在零售中,它们不是常客,如果使用,则越来越多地用于服务器控制。 我们走得更远,用它们来监视收银机软件和设备。



为什么在零售业中很少发现监视系统


这里的一切都是完全透明的:零售商和服务公司很少使用监视系统,因为很难评估其经济效率。 随着业务流程的引入,一切变得很简单-X钱和X努力。 但是,要计算出他们将来能为零售商节省多少费用,就变得更加困难。

服务承包商通常也不会实施监视系统,因为它们不会降低工作的重要性。 这是合乎逻辑的:Zabbix允许您在客户端发现问题之前就确定问题。 一方面,这提高了所提供服务的质量。 另一方面,客户有时会误以为他的业务流程组织得很好,并且在没有任何外部帮助的情况下仍能正常工作。 但这可以通过按时提供报告来解决。

但是,即使是那些同意实施监视系统的零售商,通常也要最终控制服务器,办公计算机,不间断电源和活动网络设备。 我们也这样做:

  • 从服务器中,我们获得有关处理器利用率,风扇,硬盘驱动器,内存,处理器和主板温度的数据;

  • 来自不间断电源-状态,充电水平,有关停电情况下将工作多少时间的信息;

  • 来自网络设备-端口上的流量,资源利用。

作为收到的信息的一部分,将在服务台中进行自动请求。 其他许多数据也可以帮助我们调查事件。 典型示例:用户抱怨自己的计算机运行缓慢。 如果没有监控系统,就很难跟踪-无论是工程师连接一切正常,还是员工有主观的印象(他的工作能力差的PC在客观上要比家用的豪华游戏计算机慢)。 因此,我们正在研究回顾性图表,用于观察一个人观察问题的时间。

但是以上所有都是司空见惯的,没有什么新鲜的。 碰巧的是,我们走得更远,并在Zabbix的帮助下开始监视收银机软件和收银机设备的性能。 我们为大型国际零售商提供服务,这些零售商在俄罗斯市场的食品和非食品领域都有广泛的代表。 另外,我们的区域监控系统已被一些区域网络公司收购,他们现在可以独立控制其业务流程的绩效。

我们为什么开始这样做?


坦白地说,该监控系统是在飞行员中自发实施的,没有任何项目和部分内容。 如果对此做出决定,那么我们也许会沿着其他服务承包商的道路前进,并且不会打扰。 但是,我们已经开始引进线性员工-工程师。 面对收银机设备或软件故障的特定故障,他们正在寻找将来如何防止这种情况的发生。 他们提出了监视系统的想法。

有了它,我们可以获得解决问题的三种选择:

  • 预防性-在问题发生之前解决问题。 例如,当监视硬盘时,我们发现硬盘上的空间已减小到临界水平。 我们正在这方面采取措施;

  • 之后-我们在问题发生后解决了问题。 例如,处理器上的风扇发生故障。 处理器仍在预热,但正在运行。 当然,迟早会失败,但是到目前为止,我们仍有机会更换风扇。 也就是说,用户尚未注意到事件,但他已经注意到了。 从他的角度来看,我们会主动解决问题,但从设备的角度来看-事后;

  • 从分析上讲-回顾事件分析,我们可以获得大量数据。




当然,我们的监控系统并不总会影响所有收银机。 拿条形码扫描仪。 他们要么工作要么不工作。 在第二种情况下,商店员工将比监控系统更快地向我们报告问题。 因此,我们专注于POS终端收银机(CCP)的控制

CCT健康监测


CCP通过驱动程序提供足够的信息,使您可以判断其性能。 例如:

  • 各种库存数据-硬件版本,固件,驱动程序,序列号。 通常,服务中设备的组成固定在合同的附件中,并存储在CMDB中,但是,客户可以随意移动和更换设备。 当然,他并不总是记得,最好将此事通知服务公司。 这是监视系统进行救援的地方,该系统跟踪设备配置的变化。 我们编写了一个集成模块,该模块根据来自Zabbix的库存数据来更正CMDB。 除了跟踪服务设施中设备的实际配置外,它还结合监视系统的自动检测功能,可以从根本上减少开始新客户盘点的时间(如果合同规定了此类工作)。


案例研究:许多人可能还记得2017年12月KKT一家制造商的固件中有错误的情况? 关于该问题的第一笔信息一出现,我们便在Zabbix中设置了一个触发器,以信号通知包含该错误的固件版本,并获得需要紧急解决的CCP列表。

  • CCP状态代码是一个极好的参数,可让您跟踪几乎所有故障,从错误的设置时间或打印机头过热到财务驱动器上存在未发送的财务数据。

现金软件控制


作为现金计划控制的一部分,我们监视各种迹象:

  • 服务的可服务性-是否打开软件,是否打开某些网络端口或正在等待连接;

  • 日志中的条目-通常,软件将有关遇到的问题写入日志,并生成一组错误。 作为间接标志,如果日志发生更改,则软件可以运行,如果其中没有新条目,则需要创建一个请求;

  • 实际上,日志条目本身-如果发生错误消息,则触发触发器。 处理后,记录将传输到ELK:Logstash日志通过Zabbix API刮掉;

  • 下载,转换和发送数据的集成软件的结果(例如,将信息传输到EGAIS,OFD,接收各种商品)。 因此,最近使用格式命名不正确的数据包禁用了自动付款终端的软件,使他们在我们客户的一家商店中的工作瘫痪了。 由于有了监控系统,我们得以及时定位问题;

  • 软件和驱动程序版本-有时会出现以下情况:例如,两个程序的版本不兼容,但要使现金软件正常工作,它们需要进行交互;

  • 数据库-我们监视服务的可服务性,网络端口的可用性,数据库的数量,其版本以及关闭的数据库的数量;

  • 外部服务(例如EGAIS,我们通过IP网络以自动模式与之交互)。




最常进入监控系统的问题


Zabbix通常会向我们发出有关网络问题的信号:设备无法访问,响应时间过长。 此外,在资源利用方面存在困难:低功率PC通常用于收银机。 第三大常见问题是来自外部系统的数据的有效性。

通常,会出现有关当地时间不正确的消息。 现金PC通常不进入AD,而ntp服务则必须在那里单独配置,有时会被遗忘。 结帐时间错误会给商店造成重大问题:例如,在禁酒时卖酒会导致罚款或失去执照。

欺诈和停机


偶然地,Zabbix证明是非常有用的另一个活动领域是与欺诈的斗争。 发生这种情况的是,区域承包商或单独支付费用的现场工程师与客户用户串谋,解决了实际上不存在的问题。 通过分析监控系统的指示,我们可以将它们带到干净的水中。 尽管这是手动完成的,但是当某个位置记录了可疑的活动激增时,但是我们正在努力在所有可能的情况下,使用Zabbix读数自动验证应用程序。

现在,从我们的监控系统接收15%到25%的应用程序。 这是一个很小的数目,但是到今年年底,我们希望将与我们签订服务协议的客户的费用提高到50%。

Source: https://habr.com/ru/post/zh-CN442044/


All Articles