创业增长问题-监控



时间因素-订单,工作,协议的及时执行-在业务中很重要。 客户和合作伙伴期望可预测的耗时协作。 在传统的业务中,这受员工的工作,供应商的行为,公司的地理位置,设备状况等等的影响。 找到并控制所有这一切都是艰巨的任务。

更清楚一点,一切都在IT领域。 流程的很大一部分可以自动化并委托给程序或脚本。 更好的是,如果将产品实现为Web服务,则主要课程是支持产品的可用性和开发。

我们公司的主要产品之一是网络服务。 一切始于实施两个人的想法,然后公司发展壮大:PM(又名Web程序员),数据库程序员,系统管理员(几乎没有开发人员经验),测试人员以及另外两个涉及销售和SEO的人员。 该系统被实现为网络界面和相关的数据库。 使用该服务涉及存入和提取以“虚拟货币”存储的资金。 为了安全起见,Web服务器和数据库均部署在其服务器上。

由于服务与金钱有关,因此用户对系统的信任程度很重要。 首先,这是安全性和保护系统免受黑客攻击的问题。 但是,普通客户(尤其是不熟悉IT,安全协议和加密的复杂技术)很难评估系统安全级别。 如果没有发生负面情况(黑客入侵),则看不到该工作。

该系统对客户端的可访问性更加明显:如果用户向虚拟帐户转移了一定金额,然后多次无法登录到该站点,则系统的信誉将受到损害,客户端可能会丢失(有时一次丢失多个客户端-负数迅速蔓延)。 而且涉及困难的用户遇到错误,而不是网站的主页,也不太可能返回。

了解这一问题的严重性并没有马上到来。 首先,用户数量少,服务器和通道容量丰富,因此“崩溃”很少。 此外,为了优化起见,经常会首先对功能进行测试和完善,而开发人员本人则负责在工作时间内监视与该服务关联的服务器。 下班时间的用户数量相对较少-那时几乎没有其他时区的客户。



服务的主要部分逐渐完成。 改进很小,因此开发人员的主要注意力转移到了另一个项目上。 除了他的其他职责外,系统控制的职责还委派给系统管理员。 服务器崩溃时,通知会通过电子邮件和SMS发送给管理员。 当时的这些措施似乎已经足够。

该产品开始蓬勃发展,用户数量增加。 新的想法产生了,有些立即被实施,有些被推迟到将来。 该服务被翻译成其他语言,并逐渐进入新市场,这尤其导致了夜间用户数量的增加。 尽管服务器负载还远远没有达到铁的技术极限,但服务器负载却在逐渐增加。

一旦平静就结束了。 在星期五晚上到星期六晚上,用户开始在访问网站主页时遇到问题,通常会遇到错误503。问题很简单,但是,应该的是,星期五晚上管理员不可用,因此SMS仍未阅读。 尽管如此,该问题还是相对轻松地解决了。 开发人员还收到了一条SMS,并且能够接通并唤醒管理员,并在3个小时后解决了该问题。 总的“停机时间”为5小时。



星期一,对发生的情况进行了汇报。 对站点流量数据的分析显示出令人不快的景象-在“有问题的”星期五,流量比去年下降了三分之一,但周六和周日的大幅下降更令人不快,尽管这些天没有出现技术问题,流量还是下降了15%。

这加深了对全天候监控需求的理解。 从软件的角度来看,我们选择了Zabbix ,它是由系统管理员安装和配置的。 大约花了一个星期的时间-其余任务什么都没做,所有事情都是并行进行的。 有一个组织上的问题-谁来监督?



首先,我必须做出这样的决定-改变(了解这一点的人-系统管理员和开发人员)现有员工的工作时间,以便在晚上一个人一个人控制服务器。
这是一个强制性的决定,并没有持续很长时间。 首先,两个人的工作仍然无法提供全天候的控制-在时间上也有可能出现故障。 其次,很少有人喜欢在晚上工作,并且不满情绪也增加了,而且,程序员的分心几乎停止了开发本身。 因此,一周后,他们放弃了这个主意,开始进一步思考。

雇用更多员工进行监控

当然,这样的决定是最妥协的-对选定人员的持续控制会产生良好的结果。 但是,以这种方式工作将需要再搜索3位系统管理员。 而且,他们应该有足够的资格来解决问题,但是他们的大部分时间还是会浪费掉的-公司规模很小,服务器很少,几乎没有东西可占用它们。 此外,还需要控制很多人,这将是另外一个令人头疼的问题。



两种选择均无效。 无法集中精力和手段。 但是监控的需求并没有消失。 这是增长的问题之一-我们无法独自实现需求。 作为解决方案,外包了。

在过渡期间,人们产生了疑问,主要的疑问是可以提供给他人的信息的安全性和机密性以及服务的质量,相反,情况不会恶化吗? 但这只是找到负责任的执行人并签署保密协议的问题。

因此,我们继续前进,从技术方面来讲,这并不困难。 一个月后,我们决定检查运行情况-通过检查服务器上的日志。 我们对结果感到满意-在一个月中,发生了三起严重故障,有可能再次“投放”服务器,但是合作伙伴在半小时内解决了问题。 此外,所有故障均发生在从早上一点到早上四点的间隔内-受影响产品的地域逐渐增长。

我们的系统管理员的工作已经改变,并且变得更加轻松。 不受监视的影响,他专注于DevOps。 我们集中精力,加快发展。 事实证明,多亏了我们的合作伙伴 ,才推迟了很长时间。

Source: https://habr.com/ru/post/zh-CN436914/


All Articles