本文的翻译是专门为“ DevOps实践和工具”课程的学生准备的。
对讲机的任务是使在线业务个性化。 但是,当产品无法正常工作时,则无法对其进行个性化设置。 效率对我们业务的成功至关重要,这不仅是因为我们的客户向我们付款,而且还因为我们自己使用
了我们的产品 。 如果我们的服务无法正常工作,那么我们确实会感到客户的痛苦。
正常运行时间取决于许多因素,例如软件体系结构和日常工作质量。 但是,很多时候都可以归结为这样一个事实,一个始终保持联系的人会回答
PagerDuty的呼叫。 此类技术支持可以是功能强大的面向客户的工具,将工程师的协助与客户在购买产品时获得的收益结合在一起。 它还为学习和成长提供了很好的机会,因为最终,失败和错误可能是培养技能和理解复杂工作机制的良好领域。
在工作时间以外始终保持“联系”对您的生活有害。但与此同时,“始终保持联系”状态可能会对您的生活产生不利影响。 您应该准备快速而有能力地响应警报,告知某些故障。 即使在这个特定时刻您没有被寻呼机呼叫,“始终保持联系”的状态也会让人感到焦虑,我本人也从个人经验中知道这一点。 特别是由于这个原因,睡眠质量正在恶化。 在一天中的任何时间定期呆在访问区域中可能会导致倦怠,冷漠,或者总的来说会导致不再有计算机需求。
对讲机上的对讲机状态历史记录
在Intercom成立的第一天,我们的技术总监Kiaran就是整个办公室的全天候技术支持团队,无论是在办公室还是在外部。 随着对讲的发展,成立了一个工作队来帮助Ciaran。 不久之后,新的开发团队开始创建许多新功能和服务,他们已经承担了所有技术支持职责。
在任何时候,都有太多人“联系”。那时,这种方法似乎是理所当然的,因为它是随时扩展技术支持团队的简便方法,既符合我们的价值观,又满足了我们
的主人翁意识 。 结果,没有任何计划,我们有四个或五个团队在下班后定期与客户联系。 其余的开发团队没有很多可能引发错误的困难时刻,因此很少(如果有的话)召集他们。
我们意识到自己处在这样一种情况下,我们拥有无法为之自豪的技术支持机制,并且想要消除许多关键问题,例如:
- 在任何给定时间都有太多人准备接受挑战。 我们的基础架构规模不大,因此至少需要五名开发工程师才能在正常的周末期间工作。
- 团队之间没有协调我们的警报和呼叫程序的质量;我们使用特殊的流程来审查有关问题的新警报和现有警报。 运行手册中的指示(在收到有关问题的通知时应遵循)在没有指示的情况下非常醒目。
- 根据工程师工作的团队,他们会有不同的期望。 例如,只有第一个技术支持团队才能对值班和周末休息进行补偿。
- 事实证明,在不适当的时间对不必要的呼叫有一个普遍的容忍度。
- 最后,这种类型的工作并不适合所有人。 生活情况有时表明,工作转移并不会以最佳方式影响人们。
搜索“始终保持联系”的正确状态
我们决定创建一个新的虚拟团队,在没有工作时间的时候将为每个团队进行技术支持。 该团队将由志愿者组成,而不是组织中任何团队的征兵人员。 虚拟团队中的工程师大约每六个月更换一次,花费数周的时间“保持联系”。 幸运的是,我们没有问题地找到足够的志愿者来组建虚拟团队。
结果,我们的支持团队从30人减少到6或7人。然后,该团队同意并确定了问题警报和说明在运行手册中应是什么样的,并描述了将警报转发给新的支持团队的过程。 他们使用Terraform模块识别了代码中的所有警报,并开始对每次更改使用专家判断。 我们引入了每周轮班的补偿水平,这非常适合值班人员。 我们还创建了一个升级的二级团队,仅由经理组成。 该团队应该是技术支持工程师的唯一上报点。
经过几个月的艰苦努力,我们开始了这一过程,结果,现在没有以前的30名工程师,但只有6或7名工程师保持联系。在工作时间内,团队独立地处理其功能或服务方面的问题。这次通常会导致最多的故障,但是其余时间志愿者会参与技术支持。
我们学到了什么
在我们启动虚拟技术支持团队之后,我们预计会有大量新任务涌入,例如调查问题的原因或解决可能导致故障的任何问题的一般性聚会。 但是,我们的开发团队对导致失败的因素承担全部责任,随后的任何反应通常都是立即采取的措施。 我们还需要避免这种情况,即技术咨询的任务将退还给其所在的团队,以免迫使工程师在下班后进行联系。
外出电话减少到每月少于10个。正式地,我们的升级过程很少使用。 更为普遍的看法是,当前在线的工程师会非正式地帮助工程师,特别是对于我们在旧金山办公室的人。 解决了许多问题,或者通过团队合作并即时解决这些问题,减少了这些问题。
我们旧金山办事处的工程师作为一个整体加入了团队,超出了通常的技术支持范围。 我们面临着有关某些间接费用的问题,但将我们的支持团队成员扩展到几个办公室就已经掌握了,因为事实证明这是建立关系,加强关系并了解我们共同工作的技术体系的一种好方法。
在我们的团队中,对讲机开发人员的工作变得更加一致,我们可以在
Careers网站上自信地谈论系统工程师职位的优势,并指出,如果您自己不想要它,则不必始终保持联系。
除了稳定和扩展我们的数据仓库的基础工作外,对解决问题的持续关注导致了以下事实:下班时间的呼叫次数已减少到每月少于10个。 我们为这个数字感到骄傲。
我们将继续致力于技术支持团队的维护和改进,随着Intercom的发展,我们可能不得不重新考虑我们的决定,因为当下一次员工人数翻倍时,今天行之有效的做法不一定奏效。 但是,这种经验对我们的组织是极为积极的;它极大地改善了开发工程师的生活质量,对挑战的响应质量,尤其是客户的体验。