“希望是一个坏策略。” 2月3-5日在莫斯科进行SRE密集

我们宣布了俄罗斯的第一门SRE实践课程: Slurm SRE


我们将在三天内努力建设,破坏,修复和改进用于销售电影票的站点聚合器。



我们之所以选择票务汇总器,是因为它有很多拒绝的场景:大量游客涌入和DDoS攻击,许多关键微服务之一(授权,预订,付款处理)的崩溃,众多电影院之一的不可访问性(有关可用座位和预订的数据交换),再往下走


我们将制定聚合器站点的可靠性概念,并在工程中继续使用,我们将从SRE的角度分析设计,选择指标,建立监控,消除可能出现的事件,对团队工作进行培训,并在接近战斗的情况下进行事件通报,组织汇报。


该程序由Booking.com和Google运行。
这次将没有远程参与:该课程以个人互动和团队合作为基础。


细节剪下


讲者


伊万·克鲁格洛夫(Ivan Kruglov)
Booking.com(荷兰)的首席开发人员
自2013年加入Booking.com以来,他从事诸如分布式交付和消息处理,BigData和Web堆栈,搜索等基础架构项目的工作。
现在,他从事构建内部云和服务网格的问题。


本·泰勒
Booking.com(美国)的首席开发人员
从事Booking.com平台的内部开发。
专门从事服务网格/服务发现,批处理作业计划,事件响应和事后处理。
讲和讲俄语。


叶夫根尼(Evgeny Varavva)
Google Wide Profile开发人员(旧金山)。
从高负载的Web项目到计算机视觉和机器人技术研究的工作经验。
自2011年以来,他一直在Google从事分布式系统的开发和运营,参与了该项目的整个生命周期:概念化,设计和架构,启动,最小化以及所有中间阶段。


爱德华·梅德韦杰夫
Tungsten Labs(德国)首席技术官
他曾在StackStorm担任工程师,负责平台的ChatOps功能。 在数据中心自动化中开发和实施ChatOps。 在俄罗斯和国际会议上演讲。


程序


该程序正在积极开发中。 现在看起来像这样,到2月它可以改善和扩展。


主题1:SRE的基本原理和方法


  • 成为SRE需要什么?
  • DevOps和SRE
  • 为什么开发人员欣赏SRE并在不在项目中时感到非常难过
  • SLI,SLO和SLA
  • 错误预算及其在SRE中的作用

主题编号2:分布式系统的设计


  • 应用架构和功能
  • 非抽象大型系统设计
  • 可操作性/故障设计
  • gRPC或REST
  • 版本控制和向后兼容性

主题№3:如何接受SRE项目


  • SRE的最佳做法
  • 项目入学清单
  • 记录,指标,跟踪
  • 自己掌握CI / CD

主题№4:设计和发布分布式系统


  • 逆向工程-系统如何工作?
  • 我们协调SLI和SLO
  • 能力规划实践
  • 启动应用程序的流量,我们的用户开始“使用它”
  • 发射Prometheus,Grafana,Elastic

主题5:监控,可观察性和警报


  • 监控与 可观察性
  • 使用Prometheus设置监视和警报
  • 实际监视SLI和SLO
  • 症状与 原因
  • 黑匣子vs. 白盒监控
  • 分布式应用程序和服务器可用性监视
  • 4个金信号(异常检测)

主题№6:测试系统可靠性的实践


  • 在压力下工作
  • 失败注入
  • 混沌猴子

主题7:练习事件响应


  • 压力管理算法
  • 事件参与者之间的互动
  • 验尸
  • 知识共享
  • 文化形成
  • 故障监控
  • 进行无责的汇报

主题8:负载管理实践


  • 负载均衡
  • 应用程序容错:重试,超时,故障注入,断路器
  • DDoS(创建负载)+级联失败

主题9:事件响应


  • 汇报
  • 随叫随到
  • 不同类型的故障(测试,配置更改,硬件故障)
  • 事件管理协议

主题№10:诊断与解决问题


  • 记录中
  • 侦错
  • 我们应用程序的分析和调试实践

主题№11:测试系统的可靠性


  • 负载测试
  • 配置测试
  • 性能测试
  • 金丝雀释放

主题№12:独立工作与回顾


对参与者的建议和要求


SRE-团队合作精神。 我们强烈建议整个团队参加该课程。 因此,我们为现成的团队提供大幅折扣。


课程价格为每人60 000₽。
如果公司派出5人以上的团体-40 000英镑。


该课程基于Kubernetes构建。 要通过考试,您需要基本了解Kubernetes。 如果您不与他合作,则可以阅读Slurm Basic( 在线11月18日至20日集中学习 )。
此外,您需要掌握Linux的良好命令,了解Gitlab和Prometheus。


报名


例如,如果您有一个困难的想法要参加,例如让首席执行官,技术总监和开发团队参加该课程,并且他们将在考虑垂直管理的基础上进行练习,请给我写信。

Source: https://habr.com/ru/post/zh-CN473032/


All Articles