我们宣布了俄罗斯的第一门SRE实践课程: Slurm SRE 。
我们将在三天内努力建设,破坏,修复和改进用于销售电影票的站点聚合器。

我们之所以选择票务汇总器,是因为它有很多拒绝的场景:大量游客涌入和DDoS攻击,许多关键微服务之一(授权,预订,付款处理)的崩溃,众多电影院之一的不可访问性(有关可用座位和预订的数据交换),再往下走
我们将制定聚合器站点的可靠性概念,并在工程中继续使用,我们将从SRE的角度分析设计,选择指标,建立监控,消除可能出现的事件,对团队工作进行培训,并在接近战斗的情况下进行事件通报,组织汇报。
该程序由Booking.com和Google运行。
这次将没有远程参与:该课程以个人互动和团队合作为基础。
细节剪下
讲者
伊万·克鲁格洛夫(Ivan Kruglov)
Booking.com(荷兰)的首席开发人员
自2013年加入Booking.com以来,他从事诸如分布式交付和消息处理,BigData和Web堆栈,搜索等基础架构项目的工作。
现在,他从事构建内部云和服务网格的问题。
本·泰勒
Booking.com(美国)的首席开发人员
从事Booking.com平台的内部开发。
专门从事服务网格/服务发现,批处理作业计划,事件响应和事后处理。
讲和讲俄语。
叶夫根尼(Evgeny Varavva)
Google Wide Profile开发人员(旧金山)。
从高负载的Web项目到计算机视觉和机器人技术研究的工作经验。
自2011年以来,他一直在Google从事分布式系统的开发和运营,参与了该项目的整个生命周期:概念化,设计和架构,启动,最小化以及所有中间阶段。
爱德华·梅德韦杰夫
Tungsten Labs(德国)首席技术官
他曾在StackStorm担任工程师,负责平台的ChatOps功能。 在数据中心自动化中开发和实施ChatOps。 在俄罗斯和国际会议上演讲。
程序
该程序正在积极开发中。 现在看起来像这样,到2月它可以改善和扩展。
主题1:SRE的基本原理和方法
- 成为SRE需要什么?
- DevOps和SRE
- 为什么开发人员欣赏SRE并在不在项目中时感到非常难过
- SLI,SLO和SLA
- 错误预算及其在SRE中的作用
主题编号2:分布式系统的设计
- 应用架构和功能
- 非抽象大型系统设计
- 可操作性/故障设计
- gRPC或REST
- 版本控制和向后兼容性
主题№3:如何接受SRE项目
- SRE的最佳做法
- 项目入学清单
- 记录,指标,跟踪
- 自己掌握CI / CD
主题№4:设计和发布分布式系统
- 逆向工程-系统如何工作?
- 我们协调SLI和SLO
- 能力规划实践
- 启动应用程序的流量,我们的用户开始“使用它”
- 发射Prometheus,Grafana,Elastic
主题5:监控,可观察性和警报
- 监控与 可观察性
- 使用Prometheus设置监视和警报
- 实际监视SLI和SLO
- 症状与 原因
- 黑匣子vs. 白盒监控
- 分布式应用程序和服务器可用性监视
- 4个金信号(异常检测)
主题№6:测试系统可靠性的实践
主题7:练习事件响应
- 压力管理算法
- 事件参与者之间的互动
- 验尸
- 知识共享
- 文化形成
- 故障监控
- 进行无责的汇报
主题8:负载管理实践
- 负载均衡
- 应用程序容错:重试,超时,故障注入,断路器
- DDoS(创建负载)+级联失败
主题9:事件响应
- 汇报
- 随叫随到
- 不同类型的故障(测试,配置更改,硬件故障)
- 事件管理协议
主题№10:诊断与解决问题
主题№11:测试系统的可靠性
主题№12:独立工作与回顾
对参与者的建议和要求
SRE-团队合作精神。 我们强烈建议整个团队参加该课程。 因此,我们为现成的团队提供大幅折扣。
课程价格为每人60 000₽。
如果公司派出5人以上的团体-40 000英镑。
该课程基于Kubernetes构建。 要通过考试,您需要基本了解Kubernetes。 如果您不与他合作,则可以阅读Slurm Basic( 在线或11月18日至20日集中学习 )。
此外,您需要掌握Linux的良好命令,了解Gitlab和Prometheus。
例如,如果您有一个困难的想法要参加,例如让首席执行官,技术总监和开发团队参加该课程,并且他们将在考虑垂直管理的基础上进行练习,请给我写信。