👨🏾‍🔬 👩🏽‍🚀 👨🏽‍🎤 “希望是一个坏策略。” 2月3-5日在莫斯科进行SRE密集 🤰🏼 😏 💛

我们宣布了俄罗斯的第一门SRE实践课程： Slurm SRE 。

我们将在三天内努力建设，破坏，修复和改进用于销售电影票的站点聚合器。

我们之所以选择票务汇总器，是因为它有很多拒绝的场景：大量游客涌入和DDoS攻击，许多关键微服务之一（授权，预订，付款处理）的崩溃，众多电影院之一的不可访问性（有关可用座位和预订的数据交换），再往下走

我们将制定聚合器站点的可靠性概念，并在工程中继续使用，我们将从SRE的角度分析设计，选择指标，建立监控，消除可能出现的事件，对团队工作进行培训，并在接近战斗的情况下进行事件通报，组织汇报。

该程序由Booking.com和Google运行。
这次将没有远程参与：该课程以个人互动和团队合作为基础。

细节剪下

讲者

伊万·克鲁格洛夫（Ivan Kruglov）
Booking.com（荷兰）的首席开发人员
自2013年加入Booking.com以来，他从事诸如分布式交付和消息处理，BigData和Web堆栈，搜索等基础架构项目的工作。
现在，他从事构建内部云和服务网格的问题。

本·泰勒
Booking.com（美国）的首席开发人员
从事Booking.com平台的内部开发。
专门从事服务网格/服务发现，批处理作业计划，事件响应和事后处理。
讲和讲俄语。

叶夫根尼（Evgeny Varavva）
Google Wide Profile开发人员（旧金山）。
从高负载的Web项目到计算机视觉和机器人技术研究的工作经验。
自2011年以来，他一直在Google从事分布式系统的开发和运营，参与了该项目的整个生命周期：概念化，设计和架构，启动，最小化以及所有中间阶段。

爱德华·梅德韦杰夫
Tungsten Labs（德国）首席技术官
他曾在StackStorm担任工程师，负责平台的ChatOps功能。在数据中心自动化中开发和实施ChatOps。在俄罗斯和国际会议上演讲。

程序

该程序正在积极开发中。现在看起来像这样，到2月它可以改善和扩展。

主题1：SRE的基本原理和方法

成为SRE需要什么？
DevOps和SRE
为什么开发人员欣赏SRE并在不在项目中时感到非常难过
SLI，SLO和SLA
错误预算及其在SRE中的作用

主题编号2：分布式系统的设计

应用架构和功能
非抽象大型系统设计
可操作性/故障设计
gRPC或REST
版本控制和向后兼容性

主题№3：如何接受SRE项目

SRE的最佳做法
项目入学清单
记录，指标，跟踪
自己掌握CI / CD

主题№4：设计和发布分布式系统

逆向工程-系统如何工作？
我们协调SLI和SLO
能力规划实践
启动应用程序的流量，我们的用户开始“使用它”
发射Prometheus，Grafana，Elastic

主题5：监控，可观察性和警报

监控与可观察性
使用Prometheus设置监视和警报
实际监视SLI和SLO
症状与原因
黑匣子vs. 白盒监控
分布式应用程序和服务器可用性监视
4个金信号（异常检测）

主题№6：测试系统可靠性的实践

在压力下工作
失败注入
混沌猴子

主题7：练习事件响应

压力管理算法
事件参与者之间的互动
验尸
知识共享
文化形成
故障监控
进行无责的汇报

主题8：负载管理实践

负载均衡
应用程序容错：重试，超时，故障注入，断路器
DDoS（创建负载）+级联失败

主题9：事件响应

汇报
随叫随到
不同类型的故障（测试，配置更改，硬件故障）
事件管理协议

主题№10：诊断与解决问题

记录中
侦错
我们应用程序的分析和调试实践

主题№11：测试系统的可靠性

负载测试
配置测试
性能测试
金丝雀释放

主题№12：独立工作与回顾

对参与者的建议和要求

SRE-团队合作精神。我们强烈建议整个团队参加该课程。因此，我们为现成的团队提供大幅折扣。

课程价格为每人60 000₽。
如果公司派出5人以上的团体-40 000英镑。

该课程基于Kubernetes构建。要通过考试，您需要基本了解Kubernetes。如果您不与他合作，则可以阅读Slurm Basic（在线或11月18日至20日集中学习）。
此外，您需要掌握Linux的良好命令，了解Gitlab和Prometheus。

报名

例如，如果您有一个困难的想法要参加，例如让首席执行官，技术总监和开发团队参加该课程，并且他们将在考虑垂直管理的基础上进行练习，请给我写信。

“希望是一个坏策略。” 2月3-5日在莫斯科进行SRE密集

讲者

程序

对参与者的建议和要求

报名

More articles: