Kubernetes Intensive:支持工作

2月1-3日将是Slurm-3,重点是Kubernetes。 公告和程序在这里。


今天,我将向您简要介绍一下内部厨房:我们如何帮助学生应对这种做法以及它的作用。 同时,未来的参与者将了解支持的期望。



我本人每年参加2至3次有偿课程,我总是通过实践来选择,很少能做到这一点。 对我来说,情况似乎就像我在一家餐馆订购了一公斤牛排:我吃得尽可能多,其余的都放在盘子上。 但是在那些去Slurm的人中,我想塞满整个部分。


他们说,在第一届Slorme比赛中,我们对练习保持了冷静的反应,我们给他们分配任务,而参与者则尽力而为。 如果听众中没有任何主动性和才华横溢的人,那么这将导致灾难:“ 15分钟前,我在闲谈中写了一个问题,我已经自己解决了这个问题,并帮助了五个人。”


因此,在第二个Slörm中,除了三位发言人外,还有十几名支持人员与学生一起工作:南桥团队的系统管理员。


实践的问题在哪里?


自己动手做自己。 一个人可以做演练:“复制配置,启动剧本,瞧,您的集群已经准备好了。” 这将非常快,非常简单并且非常没有意义。 我们采用了艰苦的方法:要完成任务,您需要了解主题并手动修复配置,设置等。


雪球 所有主题和任务都相互关联。 如果第一天没有部署群集,第二天将无法滚动应用程序。 最重要,最复杂的话题是Ceph。


锡和法卡普


Ceph是一个关键而复杂的主题,没有它,您将无法继续前进,因此,以破坏性方式大量插入Ceph的行为可与fakap媲美。 然后用骨头放置支撑物。


幻灯片上的错误。 我们都是人类,说话者也是。 幻灯片上有错误,这意味着所有87位学生都将在聊天中写信,因为对他们没有任何帮助。


广播故障。 我们从提供商那里购买了专用频道,并保留了扩音器的备用频道,但是根据卑鄙的法律,这并没有节省。 在Slurm的第一天,一家主要的骨干网提供商倒闭了,该频道通过它进入了Facecast广播服务。 我们在YouTube上开始播放广播,但在此期间,全日制学生的演讲者向前奔跑,而落后的在线学生则引起了丑闻,甚至连上课中断的情况都包括在内。 第二天,Facecast更改了提供商的连接方案,但并非所有用户都立即获得了一个好的系统。 整个愤慨浪潮都落在了我们的支持上。


(由于供应商下落而导致的问题得以解决:他们停止上课,等待满负荷的工作,并重复所有错过的材料。我们不得不忍受第二天的滞后)。


所以,学生寻求帮助


支持人员应选择一种行为方式:
-让学生独立进行故障排除;
-找到学生的错误并加以解释;
-为学生准备一个练习阶段。


存在无法检测到的错误:本着这种精神,错误的登录名,字母I代替L(大号I代替小L)。


如果有fakap,则会在支撑线上建立一条线。 不可能一次一次地仔细帮助五个麻烦。


但是时间压力很严重:在当天的技术支持内部交谈中,收到了数千封邮件。 午夜后关闭了支持服务,并在凌晨6点开始工作(幸运的是,支持和学生分散在不同的时区)。


因此,有时参与者没有进行解析,而是得到了一个答案:“我纠正了所有问题,现在您的集群正在按预期工作,继续前进。” 是的,“自己动手做”已被水煮,但有可能避免雪球。


简单的小欢乐


支持团队通过聊天和特殊形式收集了问题,进行了排序,回答并向演讲者发送了难题。 因此,没有悬而未决的问题。



事实证明,在线参与者在广播和控制台之间切换并不方便,而且我们没有带命令的文本文件,只有演讲者的笔记本电脑上的演示文稿。 因此,坐在大厅中的支架之一拨出了指令并将其从幻灯片发送到电报。


通常,十几位辛勤的工作人员站在有声有色的演讲者后面,在此之后,绝大多数参与者都结束了练习。 幸运的是,南桥从事基础设施支持,每个人都可以为我们提供帮助。


Slurm-3会比Slurm-2更好


在Slerm-2上自发完成的工作,我们进行了系统化和优化:
-我们会为每个支持小组设立支持小组,以便学生亲自了解他们的支持小组;
-编写典型错误和解决方案的数据库;
-准备快捷方式“如果您还没有掌握练习,但想继续前进”;
-准备参与者的备忘录,其中包含有关工作场所的组织以及与支持人员互动的说明。


Slurm-3:启动Kubernetes集群

Source: https://habr.com/ru/post/zh-CN433922/


All Articles