⏹️ ▪️ 👩‍🏭 如何控制您的网络基础架构。第一章留存率 ⬇️ 👨🏼‍🔬 👨🏿‍🎨

本文是标题为“如何控制网络基础结构”的系列文章中的第一篇。 该系列中所有文章的内容和链接都可以在这里找到 。

我完全承认，有足够多的公司使用一个小时甚至一天的简单网络并不是很关键。不幸或幸运的是，我没有机会在这样的地方工作。但是，当然，网络是不同的，要求是不同的，方法是不同的，但是，以一种或另一种形式，下面的列表在许多情况下实际上是“必须要做的”。

因此，初始条件。

您正在一个新的工作场所或获得晋升，或者决定重新审视自己的职责。公司网络是您的责任范围。对您来说，这在很大程度上是一项挑战，也是一项新挑战，这在一定程度上证明了本文的指导语:)。但是，我希望本文对任何网络工程师也可以有所帮助。

您的第一个战略目标是学习抵抗熵并保持提供的服务水平。

下面描述的许多任务可以通过各种方式解决。我故意不提技术实施的话题，因为原则上，如何解决特定问题通常并不那么重要，但是如何使用它以及是否使用它就很重要。例如，如果您不看那里并且不响应警报，则对于专业构建的监视系统来说，它几乎没有用。

配套设备

首先，您需要了解最大的风险在哪里。

同样，情况可能有所不同。我承认，例如在某处将是安全问题，在某处是与服务连续性有关的问题，在某处可能是其他问题。为什么不呢

为了明确起见，假设这是服务的连续性（在我工作的所有公司中都是这种情况）。

然后，您需要从设备开始。这是要注意的主题列表：

设备临界等级
关键设备的冗余
支持，许可证

您应该考虑可能的故障，尤其是在关键性分类顶部的设备。通常，可以避免出现双重问题的可能性，否则您的解决方案和支持可能会变得不合理地昂贵，但是对于真正关键的网络元素，其故障会严重影响业务，您应该考虑一下。

例子

假设我们正在谈论数据中心中的根交换机。

由于我们同意服务的连续性是最重要的标准，因此提供此设备的“冗余”是合理的。但这还不是全部。您还必须确定在第一个开关发生故障的情况下，可以忍受多少时间而只剩下一个开关，因为这样可能会损坏它。

重要！ 您不必自己解决此问题。 您必须描述风险，可能的解决方案以及对您的管理层或公司管理层的价值。 他们必须做出决定。

因此，如果考虑到双重故障的可能性很小，原则上可以在一个开关上工作4小时是可以接受的，那么您只需采取适当的支持（将在4小时内更换设备）。

但是存在无法交付的风险。不幸的是，一旦我们发现自己处于这种情况。而不是四个小时，设备用了一个星期！

因此，还需要讨论这种风险，对于您而言，购买另一台交换机（第三台）并将其保留在备用零件中（冷备用）或用于实验室目的可能更正确。

重要！ 列出您所有具有结束日期的支持并将其添加到日历中，以便至少一个月后收到一封信，您应该开始担心扩展支持。

如果您忘记延长支持时间，并且结束后的第二天，您的设备将发生故障，您将无法原谅。

紧急工作

无论网络上发生什么情况，理想情况下，您都应保持对网络设备的访问。

重要！ 您必须具有对所有设备的控制台访问权限，并且该访问权限不应取决于用户数据传输网络（数据）的可操作性。

您还应该预见可能出现的负面情况，并记录必要的措施。该文档的可用性至关重要，因此，它不仅应在部门共享的资源上共享，而且应本地存储在工程师的计算机上。

一定有

打开应用程序以支持供应商或集成商所需的信息
有关如何使用任何设备的信息（控制台，管理）

当然，可以包含任何其他有用的信息，例如，各种设备的升级过程说明和有用的诊断命令。

合作伙伴

现在，您需要评估与合作伙伴相关的风险。通常是

互联网服务提供商和流量交换点（IX）
通讯渠道提供商

您需要问自己什么问题？与设备一样，在紧急情况下必须考虑各种选择。例如，对于Internet服务提供商，它可能类似于：

如果ISP X由于某种原因停止为您提供服务会怎样？
您是否有足够的带宽供其他提供商使用？
连贯性将保持多好的水平？
您的ISP有多独立，并且其中之一发生严重事故会导致其他问题？
您的数据中心有多少个光输入？
如果其中一个输入被完全销毁会怎样？

至于输入，在我的实践中，在两个不同的公司，两个不同的数据中心，挖掘机摧毁了油井，仅凭奇迹，我们的光学系统并未受到影响。这种情况并非罕见。

好吧，当然，您不仅需要提出这些问题，而且，在领导层的支持下，无论如何都需要提供可接受的解决方案。

后备

下一个优先级可以是硬件配置的备份。无论如何，这是非常重要的一点。我不会列出那些您可能会丢失配置的情况，最好进行常规备份而不考虑它。此外，定期备份对于控制更改非常有用。

重要！ 每天进行备份。 要保存的数据不是很多。 早晨，值班工程师（或您）应从系统收到一份报告，该报告应明确指出备份是否成功，如果备份失败，则必须解决问题或创建工单（请参阅网络部门的流程）。

软件版本

是否升级硬件软件的问题尚不清楚。一方面，旧版本是已知的错误和漏洞，但另一方面，新软件首先并不总是那么轻松的升级过程，其次是新的错误和漏洞。

在这里，您需要找到最佳选择。一些明显的建议

仅稳定版本
不过，您不应该使用非常老版本的软件
在任何软件所在的位置标记信息
定期阅读有关软件版本中的漏洞和错误的报告，如果遇到严重问题，则值得考虑进行升级

在此阶段，拥有控制台访问设备，支持信息和升级过程的说明，原则上您已准备好进行此步骤。理想的选择是当您拥有可以检查整个过程的实验室设备时，但是不幸的是，这种情况很少发生。

对于关键设备，您可以联系供应商的支持并提出帮助您升级的请求。

票务系统

现在您可以环顾四周。您需要建立与其他部门以及部门内部的交互过程。

也许这不是强制性的（例如，如果您的公司很小），但是我强烈建议您以所有外部和内部任务都通过票务系统的方式组织工作。

票务系统实质上是您用于内部和外部通信的界面，您必须充分详细地描述此界面。

让我们以打开访问的一项重要且经常遇到的任务为例。我将描述一种在其中一家公司中效果很好的算法。

例子

首先，经常以网络工程师无法理解的语言（即应用程序语言）（例如，“允许我使用1C”）来表达访问客户的需求。

因此，我们从未直接接受过此类用户的请求。
这是第一个要求

访问请求应来自技术部门（在我们的情况下，这些是UNIX，Windows，帮助台工程师）

第二个要求是

此访问必须被记录（由接收此请求的技术部门记录），并且作为请求，我们将获得指向该记录的访问的链接

此要求的形式对我们来说应该是清楚的，即

该请求应包含有关应该打开哪个子网访问以及哪个子网访问应该打开的信息，以及有关协议和（对于tcp / udp而言）端口的信息。

还应该指出

为何打开此访问权限的说明
临时的或永久的（如果是临时的，直到日期）

非常重要的一点是

来自发起访问权限的部门负责人（例如会计）
从技术部门的负责人那里，这个请求是从那里到达网络部门的（例如，服务台）

同时，此访问的“所有者”被认为是发起该访问的部门的负责人（在我们的示例中为簿记），他负责使该部门的登录访问页面保持最新状态。

记录中

这是淹死的东西。但是，如果您想实施一种主动的方法，则需要学习如何处理此数据流。

以下是一些实用建议：

查看您每天需要的日志
在预定的观看时间（而非紧急情况）下，您可以将自己的严重性级别限制为0、1、2，并在认为必要时从其他级别添加自己喜欢的模式
编写脚本来分析日志，并忽略那些其模式已添加到忽略列表的日志

随着时间的推移，该方法将允许您编译对您不感兴趣的日志的忽略列表，而仅保留那些您真正认为重要的日志。
它对我们很有用。

监控方式

当公司没有监控系统时，这种情况并不少见。例如，您可以依靠日志，但是设备可以简单地“死亡”而不必“说”任何东西，否则udp syslog协议包可能会丢失并且无法访问。通常，当然，主动监视非常重要和必要。

我的实践中最需要的两个示例：

监视通信通道，关键链接（例如，连接到提供程序）的负载。它们使您可以主动发现由于流量丢失而导致的服务降级的潜在问题，因此可以避免这种情况。
基于NetFlow的图。它们可以轻松发现流量异常，对于检测某些简单但重要的黑客攻击类型非常有用。

重要！ 设置最重要事件的短信通知。 这适用于监视和日志记录。 如果您没有值班，那么短信也应该在下班后进来。

以不唤醒所有工程师的方式来考虑该过程。为此，我们有一名值班的工程师。

变更控制

我认为没有必要控制所有更改。但是，无论如何，如有必要，您应该能够轻松找到谁以及为什么在网络中进行了这些或其他更改。

一些提示：

使用票证系统详细说明此票证已完成的操作，例如，将应用的配置复制到票证
在网络硬件上使用评论功能（例如，在Juniper上提交评论）。您可以记录票号
使用您的配置备份的差异

您可以通过每天查看所有票证进行更改来输入此过程。

流程

您必须形式化并描述团队中的流程。如果您已经达到了这一点，那么您的团队中至少应该已经执行以下过程：

日常流程：

使用门票
使用日志
变更控制
每日检查表

年度流程：

延长担保，许可证

异步进程：

应对各种紧急情况

第一部分结论

您注意到，所有这些都与网络配置，设计，网络协议，路由或安全性无关。但是这些虽然也许很无聊，但是，当然是网络单元中非常重要的元素。

到目前为止，如您所见，您尚未改善网络上的任何内容。如果存在安全漏洞，那么它们仍然存在；如果存在不良设计，那么它仍然存在。除非您应用网络工程师的技能和知识，否则很可能会花费大量时间，精力，有时甚至是金钱。但是首先您需要创建（或加强）基础，然后进行构建。

以下部分介绍如何查找和修复错误，然后改善基础架构。

当然，没有必要顺序进行所有操作。时间可能很关键。如果资源允许，请并行执行。

和重要的补充。与您的团队进行沟通，询问和咨询。最后，这取决于他们的支持和完成所有这些工作。

如何控制您的网络基础架构。 第一章 留存率