So übernehmen Sie die Kontrolle über Ihre Netzwerkinfrastruktur. Kapitel Eins Aufbewahrung

Dieser Artikel ist der erste in einer Reihe von Artikeln mit dem Titel „So nehmen Sie die Netzwerkinfrastruktur unter Ihre Kontrolle“. Den Inhalt aller Artikel der Reihe und Links finden Sie hier .

Ich gebe voll und ganz zu, dass es eine ausreichende Anzahl von Unternehmen gibt, in denen ein einfaches Netzwerk von einer Stunde oder sogar einem Tag nicht kritisch ist. Leider oder zum Glück hatte ich keine Gelegenheit, an solchen Orten zu arbeiten. Aber natürlich sind die Netzwerke unterschiedlich, die Anforderungen sind unterschiedlich, die Ansätze sind unterschiedlich, und dennoch wird die folgende Liste in der einen oder anderen Form in vielen Fällen tatsächlich „Mast-Do“ sein.

Also die Ausgangsbedingungen.

Sie befinden sich an einem neuen Arbeitsplatz oder haben eine Beförderung oder Sie beschließen, Ihre Verantwortlichkeiten neu zu betrachten. Das Unternehmensnetzwerk liegt in Ihrem Verantwortungsbereich. Für Sie ist dies größtenteils eine Herausforderung und eine neue, die den Mentoring-Ton dieses Artikels etwas rechtfertigt :). Ich hoffe jedoch, dass der Artikel auch für jeden Netzwerktechniker nützlich sein kann.

Ihr erstes strategisches Ziel ist es, zu lernen, Entropie zu widerstehen und das Serviceniveau aufrechtzuerhalten.

Viele der nachfolgend beschriebenen Aufgaben können auf verschiedene Weise gelöst werden. Ich spreche das Thema der technischen Umsetzung absichtlich nicht an, da Im Prinzip ist es oft nicht so wichtig, wie Sie ein bestimmtes Problem gelöst haben, aber wie Sie es verwenden und ob Sie es überhaupt verwenden, ist wichtig. Es ist beispielsweise für Ihr professionell aufgebautes Überwachungssystem von geringem Nutzen, wenn Sie nicht dorthin schauen und nicht auf Warnungen reagieren.

Ausrüstung


Zuerst müssen Sie verstehen, wo die größten Risiken liegen.

Auch hier könnte es anders sein. Ich gebe zu, dass dies beispielsweise irgendwo Sicherheitsprobleme sein werden und irgendwo Probleme im Zusammenhang mit der Kontinuität des Dienstes und irgendwo vielleicht etwas anderes. Warum nicht?

Nehmen wir zur Sicherheit an, dass dies dennoch eine Kontinuität des Dienstes ist (dies war in allen Unternehmen der Fall, in denen ich gearbeitet habe).

Dann müssen Sie mit der Ausrüstung beginnen. Hier ist eine Liste von Themen, auf die Sie achten sollten:

  • Kritikalitätsklassifizierung von Geräten
  • Redundanz kritischer Geräte
  • Support, Lizenzen

Sie sollten mögliche Ausfälle in Betracht ziehen, insbesondere bei Geräten, die ganz oben in Ihrer Kritikalitätsklassifizierung stehen. Normalerweise wird die Wahrscheinlichkeit von Doppelproblemen vernachlässigt, da sonst Ihre Lösung und Ihr Support unangemessen teuer werden können. Bei wirklich kritischen Netzwerkelementen, deren Ausfall das Geschäft erheblich beeinträchtigen kann, sollten Sie darüber nachdenken.

Beispiel

Angenommen, es handelt sich um einen Root-Switch in einem Rechenzentrum.

Da wir uns einig waren, dass die Kontinuität des Dienstes das wichtigste Kriterium ist, ist es sinnvoll, eine „Redundanz“ dieser Geräte bereitzustellen. Das ist aber noch nicht alles. Sie müssen auch entscheiden, wie viel Zeit es für Sie im Falle eines Ausfalls des ersten Schalters akzeptabel ist, mit nur einem verbleibenden Schalter zu leben, da die Gefahr besteht, dass dieser ausfällt.

Wichtig! Sie müssen dieses Problem nicht selbst beheben. Sie müssen die Risiken, möglichen Lösungen und den Wert für Ihr Management oder Ihre Unternehmensleitung beschreiben. Sie müssen Entscheidungen treffen.

Wenn also entschieden wurde, dass es angesichts der geringen Wahrscheinlichkeit eines doppelten Ausfalls grundsätzlich akzeptabel ist, 4 Stunden an einem Schalter zu arbeiten, können Sie einfach die entsprechende Unterstützung in Anspruch nehmen (für die das Gerät innerhalb von 4 Stunden ausgetauscht wird).

Es besteht jedoch die Gefahr, dass sie nicht geliefert werden. Leider haben wir uns einmal in einer solchen Situation befunden. Anstelle von vier Stunden ging die Ausrüstung für eine Woche !!!

Daher muss dieses Risiko auch besprochen werden. Vielleicht ist es für Sie richtiger, einen anderen Schalter (dritten) zu kaufen und ihn in Ersatzteilen aufzubewahren (kalte Sicherung) oder ihn für Laborzwecke zu verwenden.

Wichtig! Erstellen Sie eine Tabelle aller Unterstützungen, die Sie mit den Enddaten haben, und fügen Sie sie dem Kalender hinzu, sodass Sie mindestens einen Monat später einen Brief erhalten, in dem Sie sich Gedanken über die Erweiterung der Unterstützung machen sollten.

Sie werden nicht vergeben, wenn Sie vergessen, den Support zu verlängern, und am Tag nach dessen Ende wird Ihre Ausrüstung ausfallen.

Notarbeit


Was auch immer in Ihrem Netzwerk passiert, im Idealfall sollten Sie den Zugriff auf Ihre Netzwerkgeräte beibehalten.

Wichtig! Sie müssen über Konsolenzugriff auf alle Geräte verfügen. Dieser Zugriff sollte nicht von der Funktionsfähigkeit des Benutzerdatenübertragungsnetzwerks (Daten) abhängen.

Sie sollten auch mögliche negative Szenarien vorhersehen und die erforderlichen Maßnahmen dokumentieren. Die Verfügbarkeit dieses Dokuments ist von entscheidender Bedeutung. Daher sollte es nicht nur für eine von der Abteilung gemeinsam genutzte Ressource freigegeben, sondern auch lokal auf Computern von Ingenieuren gespeichert werden.

Es muss geben

  • Informationen, die zum Öffnen einer Anwendung zur Unterstützung eines Anbieters oder Integrators erforderlich sind
  • Informationen darüber, wie Sie zu Geräten gelangen (Konsole, Verwaltung)

Natürlich können alle anderen nützlichen Informationen enthalten sein, beispielsweise eine Beschreibung des Aktualisierungsverfahrens für verschiedene Geräte und nützliche Diagnosebefehle.

Partner


Jetzt müssen Sie die mit Partnern verbundenen Risiken bewerten. Normalerweise ist es so

  • Internetdienstanbieter und Verkehrsknotenpunkte (IX)
  • Kommunikationskanalanbieter

Welche Fragen müssen Sie sich stellen? Wie bei Geräten müssen verschiedene Optionen für Notfallsituationen in Betracht gezogen werden. Für Internetdienstanbieter könnte dies beispielsweise Folgendes sein:

  • Was passiert, wenn ISP X Ihnen aus irgendeinem Grund keinen Dienst mehr anbietet?
  • Haben Sie genug Bandbreite für andere Anbieter?
  • Wie gut bleibt die Kohärenz?
  • Wie unabhängig sind Ihre ISPs und führt ein schwerer Unfall in einem von ihnen zu Problemen mit anderen?
  • Wie viele optische Eingänge in Ihrem Rechenzentrum?
  • Was passiert, wenn einer der Eingänge vollständig zerstört wird?

In meiner Praxis in zwei verschiedenen Unternehmen, in zwei verschiedenen Rechenzentren, zerstörte der Bagger die Brunnen und nur durch ein Wunder war unsere Optik nicht betroffen. Dies ist kein so seltener Fall.

Natürlich müssen Sie nicht nur diese Fragen stellen, sondern auch mit Unterstützung der Führung in jeder Situation eine akzeptable Lösung finden.

Backup


Die nächste Priorität kann eine Sicherung der Hardwarekonfigurationen sein. In jedem Fall ist dies ein sehr wichtiger Punkt. Ich werde nicht die Fälle auflisten, in denen Sie die Konfiguration verlieren können. Es ist besser, ein regelmäßiges Backup zu erstellen und nicht darüber nachzudenken. Darüber hinaus kann eine regelmäßige Sicherung bei der Steuerung von Änderungen sehr hilfreich sein.

Wichtig! Machen Sie täglich ein Backup. Dies ist keine so große Datenmenge, um dies zu speichern. Am Morgen sollte der diensthabende Techniker (oder Sie) vom System einen Bericht erhalten, aus dem eindeutig hervorgeht, ob die Sicherung erfolgreich war oder nicht. Im Falle einer nicht erfolgreichen Sicherung muss das Problem gelöst oder ein Ticket erstellt werden (siehe Prozesse der Netzwerkabteilung).

Softwareversion


Die Frage, ob Hardware-Software aktualisiert werden soll oder nicht, ist nicht so klar. Einerseits sind alte Versionen bekannte Fehler und Schwachstellen, andererseits ist neue Software nicht immer ein schmerzloses Upgrade-Verfahren, und zweitens sind es neue Fehler und Schwachstellen.

Hier müssen Sie die beste Option finden. Einige offensichtliche Empfehlungen

  • nur stabile Versionen
  • Trotzdem sollten Sie nicht von sehr alten Softwareversionen leben
  • Machen Sie ein Schild mit Informationen, wo sich Software befindet
  • Lesen Sie regelmäßig Berichte über Schwachstellen und Fehler in Softwareversionen. Bei kritischen Problemen sollten Sie über ein Upgrade nachdenken

In dieser Phase, in der Sie über Konsolenzugriff auf Geräte, Supportinformationen und eine Beschreibung des Upgrade-Vorgangs verfügen, sind Sie im Prinzip auf diesen Schritt vorbereitet. Die ideale Option ist, wenn Sie über Laborgeräte verfügen, in denen Sie den gesamten Vorgang überprüfen können. Dies kommt jedoch leider nicht häufig vor.

Bei kritischen Geräten können Sie sich mit einer Anfrage an den Support des Anbieters wenden, um Sie beim Upgrade zu unterstützen.

Ticketsystem


Jetzt können Sie sich umschauen. Sie müssen Interaktionsprozesse mit anderen Abteilungen und innerhalb der Abteilung einrichten.

Vielleicht ist dies nicht obligatorisch (zum Beispiel, wenn Ihr Unternehmen klein ist), aber ich würde dringend empfehlen, die Arbeit so zu organisieren, dass alle externen und internen Aufgaben das Ticketsystem durchlaufen.

Ein Ticketsystem ist im Wesentlichen Ihre Schnittstelle für die interne und externe Kommunikation, und Sie müssen diese Schnittstelle mit einem ausreichenden Detaillierungsgrad beschreiben.

Nehmen wir ein Beispiel für eine wichtige und häufig anzutreffende Aufgabe beim Öffnen des Zugriffs. Ich werde einen Algorithmus beschreiben, der in einem der Unternehmen hervorragend funktioniert hat.

Beispiel

Zunächst artikulieren Zugangskunden ihre Wünsche häufig in einer für einen Netzwerktechniker unverständlichen Sprache, nämlich in der Anwendungssprache, z. B. „Gib mir Zugang zu 1C“.

Daher haben wir Anfragen direkt von solchen Benutzern nie angenommen.
Und das war die erste Voraussetzung

  • Zugriffsanfragen sollten von den technischen Abteilungen kommen (in unserem Fall waren dies Unix-, Windows- und Helpdesk-Ingenieure).

Die zweite Voraussetzung ist das

  • Dieser Zugriff muss protokolliert werden (von der technischen Abteilung, von der wir diese Anfrage erhalten haben). Als Anfrage erhalten wir einen Link zu diesem protokollierten Zugriff

Die Form dieser Anfrage sollte uns klar sein, d.h.

  • Die Anfrage sollte Informationen darüber enthalten, welcher und auf welchem ​​Subnetzzugriff geöffnet sein soll, sowie über das Protokoll und (im Fall von TCP / UDP) Ports

Auch dort sollte angegeben werden

  • Beschreibung, warum dieser Zugang geöffnet wird
  • vorübergehend oder dauerhaft (wenn vorübergehend, bis zu welchem ​​Datum)

Und ein sehr wichtiger Punkt ist

  • vom Leiter der Abteilung, die den Zugriff initiiert hat (z. B. Buchhaltung)
  • vom Leiter der technischen Abteilung, von wo diese Anfrage an die Netzwerkabteilung kam (z. B. Helpdesk)

Gleichzeitig gilt der „Eigentümer“ dieses Zugriffs als Abteilungsleiter, der den Zugriff initiiert hat (in unserem Beispiel Buchhaltung), und er ist dafür verantwortlich, die Seite mit dem protokollierten Zugriff für diese Abteilung auf dem neuesten Stand zu halten.

Protokollierung


Das ist etwas, in dem man ertrinken kann. Wenn Sie jedoch einen proaktiven Ansatz implementieren möchten, müssen Sie lernen, wie Sie mit diesem Datenstrom umgehen.

Hier einige praktische Vorschläge:

  • Zeigen Sie täglich benötigte Protokolle an
  • Im Falle einer geplanten Anzeige (und nicht eines Notfalls) können Sie sich auf Schweregrade von 0, 1, 2 beschränken und Ihre bevorzugten Muster aus anderen Ebenen hinzufügen, wenn Sie dies für erforderlich halten
  • Schreiben Sie ein Skript, das die Protokolle analysiert und die Protokolle ignoriert, deren Muster Sie der Ignorierliste hinzugefügt haben

Dieser Ansatz ermöglicht es im Laufe der Zeit, eine Ignorierliste von Protokollen zu erstellen, an denen Sie nicht interessiert sind, und nur diejenigen zu belassen, die Sie wirklich für wichtig halten.
Es hat großartig für uns funktioniert.

Überwachung


Es ist nicht ungewöhnlich, wenn ein Unternehmen kein Überwachungssystem hat. Sie können sich beispielsweise auf die Protokolle verlassen, aber das Gerät kann einfach „sterben“, ohne etwas „sagen“ zu müssen, oder das udp-Syslog-Protokollpaket geht möglicherweise verloren und kann nicht erreicht werden. Im Allgemeinen ist natürlich eine aktive Überwachung wichtig und notwendig.

Zwei Beispiele, die in meiner Praxis am meisten gefragt sind:

  • Überwachung der Auslastung von Kommunikationskanälen, kritischen Verbindungen (z. B. Verbindung zu Anbietern). Mit ihnen können Sie das potenzielle Problem der Dienstverschlechterung aufgrund von Verkehrsverlusten proaktiv erkennen und entsprechend vermeiden.
  • NetFlow-basierte Grafiken. Sie erleichtern das Auffinden von Verkehrsanomalien und sind sehr nützlich, um einige einfache, aber signifikante Arten von Hackerangriffen zu erkennen.

Wichtig! Richten Sie eine SMS-Benachrichtigung für die kritischsten Ereignisse ein. Dies gilt sowohl für die Überwachung als auch für die Protokollierung. Wenn Sie keine Schicht im Dienst haben, sollte auch nach Stunden eine SMS eingehen.

Stellen Sie sich den Prozess so vor, dass nicht alle Ingenieure geweckt werden. Dafür hatten wir einen Ingenieur im Dienst.

Ändern Sie die Kontrolle


Meiner Meinung nach ist es nicht notwendig, alle Änderungen zu kontrollieren. In jedem Fall sollten Sie jedoch in der Lage sein, bei Bedarf leicht herauszufinden, wer und warum diese oder andere Änderungen im Netzwerk vorgenommen hat.

Ein paar Tipps:

  • Verwenden Sie das Ticketsystem, um eine detaillierte Beschreibung dessen zu erhalten, was im Rahmen dieses Tickets getan wurde, z. B. um die angewendete Konfiguration auf das Ticket zu kopieren
  • Verwenden Sie Kommentarfunktionen auf Netzwerkhardware (z. B. Kommentar zu Juniper festschreiben). Sie können die Ticketnummer aufzeichnen
  • Verwenden Sie verschiedene Konfigurationssicherungen

Sie können dies als Prozess eingeben, indem Sie täglich alle Tickets nach Änderungen durchsuchen.

Die Prozesse


Sie müssen die Prozesse in Ihrem Team formalisieren und beschreiben. Wenn Sie diesen Punkt erreicht haben, sollten mindestens die folgenden Prozesse bereits in Ihrem Team funktionieren:

Tägliche Prozesse:

  • Arbeit mit Tickets
  • arbeite mit Protokollen
  • Kontrolle ändern
  • tägliches Scheckblatt

Jährliche Prozesse:

  • Verlängerung von Garantien, Lizenzen

Asynchrone Prozesse:

  • Reaktion auf verschiedene Notfälle

Abschluss des ersten Teils


Sie haben festgestellt, dass es bei all dem nicht um Netzwerkkonfiguration, Design, Netzwerkprotokolle, Routing oder Sicherheit geht. Aber dies sind zwar vielleicht langweilig, aber natürlich sehr wichtige Elemente der Netzwerkeinheit.

Wie Sie sehen, haben Sie in Ihrem Netzwerk bisher nichts verbessert. Wenn es Sicherheitslücken gab, blieben sie bestehen, wenn es ein schlechtes Design gab, blieb es bestehen. Bis Sie Ihre Fähigkeiten und Kenntnisse eines Netzwerktechnikers anwenden, der höchstwahrscheinlich viel Zeit, Mühe und manchmal Geld aufgewendet hat. Aber zuerst müssen Sie das Fundament erstellen (oder stärken) und dann den Bau durchführen.

In den folgenden Abschnitten erfahren Sie, wie Sie nach Fehlern suchen und diese beheben und anschließend Ihre Infrastruktur verbessern.

Natürlich ist es nicht notwendig, alles nacheinander zu erledigen. Zeit kann kritisch sein. Machen Sie es parallel, wenn die Ressourcen dies zulassen.

Und eine wichtige Ergänzung. Kommunizieren Sie, fragen Sie, konsultieren Sie Ihr Team. Am Ende liegt es an ihnen, all dies zu unterstützen und zu tun.

Source: https://habr.com/ru/post/de433614/


All Articles