CampusInsight: Von der Infrastrukturüberwachung zur Analyse der Benutzererfahrung

Die Qualität des drahtlosen Netzwerks ist bereits standardmäßig im Konzept des Service Levels enthalten. Und wenn Sie den hohen Anforderungen der Kunden gerecht werden möchten, müssen Sie die aufgetretenen Netzwerkprobleme nicht nur schnell lösen, sondern auch die massivsten vorhersagen.

Wie kann man das machen? Nur durch Verfolgung, was in diesem Zusammenhang wirklich wichtig ist, ist die Benutzerinteraktion mit dem drahtlosen Netzwerk.



Die Netzwerklasten nehmen weiter zu, und dies betrifft insbesondere drahtlose Segmente - zumindest aufgrund der Offenheit ihrer Schnittstelle. Mit der zunehmenden Anzahl von Geräten und Datenübertragungsraten vermehren sich Probleme gleichzeitig auf mehreren Ebenen. Auf der physischen Ebene beeinflussen sich viele Funksignalsender gegenseitig, auch wenn sie in benachbarten Teilen des Frequenzspektrums arbeiten. Logischerweise beginnt eine große Anzahl verbundener Geräte um das Recht zu konkurrieren, die Übertragung mit der ausgewählten Frequenz zu starten, was die Verzögerung bei der Paketzustellung für jeden Benutzer erhöht.

Gleichzeitig steigen die Erwartungen jedes Kunden an die Nutzung des Netzwerks. Das Laden von 5 Sekunden Seiten in den Browser, der vor 20 Jahren als „Top of the Technology“ galt, wird niemanden überraschen. Geben Sie Ihren Kunden HD-Videos ohne zu verblassen.

Die neuen Versionen von Standards für die drahtlose Übertragung, die das Frequenzspektrum effizienter nutzen, können das Problem teilweise lösen. Jede nachfolgende Version von Wi-Fi zielt darauf ab, immer mehr geladene Netzwerke bereitzustellen. In einem großen Netzwerk mit mehr als einem Dutzend Zugriffspunkten ist es jedoch nicht möglich, alles dem nächsten Standard zuzuweisen (umso mehr arbeiten die Geräte im Abwärtskompatibilitätsmodus, sobald sie auf ein altes Benutzergerät treffen). Da es nicht gelingt, weiterhin mit alten Überwachungstools zu leben, wird die Netzwerkumgebung ständig kompliziert.

Warum die normale Überwachung nicht mehr funktioniert


Der klassische Stempel, der immer noch die Administratoren aller Netzwerke, einschließlich drahtloser Netzwerke, verfolgt, ist ausschließlich auf Anfrage erhältlich. "Alarm" hat funktioniert - wir wachen auf und verstehen, was schief gelaufen ist. In der Zwischenzeit gibt es keinen „Alarm“. Sie können sich darauf beschränken, die Belastung der Hauptkomponenten - Netzwerk- und Benutzergeräte - zu überprüfen.

Entsprechend dieser Aufgabe arbeiten herkömmliche Überwachungs- und Wartungstools nach dem Prinzip strenger Regeln und zeigen bestehende Probleme nicht immer sofort auf, ganz zu schweigen von einer Art Vorhersageanalyse.

Das Hauptproblem hierbei ist das Datenerfassungsintervall. Informationen über den Status von drahtlosen Netzwerkverbindungen werden einmal pro Minute erfasst, und Zwischenfälle können in den Intervallen zwischen der Erfassung von Messwerten auftreten (ein gutes Beispiel sind die seltenen Laststöße, die das Netzwerk "hängen" lassen). Da keine Echtzeitdaten empfangen werden, ist es ziemlich schwierig zu verstehen, was die Hauptursache des Problems war. Ist dies ein Missbrauch der Netzabdeckung? Oder vielleicht externe Störungen, die in keiner Weise mit dem Geschäft zu tun haben (zum Beispiel hat die Militäreinheit in der Nähe sie in die Luft „gegossen“). Es gibt keine Daten, bei denen eine allmähliche Verschlechterung bestimmter Eigenschaften des Netzwerks erkennbar wäre, weshalb die Lokalisierung des Problems nicht so einfach ist. IT-Mitarbeiter müssen zusätzliche Stunden damit verbringen, nach einer solchen „Nadel im Heuhaufen“ zu suchen.
Endbenutzer bemerken das Problem jedoch fast sofort. Ein Verbindungsfehler, eine fehlerhafte Videoübertragung sind hervorragende Marker.

Klassische Überwachungstools melden kommende Netzwerkpakete. Sie können die Frage aber in keiner Weise beantworten, sondern ob der Benutzer seine Aufgabe gelöst hat.

Um eine Antwort auf diese Frage zu erhalten, muss nicht nur das Tool, sondern auch der Ansatz zur Überwachung der Organisation selbst geändert werden. Ausgehend von "Feuer" -Arbeiten an Anforderungen (tatsächlich Kontrolle der Leistung und Belastung eines bestimmten Bügeleisens) steuern wir die Benutzererfahrung und identifizieren Situationen, die zu Vorfällen führen können.

Diese Transformation beinhaltet die Einführung komplexerer Problembestimmungsalgorithmen als einfache Warnungen, wenn bestimmte Werte erreicht werden. In der Huawei CampusInsight Network Intelligence-Plattform basieren diese Algorithmen auf drahtlosen Serviceerfahrungen und selbstlernenden Techniken.

Unter der Haube CampusInsight


Huawei CampusInsight ist eine skalierbare Plattform zur Überwachung von drahtlosen Netzwerken verschiedener Größen. Basierend auf der Microservice-Architektur. Jeder Dienst wird auf mehreren Instanzen bereitgestellt, deren Nachrichten vom entsprechenden Bus verteilt werden. Zusätzliche Instanzen können dynamisch bereitgestellt werden, wodurch der Werkzeugdurchsatz erhöht wird.

Tatsächlich sammelt, analysiert und zeigt CampusInsight in fünf Schritten Daten in seiner Benutzeroberfläche an.



Der erste und zweite Schritt ist der Zugriff auf Daten (auf Geräte, die deren Generierung bereitstellen) und die Erfassung von "Messwerten". Mit der GPB-Streaming-Telemetrie-Erfassung von Google und dem „traditionellen“ Syslog (sofern möglich) sammelt Huawei CampusInsight Daten nahezu in Echtzeit:

  • zur Nutzung des Frequenzspektrums;
  • die Funktionsweise von Zugangspunkten und anderen Netzwerkgeräten (Leistungsindikatoren, Anzahl der verbundenen Benutzer usw.);
  • über den Pfad bestimmter Benutzer - über Netzwerkprofile, darüber, wer, wann und mit welchem ​​Zugangspunkt verbunden oder nicht verbunden ist (und mit welchen Verbindungsparametern);
  • über die Arbeit von Audio-Video-Anwendungen (mit eMDI, implementiert in einem der zusätzlichen Pakete).

Um die Einschränkungen herkömmlicher Tools zu umgehen, die SNMP zum Sammeln von Daten und zum Senden fester Strukturen verwenden, basierte CampusInsight auf einem Abonnementmodell für die erforderlichen Protokolle und Datencodierungs- und -decodierungsalgorithmen.

Der dritte Schritt ist die Verteilung und Pufferung - d.h. Senden von Rohdaten an Kafka zur Verteilung an übergeordnete Analysedienste.

Der vierte Schritt ist die Analyse. Mithilfe von Big Data- und AI-Algorithmen können Sie Rohdaten schnell verarbeiten. Infolgedessen werden bestimmte Probleme identifiziert, die verbunden sind mit:

  • Authentifizierung (Dot1x-Protokoll unterstützt) und DHCP-Betrieb;
  • Stabilität und Verbindungsgeschwindigkeit;
  • drahtlose Schnittstellen;
  • den Betrieb einzelner Geräte, einschließlich „Einzelheiten“, wie z. B. Probleme mit PoE oder das Umschalten eines Dualband-Geräts auf 2,4 GHz;
  • Qualität von Audio-Video-Streams - die Funktion wird jedoch nur für unverschlüsseltes SIP oder für einige Switches unterstützt.
  • Roaming zwischen verschiedenen Zugangspunkten.

KI-Algorithmen werden verwendet, um einige bestimmte Probleme zu lösen, beispielsweise um Interferenzen zwischen Kanälen während der drahtlosen Übertragung zu erkennen.



Der fünfte und letzte Schritt besteht darin, die Daten zur späteren Verwendung in einer verteilten Spaltendatenbank Druid zu speichern.

Eine Analyse der gesammelten Informationen unter Berücksichtigung der „Basislinie“, die unter Verwendung derselben historischen Daten erstellt wurde, ermöglicht es uns, typische „Fehlermuster“ zu identifizieren - KPIs zu bestimmen, die Problemsituationen entsprechen, und Probleme zu lokalisieren, indem Lösungsvorschläge gemacht werden. Somit fallen etwa 85% aller Netzwerkprobleme auf das Tool.



Die Daten werden dem Administrator in grafischer Form entsprechend der Hierarchie oder Topologie des Raums (z. B. dem Layout des Büros) dargestellt. Sie können „Heatmaps“ erstellen, analysieren, wie sich dies auf die Ausrüstung bestimmter Plattformen oder Hersteller auswirkt usw. Es ist einfacher zu verstehen, was genau das Problem verursacht hat.



Im Allgemeinen bietet CampusInsight eine Reihe von Tools, um Probleme zu klassifizieren, betroffene Benutzer zu vergleichen, Daten über die Arbeit eines bestimmten Kunden zu untersuchen und sogar Ereignisse, die dem Vorfall vorausgingen, wiederzugeben, um die Quelle schnell zu identifizieren. Gleichzeitig unterstützt das Produkt auch das neue Wi-Fi 6, ganz zu schweigen von seinen Vorgängern.

Fälle


CampusInsight wurde bereits in der Praxis getestet, obwohl die meisten Fälle von der NDA abgeschlossen werden. Der aufschlussreichste offene Fall ist die Verwendung eines Überwachungstools im eigenen drahtlosen Netzwerk von Huawei.

Das Netzwerk umfasst Unternehmen, in denen etwa 180.000 Menschen beschäftigt sind, von denen 80.000 der Forschungs- und Entwicklungsabteilung angehören (dies sind Büros in mehr als 170 Ländern, in denen insgesamt 62.000 Zugangspunkte installiert sind).

Die Implementierung von CampusInsight hat dazu beigetragen, mehr als 630 Zugangspunkte zu optimieren und gleichzeitig die Effizienz der Vorfallanalyse um 30% zu steigern.
Im Folgenden sind einige spezifische Situationen aufgeführt.

Beispiel 1. Gruppenfehler


Die bei einer großen Anzahl von Benutzern beobachteten Probleme auf hoher Ebene sind häufig das Ergebnis von Fehlern auf niedriger Ebene. Und solche Probleme zu identifizieren ist nicht so einfach. In einem der Büros hatten beispielsweise viele mobile Clients trotz der korrekten Einstellungen und des Fehlens von Problemen mit dem Authentifizierungsserver sofort Probleme mit der Authentifizierung. Durch die Visualisierung der Daten auf verschiedenen Ebenen konnte schnell festgestellt werden, dass der Switch die Ursache des Problems war und zu viele Fehler verursachte. Und um die Situation zu korrigieren, musste nur ein Stück Kabel ausgetauscht werden. Die Lokalisierung und Behebung des Problems dauerte 90 Minuten.

Beispiel 2. Verfolgen der Roaming-Qualität


Durch das Sammeln von Daten auf dem Pfad eines bestimmten Clients in einem verteilten Netzwerk können Sie nicht offensichtliche Probleme beim Roaming identifizieren. Ein häufiger Fall ist, wenn in bestimmten Bereichen des Gebäudes mobile Benutzer Probleme haben, eine Verbindung zum Netzwerk herzustellen (obwohl der entsprechende Zugangspunkt anscheinend in Ordnung ist). Eine der Ursachen für solche Probleme kann die zu hohe Leistung des Zugangspunkts im Nachbarraum sein. Anstatt eine Verbindung zum nächsten Punkt herzustellen, versucht der Client, eine Verbindung zu dem Punkt herzustellen, der derzeit eine große Anzahl von Benutzern bedient (realer Fall: Verbindung zu einem Zugangspunkt in einer Konferenz) in der Halle, wenn der Benutzer einfach vorbeikommt).

Um das Problem zu lösen, reicht es manchmal aus, die Signalstärke des geladenen Punkts zu verringern. Die Identifizierung erfordert jedoch eine gründliche Analyse wiederkehrender Probleme in Räumen neben dem Konferenzraum.

Wenn wir die Entwicklungstrends von drahtlosen Netzwerken verfolgen, können wir davon ausgehen, dass in absehbarer Zukunft nicht nur Riesen, deren Netzwerke über Tausende von Zugangspunkten verfügen, mit Serviceproblemen konfrontiert werden, sondern auch mittelständische Unternehmen, die sich derzeit möglicherweise nur auf die Bearbeitung von Vorfällen beschränken. Unter der Annahme einer solchen Entwicklung von Ereignissen ist es logisch, neue, effizientere Standards und Hochleistungsgeräte genau zu betrachten. Es lohnt sich jedoch, sich an den notwendigen Paradigmenwechsel im Netzwerkdienst zu erinnern, während Kunden aufgrund der Servicequalität noch nicht mit der Massenmigration zu Wettbewerbern begonnen haben.

Natürlich wird ein Vor-Ort-Produkt der CampusInsight-Klasse bei umfangreichen Bereitstellungen am meisten davon profitieren, aber jetzt ist auch ein Cloud-Abonnement für den Dienst der lokalen Public Cloud Huawei erhältlich, das für Implementierungen im SMB-Sektor entwickelt wurde. Im Allgemeinen können diejenigen, die es wünschen, jetzt alles ausprobieren und "drehen".

Source: https://habr.com/ru/post/de451618/


All Articles