CampusInsight: de la surveillance de l'infrastructure à l'analyse de l'expérience utilisateur

La qualité du réseau sans fil est déjà incluse par défaut dans le concept de niveau de service. Et si vous voulez satisfaire les exigences élevées des clients, vous devez non seulement traiter rapidement les problèmes de réseau qui sont survenus, mais également prévoir les plus massifs d'entre eux.

Comment faire Ce n'est qu'en suivant ce qui est vraiment important dans ce contexte que l'interaction des utilisateurs avec le réseau sans fil.



Les charges réseau continuent de croître, et cela affecte particulièrement les segments sans fil - du moins en raison de l'ouverture de leur interface. Avec le nombre croissant d'appareils et les taux de transfert de données, les problèmes se multiplient à plusieurs niveaux. Sur le plan physique - de nombreux émetteurs de signaux radio s'influencent mutuellement, même s'ils fonctionnent dans les parties voisines du spectre de fréquences. Logiquement, un grand nombre d'appareils connectés commencent à se disputer le droit de démarrer la transmission à la fréquence sélectionnée, ce qui augmente le délai de livraison des paquets pour chaque utilisateur.

Dans le même temps, les attentes de chaque client à l'égard de l'utilisation du réseau augmentent. Un chargement de page de 5 secondes dans le navigateur, qui, il y a 20 ans, semblait être le «top de la technologie», ne surprendra personne. Offrez aux clients des vidéos HD sans décoloration.

Les nouvelles versions des normes de transmission sans fil, qui utilisent plus efficacement le spectre de fréquences, peuvent résoudre partiellement le problème. Chaque version ultérieure de Wi-Fi vise à déployer de plus en plus de réseaux chargés. Mais dans un réseau à grande échelle, où il y a plus d'une douzaine de points d'accès, il ne sera pas possible de tout remettre à la norme suivante (d'autant plus que les appareils fonctionnent en mode de compatibilité descendante dès qu'ils rencontrent un ancien appareil utilisateur). Comme il ne parvient pas à continuer à vivre avec les anciens outils de surveillance, l'environnement réseau se complique constamment.

Pourquoi la surveillance normale ne fonctionne plus


Un cachet classique qui hante toujours les administrateurs de tous les réseaux, y compris sans fil, est un travail exclusivement sur demande. «Alarm» a fonctionné - nous nous réveillons et comprenons ce qui s'est mal passé. En attendant, il n'y a pas d '«alarme», vous pouvez vous limiter à vérifier la charge sur les principaux composants - réseau et appareils utilisateurs.

Conformément à cette tâche, les outils traditionnels de surveillance et de maintenance fonctionnent sur le principe de règles strictes et ne montrent pas toujours rapidement les problèmes existants, sans parler d'une sorte d'analyse prédictive.

Le problème principal ici est l'intervalle de collecte des données. Les informations sur l'état des connexions réseau sans fil sont collectées toutes les minutes, et des incidents peuvent bien se produire dans les intervalles entre les relevés (un bon exemple est les rares salves de charge qui "bloquent" le réseau). Ne recevant pas de données en temps réel, il est assez difficile de comprendre ce qui est devenu la cause première du problème. Est-ce une mauvaise utilisation de la couverture réseau? Ou, peut-être, des interférences extérieures qui ne sont en aucun cas liées aux affaires (par exemple, l'unité militaire à proximité l'a «diffusée» dans les airs). Il n'y a pas de données où il serait possible de voir la dégradation progressive de certaines caractéristiques du réseau, et donc localiser le problème n'est pas si simple. Le personnel informatique devra consacrer des heures supplémentaires à rechercher une telle «aiguille dans une botte de foin».
Mais les utilisateurs finaux remarquent le problème presque immédiatement. Une erreur de connexion, une diffusion vidéo cassée sont d'excellents marqueurs.

Les outils de surveillance classiques signalent l'arrivée de paquets réseau. Mais ils ne peuvent en aucun cas répondre à la question, mais savoir si l'utilisateur a résolu sa tâche.

Pour obtenir une réponse à cette question, il sera nécessaire de changer non seulement l'outil, mais l'approche de suivi de l'organisation elle-même. Du travail "feu" sur demande (en fait, le suivi des performances et de la charge d'un fer spécifique), nous continuerons à contrôler l'expérience utilisateur et identifier les situations pouvant conduire à des incidents.

Cette transformation implique l'introduction d'algorithmes de détermination de problèmes plus complexes que de simples avertissements lorsque certaines valeurs sont atteintes. Dans la plateforme d'intelligence réseau Huawei CampusInsight, ces algorithmes sont basés sur l'expérience de service sans fil et les techniques d'auto-apprentissage.

Sous le capot CampusInsight


Huawei CampusInsight est une plate-forme évolutive pour surveiller les réseaux sans fil de différentes tailles. Construit sur la base d'une architecture de microservices. Chaque service est déployé sur plusieurs instances, dont les messages sont distribués par le bus correspondant. Des instances supplémentaires peuvent être déployées dynamiquement, augmentant le débit de l'outil.

En fait, CampusInsight collecte, analyse et affiche les données dans son interface utilisateur en cinq étapes.



La première et la deuxième étape sont l'accès aux données (aux appareils qui fournissent leur génération) et la collecte de "lectures". En utilisant la capture de télémétrie en streaming GPB de Google et le Syslog «traditionnel» (si possible), Huawei CampusInsight accumule des données en temps quasi réel:

  • sur l'utilisation du spectre des fréquences;
  • le fonctionnement des points d'accès et autres dispositifs du réseau (indicateurs de performance, nombre d'utilisateurs connectés, etc.);
  • sur le chemin d'accès d'utilisateurs spécifiques - sur les profils de réseau, sur qui, quand et à quel point d'accès connecté ou non connecté (et avec quels paramètres de connexion);
  • sur le travail des applications audio-vidéo (en utilisant eMDI, implémenté dans l'un des packages supplémentaires).

Pour contourner les limites des outils traditionnels qui utilisent SNMP pour collecter des données et envoyer des structures fixes, CampusInsight était basé sur un modèle d'abonnement pour les journaux nécessaires et les algorithmes d'encodage et de décodage des données.

La troisième étape est la distribution et la mise en mémoire tampon - c'est-à-dire l'envoi de données brutes à Kafka pour distribution à des services d'analyse de niveau supérieur.

La quatrième étape est l'analyse. Les algorithmes Big Data et AI vous aident à traiter rapidement les données brutes. En conséquence, certains problèmes sont identifiés associés à:

  • authentification (protocole Dot1x pris en charge) et fonctionnement DHCP;
  • stabilité et vitesse de connexion;
  • interfaces sans fil;
  • le fonctionnement d'appareils individuels, y compris des «détails», tels que des problèmes de PoE ou la commutation d'un appareil bi-bande à 2,4 GHz;
  • qualité des flux audio-vidéo - cependant, la fonction n'est prise en charge que pour SIP non chiffré ou pour certains commutateurs;
  • itinérance entre différents points d'accès.

Les algorithmes d'IA sont utilisés pour résoudre certains problèmes particuliers, par exemple pour détecter les interférences entre les canaux pendant la transmission sans fil.



La cinquième et dernière étape consiste à enregistrer les données dans une base de données de colonnes distribuées Druid pour une utilisation ultérieure.

Une analyse des informations collectées, en tenant compte de la «ligne de base» construite à partir des mêmes données historiques, nous permet d'identifier les «schémas de défaillance» typiques - d'identifier les KPI correspondant aux situations problématiques et de localiser les problèmes en suggérant des moyens de les résoudre. Ainsi, environ 85% de tous les problèmes de réseau sont dus à l'outil.



Les données sont présentées à l'administrateur sous forme graphique en fonction de la hiérarchie ou de la topologie de l'espace (par exemple, l'agencement du bureau). Vous pouvez créer des «cartes thermiques», analyser les effets sur l'équipement de certaines plates-formes ou fabricants, etc. Il est plus facile de comprendre la cause exacte du problème.



En général, CampusInsight fournit plusieurs outils pour classer les problèmes, comparer les utilisateurs concernés, examiner les données sur un client particulier et même «lire» les événements qui ont précédé l'incident afin d'identifier rapidement la source. Dans le même temps, le produit prend également en charge le nouveau Wi-Fi 6, sans parler de ses prédécesseurs.

Étuis


CampusInsight a déjà été testé dans la pratique, bien que la plupart des dossiers soient clos par la NDA. Le cas ouvert le plus révélateur est l'utilisation d'un outil de surveillance dans le propre réseau sans fil de Huawei.

Le réseau couvre les entreprises employant environ 180 000 personnes, dont 80 000 appartiennent à la division R&D (il s'agit de bureaux dans plus de 170 pays, où un total de 62 000 points d'accès sont installés).

La mise en œuvre de CampusInsight a permis d'optimiser plus de 630 points d'accès, tout en augmentant l'efficacité de l'analyse des incidents de 30%.
Voici quelques situations spécifiques.

Exemple 1. Échec de groupe


Les problèmes de haut niveau observés sur un grand nombre d'utilisateurs sont souvent le résultat d'erreurs de bas niveau. Et identifier de tels problèmes n'est pas si simple. Par exemple, dans l'un des bureaux, de nombreux clients mobiles ont rencontré des difficultés d'authentification, malgré les paramètres corrects et l'absence de problèmes avec le serveur d'authentification. La visualisation des données à différents niveaux a permis d'identifier rapidement que le commutateur était à l'origine du problème et générait trop d'erreurs. Et pour corriger la situation, il suffisait de remplacer un morceau de câble. La localisation et la correction du problème ont pris 90 minutes.

Exemple 2. Suivi de la qualité de l'itinérance


La collecte de données le long du chemin d'un client spécifique au sein d'un réseau distribué vous permet d'identifier les problèmes non évidents d'itinérance. Un cas courant est lorsque, dans certaines zones du bâtiment, les utilisateurs mobiles ont des problèmes de connexion au réseau (bien que, semble-t-il, le point d'accès correspondant soit en ordre). L'une des sources de ces problèmes peut être la puissance trop élevée du point d'accès dans la salle voisine - au lieu de se connecter au point le plus proche, le client essaie de se connecter à celui qui dessert actuellement un grand nombre d'utilisateurs (cas réel: connexion à un point d'accès dans une conférence dans le hall quand l'utilisateur passe simplement)

Pour résoudre le problème, il suffit parfois de réduire la puissance du signal du point chargé, cependant, l'identification nécessite une analyse approfondie des problèmes récurrents dans les salles adjacentes à la salle de conférence.

En traçant les tendances de développement des réseaux sans fil, nous pouvons nous attendre à ce que dans un avenir prévisible, non seulement les géants, dont les réseaux disposent de milliers de points d'accès, mais également une entreprise de taille moyenne, qui peut être limitée à travailler sur des incidents, rencontrera des problèmes de service. En supposant une telle évolution des événements, il est logique de regarder de près de nouveaux standards plus performants et des équipements performants. Mais il convient de rappeler le changement de paradigme nécessaire dans le service réseau, alors que les clients n'ont pas encore commencé la migration de masse vers les concurrents en raison de la qualité du service.

Bien sûr, un produit de classe CampusInsight sur site bénéficiera le plus dans les déploiements à grande échelle, mais maintenant un abonnement cloud est également disponible pour le service à partir du Huawei Public Cloud local, conçu pour les implémentations dans le secteur des PME. En général, ceux qui le souhaitent peuvent tout essayer et "tordre" dès maintenant.

Source: https://habr.com/ru/post/fr451618/


All Articles