CampusInsight: del monitoreo de infraestructura al análisis de la experiencia del usuario

La calidad de la red inalámbrica ya está incluida por defecto en el concepto de nivel de servicio. Y si desea satisfacer las altas demandas de los clientes, necesita no solo lidiar rápidamente con los problemas de red que han surgido, sino también predecir el más masivo de ellos.

Como hacerlo Solo mediante el seguimiento de lo que es realmente importante en este contexto es la interacción del usuario con la red inalámbrica.



Las cargas de red continúan creciendo, y esto afecta especialmente a los segmentos inalámbricos, al menos debido a la apertura de su interfaz. Con el creciente número de dispositivos y tasas de transferencia de datos, los problemas se multiplican a la vez en varios niveles. En lo físico, muchos transmisores de señales de radio se afectan entre sí, incluso si funcionan en partes vecinas del espectro de frecuencia. Lógicamente, una gran cantidad de dispositivos conectados comienzan a competir por el derecho de iniciar la transmisión a la frecuencia seleccionada, lo que aumenta el retraso en la entrega de paquetes para cada usuario.

Al mismo tiempo, las expectativas de cada cliente de usar la red están creciendo. Una página de carga de 5 segundos en el navegador, que hace 20 años parecía la "parte superior de la tecnología", no sorprenderá a nadie. Ofrezca a los clientes videos en HD sin desvanecerse.

Las nuevas versiones de los estándares de transmisión inalámbrica, que utilizan el espectro de frecuencia de manera más eficiente, pueden resolver parcialmente el problema. Cada versión posterior de Wi-Fi tiene como objetivo implementar más y más redes cargadas. Pero en una red a gran escala, donde hay más de una docena de puntos de acceso, no será posible dar todo al siguiente estándar (además, los dispositivos funcionan en modo de compatibilidad con versiones anteriores tan pronto como se encuentran con un dispositivo de usuario antiguo). Como no logra continuar viviendo con herramientas de monitoreo antiguas, el entorno de red se complica constantemente.

Por qué el monitoreo normal ya no funciona


El sello clásico, que todavía persigue a los administradores de todas las redes, incluida la inalámbrica, funciona exclusivamente bajo pedido. La "alarma" funcionó: nos despertamos y entendemos qué salió mal. Mientras tanto, no hay "alarma", puede limitarse a verificar la carga en los componentes principales: la red y los dispositivos de usuario.

De acuerdo con esta tarea, las herramientas tradicionales de monitoreo y mantenimiento funcionan según el principio de reglas estrictas y no siempre muestran rápidamente los problemas existentes, sin mencionar algún tipo de análisis predictivo.

El principal problema aquí es el intervalo de recopilación de datos. La información sobre el estado de las conexiones de red inalámbrica se recopila una vez por minuto, y los incidentes pueden ocurrir en los intervalos entre la recopilación de lecturas (un gran ejemplo son las raras ráfagas de carga que "cuelgan" la red). Sin datos en tiempo real, es bastante difícil entender cuál fue la causa raíz del problema. ¿Es este mal uso de la cobertura de la red? O, tal vez, interferencia externa que no está relacionada con los negocios de ninguna manera (por ejemplo, la unidad militar cercana "lo vertió" en el aire). No hay datos en los que sea posible ver la degradación gradual de ciertas características de la red y, por lo tanto, localizar el problema no es tan simple. El personal de TI tendrá que pasar horas adicionales buscando una "aguja en un pajar".
Pero los usuarios finales notan el problema casi de inmediato. Un error de conexión, una transmisión de video rota son excelentes marcadores.

Las herramientas de monitoreo clásicas informan los próximos paquetes de red. Pero no pueden responder la pregunta de ninguna manera, sino si el usuario ha resuelto su tarea.

Para obtener una respuesta a esta pregunta, será necesario cambiar no solo la herramienta, sino también el enfoque para monitorear la organización misma. A partir del trabajo de "fuego" en las solicitudes (de hecho, monitoreando el rendimiento y la carga de una plancha específica), pasaremos a controlar la experiencia del usuario e identificaremos situaciones que podrían conducir a incidentes.

Esta transformación implica la introducción de algoritmos de determinación de problemas más complejos que simples advertencias cuando se alcanzan ciertos valores. En la plataforma de inteligencia de red Huawei CampusInsight, estos algoritmos se basan en la experiencia del servicio inalámbrico y las técnicas de autoaprendizaje.

Bajo el capó CampusInsight


Huawei CampusInsight es una plataforma escalable para monitorear redes inalámbricas de varios tamaños. Construido sobre la base de la arquitectura de microservicios. Cada servicio se implementa en varias instancias, cuyos mensajes son distribuidos por el bus correspondiente. Se pueden implementar instancias adicionales dinámicamente, aumentando el rendimiento de la herramienta.

De hecho, CampusInsight recopila, analiza y muestra datos en su interfaz de usuario en cinco pasos.



El primer y segundo paso es el acceso a los datos (a dispositivos que proporcionan su generación) y la recopilación de "lecturas". Utilizando la captura de telemetría de transmisión GPB de Google y el Syslog "tradicional" (donde sea posible), Huawei CampusInsight acumula datos casi en tiempo real:

  • sobre la utilización del espectro de frecuencia;
  • el funcionamiento de los puntos de acceso y otros dispositivos de red (indicadores de rendimiento, número de usuarios conectados, etc.);
  • sobre la ruta de usuarios específicos: sobre los perfiles de red, sobre quién, cuándo y a qué punto de acceso está conectado o no (y con qué parámetros de conexión);
  • sobre el trabajo de las aplicaciones de audio y video (usando eMDI, implementado en uno de los paquetes adicionales).

Para sortear las limitaciones de las herramientas tradicionales que usan SNMP para recopilar datos y enviar estructuras fijas, CampusInsight se basó en un modelo de suscripción para los registros necesarios y los algoritmos de codificación y decodificación de datos.

El tercer paso es la distribución y el almacenamiento en búfer, es decir enviando datos sin procesar a Kafka para su distribución a servicios de análisis de nivel superior.

El cuarto paso es el análisis. Los algoritmos Big Data y AI lo ayudan a procesar rápidamente datos sin procesar. Como resultado, se identifican ciertos problemas asociados con:

  • autenticación (protocolo Dot1x compatible) y operación DHCP;
  • estabilidad y velocidad de conexión;
  • interfaces inalámbricas;
  • el funcionamiento de dispositivos individuales, incluidos "detalles", como problemas con PoE o cambio de un dispositivo de doble banda a 2.4 GHz;
  • calidad de las transmisiones de audio y video; sin embargo, la función solo se admite para SIP sin cifrar o para algunos conmutadores;
  • itinerancia entre diferentes puntos de acceso.

Los algoritmos de IA se usan para resolver algunos problemas particulares, por ejemplo, para detectar interferencia entre canales durante la transmisión inalámbrica.



El quinto y último paso es guardar los datos en una base de datos de columnas distribuidas Druid para su uso posterior.

Un análisis de la información recopilada, teniendo en cuenta la "línea de base" construida utilizando los mismos datos históricos, nos permite identificar los "patrones de falla" típicos, determinando los KPI correspondientes a situaciones problemáticas y localizando problemas al sugerir formas de resolverlos. Por lo tanto, aproximadamente el 85% de todos los problemas de red se deben a la herramienta.



Los datos se presentan al administrador en forma gráfica de acuerdo con la jerarquía o la topología del espacio (por ejemplo, el diseño de la oficina). Puede construir "mapas de calor", analizar cómo afectó el equipo de ciertas plataformas o fabricantes, etc. Es más fácil entender qué causó exactamente el problema.



En general, CampusInsight proporciona bastantes herramientas para clasificar problemas, comparar usuarios afectados, examinar datos sobre el trabajo de un cliente en particular e incluso "reproducir" eventos que precedieron al incidente para identificar rápidamente la fuente. Al mismo tiempo, el producto también es compatible con el nuevo Wi-Fi 6, sin mencionar sus predecesores.

Casos


CampusInsight ya ha sido probado en la práctica, aunque la mayoría de los casos están cerrados por el NDA. El caso abierto más revelador es el uso de una herramienta de monitoreo en la propia red inalámbrica de Huawei.

La red cubre empresas donde trabajan alrededor de 180 mil personas, de las cuales 80 mil pertenecen a la división de I + D (se trata de oficinas en más de 170 países, donde hay instalados un total de 62 mil puntos de acceso).

La implementación de CampusInsight ha ayudado a optimizar más de 630 puntos de acceso, al tiempo que aumenta la eficiencia del análisis de incidentes en un 30%.
A continuación hay un par de situaciones específicas.

Ejemplo 1. Fracaso grupal


Los problemas de alto nivel observados en un gran número de usuarios a menudo son el resultado de errores de bajo nivel. Y para identificar tales problemas no es tan simple. Por ejemplo, en una de las oficinas, muchos clientes móviles inmediatamente experimentaron dificultades con la autenticación, a pesar de la configuración correcta y la ausencia de problemas con el servidor de autenticación. La visualización de los datos a diferentes niveles ayudó a identificar rápidamente que el interruptor era la fuente del problema y generaba demasiados errores. Y para corregir la situación, solo era necesario reemplazar un trozo de cable. La localización y corrección del problema tomó 90 minutos.

Ejemplo 2. Seguimiento de la calidad del roaming


Recopilar datos a lo largo de la ruta de un cliente específico dentro de una red distribuida le permite identificar problemas no obvios de roaming. Un caso común es cuando en ciertas áreas del edificio los usuarios móviles tienen problemas para conectarse a la red (aunque, al parecer, el punto de acceso correspondiente está en orden). Una de las fuentes de tales problemas puede ser la potencia demasiado alta del punto de acceso en la sala vecina, por lo que en lugar de conectarse al punto más cercano, el cliente intenta conectarse al que actualmente atiende a un gran número de usuarios (caso real: conectarse a un punto de acceso en una conferencia en el pasillo cuando el usuario simplemente pasa).

Para resolver el problema, a veces es suficiente reducir la intensidad de la señal del punto cargado, sin embargo, la identificación requiere un análisis profundo de los problemas recurrentes en las salas adyacentes a la sala de conferencias.

Al rastrear las tendencias de desarrollo de las redes inalámbricas, podemos esperar que en el futuro previsible, los problemas de servicio se enfrentarán no solo por gigantes, cuyas redes tienen miles de puntos de acceso, sino también por empresas medianas, que por ahora pueden estar limitadas a trabajar en incidentes. Suponiendo tal desarrollo de eventos, es lógico observar de cerca los estándares nuevos y más eficientes y los equipos de alto rendimiento. Pero vale la pena recordar sobre el cambio de paradigma necesario en el servicio de red, mientras que los clientes aún no han comenzado la migración masiva a los competidores debido a la calidad del servicio.

Por supuesto, un producto in situ de clase CampusInsight se beneficiará más en implementaciones a gran escala, pero ahora también está disponible una suscripción en la nube para el servicio de la Nube pública pública de Huawei, diseñada para implementaciones en el sector de las PYMES. En general, aquellos que lo deseen pueden probarlo todo y "torcerse" en este momento.

Source: https://habr.com/ru/post/451618/


All Articles