Actualmente, la visualización y el análisis de datos se utilizan ampliamente en la industria de las telecomunicaciones. En particular, el análisis depende en gran medida del uso de datos geoespaciales. Quizás esto se deba al hecho de que las redes de telecomunicaciones están dispersas geográficamente. En consecuencia, el análisis de tales dispersiones puede ser de gran valor.
Datos
Para ilustrar el algoritmo de agrupación de k-means, utilizaremos la base de datos geográficos para WiFi público gratuito en Nueva York. El conjunto de datos está disponible en NYC Open Data. En particular, el algoritmo de agrupamiento k-means se utiliza para formar grupos de uso de WiFi basados en datos de latitud y longitud.
Los datos de latitud y longitud se extraen del conjunto de datos en sí usando el lenguaje de programación R:
Aquí hay un dato:

Determinamos el número de grupos
A continuación, determinamos el número de clústeres utilizando el código a continuación, que muestra el resultado en un gráfico.

El gráfico muestra cómo se alinea la curva alrededor de 11. Por lo tanto, este es el número de grupos que se utilizarán en el modelo de k-medias.
Análisis de K-medias
El análisis de K-means se lleva a cabo:
El conjunto de datos newyorkdf contiene información sobre la latitud, la longitud y la etiqueta del clúster:
> newyorkdf
newyork.lat newyork.lon fit.cluster
1 40.75573 -73.94458 1
2 40.75533 -73.94413 1
3 40.75575 -73.94517 1
4 40.75575 -73.94517 1
5 40.75575 -73.94517 1
6 40.75575 -73.94517 1
...
80 40.84832 -73.82075 11
Aquí hay una ilustración clara:

Esta ilustración es útil, pero la visualización será aún más valiosa si la superpone en un mapa de Nueva York.

Este tipo de agrupación da una excelente idea de la estructura de una red WiFi en una ciudad. Esto indica que la región geográfica marcada por el clúster 1 muestra mucho tráfico WiFi. Por otro lado, menos conexiones en el clúster 6 pueden indicar un bajo tráfico WiFi.
La agrupación de K-Means por sí sola no nos dice por qué el tráfico de un clúster en particular es alto o bajo. Por ejemplo, cuando el clúster 6 tiene una alta densidad de población, pero las velocidades bajas de Internet resultan en menos conexiones.
Sin embargo, este algoritmo de agrupamiento proporciona un excelente punto de partida para un análisis posterior y facilita la recopilación de información adicional. Por ejemplo, usando este mapa como ejemplo, puede construir hipótesis con respecto a grupos geográficos individuales. El artículo original está
aquí .