Elegir un lugar para una nueva sucursal es una decisión responsable. Los errores pueden ser costosos, especialmente en industrias intensivas en capital. Muy a menudo, tales decisiones son tomadas por expertos en gestión: en base al conocimiento de la ciudad, la industria, la experiencia previa.
En este artículo hablaré sobre cómo los análisis pueden ayudar a tomar tales decisiones. Cómo recopilar información sobre la población, los precios inmobiliarios y hacer visualizaciones interactivas. ¿El número de clientes depende de la distancia a la sucursal, el año en que se construyó la casa y el valor de la propiedad?
Población de la ciudad precisa para el hogar

Código para crear un mapa Para evaluar la población de la casa, utilizamos los datos
de la reforma de vivienda y servicios comunales . En este portal puede obtener información sobre cada casa: año de construcción, superficie habitable, número de locales residenciales. La estimación de la población de cada casa se basó en el número de apartamentos y el espacio total de vida: un promedio de aproximadamente 3 personas por apartamento con ligeras diferencias para algunas casas y distritos municipales.
Arriba hay un mapa de calor con densidad de población en San Petersburgo. Nuestra tarjeta para uso interno también contiene una capa separada con la densidad de clientes. Es más conveniente buscar manchas blancas, lugares con poca cobertura.
Direcciones de clientes
Debido a los detalles específicos del negocio, teníamos direcciones para casi todos los clientes en nuestra base de datos. Solo era necesario encontrar las coordenadas geográficas para cada dirección: geocodificación o geocodificación. Para obtener las coordenadas, utilicé el paquete geocodificador para python. Los siguientes problemas ocurrieron durante la geocodificación:
- Algunas direcciones son incorrectas, por ejemplo, el caso o la letra son confusos. En esta situación, la geocodificación puede "poner" al cliente en un jardín de infantes o en un edificio de oficinas. Para tales casos, tuve que escribir un proceso que cambiara las coordenadas al edificio residencial más cercano dentro de los 200 m.
- Puntos con un número anormalmente alto de clientes: centro de la ciudad, centro de una calle grande, centro del distrito. Dichas coordenadas se obtuvieron con una dirección rellenada incorrectamente y podrían distorsionar la imagen general, por lo tanto, antes de modelar, se eliminaron
Como resultado, obtuvimos las coordenadas exactas de la casa para el 93% de los clientes. Ahora puedes construir dicho mapa:
Los datos aleatorios se trazan en el mapa para parte de San Petersburgo.Código para crear un mapa import pandas as pd import folium from folium.plugins import MarkerCluster
Tal mapa resultó ser una herramienta conveniente para probar hipótesis. Por ejemplo, el negocio tenía la hipótesis de que en algunos tipos de casas (edificios masivos soviéticos: barcos, series 504, Khrushchevs, etc.) no habría clientes nuestros. Resultó que esto no es del todo cierto. Sí, la proporción de clientes de la población en esas casas es baja. Pero deben tenerse en cuenta ya que hay muchas de esas casas en la ciudad y, como resultado, proporcionan hasta el 20% del flujo de clientes.
Fronteras de los distritos municipales.
Puede reorganizar los datos de población y clientes de la sección anterior por distrito municipal y mapearlos. Si agrega ventanas de información y colores personalizados, resulta muy informativo. Ya hay un excelente
artículo sobre el centro, donde los pasos muestran cómo construir esas tarjetas.


Valor de la propiedad
Determinar los precios de las propiedades ha demostrado ser una tarea desalentadora. En la primera etapa, logramos obtener todos los anuncios para la venta de bienes raíces desde principios de 2018, esto es alrededor de 700 mil registros.
Para cada casa, el costo por metro cuadrado se calculó como la mediana de los anuncios. Para el 20% de las casas sin anuncios, estimamos el costo de sq. m. utilizando el modelo. El factor principal es el precio por metro cuadrado. m 15 casas más cercanas. Al mismo tiempo, las casas con características similares recibieron más peso: año de construcción, número de residentes, tipo de proyecto. El error promedio del modelo en el conjunto de prueba fue de 9.5%, lo cual es bastante aceptable para nuestro estudio. Especialmente cuando consideras que incluso en una casa cuestan metros cuadrados. m. puede variar mucho: piso, reparación, área y otros factores.
Distancia de la casa a la sucursal
El gráfico para 4 departamentos muestra la dependencia de la proporción de clientes en la casa en la distancia al departamento. En algunas sucursales hay saltos fuertes, lo que sugiere la influencia de otros factores (edad de la casa, precio de los bienes inmuebles).

Edad en casa
Interesante es la relación entre el año en que se construyó la casa y la proporción de clientes.

Para seguir modelando, la edad de la casa se dividió en 5 categorías significativas:
Precio por sq. m

El precio se correlaciona con la participación del cliente. Pero la relación es más débil que entre la proporción de clientes y la edad de la casa. Quizás la razón es que la edad de la casa se correlaciona con la edad de los residentes. Y la edad de una persona afecta en gran medida la frecuencia de las solicitudes de servicios médicos.
Descripción del modelo
Posteriormente, este análisis se convirtió en un modelo completo, donde las coordenadas se suministran en la entrada y el número de visitas de nuevos clientes se obtiene en la salida. El artículo resultó ser voluminoso, por lo que hablaré brevemente sobre el modelo.
Para facilitar la interpretación de los resultados, se eligió la regresión lineal como modelo. La variable objetivo es la proporción de clientes en la casa, factores: el logaritmo de la distancia a la oficina más cercana, el costo de la vivienda, el año en que se construyó la casa. Los tres factores resultaron ser significativos e ingresaron al modelo.
Sustituyendo nuevas coordenadas en dicho modelo (es decir, cambiando el factor de distancia a la rama más cercana), en la salida obtenemos un nuevo número de clientes para toda la red. Si restamos de este número el número de clientes que tenía antes, obtendremos un efecto neto.
Tal declaración del problema es conveniente porque las nuevas ubicaciones se seleccionan teniendo en cuenta la ubicación de las sucursales actuales. Es decir, no es necesario tener en cuenta adicionalmente el factor de "canibalización" entre los diferentes departamentos.
La búsqueda de puntos óptimos para toda la ciudad se realizó mediante una simple enumeración de coordenadas cada 500 m. Para calcular el efecto de abrir varias ramas, los puntos se establecieron secuencialmente.
Resultados
Logramos reemplazar el mapa de la pared, en el que pintamos manualmente los bordes de los distritos y leímos algo en mapas interactivos convenientes. Liberó a los empleados de corregir y relacionar manualmente miles de direcciones con distritos municipales Enriquezca los datos y pase del nivel del distrito municipal a cada casa.
Resultó identificar varias ubicaciones muy prometedoras y no obvias para la colocación. Cree un modelo que compare de forma automática e imparcial los diferentes puntos.
Se obtuvieron resultados interesantes cuando las líneas de negocio se dividieron en "geodependientes" y "geo-independientes". La primera debe formar parte de nuevas sucursales, la segunda puede desarrollarse en el marco de las ubicaciones actuales.
(no presentado en el artículo) .