Le choix d'un emplacement pour une nouvelle succursale est une décision responsable. Les erreurs peuvent être coûteuses, en particulier dans les industries à forte intensité de capital. Le plus souvent, ces décisions sont prises par des experts en gestion: sur la base de la connaissance de la ville, de l'industrie, de l'expérience antérieure.
Dans cet article, je parlerai de la façon dont l'analyse peut aider à prendre de telles décisions. Comment collecter des informations sur la population, les prix de l'immobilier et faire des visualisations interactives. Le nombre de clients dépend-il de la distance à la succursale, de l'année de construction de la maison, de la valeur de la propriété.
Population de la ville précise à la maison

Code pour créer une carte Pour évaluer la population de la maison, nous avons utilisé les données
de la réforme du logement et des services communaux . Sur ce portail, vous pouvez obtenir des informations sur chaque maison: année de construction, surface habitable, nombre de locaux d'habitation. L'estimation de la population de chaque maison était basée sur le nombre d'appartements et la surface habitable totale: une moyenne d'environ 3 personnes par appartement avec de légères différences pour certaines maisons et certains districts municipaux.
Ci-dessus, une carte thermique avec une densité de population à Saint-Pétersbourg. Notre carte à usage interne contient également une couche séparée avec la densité des clients. Il est plus pratique de rechercher les points blancs - les endroits à faible couverture.
Adresses des clients
En raison des spécificités de l'entreprise, nous avions des adresses pour presque tous les clients dans notre base de données. Il suffisait de trouver les coordonnées géographiques de chaque adresse: géocodage ou géocodage. Pour obtenir les coordonnées, j'ai utilisé le paquet geocoder pour python. Les problèmes suivants se sont produits lors du géocodage:
- Certaines adresses sont incorrectes, par exemple, le cas ou la lettre est confus. Dans cette situation, le géocodage peut «placer» le client dans un jardin d'enfants ou un immeuble de bureaux. Pour de tels cas, j'ai dû écrire un processus qui a changé les coordonnées du bâtiment résidentiel le plus proche à moins de 200 m.
- Points avec un nombre anormalement élevé de clients: centre ville, milieu d'une grande rue, milieu du quartier. Ces coordonnées ont été obtenues avec une adresse incorrectement renseignée et pourraient fausser l'image globale, par conséquent, avant la modélisation, elles ont été supprimées
En conséquence, nous avons obtenu les coordonnées exactes de la maison pour 93% des clients. Vous pouvez maintenant créer une telle carte:
Des données aléatoires sont tracées sur la carte pour une partie de Saint-Pétersbourg.Code pour créer une carte import pandas as pd import folium from folium.plugins import MarkerCluster
Une telle carte s'est avérée être un outil pratique pour tester des hypothèses. Par exemple, l'entreprise avait l'hypothèse que dans certains types de maisons (bâtiments de masse soviétiques: navires, série 504, Khrouchtchevs, etc.), il n'y aurait pas de clients. Il s'est avéré que ce n'est pas entièrement vrai. Oui, la proportion de clients de la population dans ces maisons est faible. Mais ils doivent être pris en compte car il y a beaucoup de telles maisons dans la ville et, par conséquent, elles fournissent jusqu'à 20% du flux de clients.
Frontières des districts municipaux
Vous pouvez réorganiser les données sur la population et les clients de la section précédente par district municipal et les cartographier. Si vous ajoutez des fenêtres d'informations et des coloriages personnalisés, cela s'avère très instructif. Il y a déjà un excellent
article sur le hub, où les étapes montrent comment construire de telles cartes.


Valeur de la propriété
La détermination des prix de l'immobilier s'est avérée être une tâche ardue. Dans un premier temps, nous avons réussi à obtenir toutes les annonces pour la vente de biens immobiliers depuis début 2018 - c'est environ 700 mille enregistrements.
Pour chaque maison, le coût par mètre carré a été calculé comme la médiane des annonces. Pour 20% des maisons sans annonces, nous avons estimé le coût du m². m. en utilisant le modèle. Le principal facteur est le prix au mètre carré. m 15 maisons les plus proches. Dans le même temps, les maisons aux caractéristiques similaires ont reçu plus de poids: année de construction, nombre de résidents, type de projet. L'erreur moyenne du modèle sur l'ensemble de test était de 9,5%, ce qui est tout à fait acceptable pour notre étude. Surtout quand on considère que même dans une maison le coût du mètre carré. peut varier considérablement: sol, réparation, surface et autres facteurs.
Distance entre le domicile et la succursale
Le graphique pour 4 départements montre la dépendance de la proportion de clients dans la maison par rapport à la distance au département. Dans certaines branches, il y a des sauts importants, ce qui suggère l'influence d'autres facteurs (âge de la maison, prix de l'immobilier).

Âge à la maison
La relation entre l'année de construction de la maison et la proportion de clients est intéressante.

Pour une modélisation supplémentaire, l'âge de la maison a été divisé en 5 catégories significatives:
Prix au carré m

Le prix est en corrélation avec la part du client. Mais la relation est plus faible qu'entre la proportion de clients et l'âge de la maison. Peut-être la raison en est que l'âge de la maison est en corrélation avec l'âge des résidents. Et l'âge d'une personne affecte considérablement la fréquence des demandes de services médicaux.
Description du modèle
Par la suite, cette analyse s'est développée en un modèle à part entière, où les coordonnées sont fournies à l'entrée, et le nombre de visites de nouveaux clients est obtenu à la sortie. L'article s'est avéré volumineux, je vais donc parler brièvement du modèle.
Pour faciliter l'interprétation des résultats, une régression linéaire a été choisie comme modèle. La variable cible est la proportion de clients dans la maison, des facteurs: le logarithme de la distance jusqu'au bureau le plus proche, le coût du logement, l'année de construction de la maison. Les trois facteurs se sont révélés importants et sont entrés dans le modèle.
En substituant de nouvelles coordonnées dans un tel modèle (c'est-à-dire en changeant le facteur de distance à la branche la plus proche), en sortie, nous obtenons un nouveau nombre de clients pour l'ensemble du réseau. Si nous soustrayons de ce nombre le nombre de clients qui était auparavant, nous obtiendrons un effet net.
Une telle déclaration du problème est commode dans la mesure où de nouveaux emplacements sont sélectionnés en tenant compte de l'emplacement des branches actuelles. Autrement dit, il n'est pas nécessaire de prendre en compte en plus le facteur de «cannibalisation» entre les différents services.
La recherche de points optimaux pour l'ensemble de la ville a été effectuée par une simple énumération des coordonnées tous les 500 m. Pour calculer l'effet de l'ouverture de plusieurs succursales, les points ont été définis séquentiellement.
Résultats
Nous avons réussi à remplacer la carte murale, sur laquelle nous avons peint manuellement les limites des quartiers et lu quelque chose sur des cartes interactives pratiques. Éliminer les employés de la correction manuelle et de l'appariement de milliers d'adresses avec les districts municipaux Enrichissez les données et passez du niveau de la commune à chaque maison.
Il s'est avéré identifier plusieurs emplacements très prometteurs et non évidents pour le placement. Créez un modèle qui compare automatiquement et impartialement différents points.
Des résultats intéressants ont été obtenus lorsque les métiers ont été divisés en «géo-dépendants» et «géo-indépendants». Les premiers devraient faire partie de nouvelles branches, les seconds peuvent être développés dans le cadre des implantations actuelles.
(non présenté dans l'article) .