Escolher um local para uma nova filial é uma decisão responsável. Erros podem ser caros, especialmente em setores de capital intensivo. Na maioria das vezes, essas decisões são tomadas por especialistas em gerenciamento: com base no conhecimento da cidade, indústria, experiência anterior.
Neste artigo, falarei sobre como a análise pode ajudar na tomada de tais decisões. Como coletar informações sobre a população, preços de imóveis e fazer visualizações interativas. O número de clientes depende da distância da filial, do ano em que a casa foi construída e do valor da propriedade.
População da cidade precisa de casa

Código para criar um mapa Para avaliar a população da casa, usamos os dados
da reforma da habitação e dos serviços comunitários . Neste portal, você pode obter informações sobre cada casa: ano de construção, área útil, número de instalações residenciais. A estimativa populacional de cada casa foi baseada no número de apartamentos e no espaço total: uma média de cerca de 3 pessoas por apartamento, com pequenas diferenças em algumas casas e municípios.
Acima está um mapa de calor com densidade populacional em São Petersburgo. Nosso cartão para uso interno também contém uma camada separada com a densidade dos clientes. É mais conveniente procurar manchas brancas - lugares com baixa cobertura.
Endereços do cliente
Devido às especificidades do negócio, tínhamos endereços para quase todos os clientes em nosso banco de dados. Só foi necessário encontrar as coordenadas geográficas para cada endereço: geocodificação ou geocodificação. Para obter as coordenadas, usei o pacote geocoder para python. Os seguintes problemas ocorreram durante a geocodificação:
- Alguns endereços estão incorretos, por exemplo, o caso ou a carta está confusa. Nessa situação, a geocodificação pode "colocar" o cliente em um jardim de infância ou prédio de escritórios. Para tais casos, eu tive que escrever um processo que alterasse as coordenadas para o edifício residencial mais próximo dentro de 200 m.
- Pontos com um número anormalmente alto de clientes: centro da cidade, no meio de uma rua grande, no meio do distrito. Tais coordenadas foram obtidas com um endereço preenchido incorretamente e poderiam distorcer a imagem geral; portanto, antes da modelagem, elas foram excluídas
Como resultado, obtivemos as coordenadas exatas da casa para 93% dos clientes. Agora você pode criar um mapa assim:
Dados aleatórios são plotados no mapa para parte de São Petersburgo.Código para criar um mapa import pandas as pd import folium from folium.plugins import MarkerCluster
Esse mapa acabou sendo uma ferramenta conveniente para testar hipóteses. Por exemplo, a empresa tinha a hipótese de que em alguns tipos de casas (edifícios de massa soviéticos: navios, séries 504, Khrushchevs etc.) não haveria clientes. Descobriu-se que isso não é inteiramente verdade. Sim, a proporção de clientes da população nessas casas é baixa. Mas eles precisam ser levados em consideração, pois existem muitas casas na cidade e, como resultado, fornecem até 20% do fluxo de clientes.
Fronteiras dos municípios
Você pode reorganizar os dados da população e do cliente da seção anterior por distrito municipal e mapeá-lo. Se você adicionar janelas de informações e cores personalizadas, será muito informativo. Já existe um excelente
artigo no hub, onde as etapas mostram como construir esses cartões.


Valor da propriedade
Determinar os preços dos imóveis provou ser uma tarefa assustadora. Na primeira etapa, conseguimos obter todos os anúncios para a venda de imóveis desde o início de 2018 - são cerca de 700 mil registros.
Para cada casa, o custo por metro quadrado foi calculado como a mediana dos anúncios. Para 20% das casas sem anúncios, estimamos o custo de sq. m) usando o modelo. O principal fator é o preço por metro quadrado. m 15 casas mais próximas. Ao mesmo tempo, casas com características semelhantes receberam mais peso: ano de construção, número de moradores, tipo de projeto. O erro médio do modelo no conjunto de testes foi de 9,5%, o que é bastante aceitável para o nosso estudo. Especialmente quando você considera que, mesmo em uma casa, o custo de metros quadrados. m pode variar bastante: piso, reparo, área e outros fatores.
Distância de casa para o ramo
O gráfico para quatro departamentos mostra a dependência da proporção de clientes na casa na distância para o departamento. Em alguns ramos, existem saltos fortes, o que sugere a influência de outros fatores (idade da casa, preço do imóvel).

Idade em casa
Interessante é a relação entre o ano em que a casa foi construída e a proporção de clientes.

Para modelagem adicional, a idade da casa foi dividida em 5 categorias significativas:
Preço por metro quadrado. m

O preço se correlaciona com a participação do cliente. Mas o relacionamento é mais fraco do que entre a proporção de clientes e a idade da casa. Talvez o motivo seja que a idade da casa esteja correlacionada com a idade dos residentes. E a idade de uma pessoa afeta muito a frequência de solicitações de serviços médicos.
Descrição do modelo
Posteriormente, essa análise se desenvolveu em um modelo completo, onde as coordenadas são fornecidas na entrada e o número de visitas de novos clientes é obtido na saída. O artigo acabou sendo volumoso, então vou falar brevemente sobre o modelo.
Para facilitar a interpretação dos resultados, a regressão linear foi escolhida como modelo. A variável alvo é a proporção de clientes na casa, fatores: o logaritmo da distância até o escritório mais próximo, o custo da moradia, o ano em que a casa foi construída. Todos os três fatores se mostraram significativos e entraram no modelo.
Substituindo novas coordenadas nesse modelo (ou seja, alterando o fator de distância para a filial mais próxima), na saída, obtemos um novo número de clientes para toda a rede. Se subtrairmos deste número o número de clientes anteriores, obteremos um efeito líquido.
Essa afirmação do problema é conveniente, pois novos locais são selecionados levando em consideração o local das ramificações atuais. Ou seja, não é necessário levar em consideração adicionalmente o fator de “canibalização” entre diferentes departamentos.
A busca de pontos ótimos para toda a cidade foi realizada por uma simples enumeração de coordenadas a cada 500 m Para calcular o efeito da abertura de vários galhos, os pontos foram definidos seqüencialmente.
Resultados
Conseguimos substituir o mapa da parede, no qual pintamos manualmente as bordas dos distritos e lemos algo em mapas interativos convenientes. Livrar os funcionários de corrigir e combinar manualmente milhares de endereços com os municípios. Enriqueça os dados e vá do nível do distrito municipal para cada casa.
Acabou por identificar vários locais muito promissores e não óbvios para o posicionamento. Crie um modelo que compare de forma automática e imparcial diferentes pontos.
Resultados interessantes foram obtidos quando as linhas de negócios foram divididas em “geo-dependentes” e “geo-independentes”. O primeiro deve fazer parte de novos ramos, o segundo pode ser desenvolvido dentro da estrutura dos locais atuais.
(não apresentado no artigo) .