Carros na Holanda: estatísticas e informações para 2019

Oi Habr.

Este artigo é uma continuação do ciclo sobre infraestrutura de bicicletas na Holanda . Desta vez, vamos falar sobre carros.



Recentemente, em um dos projetos, consegui acessar dados de uma câmera que reconhece os números dos carros. Conhecendo o número, você pode obter muitas informações adicionais. Mas, então, pareceu um pouco desses dados, tornou-se interessante processar todo o banco de dados de carros holandeses como um todo, já que era oficialmente aberto ao público .

Os resultados pareciam interessantes o suficiente para serem compartilhados com os leitores. Ainda assim, a Holanda está entre os 10 principais países em termos de qualidade de vida, por isso foi muito interessante ver o que os holandeses andam além de bicicletas.

Continua sob o corte.

Dados de origem


As estatísticas são divididas em duas partes - testes locais e dados gerais. No primeiro caso, uma câmera de vigilância profissional AXIS foi usada como fonte de dados, com capacidade de reconhecimento integrado de placas. O número em si não é tão interessante para as estatísticas, as informações adicionais que podem ser obtidas são muito mais interessantes. E isso é feito na Holanda simplesmente, no site rdw.nl, para qualquer número, você pode obter informações sobre o carro gratuitamente enviando uma solicitação GET simples (por exemplo, você pode ver o número aleatório H789GF ). Muitos dados estão sendo retornados, incluindo o ano de fabricação, capacidade, custo do catálogo, etc. E isso já é mais interessante.

E, finalmente, na segunda parte, toda a base será considerada. Para não tornar os gráficos muito volumosos, apenas as informações de 2019 são consideradas - as marcas e modelos de carros mais atuais registrados no ano passado.

Então, vamos começar.

Dados locais


Como mencionado acima, no primeiro caso, foi usada uma câmera de vigilância AXIS, que tem a capacidade de reconhecer os números dos carros. A câmera é instalada na entrada do centro do escritório. Os dados aqui são, obviamente, pequenos, mas o interesse deles é que sejam dados reais das máquinas usadas por pessoas comuns, representantes da classe média, onde os trabalhadores de TI podem ser incluídos. Os caminhões também poderiam estar na lista, mas não havia muitos deles; eu não fiz nenhum filtro especial nesses modelos.

Nos três dias de trabalho da câmera, foram coletados 370 registros, nos quais havia aproximadamente 100 carros. A partir de tudo isso, um conjunto de dados foi construído com a seguinte aparência:

car_id,datetime,manufacturer,model,year,price 3,2020-01-23 16:57:26,PEUGEOT,PEUGEOT 206,2004.0, 3,2020-01-23 16:57:26,PEUGEOT,PEUGEOT 206,2004.0, 26,2020-01-23 16:41:39,NISSAN,NISSAN NISSAN JUKE,2012.0,25965.0 26,2020-01-23 16:41:39,NISSAN,NISSAN NISSAN JUKE,2012.0,25965.0 26,2020-01-23 16:41:39,NISSAN,NISSAN NISSAN JUKE,2012.0,25965.0 26,2020-01-23 16:41:38,NISSAN,NISSAN NISSAN JUKE,2012.0,25965.0 21,2020-01-23 16:30:33,BMW,BMW 5ER REIHE,2004.0, 21,2020-01-23 16:30:33,BMW,BMW 5ER REIHE,2004.0, 21,2020-01-23 16:30:32,BMW,BMW 5ER REIHE,2004.0, 47,2020-01-23 16:24:55,VOLVO,VOLVO 240 POLAR U9,1993.0, 47,2020-01-23 16:24:54,VOLVO,VOLVO 240 POLAR U9,1993.0, 

Os nomes dos campos, acho, são claros sem comentários. Matrículas removidas por motivos de privacidade, no entanto, para nossa análise, elas não são necessárias.

Vamos ver quais dados podem ser extraídos usando Python e Pandas. Quem não estiver interessado no código pode rolar o texto imediatamente para os gráficos.

Conecte os componentes necessários e carregue o conjunto de dados no Pandas:

 import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv("license_plates.csv", quotechar='"') 

Como estamos interessados ​​em modelos de carros, selecionamos o subconjunto necessário e removemos duplicatas (para cada passagem do carro, a câmera gera 3-4 eventos). Para a conveniência de exibir gráficos, classificamos o conjunto de dados por modelo de carro.

 df_cars = df[['car_id', 'manufacturer', 'model', 'year', 'price']] df_cars = df_cars.drop_duplicates() df_cars['year'] = df_cars["year"].map(int) df_cars['price'] = df_cars["price"].map(get_rounded, na_action=None).astype('Int64') df_cars['car'] = df_cars['model'] + '/' + df_cars['year'].apply(str) df_cars = df_cars.sort_values('manufacturer', ascending=True, inplace=False) 

Escrevemos uma função auxiliar de extração de dados na forma de um histograma:

 def extract_as_hist(dataframe, param: str): g = dataframe.groupby([param]) msg_count = g.size().reset_index(name='counts') grouped = g.mean().reset_index() grouped['counts'] = msg_count['counts'] return grouped[param].values, grouped['counts'].values 

Agora você pode prosseguir para o mais interessante - os gráficos reais.

Fabricante


Você pode ver os dados nos fabricantes:

 manufacturer, manufacturer_cnt = extract_as_hist(df_cars, 'manufacturer') plt.gca().invert_yaxis() plt.xticks(np.arange(min(manufacturer_cnt)-2, max(manufacturer_cnt)+2, 1.0)) plt.barh(manufacturer, manufacturer_cnt, label='Car Manufacturer') 

Gráfico:



A Volkswagen é eliminada em primeiro lugar com uma margem perceptível, a segunda é dividida igualmente pela BMW, Mercedes e Volvo. Nem um único VAZ foi observado durante o teste;)

Ano de fabricação


Eu não vou dar o código, é o mesmo. Agende imediatamente:



Como você pode ver, a maioria das pessoas dirige carros há menos de cinco anos, embora os carros de 10 anos não sejam exóticos. Existem até algumas raridades de 1993 e 1994. Acabou sendo o VOLVO 240 POLAR U9 e o BMW 325I CABRIOLET E2, respectivamente.

Preços


Vou lhe dar um gráfico imediatamente:



Vemos que a maior parte do carro tem um pico muito claro a um preço médio de cerca de 30 mil euros. A parte superior da parte superior é ocupada pelo TESLA MODEL X 2018 (120K) e PORSCHE CAYENNE DIESEL 2014 (115K). O carro mais barato - 2012 PEUGEOT 107 para 5K.

Obviamente, é impossível extrair mais de um conjunto de dados de 100 máquinas - a seleção é muito pequena. Vamos para a próxima etapa - consideraremos os dados de todo o país.

Dados gerais para a Holanda


Primeiro, você precisa baixar o banco de dados inteiro, o que nos permitirá extrair muito mais dados. Os arquivos estão disponíveis na página RDW , o tamanho do arquivo CSV necessário é de aproximadamente 7 GB.

O código aqui é praticamente o mesmo, não vou repetir, iremos direto aos resultados. Todos os gráficos estão relacionados aos dados de 2019; em outros anos, quem desejar pode imprimi-los por conta própria. No total, 672 mil carros foram registrados durante o ano, o que é bastante, considerando que toda a população da Holanda é de 17 milhões de pessoas.

Fabricante


A lista geral é bastante longa; vamos obter os 30 primeiros.



Como no teste local, a Volkswagen ocupa o primeiro lugar por uma ampla margem. O restante é visível no gráfico. O interessante é que a Tesla pode ser notada, que entrou com bastante confiança nos 10 melhores carros comprados em 2019.

A propósito, se você aumentar outra parte do cronograma, poderá ver que em 2019 em Lland Lada e UAZ foram comprados ou importados, com um total de cerca de 10 peças:



Se alguém não acredita - UAZ BUKHANKA , importado em maio de 2019, o preço do catálogo é 32385 Euros (provavelmente não entendo algo aqui no preço, tudo bem). No total, na Holanda, durante todos os anos, foram registrados até 732 carros LADA:



Modelo


Aqui os resultados foram inesperados. O primeiro lugar em 2019 é ocupado pelo Tesla Model 3, dos quais quase 30 mil foram registrados. O restante é visível no gráfico.



Aqui, é claro, apenas parte da programação, o conjunto seria muito longo.

Cor


Existem poucas opções em termos de cores, tudo fica claro a partir da imagem, mesmo sem tradução.



O cinza vem primeiro, depois o preto e o branco e, em geral, a escolha das cores é pequena. By the way, aerografia e várias obras de arte não são aceitas na Holanda a partir da palavra "completamente", esses carros nas ruas nunca foram encontrados sequer uma vez.

Preço


A categoria seguinte e bastante interessante é o preço.



Como no teste local, os dados são semelhantes - o pico cai nos carros a um custo de 20 a 30K. O gráfico continua à direita e mais além - os três primeiros são ocupados por VOLKSWAGEN TOUAREG , CAPRON T66 e AUDI A6 3.0 TDI a um preço de 8,8 milhões de euros.

Tipo de carro


Essa categoria acabou sendo bastante interessante.



O topo é bem óbvio - stationwagen (station wagon), hatchback, MPV (station wagon) e sedan. Outra coisa é curiosa - as categorias de "limusine" (42 carros), "carro funerário" (47 carros) e "ambulância" (153 carros). E isso tudo está na categoria de “carros pessoais” (provavelmente essas 47 pessoas ganham dinheiro extra em seu tempo livre transportando um carro fúnebre, é difícil dizer). By the way, se alguém estiver interessado em como é um carro fúnebre de passageiros (na Rússia eu nunca vi tais, embora eu possa não ter prestado atenção), a foto abaixo do spoiler:
Foto

Fonte: Google

Conforme sugerido nos comentários, uma categoria bastante popular de carros pessoais é o "campista" ( kampeerwagen ), 5604 deles foram registrados em 2019.

Nisto terminarei com os gráficos, ainda havia idéias para ver o peso ou a potência, mas o artigo já é muito longo.

Conclusões


Francamente, eu não sou especialista em carros, então não haverá conclusões separadas. O conjunto de dados está disponível para todos que desejam, eles podem coletar estatísticas por conta própria, existem fragmentos de código-chave no texto.

Se alguém tiver dados para outros países, seria interessante comparar.

Source: https://habr.com/ru/post/pt485426/


All Articles