Voitures aux Pays-Bas: statistiques et informations pour 2019

Salut, Habr.

Cet article est une continuation du cycle sur les infrastructures cyclables aux Pays-Bas . Cette fois, nous parlerons des voitures.



Récemment, dans l'un des projets, j'ai pu accéder aux données d'une caméra qui reconnaît les numéros de voiture. Connaissant le nombre, vous pouvez obtenir beaucoup d'informations supplémentaires. Mais ensuite, il semblait un peu de ces données, il est devenu intéressant de traiter l'ensemble de la base de données des voitures néerlandaises dans son ensemble, car elle était officiellement ouverte au public .

Les résultats semblaient suffisamment intéressants pour être partagés avec les lecteurs. Pourtant, les Pays-Bas sont parmi les 10 premiers pays en termes de qualité de vie, il était donc très intéressant de voir ce que les Néerlandais roulent en dehors des vélos.

Suite sous la coupe.

Données source


Les statistiques sont divisées en deux parties - tests locaux et données générales. Dans le premier cas, une caméra de surveillance professionnelle AXIS a été utilisée comme source de données, qui a la capacité de reconnaître la plaque d'immatriculation. Le nombre lui-même n'est pas si intéressant pour les statistiques, les informations supplémentaires qui peuvent en être obtenues sont beaucoup plus intéressantes. Et cela se fait aux Pays-Bas simplement, sur le site rdw.nl, pour n'importe quel numéro, vous pouvez obtenir gratuitement des informations sur la voiture en envoyant une simple demande GET (par exemple, vous pouvez voir le numéro aléatoire H789GF ). Beaucoup de données sont retournées, y compris l'année de fabrication, la capacité, le coût du catalogue, etc. Et c'est déjà plus intéressant.

Et enfin, dans la deuxième partie, toute la base sera considérée. Afin de ne pas rendre les graphiques trop volumineux, seules les informations pour 2019 sont prises en compte - les marques et modèles de voitures les plus récents enregistrés au cours de la dernière année.

Commençons donc.

Données locales


Comme mentionné ci-dessus, dans le premier cas, une caméra de surveillance AXIS a été utilisée, qui a la capacité de reconnaître les numéros de voiture. La caméra est installée à l'entrée du centre de bureaux. L'ensemble de données ici est, bien sûr, petit, mais leur intérêt est qu'il s'agit de données réelles provenant des machines utilisées par des gens ordinaires, des représentants de la classe moyenne, où les travailleurs informatiques peuvent être inclus. Les camions pourraient également figurer sur la liste, mais il n'y en avait pas tellement; je n'ai pas effectué de filtrage spécial sur ces modèles.

Au cours des 3 jours de travail de la caméra, 370 enregistrements ont été collectés, sur lesquels il y avait environ 100 voitures. De tout cela, un ensemble de données a été construit qui ressemble à ceci:

car_id,datetime,manufacturer,model,year,price 3,2020-01-23 16:57:26,PEUGEOT,PEUGEOT 206,2004.0, 3,2020-01-23 16:57:26,PEUGEOT,PEUGEOT 206,2004.0, 26,2020-01-23 16:41:39,NISSAN,NISSAN NISSAN JUKE,2012.0,25965.0 26,2020-01-23 16:41:39,NISSAN,NISSAN NISSAN JUKE,2012.0,25965.0 26,2020-01-23 16:41:39,NISSAN,NISSAN NISSAN JUKE,2012.0,25965.0 26,2020-01-23 16:41:38,NISSAN,NISSAN NISSAN JUKE,2012.0,25965.0 21,2020-01-23 16:30:33,BMW,BMW 5ER REIHE,2004.0, 21,2020-01-23 16:30:33,BMW,BMW 5ER REIHE,2004.0, 21,2020-01-23 16:30:32,BMW,BMW 5ER REIHE,2004.0, 47,2020-01-23 16:24:55,VOLVO,VOLVO 240 POLAR U9,1993.0, 47,2020-01-23 16:24:54,VOLVO,VOLVO 240 POLAR U9,1993.0, 

Je pense que les noms des champs sont clairs sans commentaire. Les plaques d'immatriculation ont été retirées pour des raisons de confidentialité, mais pour notre analyse, elles ne sont pas nécessaires.

Voyons quelles données peuvent être extraites à l'aide de Python et Pandas. Ceux qui ne sont pas intéressés par le code peuvent faire défiler le texte immédiatement vers les graphiques.

Connectez les composants nécessaires et chargez l'ensemble de données dans Pandas:

 import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv("license_plates.csv", quotechar='"') 

Nous nous intéressons aux modèles de voitures, nous sélectionnons donc le sous-ensemble nécessaire et supprimons les doublons (pour chaque passage de la voiture, la caméra génère 3-4 événements). Pour faciliter l'affichage des graphiques, nous trions l'ensemble de données par modèle de voiture.

 df_cars = df[['car_id', 'manufacturer', 'model', 'year', 'price']] df_cars = df_cars.drop_duplicates() df_cars['year'] = df_cars["year"].map(int) df_cars['price'] = df_cars["price"].map(get_rounded, na_action=None).astype('Int64') df_cars['car'] = df_cars['model'] + '/' + df_cars['year'].apply(str) df_cars = df_cars.sort_values('manufacturer', ascending=True, inplace=False) 

Nous écrivons une fonction d'extraction de données auxiliaire sous la forme d'un histogramme:

 def extract_as_hist(dataframe, param: str): g = dataframe.groupby([param]) msg_count = g.size().reset_index(name='counts') grouped = g.mean().reset_index() grouped['counts'] = msg_count['counts'] return grouped[param].values, grouped['counts'].values 

Vous pouvez maintenant passer aux graphiques les plus intéressants.

Constructeur


Vous pouvez voir les données sur les fabricants:

 manufacturer, manufacturer_cnt = extract_as_hist(df_cars, 'manufacturer') plt.gca().invert_yaxis() plt.xticks(np.arange(min(manufacturer_cnt)-2, max(manufacturer_cnt)+2, 1.0)) plt.barh(manufacturer, manufacturer_cnt, label='Car Manufacturer') 

Graphique:



Volkswagen est éliminé en premier avec une marge notable, le second est divisé également par BMW, Mercedes et Volvo. Pas un seul VAZ n'a été remarqué lors du test;)

Année de fabrication


Je ne donnerai pas le code, c'est pareil. Planifiez immédiatement:



Comme vous pouvez le voir, la plupart des gens conduisent des voitures il n'y a pas plus de 5 ans, bien que les voitures de 10 ans ne soient pas exotiques. Il y a même quelques raretés de 1993 et ​​1994. Il s’agit respectivement de la VOLVO 240 POLAR U9 et de la BMW 325I CABRIOLET E2.

Les prix


Je vais vous donner un graphique tout de suite:



Nous voyons que la majeure partie de la voiture a un pic très clair à un prix moyen d'environ 30 000 euros. Le haut du sommet est occupé par TESLA MODEL X 2018 (120K) et PORSCHE CAYENNE DIESEL 2014 (115K). La voiture la moins chère - PEUGEOT 107 2012 pour 5K.

Bien sûr, il est impossible d'extraire davantage d'un ensemble de données de 100 machines - la sélection est trop petite. Passons à la prochaine étape - nous examinerons toutes les données du pays.

Données générales pour la Hollande


Vous devez d'abord télécharger la base de données complète, ce qui nous permettra d'extraire beaucoup plus de données. Les fichiers sont disponibles sur la page RDW , la taille du fichier CSV dont nous avons besoin est d'environ 7 Go.

Le code ici est à peu près le même, je ne le répéterai pas, nous irons directement aux résultats. Tous les graphiques se rapportent aux données de 2019, pour les autres années, ceux qui le souhaitent peuvent les imprimer eux-mêmes. Au total, 672 000 voitures ont été immatriculées au cours de l'année, ce qui est beaucoup, étant donné que la population totale des Pays-Bas est de 17 millions de personnes.

Constructeur


La liste générale est assez longue, prenons les 30 premiers.



Comme dans le test local, Volkswagen prend la première place par une large marge. Le reste est visible sur le graphique. Parmi les éléments intéressants, on peut noter Tesla, qui est entré en toute confiance dans le top 10 des voitures achetées en 2019.

Soit dit en passant, si vous augmentez une autre partie du calendrier, vous pouvez voir qu'en 2019 à Lland Lada et UAZ ont été achetés ou importés, avec un total d'environ 10 pièces:



Si quelqu'un ne croit pas - UAZ BUKHANKA , importé en mai 2019, le prix de catalogue est de 32385 euros (je ne comprends probablement pas quelque chose ici dans les prix, eh bien). Et au total aux Pays-Bas depuis toutes les années, jusqu'à 732 voitures LADA ont été enregistrées:



Modèle


Ici, les résultats étaient inattendus. La première place en 2019 est occupée par Tesla Model 3, dont près de 30000 étaient enregistrés. Le reste est visible sur le graphique.



Ici, bien sûr, seulement une partie du calendrier, le tout serait trop long.

La couleur


Il y a peu d'options en termes de couleurs, tout est clair sur la photo même sans traduction.



Le gris vient en premier, puis le noir et blanc, et en général, le choix des couleurs est petit. Soit dit en passant, l'aérographe et divers arts ne sont pas acceptés en Hollande à partir du mot «complètement», de telles voitures dans les rues ne sont jamais tombées une seule fois.

Prix


La catégorie suivante, et assez intéressante, est le prix.



Comme dans le test local, les données sont similaires - le pic tombe sur les voitures au prix de 20-30K. Le graphique continue vers la droite et plus loin - les 3 premiers sont occupés par VOLKSWAGEN TOUAREG , CAPRON T66 et AUDI A6 3.0 TDI au prix de 8,8 millions d'euros.

Type de voiture


Cette catégorie s'est avérée assez intéressante.



Le sommet est assez évident - stationwagen (break), berline avec hayon arrière, monospace (break) et berline. Une autre chose est curieuse - les catégories de "limousine" (42 voitures), "corbillard" (47 voitures) et "ambulance" (153 voitures). Et tout cela est dans la catégorie des «voitures personnelles» (probablement ces 47 personnes gagnent de l'argent supplémentaire pendant leur temps libre en calèche sur un corbillard, c'est difficile à dire). À propos, si quelqu'un s'intéresse à ce à quoi ressemble un corbillard passager (en Russie, je n'en ai jamais vu, même si je n'y ai peut-être pas prêté attention), la photo sous le spoiler:
La photo

Source: Google

Comme suggéré dans les commentaires, une catégorie assez populaire de voitures personnelles est le «camping-car» ( kampeerwagen ), 5604 d'entre elles ont été immatriculées en 2019.

Sur ce je terminerai avec les graphiques, il y avait encore des idées pour voir le poids ou la puissance, mais l'article est déjà trop long.

Conclusions


Franchement, je ne suis pas un expert en voitures, donc il n'y aura pas de conclusions séparées. L'ensemble de données est disponible pour tous ceux qui le souhaitent, ils peuvent collecter des statistiques par eux-mêmes, il y a des fragments de code clés dans le texte.

Si quelqu'un a des données pour d'autres pays, il serait intéressant de comparer.

Source: https://habr.com/ru/post/fr485426/


All Articles