De Tula à Berlin: analyse urbaine sur Instagram


Ce n'est un secret pour personne que sur Instagram, vous pouvez trouver des photos de n'importe quelle grande ville. Et si nous essayons de reconstruire l'image entière à partir de fragments? Les informations obtenues aideront à comprendre l'idée de lieux inconnus et seront utiles aux voyageurs, en complément des guides de voyage traditionnels.

L'idée d'analyser les villes par photo n'est généralement pas nouvelle [ 1 , 2 , 3 ], mais franchement, les articles trouvés ne disent pas grand-chose.

Comment collecter des données à partir d'Instagram est un sujet qui a été couvert à plusieurs reprises et n'est pas considéré dans cet article. Quelque chose peut être tiré via l'API, mais s'il n'y a pas accès, il existe des options alternatives .

Nos outils de base seront Python et Plotly. À la fin, il existe des liens vers les ordinateurs portables GitHub et Jupyter pour différentes villes (les graphiques sont interactifs, ils contiennent donc plus d'informations et sont recommandés pour une connaissance en face à face). Des scripts de collecte de données sont également inclus dans le référentiel.

Dans cet article, nous nous promènerons dans Berlin. L'ensemble de données considéré dans cet article contient environ 100 000 photos pour environ 2 000 emplacements.

Pour chaque emplacement, nous aurons besoin de:

  1. Le titre
  2. Coordonnées
  3. Photo (10-100 pièces)
  4. Le nombre de publications (la variable edge_location_to_media sur la page d'emplacement, elle n'apparaît pas dans la documentation, mais par des indications indirectes cela signifie exactement cela)


Première promenade


Mettez les données sur la carte. Pour mettre en évidence les endroits les plus fréquentés, nous combinons les emplacements situés sur la même rue dans un marqueur. Les cartes seront dessinées à l'aide de Mapbox.


Carte de Berlin. Les marqueurs indiquent le nombre d'emplacements

Faisons connaissance avec les noms de lieux principaux. Pour ce faire, nous devons convertir les coordonnées des lieux en adresses - c'est la tâche du géocodage inversé. Pour le résoudre, l'API Google Geocoding a été utilisée. Après avoir collecté les géodonnées, nous trions les rues et les zones par nombre d'emplacements.


Pour des villes comme Moscou, les informations sur les quartiers ne sont pas très importantes, tout dans le centre est à peu près le même, mais Berlin est plus hétérogène et il est donc utile de distinguer, par exemple, Kreuzberg de Prenzlauer Berg .

Regardons une liste de lieux classés par popularité.

Top emplacements
location, edge_location_to_media
Alexanderplatz Berlin, 695533
East Side Gallery, 537034
Brandenburger Tor, 525004
Berliner Dom, 411376
Berlin Kreuzberg, 364077
Berlin Mitte, 340891
Memorial to the Murdered Jews of Europe, 251433
Berlin Wall, 228749
Kreuzberg Berlin Germany, 218383
Potsdamer Platz, 182316
Checkpoint Charlie, 171895
Brandenburg Gate, 143530
Mercedes Benz Arena Berlin, 143498
Zoo Berlin, 140465
Berlin Hauptbahnhof, 138153
Gendarmenmarkt Berlin, 114615
Berliner Fernsehturm, 106127
Friedrichshain, 104376
Reichstag dome, 101895
Berlin Germany, 97402
East Side Gallery Berlin Wall, 96385
Jüdisches Museum Berlin Jewish Museum Berlin, 94647
Berlin the place to be, 92444
FAR AWAY, 91062
Berlin Reichstag, 90945
Museum Island, 84010
Potsdamer Platz Berlin, 80733
Hamburger Bahnhof Museum für Gegenwart Berlin, 79323
Kurfürstendamm, 75632
KaDeWe, 73312
Pergamonmuseum, 71524
Tempelhofer Feld, 70472
Azad Gence, 69566
Reichstag building, 69028
Tiergarten Berlin Germany, 65391
Berghain Panorama Bar, 60807
Mall of Berlin, 60718
Schöneberg Berlin Germany, 60482
Tiergarten Berlin, 60210
Hackescher Markt, 59899
Klunkerkranich, 59661
Berlin Victory Column, 57304
Berlin Prenzlauer Berg, 56705
Madame Tussauds Berlin, 55351
Hackesche Höfe, 55183
Bikini Berlin, 50920
Alexanderplatz, 48875
Alte Nationalgalerie, 48346
Museum für Naturkunde Berlin, 46786
The Wall Of Berlin, 46708
NENI Berlin Monkey Bar, 44770
Flughafen Berlin Tempelhof, 44197
Columbiahalle, 43717
Brandenburger Tor, 43484
Berlin Germany, 42739
Warschauer Straße, 41897
Reichstag, 41321
Berlin Holocaust Memorial, 39930
Brandebourg Tor Berlin , 38949
Berlinische Galerie, 37947
Sony Center, 37539
Berliner Philharmonie, 37431
Konzerthaus Berlin, 36905
Tempodrom, 35982
Berlin Mitte, 35895
Friedrichshain, 34693
Urban Spree, 34613
Kraftwerk Berlin, 34392
Bode Museum, 34205
Bundestag, 33998
SONY Center Berlin am Potsdamer Platz, 33628
Berlin Brandenburger Tor, 33098
Brandenburger Tor, 32857
Berlin Zoological Garden, 32718
Deutsches Historisches Museum, 32604
Humboldt Universität zu Berlin, 32308
C/O Berlin, 32294
Astra Kulturhaus Berlin, 30082
Badeschiff Berlin, 30007
Markthalle Neun, 29989
Michelberger Hotel, 29444
Altes Museum, 29009
Hotel Adlon Kempinski Berlin, 28889
Mauerpark, 28282
YAAM Berlin, 27925
Mitte, 27681
Hofbräu Berlin, 27561
Huxleys Neue Welt, 27546
Oberbaum Bridge, 27131
Friedrichstadt Palast Berlin, 27009
STATION Berlin, 26816
Velodrom Berlin, 26385
Moabit, 26350
Neues Museum, 26346
Gedächtniskirche, 26316


Il mélange des lieux «formels» (monuments, musées, galeries) avec des lieux «informels» (clubs, bars, boutiques). Pour séparer les uns des autres, nous avons besoin des données de Wikipedia; contrairement à instagram, son API est entièrement disponible pour tous les arrivants. Sur un axe, nous reportons le nombre de posts sur instagram, sur l'autre, le nombre de fois qu'un article Wikipedia a été consulté sur ce lieu. Sur cette figure, des lieux plus «formels» seront situés plus haut, les plus populaires à droite.

Pour réduire les erreurs, nous regrouperons les emplacements le long des rues, comme sur une carte. Dans le processus de sélection d'articles pour les emplacements, certaines données sont perdues, de sorte que l'image contiendra moins de points que la carte.
Graphique Insta-wiki. Pour plusieurs rues, les endroits les plus importants sont marqués. Voir l'ordinateur portable pour plus d'informations.

Où aller prendre un selfie? Estimez la proportion de photographies contenant des visages. OpenCV et la cascade Haar nous y aideront.
Partagez des photos contenant des visages. Les points sur le côté droit de l'image sont des endroits populaires pour les selfies (enfin, ou les salons de vanité)

Aller plus loin


Ensuite, nous appliquons un réseau de neurones pour déterminer l'environnement dans les photographies. Nous avons utilisé CNN Places365 , formé sur un ensemble de données compilé au MIT [4] . Les balises les plus adaptées à cette tâche ont été sélectionnées. Découvrez lesquels sont les plus courants:
Évaluation des balises. Noms laissés d'origine. Il n'est pas nécessaire de les prendre à la lettre: martial_arts_gym ressemble plus à une salle de sport, et une étiquette de discothèque peut simplement marquer une pièce sombre

Voyons quels tags correspondent aux rues:

La même chose sur la carte:


Carte de Berlin avec les balises les plus caractéristiques. Découvrez l'étiquette de discothèque sur la droite - c'est Friedrichshain, un quartier animé de la vie nocturne

Bonjour, bonjour, Hola


Une façon d'apprendre quelque chose sur une nouvelle ville est de la comparer avec celle que vous connaissez. Nous prenons des vecteurs de caractéristiques pour les emplacements de deux villes et en utilisant t-SNE, nous obtenons des coordonnées bidimensionnelles. Pour plus de clarté, la figure cache des emplacements situés dans la zone de la ville de l'adversaire.

Comparaison des sites de Berlin et de Moscou. Les étiquettes indiquent le trait dominant dans le domaine. Des grappes de couleurs différentes situées les unes à côté des autres indiquent des points de contact entre les villes, c'est-à-dire des endroits similaires

Regardons la différence de signes:
La différence de signes entre Berlin et Moscou. Il semble que dans notre capitale le plus souvent photographié dans les gymnases et cabines d'essayage

Les articles
1. Comment étudier la ville sur Instagram
2. Ce que nous Instagram: une première analyse du contenu photo Instagram et des types d'utilisateurs
3. Zoom sur une ville Instagram: lire le local via les réseaux sociaux
4. Lieux: une base de données d'images de 10 millions pour la reconnaissance de scènes

Portables
Tula , Moscou , Saint-Pétersbourg , Berlin , Rome , Hong Kong

Github
github.com/pskryuchkov/voyage

Source: https://habr.com/ru/post/fr447132/


All Articles