Es ist kein Geheimnis, dass Sie auf Instagram Fotos von jeder größeren Stadt finden können. Was ist, wenn wir versuchen, das gesamte Bild aus Fragmenten zu rekonstruieren? Die erhaltenen Informationen helfen dabei, die Idee unbekannter Orte zu verstehen, und sind für Reisende nützlich und ergänzen traditionelle Reiseführer.
Die Idee, Städte anhand von Fotos zu analysieren, ist im Allgemeinen nicht neu [
1 ,
2 ,
3 ], aber ehrlich gesagt sagen die gefundenen Artikel nicht wirklich viel aus.
Das Sammeln von Daten aus Instagram ist ein Thema, das wiederholt behandelt wurde und in diesem Artikel nicht behandelt wird. Über die API kann etwas abgerufen werden, aber wenn kein Zugriff darauf besteht, gibt es
alternative Optionen .
Unsere Basiswerkzeuge sind Python und Plotly. Am Ende gibt es Links zu GitHub- und Jupyter-Laptops für verschiedene Städte (die Grafiken sind interaktiv, enthalten daher mehr Informationen und werden für persönliche Bekanntschaften empfohlen). Skripte für die Datenerfassung sind ebenfalls im Repository enthalten.
In diesem Artikel werden wir durch Berlin laufen. Der in diesem Artikel berücksichtigte Datensatz enthält ungefähr 100.000 Fotos für ~ 2.000 Standorte.
Für jeden Standort benötigen wir:
- Titel
- Koordinaten
- Foto (10-100 Stk.)
- Die Anzahl der Beiträge (die Variable edge_location_to_media auf der Standortseite erscheint nicht in der Dokumentation, bedeutet aber durch indirekte Angaben genau das)
Erster Spaziergang
Stellen Sie die Daten auf die Karte. Um die belebtesten Orte hervorzuheben, kombinieren wir die Orte in derselben Straße zu einer Markierung. Karten werden mit Mapbox gezeichnet.
Karte von Berlin. Markierungen zeigen die Anzahl der Stellen anMachen wir uns mit den wichtigsten Ortsnamen vertraut. Dazu müssen wir die Koordinaten von Orten in Adressen konvertieren - dies ist die Aufgabe der umgekehrten Geokodierung. Um dies zu lösen, wurde die Google Geocoding API verwendet. Nach dem Sammeln von Geodaten sortieren wir die Straßen und Gebiete nach der Anzahl der Standorte.
Für Städte wie Moskau sind Informationen über die Stadtteile nicht sehr wichtig, alles im Zentrum ist ungefähr gleich, aber Berlin ist heterogener und daher ist es nützlich, beispielsweise
Kreuzberg von
Prenzlauer Berg zu unterscheiden .
Schauen wir uns eine Liste von Orten an, die nach Beliebtheit sortiert sind.
Top Standortelocation, edge_location_to_media
Alexanderplatz Berlin, 695533
East Side Gallery, 537034
Brandenburger Tor, 525004
Berliner Dom, 411376
Berlin Kreuzberg, 364077
Berlin Mitte, 340891
Memorial to the Murdered Jews of Europe, 251433
Berlin Wall, 228749
Kreuzberg Berlin Germany, 218383
Potsdamer Platz, 182316
Checkpoint Charlie, 171895
Brandenburg Gate, 143530
Mercedes Benz Arena Berlin, 143498
Zoo Berlin, 140465
Berlin Hauptbahnhof, 138153
Gendarmenmarkt Berlin, 114615
Berliner Fernsehturm, 106127
Friedrichshain, 104376
Reichstag dome, 101895
Berlin Germany, 97402
East Side Gallery Berlin Wall, 96385
Jüdisches Museum Berlin Jewish Museum Berlin, 94647
Berlin the place to be, 92444
FAR AWAY, 91062
Berlin Reichstag, 90945
Museum Island, 84010
Potsdamer Platz Berlin, 80733
Hamburger Bahnhof Museum für Gegenwart Berlin, 79323
Kurfürstendamm, 75632
KaDeWe, 73312
Pergamonmuseum, 71524
Tempelhofer Feld, 70472
Azad Gence, 69566
Reichstag building, 69028
Tiergarten Berlin Germany, 65391
Berghain Panorama Bar, 60807
Mall of Berlin, 60718
Schöneberg Berlin Germany, 60482
Tiergarten Berlin, 60210
Hackescher Markt, 59899
Klunkerkranich, 59661
Berlin Victory Column, 57304
Berlin Prenzlauer Berg, 56705
Madame Tussauds Berlin, 55351
Hackesche Höfe, 55183
Bikini Berlin, 50920
Alexanderplatz, 48875
Alte Nationalgalerie, 48346
Museum für Naturkunde Berlin, 46786
The Wall Of Berlin, 46708
NENI Berlin Monkey Bar, 44770
Flughafen Berlin Tempelhof, 44197
Columbiahalle, 43717
Brandenburger Tor, 43484
Berlin Germany, 42739
Warschauer Straße, 41897
Reichstag, 41321
Berlin Holocaust Memorial, 39930
Brandebourg Tor Berlin , 38949
Berlinische Galerie, 37947
Sony Center, 37539
Berliner Philharmonie, 37431
Konzerthaus Berlin, 36905
Tempodrom, 35982
Berlin Mitte, 35895
Friedrichshain, 34693
Urban Spree, 34613
Kraftwerk Berlin, 34392
Bode Museum, 34205
Bundestag, 33998
SONY Center Berlin am Potsdamer Platz, 33628
Berlin Brandenburger Tor, 33098
Brandenburger Tor, 32857
Berlin Zoological Garden, 32718
Deutsches Historisches Museum, 32604
Humboldt Universität zu Berlin, 32308
C/O Berlin, 32294
Astra Kulturhaus Berlin, 30082
Badeschiff Berlin, 30007
Markthalle Neun, 29989
Michelberger Hotel, 29444
Altes Museum, 29009
Hotel Adlon Kempinski Berlin, 28889
Mauerpark, 28282
YAAM Berlin, 27925
Mitte, 27681
Hofbräu Berlin, 27561
Huxleys Neue Welt, 27546
Oberbaum Bridge, 27131
Friedrichstadt Palast Berlin, 27009
STATION Berlin, 26816
Velodrom Berlin, 26385
Moabit, 26350
Neues Museum, 26346
Gedächtniskirche, 26316
Es mischt „formelle“ Orte (Denkmäler, Museen, Galerien) mit „informellen“ (Clubs, Bars, Geschäfte). Um voneinander zu trennen, benötigen wir Daten aus Wikipedia. Im Gegensatz zu Instagram steht die API allen Ankömmlingen vollständig zur Verfügung. Auf einer Achse verschieben wir die Anzahl der Beiträge auf Instagram, auf der anderen die Häufigkeit, mit der ein Wikipedia-Artikel über diesen Ort angesehen wurde. In dieser Abbildung befinden sich rechts mehr „formelle“ Orte, rechts populärere.
Um Fehler zu reduzieren, gruppieren wir Standorte entlang der Straßen wie auf einer Karte. Bei der Auswahl von Artikeln für Standorte gehen einige Daten verloren, sodass das Bild weniger Punkte als die Karte enthält.
Insta-Wiki-Diagramm. Für mehrere Straßen sind die wichtigsten Orte markiert. Weitere Informationen finden Sie auf dem Laptop.Wohin, um ein Selfie zu machen? Schätzen Sie den Anteil der Fotos mit Gesichtern. OpenCV und die Haar-Kaskade helfen uns dabei.
Teilen Sie Fotos mit Gesichtern. Die Punkte auf der rechten Seite des Bildes sind beliebte Orte für Selfies (Brunnen- oder Eitelkeitsmessen).Tiefer gehen
Als nächstes wenden wir ein neuronales Netzwerk an, um die Umgebung in Fotografien zu bestimmen. Wir verwendeten
CNN Places365 , das auf einem am MIT zusammengestellten Datensatz trainiert wurde
[4] . Die für diese Aufgabe am besten geeigneten Tags wurden ausgewählt. Finden Sie heraus, welche häufiger vorkommen:
Tag-Bewertung. Namen links original. Sie müssen nicht wörtlich genommen werden: martial_arts_gym ähnelt eher einem Fitnessstudio, und ein Diskothekenetikett kann einfach einen dunklen Raum markierenMal sehen, welche Tags den Straßen entsprechen:
Das gleiche auf der Karte:
Karte von Berlin mit den charakteristischsten Tags. Schauen Sie sich das Diskothekenschild auf der rechten Seite an - es ist Friedrichshain, ein pulsierendes AusgehviertelHallo, hallo, Hola
Eine Möglichkeit, etwas über eine neue Stadt zu lernen, besteht darin, sie mit der Ihnen bekannten zu vergleichen. Wir nehmen Merkmalsvektoren für Standorte zweier Städte und erhalten mit t-SNE zweidimensionale Koordinaten. Zur Verdeutlichung versteckte die Figur Orte, die im Bereich der Stadt des Gegners liegen.
Standortvergleich in Berlin und Moskau. Etiketten geben das dominierende Merkmal auf dem Gebiet an. Cluster unterschiedlicher Farben, die nebeneinander angeordnet sind, zeigen Berührungspunkte zwischen Städten an, d. H. Ähnliche Orte.Schauen wir uns den Unterschied der Zeichen an:
Der Zeichenunterschied zwischen Berlin und Moskau. Es scheint, dass in unserer Hauptstadt häufiger in Fitnessstudios und Umkleidekabinen fotografiert wirdArtikel1.
Wie man die Stadt auf Instagram studiert2.
Was wir Instagram: Eine erste Analyse von Instagram-Fotoinhalten und Benutzertypen3.
Zoomen in eine Instagram-Stadt: Lesen Sie das Lokale über soziale Medien4.
Orte: Eine 10-Millionen-Bilddatenbank zur SzenenerkennungLaptopsTula ,
Moskau ,
St. Petersburg ,
Berlin ,
Rom ,
HongkongGithubgithub.com/pskryuchkov/voyage