从图拉到柏林:Instagram的城市分析


在Instagram上您可以找到任何主要城市的照片已不是什么秘密。 如果我们尝试从片段中重建整个图片怎么办? 收到的信息将有助于理解陌生地点的概念,并且将对传统旅行指南的补充对旅行者有用。

通过照片分析城市的想法通常并不新鲜[ 1,2,3 ],但是坦率地说,发现的文章并没有真正说明。

如何从instagram收集数据是一个反复讨论的主题,本文不予考虑。 可以通过API提取某些内容,但是如果无法访问它,则可以使用其他 选项

我们的基本工具将是Python和Plotly。 最后,有指向不同城市的GitHub和Jupyter笔记本电脑的链接(图形是交互式的,因此它们包含更多信息,建议您面对面结识)。 存储库中还包含用于数据收集的脚本。

在本文中,我们将在柏林四处走走。 本文考虑的数据集包含大约2万个位置的约10万张照片。

对于每个位置,我们将需要:

  1. 职称
  2. 座标
  3. 照片(10-100个)
  4. 帖子数(位置页面上的edge_location_to_media变量,它没有出现在文档中,但是通过间接指示,它的含义就是这样)


第一次走


将数据放在地图上。 为了突出显示最繁忙的地方,我们将同一条街上的位置合并为一个标记。 地图将使用Mapbox绘制。


柏林地图。 标记显示位置数

让我们熟悉主要的地名。 为此,我们需要将地点的坐标转换为地址-这是反向地理编码的任务。 为了解决这个问题,使用了Google Geocoding API。 收集地理数据后,我们根据位置数对街道和区域进行排序。


对于诸如莫斯科之类的城市,有关地区的信息不是很重要,中心的内容几乎相同,但是柏林的异构性更高,因此区分例如克罗伊茨贝格普伦茨劳贝格很有用。

让我们看一下按受欢迎程度排序的地点列表。

热门地点
location, edge_location_to_media
Alexanderplatz Berlin, 695533
East Side Gallery, 537034
Brandenburger Tor, 525004
Berliner Dom, 411376
Berlin Kreuzberg, 364077
Berlin Mitte, 340891
Memorial to the Murdered Jews of Europe, 251433
Berlin Wall, 228749
Kreuzberg Berlin Germany, 218383
Potsdamer Platz, 182316
Checkpoint Charlie, 171895
Brandenburg Gate, 143530
Mercedes Benz Arena Berlin, 143498
Zoo Berlin, 140465
Berlin Hauptbahnhof, 138153
Gendarmenmarkt Berlin, 114615
Berliner Fernsehturm, 106127
Friedrichshain, 104376
Reichstag dome, 101895
Berlin Germany, 97402
East Side Gallery Berlin Wall, 96385
Jüdisches Museum Berlin Jewish Museum Berlin, 94647
Berlin the place to be, 92444
FAR AWAY, 91062
Berlin Reichstag, 90945
Museum Island, 84010
Potsdamer Platz Berlin, 80733
Hamburger Bahnhof Museum für Gegenwart Berlin, 79323
Kurfürstendamm, 75632
KaDeWe, 73312
Pergamonmuseum, 71524
Tempelhofer Feld, 70472
Azad Gence, 69566
Reichstag building, 69028
Tiergarten Berlin Germany, 65391
Berghain Panorama Bar, 60807
Mall of Berlin, 60718
Schöneberg Berlin Germany, 60482
Tiergarten Berlin, 60210
Hackescher Markt, 59899
Klunkerkranich, 59661
Berlin Victory Column, 57304
Berlin Prenzlauer Berg, 56705
Madame Tussauds Berlin, 55351
Hackesche Höfe, 55183
Bikini Berlin, 50920
Alexanderplatz, 48875
Alte Nationalgalerie, 48346
Museum für Naturkunde Berlin, 46786
The Wall Of Berlin, 46708
NENI Berlin Monkey Bar, 44770
Flughafen Berlin Tempelhof, 44197
Columbiahalle, 43717
Brandenburger Tor, 43484
Berlin Germany, 42739
Warschauer Straße, 41897
Reichstag, 41321
Berlin Holocaust Memorial, 39930
Brandebourg Tor Berlin , 38949
Berlinische Galerie, 37947
Sony Center, 37539
Berliner Philharmonie, 37431
Konzerthaus Berlin, 36905
Tempodrom, 35982
Berlin Mitte, 35895
Friedrichshain, 34693
Urban Spree, 34613
Kraftwerk Berlin, 34392
Bode Museum, 34205
Bundestag, 33998
SONY Center Berlin am Potsdamer Platz, 33628
Berlin Brandenburger Tor, 33098
Brandenburger Tor, 32857
Berlin Zoological Garden, 32718
Deutsches Historisches Museum, 32604
Humboldt Universität zu Berlin, 32308
C/O Berlin, 32294
Astra Kulturhaus Berlin, 30082
Badeschiff Berlin, 30007
Markthalle Neun, 29989
Michelberger Hotel, 29444
Altes Museum, 29009
Hotel Adlon Kempinski Berlin, 28889
Mauerpark, 28282
YAAM Berlin, 27925
Mitte, 27681
Hofbräu Berlin, 27561
Huxleys Neue Welt, 27546
Oberbaum Bridge, 27131
Friedrichstadt Palast Berlin, 27009
STATION Berlin, 26816
Velodrom Berlin, 26385
Moabit, 26350
Neues Museum, 26346
Gedächtniskirche, 26316


它将“正式”场所(纪念碑,博物馆,美术馆)与“非正式”场所(俱乐部,酒吧,商店)混合在一起。 为了使彼此分开,我们需要来自Wikipedia的数据。 与instagram不同,它的API可供所有用户使用。 一方面,我们推迟instagram上的帖子数量,另一方面,推迟查看有关该地点的Wikipedia文章的次数。 在此图中,更多的“正式”场所将位于更高,更受欢迎的地方。

为了减少错误,我们将沿着街道分组位置,如地图上所示。 在选择位置文章时,一些数据会丢失,因此图片包含的点数少于地图。
Insta-Wiki图表。 在几条街道上,会标出最重要的地方。 有关更多信息,请参阅笔记本电脑。

去哪里拍照? 估计包含面部的照片的比例。 OpenCV和Haar级联将为我们提供帮助。
分享包含面孔的照片。 图片右侧的点是自拍照的热门地点(井或名利场)

更深入


接下来,我们应用神经网络来确定照片中的环境。 我们使用了在MIT [4]上编译的数据集上经过训练的CNN Places365 。 选择最适合此任务的标签。 找出哪些更常见:
标签等级。 名称保留原始名称。 不需要从字面上理解它们:martial_arts_gym更像是一间健身房,而迪斯科舞厅的标签可以简单地标记一个黑暗的房间

让我们看看哪些标签与街道相对应:

在地图上相同:


最具特色的柏林地图。 看看右边的迪斯科舞厅标签-它是充满活力的夜生活区弗里德里希斯海恩(Friedrichshain)

你好哈罗哈罗


了解新城市的一种方法是将其与您所知道的城市进行比较。 我们针对两个城市的位置获取特征向量,并使用t-SNE获得二维坐标。 为了清楚起见,该图隐藏了位于对手城市区域内的位置。

比较柏林和莫斯科的位置。 标签表明该领域的主要特征。 彼此相邻的不同颜色的群集指示城市之间的接触点,即相似的地方

让我们看一下符号的区别:
柏林和莫斯科之间的标志差异。 似乎在我们首都,更经常在体育馆和试衣间拍照

文章
1. 如何在Instagram上学习城市
2. 我们的Instagram:Instagram照片内容和用户类型的初步分析
3. 放大Instagram城市:通过社交媒体阅读当地信息
4. 地点:用于场景识别的1000万个图像数据库

手提电脑
图拉莫斯科圣彼得堡柏林罗马香港

Github
github.com/pskryuchkov/voyage

Source: https://habr.com/ru/post/zh-CN447132/


All Articles