Eine Auswahl von Datensätzen für maschinelles Lernen

Hallo Leser!

Hier finden Sie eine Artikelanleitung zu offenen Datensätzen für maschinelles Lernen. Darin werde ich zunächst eine Auswahl interessanter und frischer (relativ) Datensätze sammeln. Als Bonus füge ich am Ende des Artikels nützliche Links für selbstsuchende Datensätze hinzu.

Weniger Wörter, mehr Daten.

Bild

Eine Auswahl von Datensätzen für maschinelles Lernen:


  • Game of Thrones Todesfälle und Schlachten - Dieser Datensatz kombiniert drei Datenquellen, die jeweils auf Informationen aus einer Reihe von Büchern basieren.
  • Globale Terrorismusdatenbank - Über 180.000 Terroranschläge weltweit, 1970-2017.
  • Bitcoin, historische Daten - Bitcoin-Daten im Abstand von 1 Minute von ausgewählten Börsen, Januar 2012 - März 2019
  • FIFA 19-Spielerdatensatz - 18.000 + FIFA 19-Spieler, ~ 90 Attribute aus der neuesten FIFA-Datenbank abgerufen.
  • YouTube-Videostatistik - Tägliche Trendstatistik für YouTube-Videos.
  • Überblick über Suizidindikatoren von 1985 bis 2016 - Vergleich sozioökonomischer Informationen mit Suizidraten nach Jahr und Land.
  • Riesiger Börsendatensatz - historische Tageskurse und -volumina aller US-Aktien und ETFs.
  • Weltentwicklungsindikatoren - Indikatoren für die Entwicklung von Ländern aus der ganzen Welt.
  • Kaggle Machine Learning & Data Science Survey 2017 - Großartiger Einblick in den Stand von Data Science und maschinellem Lernen.
  • Daten zu Gewalt und Waffen - Ein vollständiger Bericht über mehr als 260.000 US-amerikanische Waffenvorfälle in den Jahren 2013-2018.
  • Röntgenaufnahme der Brust (Lungenentzündung) - 5.863 Bilder, 2 Kategorien.
  • Spracherkennung durch Stimme - Diese Datenbank wurde erstellt, um die Stimme anhand der akustischen Eigenschaften von Stimme und Sprache als männlich oder weiblich zu identifizieren. Der Datensatz besteht aus 3.168 aufgezeichneten Sprachproben von Männern und Frauen.
  • Alkoholkonsum von Schülern - Daten wurden aus einer Umfrage unter Schülern in Mathematik und Portugiesisch in High-School-Kursen erhalten. Es enthält viele interessante soziale, geschlechtsspezifische und pädagogische Informationen über Studenten.
  • Malaria - Zelldatensatz - Zellbilder zum Nachweis von Malaria.
  • Umfragen unter jungen Menschen - Daten zu Vorlieben, Interessen, Gewohnheiten, Meinungen und Ängsten junger Menschen.
  • Weltrangliste der Universitäten - Entdecken Sie die besten Universitäten der Welt.
  • Erkennung von Kreditkartenbetrug - Anonyme Kreditkartentransaktionsdatensätze, die als betrügerisch oder echt gekennzeichnet sind.
  • Datum der Herzerkrankung - Diese Datenbank enthält 76 Attribute wie Alter, Geschlecht, Art der Brustschmerzen, Blutdruck im Ruhezustand und andere.
  • Europäische Fußballbasis - mehr als 25.000 Spiele, Attribute von Spielern und Mannschaften für den europäischen Profifußball.
  • Weinbewertungen - 130.000 Weinbewertungen mit Vielfalt, Lage, Weingut, Preis und Beschreibung.
  • Baidu Apolloscapes . Ein großer Datensatz zum Erkennen von 26 semantisch unterschiedlichen Objekten wie Autos, Fahrrädern, Fußgängern, Gebäuden, Straßenlaternen usw.
  • Komma.ai . Mehr als sieben Stunden auf der Autobahn. Der Datensatz enthält Informationen zu Fahrzeuggeschwindigkeit, Beschleunigung, Lenkwinkel und GPS-Koordinaten.
  • Farberkennung - Dieser Datensatz enthält 4242 Farbbilder. Die Datenerfassung basiert auf Flicr-Daten, Google-Bildern und Yandex-Bildern.
  • Der tägliche Marktpreis jeder Kryptowährung ist der historische Kryptowährungspreis für alle Token.
  • Schokoladenbewertung - Eine Expertenbewertung von mehr als 1.700 Schokoriegeln.
  • Krankenversicherungsmarkt - Daten zu Kranken- und Zahnmedizinplänen auf dem US-amerikanischen Krankenversicherungsmarkt.
  • Herzschlaggeräusche - eine Klassifizierung von Herzschlaganomalien nach einem Stethoskop.
  • Datenbank mit Anime-Empfehlungen - Empfehlungen von 76.000 Benutzern auf myanimelist.net
  • Blutzellenbilder - 12.500 Bilder: 4 verschiedene Zelltypen.
  • Röntgenaufnahme der Brust - mehr als 112.000 Röntgenaufnahmen der Brust von mehr als 30.000 einzigartigen Patienten.
  • Mordberichte 1980-2014 - Das Killing Responsibility-Projekt ist die derzeit umfassendste Tötungsdatenbank in den USA.
  • Gebrauchtwagen-Datenbank - Über 370.000 Gebrauchtwagen. Der Inhalt der Daten ist auf Deutsch, Sie müssen ihn also zuerst übersetzen, wenn Sie kein Deutsch sprechen.
  • Open Data House der US-Regierung - Daten, Tools und Ressourcen für Forschung, Entwicklung von Web- und mobilen Apps sowie Datenvisualisierung.
  • Nationales Zentrum für die Prävention chronischer Krankheiten und die Gesundheitsförderung (NCCDPHP). Das Zentrum arbeitet an der Reduzierung von Risikofaktoren für chronische Krankheiten.
  • Die größte britische Sammlung sozialer, wirtschaftlicher und demografischer Ressourcen.
  • EconData - mehrere tausend wirtschaftliche Zeitreihen, die von einer Reihe von US-Regierungsbehörden erstellt und in verschiedenen Formaten und Medien verteilt wurden.
  • Küstenforschungszentrum - interessante Daten zum Meer und seiner biologischen Zusammensetzung. Hier finden Sie Datensätze, die von der Analyse von Daten aus dem Modell des Roten Meeres bis zur Untersuchung von Temperatur und Strömungen über dem engen südkalifornischen Schelf reichen.
  • Gebärdensprachendatensatz - Türkei, Ankara, Ayranji, Anadolu. Datensatz der Gebärdensprache der High School.
  • Die Qualität von Rotwein ist ein einfacher und verständlicher praktischer Datensatz für die Regressions- oder Klassifizierungsmodellierung.
  • Tabellen der englischen Fußball-Premier League (1968-2019).
  • HotspotQA- Datensatz - Ein Datensatz mit Fragen und Antworten, mit dem Sie Systeme zur verständlicheren Beantwortung von Fragen erstellen können.
  • xView ist eines der größten öffentlich verfügbaren Luftbilder der Erde. Es enthält Bilder verschiedener Szenen aus der ganzen Welt, die mit Begrenzungsrahmen versehen sind.
  • Labelme - Großer Datensatz mit kommentierten Bildern.
  • ImageNet - Bilddatensatz für neue Algorithmen, organisiert nach der WordNet-Hierarchie, in der Hunderte und Tausende von Bildern jeden Knoten in der Hierarchie darstellen.
  • LSUN. - Datensatz von Bildern, aufgeschlüsselt nach Szene und Kategorie mit teilweisem Markup von Daten.
  • MS COCO ist ein umfangreicher Datensatz zum Erkennen und Segmentieren von Objekten.
  • COIL100 - 100 verschiedene Objekte, in jedem Winkel in einer kreisförmigen Umdrehung dargestellt.
  • Visual Genome - Datensatz mit ~ 100.000 detaillierten kommentierten Bildern.
  • Google Open Images. - Eine Sammlung von 9 Millionen Bild-URLs, die unter einer Creative Commons-Lizenz „mit mehr als 6.000 Kategorien versehen wurden“.
  • Beschriftete Gesichter in freier Wildbahn - Eine Sammlung von 13.000 beschrifteten Gesichtsbildern von Personen zur Verwendung von Anwendungen, bei denen Gesichtserkennungstechnologien verwendet werden.
  • Stanford Dogs Dataset - Enthält 20.580 Bilder von 120 Hunderassen.
  • Indoor-Szenenerkennung. - Datensatz zur Erkennung des Innenraums von Gebäuden. Enthält 15 620 Bilder und 67 Kategorien.
  • Oxfords Roboterauto - Über 100 Wiederholungen einer Oxford-Route, die im Laufe des Jahres aufgenommen wurden. Verschiedene Kombinationen von Wetterbedingungen, Verkehr und Fußgängern sowie längerfristige Änderungen wie Straßenarbeiten wurden in den Datensatz aufgenommen.
  • Cityscape Dataset ist ein großer Datensatz, der Aufzeichnungen von hundert Straßenszenen in 50 Städten enthält.
  • KUL Belgium Traffic Sign Dataset - mehr als 10.000 Anmerkungen zu Tausenden verschiedener Ampeln in Belgien.
  • LISA-Labor für intelligente und sichere Automobile - ein Datensatz mit Verkehrszeichen, Ampeln, erkannten Fahrzeugen und Flugbahnen.
  • Bosch Small Ampel Dataset - Datensatz mit 24.000 kommentierten Ampeln.
  • WPI-Datensätze - Datensatz zur Erkennung von Ampeln, Fußgängern und Straßenmarkierungen.
  • Berkeley DeepDrive - ein riesiger Datensatz für Autopiloten. Es enthält über 100.000 Videos mit über 1.100 Stunden Fahraufzeichnungen zu verschiedenen Tageszeiten und bei verschiedenen Wetterbedingungen.
  • MIMIC-III - Datensatz mit anonymen Daten zum Gesundheitszustand von ~ 40.000 Patienten auf der Intensivstation (demografische Daten, Vitalfunktionen, Labortests und Medikamente).
  • Amazon Reviews - Enthält ungefähr 35 Millionen Bewertungen von Amazon über 18 Jahre. Die Daten umfassen Produkt- und Benutzerinformationen, Bewertungen und Überprüfungstext.

Nützliche Links zum Auffinden von Datensätzen:


  • Natürlich ist Kaggle der Treffpunkt für alle Liebhaber maschineller Lernwettbewerbe .
  • Google Dataset Search - Durchsuchen Sie Datensätze über das Internet. Bei Bedarf können Sie auch eigene Datensätze hinzufügen.
  • Das Machine Learning Repository besteht aus einer Reihe von Datenbanken, Subjekttheorien und Datengeneratoren, die von der Community für maschinelles Lernen verwendet werden, um Algorithmen für maschinelles Lernen empirisch zu analysieren.
  • VisualData - Suche nach Datensätzen für die Bildverarbeitung mit praktischer Kategorisierung.
  • DATA USA - ein vollständiger Satz öffentlich verfügbarer Daten aus den USA mit Visualisierung, Beschreibung und Infografiken.

Damit ging unsere kurze Auswahl zu Ende. Wenn jemand etwas zu ergänzen oder zu teilen hat - schreiben Sie in die Kommentare.

Alles Wissen!
Abonnieren Sie den Neuron-Kanal in Telegram (@neurondata) - jede Woche erscheinen neue Artikel und Nachrichten aus der Welt der Datenwissenschaft. Vielen Dank an alle, die mit nützlichen Links helfen, insbesondere an Igor Mariarty, Andrey Bondarenko und Matvey Kochergin.

Source: https://habr.com/ru/post/de452392/


All Articles