Eine Auswahl von Datensätzen für maschinelles Lernen

Hallo Leute

Bevor Sie eine Artikelanleitung zum Öffnen von Datensätzen für maschinelles Lernen erhalten. Darin werde ich zunächst eine Auswahl interessanter und frischer (relativ) Datensätze sammeln. Und als Bonus werde ich am Ende des Artikels nützliche Links zur unabhängigen Suche in Datensätzen anhängen.

Weniger Wörter, mehr Daten.

Bild

Eine Auswahl von Datensätzen für maschinelles Lernen:


  • Datentodesfälle und Schlachten aus dem Spiel der Throne - Dieser Datensatz kombiniert drei Datenquellen, die jeweils auf Informationen aus einer Reihe von Büchern basieren.
  • Globale Terrorismusdatenbank - Über 180.000 Terroranschläge weltweit, 1970-2017.
  • Bitcoin, historische Daten - Bitcoin-Daten mit einem Intervall von 1 Minute von ausgewählten Börsen, Januar 2012 - März 2019
  • FIFA 19 vollständiger Satz von Spielerdaten - 18.000 + FIFA 19-Spieler, ~ 90 Attribute, extrahiert aus der neuesten FIFA-Datenbank.
  • YouTube-Videostatistik - tägliche Statistik von Trendvideos auf YouTube.
  • Erhebung der Selbstmordraten von 1985 bis 2016 - Vergleich sozioökonomischer Informationen mit Selbstmordraten nach Jahr und Land.
  • Riesiger Börsendatensatz - historische Tageskurse und Volumina aller US-Aktien und ETFs.
  • Weltentwicklungsindikatoren - Entwicklungsindikatoren von Ländern aus der ganzen Welt.
  • Kaggle Machine Learning & Data Science Survey 2017 - Großartiger Einblick in den Stand von Data Science und maschinellem Lernen.
  • Daten zu Gewalt und Waffen - ein vollständiger Bericht über mehr als 260.000 amerikanische Waffenvorfälle in den Jahren 2013-2018
  • Röntgenaufnahme der Brust (Lungenentzündung) - 5.863 Bilder, 2 Kategorien.
  • Geschlechtserkennung durch Stimme - Diese Datenbank wurde erstellt, um die Stimme anhand der akustischen Eigenschaften von Stimme und Sprache als männlich oder weiblich zu identifizieren. Der Datensatz besteht aus 3168 aufgezeichneten Sprachproben, die von Männern und Frauen gesammelt wurden.
  • Alkoholkonsum von Schülern - Daten wurden in einer Umfrage unter Schülern von Mathematik- und Portugiesischkursen an Gymnasien erhoben. Es enthält viele interessante soziale, geschlechtsspezifische und pädagogische Informationen über Studenten.
  • Malaria Cell Dataset - Zellbilder zur Erkennung von Malaria.
  • Umfragen unter jungen Menschen - Daten zu Vorlieben, Interessen, Gewohnheiten, Meinungen und Ängsten junger Menschen.
  • World University Rankings - Entdecken Sie die besten Universitäten der Welt.
  • Erkennung von Kreditkartenbetrug - Anonyme Kreditkartentransaktionen werden als betrügerisch oder authentisch gekennzeichnet.
  • Datensatz Herzkrankheit - Diese Datenbank enthält 76 Attribute wie Alter, Geschlecht, Brustschmerztyp, Ruheblutdruck und andere.
  • European Football Base - Über 25.000 Spiele, Attribute von Spielern und Teams für den europäischen Profifußball.
  • Weinbewertungen - 130.000 Weinbewertungen mit Vielfalt, Lage, Weingut, Preis und Beschreibung.
  • Baidu Apolloscapes . Ein großer Datensatz zum Erkennen von 26 semantisch unterschiedlichen Objekten wie Autos, Fahrrädern, Fußgängern, Gebäuden, Straßenlaternen usw.
  • Komma.ai . Mehr als sieben Stunden Fahrt auf der Autobahn. Der Datensatz enthält Informationen über die Geschwindigkeit des Fahrzeugs, die Beschleunigung, den Lenkwinkel und die GPS-Koordinaten.
  • Farberkennung - Dieser Datensatz enthält 4242 Farbbilder. Die Datenerfassung basiert auf Flicr-Daten, Google-Bildern und Yandex-Bildern.
  • Täglicher Marktpreis für jede Kryptowährung - historische Kryptowährungspreise für alle Token.
  • Schokoladenbewertung - Expertenbewertung von mehr als 1.700 Schokoriegeln.
  • Krankenversicherungsmarkt - Daten zu Kranken- und Zahnversicherungsplänen für den US-amerikanischen Krankenversicherungsmarkt.
  • Herzschlaggeräusche - Klassifizierung von Herzschlaganomalien durch Stethoskop.
  • Anime Recommendations Database - Empfehlungen von 76.000 Benutzern auf myanimelist.net
  • Blutzellenbilder - 12.500 Bilder: 4 verschiedene Zelltypen.
  • Röntgenaufnahme der Brust - über 112.000 Röntgenaufnahmen der Brust von über 30.000 einzigartigen Patienten.
  • Mordberichte, 1980-2014 - Das Kill Responsibility Project ist die derzeit umfassendste Morddatenbank in den USA.
  • Gebrauchtwagen-Datenbank - über 370.000 Gebrauchtwagen. Der Dateninhalt ist in Deutsch, Sie müssen ihn also zuerst übersetzen, wenn Sie kein Deutsch sprechen.
  • Open Data House der US-Regierung - Daten, Tools und Ressourcen für die Durchführung von Recherchen, die Entwicklung von Webanwendungen und mobilen Anwendungen sowie die Entwicklung von Datenvisualisierungen.
  • National Center Prävention chronischer Krankheiten und Gesundheitsförderung (NCCDPHP). Das Zentrum arbeitet daran, die Risikofaktoren für chronische Krankheiten zu reduzieren.
  • Größte in Großbritannien eine Sammlung sozialer, wirtschaftlicher und demografischer Ressourcen.
  • EconData - n Mehrere tausend wirtschaftliche Zeitreihen, die von einer Reihe von US-Regierungsbehörden erstellt und in verschiedenen Formaten und Medien verteilt wurden.
  • Küstenforschungszentrum - interessante Daten zum Meer und seiner biologischen Zusammensetzung. Hier finden Sie Datensätze von der Analyse von Daten aus dem Modell des Roten Meeres bis zur Untersuchung von Temperatur und Strömungen über dem engen südkalifornischen Schelf.
  • Gebärdensprache Ziffern Datensatz - Türkei, Ankara, Ayranji, Anadolu. Datensatz der Gebärdensprache der High School.
  • Qualitätsrotwein - einfacher und klarer praktischer Datensatz für die Regressions- oder Klassifizierungsmodellierung.
  • Tabellenkalkulation English Football Premier League (1968-2019).
  • HotspotQA-Datensatz - Datensatz mit Fragen und Antworten, mit dem Sie ein System zur verständlicheren Beantwortung von Fragen erstellen können.
  • xView - eines der größten öffentlich verfügbaren Luftbilder der Erde. Es enthält Bilder verschiedener Szenen aus der ganzen Welt, die mit Begrenzungsrahmen versehen sind.
  • Labelme - Großer kommentierter Bilddatensatz.
  • ImageNet - Datensatz von Bildern für neue Algorithmen, organisiert nach der WordNet-Hierarchie, in der Hunderte und Tausende von Bildern jeden Knoten der Hierarchie darstellen.
  • LSUN. - Datensätze von Bildern, unterteilt in Szenen und Kategorien mit Teilmarkierungsdaten.
  • MS COCO - Großer Datensatz zur Erkennung und Segmentierung von Objekten.
  • COIL100 - 100 verschiedene Objekte, die in jedem Winkel in einer kreisförmigen Drehung dargestellt werden.
  • Visuelles Genom - Datensatz mit ~ 100.000. Detaillierte kommentierte Bilder.
  • Google Open Images. - Eine Sammlung von 9 Millionen URLs zu Bildern, die unter der Creative Commons-Lizenz „mit mehr als 6.000 Kategorien versehen“ sind.
  • Beschriftete Gesichter in freier Wildbahn - ein Satz von 13.000 markierten Gesichtsbildern von Personen zur Verwendung von Anwendungen, bei denen Gesichtserkennungstechnologien verwendet werden.
  • Stanford Dogs Dataset - enthält 20.580 Bilder von 120 Hunderassen.
  • Indoor-Szenenerkennung. - Datensatz zur Erkennung des Innenraums von Gebäuden. Enthält 15.620 Bilder und 67 Kategorien.
  • Oxfords Roboterauto - mehr als 100 Wiederholungen einer Route durch Oxford, die im Laufe des Jahres gedreht wurden. Verschiedene Kombinationen von Wetterbedingungen, Verkehr und Fußgängern sowie längere Änderungen wie Straßenarbeiten wurden in Datensätze aufgenommen.
  • Stadtbild- Datensatz - Ein großer Datensatz mit Aufzeichnungen von hundert Straßenszenen in 50 Städten.
  • KUL Belgium Traffic Sign Dataset - über 10.000 Anmerkungen zu Tausenden verschiedener Ampeln in Belgien.
  • LISA-Labor für intelligente und sichere Automobile - Datensatz mit Verkehrszeichen, Ampeln, anerkannten Fahrzeugen und Bewegungsbahnen.
  • Bosch Small Ampel Dataset - Termine mit 24.000 kommentierten Ampeln.
  • WPI-Datensätze - Datensatz zur Erkennung von Ampeln, Fußgängern und Straßenmarkierungen.
  • Berkeley DeepDrive - riesiger Datensatz für Autopiloten. Es enthält über 100.000 Videos mit mehr als 1.100 Stunden Fahraufzeichnungen zu verschiedenen Tageszeiten und bei unterschiedlichen Wetterbedingungen.
  • MIMIC-III - Datensätze mit unpersönlichen Daten zum Gesundheitszustand von ~ 40.000 Intensivpatienten (demografische Daten, Vitalfunktionen, Labortests und Medikamente).
  • Amazon Reviews - Enthält ungefähr 35 Millionen Bewertungen von Amazon seit 18 Jahren. Die Daten umfassen Produkt- und Benutzerinformationen, Bewertungen und den Text der Bewertung selbst.

Nützliche Links zum Durchsuchen von Datensätzen:


  • Sicherlich Kaggle - Treffpunkt für alle Fans von Wettbewerben des maschinellen Lernens.
  • Google Dataset Search - Durchsuchen Sie Datensätze im gesamten Internet. Bei Bedarf können Sie auch eigene Datensätze hinzufügen.
  • Machine Learning Repository - eine Reihe von Datenbanken, Domänentheorien und Datengeneratoren, die von der Community für maschinelles Lernen zur empirischen Analyse von Algorithmen für maschinelles Lernen verwendet werden.
  • VisualData - Datensatzsuche für Bildverarbeitung mit bequemer Klassifizierung nach Kategorien.
  • DATA USA - vollständiger Satz öffentlich verfügbarer US-Daten mit Visualisierung, Beschreibung und Infografiken.

Damit ging unsere kurze Auswahl zu Ende. Wenn jemand etwas hinzufügen oder teilen möchte, schreiben Sie in die Kommentare.

Danke!

Source: https://habr.com/ru/post/de452740/


All Articles