Salut les gars
Avant vous est un guide d'articles pour ouvrir des ensembles de données pour l'apprentissage automatique. Dans ce document, je vais d'abord collecter une sélection d'ensembles de données intéressants et frais (relativement). Et en bonus, à la fin de l'article, j'attacherai des liens utiles sur la recherche indépendante d'ensembles de données.
Moins de mots, plus de données.

Une sélection d'ensembles de données pour l'apprentissage automatique:
- Morts de données et batailles du jeu des trônes - Cet ensemble de données combine trois sources de données, chacune basée sur des informations provenant d'une série de livres.
- Base de données mondiale sur le terrorisme - Plus de 180 000 attaques terroristes dans le monde, 1970-2017.
- Bitcoin, données historiques - Données Bitcoin avec un intervalle de 1 minute à partir des échanges sélectionnés, janvier 2012 - mars 2019
- FIFA 19 ensemble complet de données sur les joueurs - 18k + joueurs FIFA 19, ~ 90 attributs, extraits de la dernière base de données FIFA.
- Statistiques vidéo YouTube - statistiques quotidiennes des vidéos de tendances sur YouTube.
- Enquête sur les taux de suicide de 1985 à 2016 - Comparaison des informations socio-économiques avec les taux de suicide par année et par pays.
- Énorme ensemble de données boursières - prix et volumes quotidiens historiques de toutes les actions et ETF américains.
- Indicateurs de développement dans le monde - indicateurs de développement de pays du monde entier.
- Kaggle Machine Learning & Data Science Survey 2017 - Grand aperçu de l'état de la science des données et de l'apprentissage automatique.
- Données sur la violence et les armes - un rapport complet sur plus de 260 000 incidents impliquant des armes américaines en 2013-2018
- Radiographie pulmonaire (pneumonie) - 5 863 images, 2 catégories.
- Reconnaissance du genre par la voix - Cette base de données a été créée pour identifier la voix en tant qu'homme ou femme, en fonction des propriétés acoustiques de la voix et de la parole. L'ensemble de données se compose de 3168 échantillons de voix enregistrés recueillis auprès d'hommes et de femmes.
- Consommation d'alcool des élèves - les données ont été obtenues dans une enquête auprès des élèves des cours de mathématiques et de portugais au secondaire. Il contient de nombreuses informations sociales, de genre et éducatives intéressantes sur les étudiants.
- Malaria Cell Dataset - images cellulaires pour détecter le paludisme.
- Enquêtes auprès des jeunes - données sur les préférences, les intérêts, les habitudes, les opinions et les peurs des jeunes.
- World University Rankings - explorez les meilleures universités du monde.
- Détection de fraude par carte de crédit - Les transactions anonymes par carte de crédit sont marquées comme frauduleuses ou authentiques.
- Maladie cardiaque - Cette base de données contient 76 attributs, tels que l'âge, le sexe, le type de douleur thoracique, la pression artérielle au repos et autres.
- Base de football européenne - plus de 25 000 matchs, attributs des joueurs et des équipes pour le football professionnel européen.
- Commentaires sur le vin - 130k commentaires sur le vin avec variété, emplacement, établissement vinicole, prix et description.
- Baidu Apolloscapes . Un grand ensemble de données pour reconnaître 26 objets sémantiquement différents comme les voitures, les vélos, les piétons, les bâtiments, les lampadaires, etc.
- Comma.ai . Plus de sept heures de route sur l'autoroute. L'ensemble de données comprend des informations sur la vitesse du véhicule, l'accélération, l'angle de braquage et les coordonnées GPS.
- Reconnaissance des couleurs - Cet ensemble de données contient 4242 images en couleur. La collecte de données est basée sur des données flicr, des images Google, des images Yandex.
- Prix ​​de marché quotidien de chaque crypto - monnaie - prix historiques de la crypto-monnaie pour tous les jetons.
- Évaluation du chocolat - Évaluation experte de plus de 1 700 barres de chocolat.
- Marché de l'assurance médicale - données sur les régimes d'assurance maladie et dentaire pour le marché américain de l'assurance maladie.
- Sons du rythme cardiaque - classification des anomalies du rythme cardiaque par stéthoscope.
- Anime Recommendations Database - recommandations de 76 000 utilisateurs sur myanimelist.net
- Images de cellules sanguines - 12 500 images: 4 types de cellules différents.
- Radiographie thoracique - plus de 112 000 radiographies thoraciques de plus de 30 000 patients uniques.
- Rapports de meurtre, 1980-2014 - The Kill Responsibility Project est la base de données sur les homicides la plus complète aux États-Unis actuellement disponible.
- Base de données de voitures d'occasion - plus de 370 000 voitures d'occasion. Le contenu des données est en allemand, vous devez donc d'abord le traduire si vous ne parlez pas allemand.
- Open Data House du gouvernement américain - données, outils et ressources pour mener des recherches, développer des applications Web et des applications mobiles, développer des visualisations de données.
- Centre national de prévention des maladies chroniques et de promotion de la santé (NCCDPHP). Le centre travaille à réduire les facteurs de risque de maladies chroniques.
- Plus grande au Royaume-Uni, une collection de ressources sociales, économiques et démographiques.
- EconData - nPlusieurs milliers de séries chronologiques économiques, préparées par un certain nombre d'organismes gouvernementaux américains et distribuées dans divers formats et médias.
- Coast Research Center - données intéressantes sur la mer et sa composition biologique. Ici, vous pouvez trouver des ensembles de données de l'analyse des données du modèle de la mer Rouge à l'étude de la température et des courants sur l'étroit plateau sud de la Californie.
- Ensemble de données de chiffres en langue des signes - Turquie, Ankara, Ayranji, Anadolu. Ensemble de données de langue des signes du lycée.
- Vin rouge de qualité - ensemble de données pratiques simples et claires pour la modélisation de régression ou de classification.
- Feuilles de calcul Premier League anglaise de football (1968-2019).
- Jeu de données HotspotQA - Jeu de données avec questions et réponses, vous permettant de créer un système pour répondre aux questions d'une manière plus compréhensible.
- xView - l'un des plus grands ensembles d'imagerie aérienne de la terre disponibles au public. Il contient des images de diverses scènes du monde entier, annotées de boîtes englobantes.
- Labelme - Grand jeu de données d'images annotées.
- ImageNet - Ensemble de données d'images pour de nouveaux algorithmes, organisé selon la hiérarchie WordNet, dans lequel des centaines et des milliers d'images représentent chaque nœud de la hiérarchie.
- LSUN. - Jeux de données d'images, divisés en scènes et catégories avec des données de marquage partielles.
- MS COCO - ensemble de données à grande échelle pour la détection et la segmentation d'objets.
- COIL100 - 100 objets différents représentés sous tous les angles dans une rotation circulaire.
- Génome visuel - ensemble de données avec ~ 100 000. Images annotées détaillées.
- Images ouvertes de Google. - une collection de 9 millions d'URL vers des images «balisées avec plus de 6 000 catégories» sous la licence Creative Commons.
- Labeled Faces in the Wild - un ensemble de 13 000 images de visage marquées de personnes pour l'utilisation d'applications qui impliquent l'utilisation de la technologie de reconnaissance faciale.
- Stanford Dogs Dataset - contient 20 580 images de 120 races de chiens.
- Reconnaissance de scène intérieure. - Jeu de données pour reconnaître l'intérieur des bâtiments. Contient 15 620 images et 67 catégories.
- Oxford's Robotic Car - plus de 100 répétitions d'un itinéraire à travers Oxford, filmées au cours de l'année. Diverses combinaisons de conditions météorologiques, de circulation et de piétons, ainsi que des changements plus longs, comme les travaux routiers, ont été intégrés dans les ensembles de données.
- Jeu de données Cityscape - un grand jeu de données contenant des enregistrements d'une centaine de scènes de rue dans 50 villes.
- KUL Belgium Traffic Sign Dataset - plus de 10 000 annotations de milliers de feux de signalisation différents en Belgique.
- Laboratoire LISA pour les automobiles intelligentes et sûres - Ensemble de données avec panneaux de signalisation, feux de circulation, véhicules reconnus et trajectoires de mouvement.
- Bosch Small Traffic Light Dataset - Dates avec 24 000 feux de circulation annotés.
- Jeux de données WPI - Jeu de données pour la reconnaissance des feux de circulation, des piétons et des marquages ​​routiers.
- Berkeley DeepDrive - énorme ensemble de données pour les pilotes automatiques. Il contient plus de 100 000 vidéos avec plus de 1 100 heures de dossiers de conduite à différents moments de la journée et dans différentes conditions météorologiques.
- MIMIC-III - Ensembles de données contenant des données impersonnelles sur l'état de santé d'environ 40 000 patients en soins intensifs (données démographiques, signes vitaux, tests de laboratoire et médicaments).
- Amazon Reviews - Contient environ 35 millions d'avis d'Amazon depuis 18 ans. Les données incluent les informations sur le produit et l'utilisateur, les notes et le texte de la revue elle-même.
Liens utiles pour rechercher des jeux de données:
- Sûrement Kaggle - lieu de rencontre pour tous les fans de compétitions d'apprentissage automatique.
- Recherche de jeux de données Google - Recherchez des jeux de données sur Internet. De plus, si nécessaire, vous pouvez ajouter vos propres ensembles de données .
- Référentiel d'apprentissage automatique - un ensemble de bases de données, de théories de domaine et de générateurs de données qui sont utilisés par la communauté d'apprentissage automatique pour l'analyse empirique des algorithmes d'apprentissage automatique.
- VisualData - recherche de jeux de données pour la vision industrielle , avec une classification pratique par catégorie.
- DATA USA - ensemble complet de données américaines accessibles au public avec visualisation, description et infographie.
Sur ce point, notre courte sélection a pris fin. Si quelqu'un a quelque chose à ajouter ou à partager - écrivez dans les commentaires.
Merci!