Bonjour lecteur!
Voici un guide d'articles sur les jeux de données ouverts pour l'apprentissage automatique. Dans ce document, pour commencer, je vais collecter une sélection d'ensembles de données intéressants et frais (relativement). Et en bonus, à la fin de l'article, je vais attacher des liens utiles pour les jeux de données d'auto-recherche.
Moins de mots, plus de données.

Une sélection d'ensembles de données pour l'apprentissage automatique:
- Game of Thrones morts et batailles - cet ensemble de données combine trois sources de données, chacune basée sur des informations provenant d'une série de livres.
- Base de données mondiale sur le terrorisme - Plus de 180 000 attaques terroristes dans le monde, 1970-2017.
- Bitcoin, données historiques - Données Bitcoin avec un intervalle de 1 minute à partir des échanges sélectionnés, janvier 2012 - mars 2019.
- Ensemble complet de données FIFA 19 - 18k + joueurs FIFA 19, ~ 90 attributs récupérés dans la dernière base de données FIFA.
- Statistiques sur les vidéos YouTube - Statistiques de tendances quotidiennes pour les vidéos YouTube.
- Aperçu des indicateurs de suicide de 1985 à 2016 - Comparaison des informations socio-économiques avec les taux de suicide par année et par pays.
- Énorme ensemble de données boursières - prix et volumes quotidiens historiques de toutes les actions et ETF américains.
- Indicateurs du développement dans le monde - indicateurs du développement des pays du monde entier.
- Kaggle Machine Learning & Data Science Survey 2017 - Grand aperçu de l'état de la science des données et de l'apprentissage automatique.
- Données sur la violence et les armes - Un rapport complet de plus de 260 000 incidents d'armes aux États-Unis en 2013-2018.
- Radiographie pulmonaire (pneumonie) - 5 863 images, 2 catégories.
- Reconnaissance vocale par la voix - Cette base de données a été créée pour identifier la voix en tant qu'homme ou femme en fonction des propriétés acoustiques de la voix et de la parole. L'ensemble de données comprend 3 168 échantillons de voix enregistrés recueillis auprès d'hommes et de femmes.
- Consommation d'alcool des élèves - Les données ont été obtenues à partir d'une enquête auprès des élèves en mathématiques et en portugais dans les cours du secondaire. Il contient de nombreuses informations sociales, de genre et éducatives intéressantes sur les étudiants.
- Ensemble de données sur les cellules du paludisme - images cellulaires pour détecter le paludisme.
- Enquêtes auprès des jeunes - données sur les préférences, les intérêts, les habitudes, les opinions et les peurs des jeunes.
- Classements mondiaux des universités - Explorez les meilleures universités du monde.
- Détection de fraude par carte de crédit - Ensembles de données de transaction de carte de crédit anonymes marqués comme frauduleux ou authentiques.
- Date de maladie cardiaque - cette base de données contient 76 attributs, tels que l'âge, le sexe, le type de douleur thoracique, la pression artérielle au repos et autres.
- Base de football européenne - plus de 25 000 matchs, attributs des joueurs et des équipes pour le football professionnel européen.
- Commentaires sur le vin - 130k commentaires sur le vin avec variété, emplacement, établissement vinicole, prix et description.
- Baidu Apolloscapes . Un grand ensemble de données pour reconnaître 26 objets sémantiquement différents comme les voitures, les vélos, les piétons, les bâtiments, les lampadaires, etc.
- Comma.ai . Plus de sept heures sur l'autoroute. L'ensemble de données comprend des informations sur la vitesse du véhicule, l'accélération, l'angle de braquage et les coordonnées GPS.
- Reconnaissance des couleurs - Cet ensemble de données contient 4242 images en couleur. La collecte de données est basée sur des données flicr, des images Google, des images Yandex.
- Le prix de marché quotidien de chaque crypto - monnaie est le prix historique de la crypto-monnaie pour tous les jetons.
- Cote de chocolat - Une cote d'expert de plus de 1 700 barres de chocolat.
- Marché de l'assurance maladie - Données sur les plans de santé et de médecine dentaire sur le marché américain de l'assurance maladie.
- Sons du rythme cardiaque - une classification des anomalies du rythme cardiaque selon un stéthoscope.
- Base de données de recommandations d'anime - recommandations de 76 000 utilisateurs sur myanimelist.net
- Images de cellules sanguines - 12 500 images: 4 types de cellules différents.
- Radiographie thoracique - plus de 112 000 radiographies thoraciques de plus de 30 000 patients uniques.
- Rapports de meurtre 1980-2014 - Le projet Killing Responsibility est la base de données de tueries la plus complète aux États-Unis actuellement disponible.
- Base de données de voitures d'occasion - Plus de 370 000 voitures d'occasion. Le contenu des données est en allemand, vous devez donc d'abord le traduire si vous ne parlez pas allemand.
- Open Data House du gouvernement américain - données, outils et ressources pour la recherche, le développement d'applications Web et mobiles et la visualisation des données.
- Centre national de prévention des maladies chroniques et de promotion de la santé (NCCDPHP). Le centre travaille sur la réduction des facteurs de risque de maladies chroniques.
- La plus grande collection britannique de ressources sociales, économiques et démographiques.
- EconData - plusieurs milliers de séries chronologiques économiques, préparées par un certain nombre d'organismes gouvernementaux américains et distribuées dans divers formats et médias.
- Centre de recherche côtière - données intéressantes sur la mer et sa composition biologique. Ici vous pouvez trouver des ensembles de données allant de l'analyse des données du modèle de la mer Rouge à l'étude de la température et des courants sur l'étroit plateau sud de la Californie.
- Ensemble de données de chiffres en langue des signes - Turquie, Ankara, Ayranji, Anadolu. Ensemble de données de langue des signes du lycée.
- La qualité du vin rouge est un ensemble de données pratiques simples et compréhensibles pour la modélisation de régression ou de classification.
- Tableaux de la Premier League anglaise de football (1968-2019).
- HotspotQA Dataset - un ensemble de données avec des questions et des réponses, qui vous permet de créer des systèmes pour répondre aux questions d'une manière plus compréhensible.
- xView est l'un des plus grands ensembles d'imagerie aérienne de la terre disponibles au public. Il contient des images de diverses scènes du monde entier, annotées à l'aide de boîtes englobantes.
- Labelme - Grand ensemble de données d'images annotées.
- ImageNet - Ensemble de données d'images pour de nouveaux algorithmes, organisés selon la hiérarchie WordNet, dans lequel des centaines et des milliers d'images représentent chaque nœud de la hiérarchie.
- LSUN. - ensemble de données d'images ventilées par scène et catégorie avec un balisage partiel des données.
- MS COCO est un ensemble de données à grande échelle pour détecter et segmenter des objets.
- COIL100 - 100 objets différents, représentés sous tous les angles dans une révolution circulaire.
- Génome visuel - ensemble de données avec environ 100 000 images annotées détaillées.
- Images ouvertes de Google. - Une collection de 9 millions d'URL d'images "qui ont été marquées dans plus de 6 000 catégories" sous une licence Creative Commons.
- Visages étiquetés dans la nature - Une collection de 13 000 images faciales étiquetées de personnes à utiliser des applications qui impliquent l'utilisation de la technologie de reconnaissance faciale.
- Stanford Dogs Dataset - Contient 20 580 images de 120 races de chiens.
- Reconnaissance de scène intérieure. - ensemble de données pour la reconnaissance de l'intérieur des bâtiments. Contient 15 620 images et 67 catégories.
- Oxford's Robotic Car - Plus de 100 répétitions d'une route d'Oxford capturées au cours de l'année. Différentes combinaisons de conditions météorologiques, de circulation et de piétons, ainsi que des changements à plus long terme comme les travaux routiers, ont été intégrés dans l'ensemble de données.
- Cityscape Dataset est un grand ensemble de données contenant des enregistrements d'une centaine de scènes de rue dans 50 villes.
- KUL Belgium Traffic Sign Dataset - plus de 10 000 annotations de milliers de feux de signalisation différents en Belgique.
- LISA Laboratory for Intelligent & Safe Automobiles - un ensemble de données avec des panneaux de signalisation, des feux de circulation, des véhicules reconnus et des trajectoires.
- Bosch Small Traffic Light Dataset - ensemble de données avec 24 000 feux de circulation annotés.
- Jeux de données WPI - jeu de données pour la reconnaissance des feux de circulation, des piétons et des marquages ​​routiers.
- Berkeley DeepDrive - un énorme ensemble de données pour les pilotes automatiques. Il contient plus de 100 000 vidéos avec plus de 1 100 heures d'enregistrements de conduite à différents moments de la journée et dans diverses conditions météorologiques.
- MIMIC-III - ensemble de données contenant des données anonymes sur l'état de santé d'environ 40 000 patients en soins intensifs (données démographiques, signes vitaux, tests de laboratoire et médicaments).
- Avis Amazon - Contient environ 35 millions d'avis Amazon sur 18 ans. Les données incluent les informations sur le produit et l'utilisateur, les évaluations et le texte de révision lui-même.
Liens utiles pour trouver des jeux de données:
- Bien sûr, Kaggle est le lieu de rencontre pour tous les amateurs de compétitions d'apprentissage automatique.
- Recherche de jeux de données Google - Recherchez des jeux de données sur Internet. De plus, si nécessaire, vous pouvez ajouter vos propres ensembles de données .
- Le référentiel d'apprentissage automatique est un ensemble de bases de données, de théories thématiques et de générateurs de données qui sont utilisés par la communauté d'apprentissage automatique pour analyser empiriquement des algorithmes d'apprentissage automatique.
- VisualData - recherchez des ensembles de données pour la vision industrielle , avec une catégorisation pratique.
- DATA USA - un ensemble complet de données accessibles au public des États-Unis c visualisation, description et infographie.
Sur ce, notre courte sélection a pris fin. Si quelqu'un a quelque chose à compléter ou à partager - écrivez dans les commentaires.
Toutes les connaissances!
Abonnez-vous à la chaîne Neuron dans Telegram (@neurondata) - de nouveaux articles et nouvelles du monde de la science des données apparaissent chaque semaine. Merci à tous ceux qui aident avec des liens utiles, en particulier Igor Mariarty, Andrey Bondarenko et Matvey Kochergin.