Une sélection de jeux de données pour l'apprentissage automatique

Salut les gars

Avant vous est un guide d'articles pour ouvrir des ensembles de données pour l'apprentissage automatique. Dans ce document, je vais d'abord collecter une sélection d'ensembles de données intéressants et frais (relativement). Et en bonus, à la fin de l'article, j'attacherai des liens utiles sur la recherche indépendante d'ensembles de données.

Moins de mots, plus de données.

image

Une sélection d'ensembles de données pour l'apprentissage automatique:


  • Morts de donnĂ©es et batailles du jeu des trĂ´nes - Cet ensemble de donnĂ©es combine trois sources de donnĂ©es, chacune basĂ©e sur des informations provenant d'une sĂ©rie de livres.
  • Base de donnĂ©es mondiale sur le terrorisme - Plus de 180 000 attaques terroristes dans le monde, 1970-2017.
  • Bitcoin, donnĂ©es historiques - DonnĂ©es Bitcoin avec un intervalle de 1 minute Ă  partir des Ă©changes sĂ©lectionnĂ©s, janvier 2012 - mars 2019
  • FIFA 19 ensemble complet de donnĂ©es sur les joueurs - 18k + joueurs FIFA 19, ~ 90 attributs, extraits de la dernière base de donnĂ©es FIFA.
  • Statistiques vidĂ©o YouTube - statistiques quotidiennes des vidĂ©os de tendances sur YouTube.
  • EnquĂŞte sur les taux de suicide de 1985 Ă  2016 - Comparaison des informations socio-Ă©conomiques avec les taux de suicide par annĂ©e et par pays.
  • Énorme ensemble de donnĂ©es boursières - prix et volumes quotidiens historiques de toutes les actions et ETF amĂ©ricains.
  • Indicateurs de dĂ©veloppement dans le monde - indicateurs de dĂ©veloppement de pays du monde entier.
  • Kaggle Machine Learning & Data Science Survey 2017 - Grand aperçu de l'Ă©tat de la science des donnĂ©es et de l'apprentissage automatique.
  • DonnĂ©es sur la violence et les armes - un rapport complet sur plus de 260 000 incidents impliquant des armes amĂ©ricaines en 2013-2018
  • Radiographie pulmonaire (pneumonie) - 5 863 images, 2 catĂ©gories.
  • Reconnaissance du genre par la voix - Cette base de donnĂ©es a Ă©tĂ© créée pour identifier la voix en tant qu'homme ou femme, en fonction des propriĂ©tĂ©s acoustiques de la voix et de la parole. L'ensemble de donnĂ©es se compose de 3168 Ă©chantillons de voix enregistrĂ©s recueillis auprès d'hommes et de femmes.
  • Consommation d'alcool des Ă©lèves - les donnĂ©es ont Ă©tĂ© obtenues dans une enquĂŞte auprès des Ă©lèves des cours de mathĂ©matiques et de portugais au secondaire. Il contient de nombreuses informations sociales, de genre et Ă©ducatives intĂ©ressantes sur les Ă©tudiants.
  • Malaria Cell Dataset - images cellulaires pour dĂ©tecter le paludisme.
  • EnquĂŞtes auprès des jeunes - donnĂ©es sur les prĂ©fĂ©rences, les intĂ©rĂŞts, les habitudes, les opinions et les peurs des jeunes.
  • World University Rankings - explorez les meilleures universitĂ©s du monde.
  • DĂ©tection de fraude par carte de crĂ©dit - Les transactions anonymes par carte de crĂ©dit sont marquĂ©es comme frauduleuses ou authentiques.
  • Maladie cardiaque - Cette base de donnĂ©es contient 76 attributs, tels que l'âge, le sexe, le type de douleur thoracique, la pression artĂ©rielle au repos et autres.
  • Base de football europĂ©enne - plus de 25 000 matchs, attributs des joueurs et des Ă©quipes pour le football professionnel europĂ©en.
  • Commentaires sur le vin - 130k commentaires sur le vin avec variĂ©tĂ©, emplacement, Ă©tablissement vinicole, prix et description.
  • Baidu Apolloscapes . Un grand ensemble de donnĂ©es pour reconnaĂ®tre 26 objets sĂ©mantiquement diffĂ©rents comme les voitures, les vĂ©los, les piĂ©tons, les bâtiments, les lampadaires, etc.
  • Comma.ai . Plus de sept heures de route sur l'autoroute. L'ensemble de donnĂ©es comprend des informations sur la vitesse du vĂ©hicule, l'accĂ©lĂ©ration, l'angle de braquage et les coordonnĂ©es GPS.
  • Reconnaissance des couleurs - Cet ensemble de donnĂ©es contient 4242 images en couleur. La collecte de donnĂ©es est basĂ©e sur des donnĂ©es flicr, des images Google, des images Yandex.
  • Prix ​​de marchĂ© quotidien de chaque crypto - monnaie - prix historiques de la crypto-monnaie pour tous les jetons.
  • Évaluation du chocolat - Évaluation experte de plus de 1 700 barres de chocolat.
  • MarchĂ© de l'assurance mĂ©dicale - donnĂ©es sur les rĂ©gimes d'assurance maladie et dentaire pour le marchĂ© amĂ©ricain de l'assurance maladie.
  • Sons du rythme cardiaque - classification des anomalies du rythme cardiaque par stĂ©thoscope.
  • Anime Recommendations Database - recommandations de 76 000 utilisateurs sur myanimelist.net
  • Images de cellules sanguines - 12 500 images: 4 types de cellules diffĂ©rents.
  • Radiographie thoracique - plus de 112 000 radiographies thoraciques de plus de 30 000 patients uniques.
  • Rapports de meurtre, 1980-2014 - The Kill Responsibility Project est la base de donnĂ©es sur les homicides la plus complète aux États-Unis actuellement disponible.
  • Base de donnĂ©es de voitures d'occasion - plus de 370 000 voitures d'occasion. Le contenu des donnĂ©es est en allemand, vous devez donc d'abord le traduire si vous ne parlez pas allemand.
  • Open Data House du gouvernement amĂ©ricain - donnĂ©es, outils et ressources pour mener des recherches, dĂ©velopper des applications Web et des applications mobiles, dĂ©velopper des visualisations de donnĂ©es.
  • Centre national de prĂ©vention des maladies chroniques et de promotion de la santĂ© (NCCDPHP). Le centre travaille Ă  rĂ©duire les facteurs de risque de maladies chroniques.
  • Plus grande au Royaume-Uni, une collection de ressources sociales, Ă©conomiques et dĂ©mographiques.
  • EconData - nPlusieurs milliers de sĂ©ries chronologiques Ă©conomiques, prĂ©parĂ©es par un certain nombre d'organismes gouvernementaux amĂ©ricains et distribuĂ©es dans divers formats et mĂ©dias.
  • Coast Research Center - donnĂ©es intĂ©ressantes sur la mer et sa composition biologique. Ici, vous pouvez trouver des ensembles de donnĂ©es de l'analyse des donnĂ©es du modèle de la mer Rouge Ă  l'Ă©tude de la tempĂ©rature et des courants sur l'Ă©troit plateau sud de la Californie.
  • Ensemble de donnĂ©es de chiffres en langue des signes - Turquie, Ankara, Ayranji, Anadolu. Ensemble de donnĂ©es de langue des signes du lycĂ©e.
  • Vin rouge de qualitĂ© - ensemble de donnĂ©es pratiques simples et claires pour la modĂ©lisation de rĂ©gression ou de classification.
  • Feuilles de calcul Premier League anglaise de football (1968-2019).
  • Jeu de donnĂ©es HotspotQA - Jeu de donnĂ©es avec questions et rĂ©ponses, vous permettant de crĂ©er un système pour rĂ©pondre aux questions d'une manière plus comprĂ©hensible.
  • xView - l'un des plus grands ensembles d'imagerie aĂ©rienne de la terre disponibles au public. Il contient des images de diverses scènes du monde entier, annotĂ©es de boĂ®tes englobantes.
  • Labelme - Grand jeu de donnĂ©es d'images annotĂ©es.
  • ImageNet - Ensemble de donnĂ©es d'images pour de nouveaux algorithmes, organisĂ© selon la hiĂ©rarchie WordNet, dans lequel des centaines et des milliers d'images reprĂ©sentent chaque nĹ“ud de la hiĂ©rarchie.
  • LSUN. - Jeux de donnĂ©es d'images, divisĂ©s en scènes et catĂ©gories avec des donnĂ©es de marquage partielles.
  • MS COCO - ensemble de donnĂ©es Ă  grande Ă©chelle pour la dĂ©tection et la segmentation d'objets.
  • COIL100 - 100 objets diffĂ©rents reprĂ©sentĂ©s sous tous les angles dans une rotation circulaire.
  • GĂ©nome visuel - ensemble de donnĂ©es avec ~ 100 000. Images annotĂ©es dĂ©taillĂ©es.
  • Images ouvertes de Google. - une collection de 9 millions d'URL vers des images «balisĂ©es avec plus de 6 000 catĂ©gories» sous la licence Creative Commons.
  • Labeled Faces in the Wild - un ensemble de 13 000 images de visage marquĂ©es de personnes pour l'utilisation d'applications qui impliquent l'utilisation de la technologie de reconnaissance faciale.
  • Stanford Dogs Dataset - contient 20 580 images de 120 races de chiens.
  • Reconnaissance de scène intĂ©rieure. - Jeu de donnĂ©es pour reconnaĂ®tre l'intĂ©rieur des bâtiments. Contient 15 620 images et 67 catĂ©gories.
  • Oxford's Robotic Car - plus de 100 rĂ©pĂ©titions d'un itinĂ©raire Ă  travers Oxford, filmĂ©es au cours de l'annĂ©e. Diverses combinaisons de conditions mĂ©tĂ©orologiques, de circulation et de piĂ©tons, ainsi que des changements plus longs, comme les travaux routiers, ont Ă©tĂ© intĂ©grĂ©s dans les ensembles de donnĂ©es.
  • Jeu de donnĂ©es Cityscape - un grand jeu de donnĂ©es contenant des enregistrements d'une centaine de scènes de rue dans 50 villes.
  • KUL Belgium Traffic Sign Dataset - plus de 10 000 annotations de milliers de feux de signalisation diffĂ©rents en Belgique.
  • Laboratoire LISA pour les automobiles intelligentes et sĂ»res - Ensemble de donnĂ©es avec panneaux de signalisation, feux de circulation, vĂ©hicules reconnus et trajectoires de mouvement.
  • Bosch Small Traffic Light Dataset - Dates avec 24 000 feux de circulation annotĂ©s.
  • Jeux de donnĂ©es WPI - Jeu de donnĂ©es pour la reconnaissance des feux de circulation, des piĂ©tons et des marquages ​​routiers.
  • Berkeley DeepDrive - Ă©norme ensemble de donnĂ©es pour les pilotes automatiques. Il contient plus de 100 000 vidĂ©os avec plus de 1 100 heures de dossiers de conduite Ă  diffĂ©rents moments de la journĂ©e et dans diffĂ©rentes conditions mĂ©tĂ©orologiques.
  • MIMIC-III - Ensembles de donnĂ©es contenant des donnĂ©es impersonnelles sur l'Ă©tat de santĂ© d'environ 40 000 patients en soins intensifs (donnĂ©es dĂ©mographiques, signes vitaux, tests de laboratoire et mĂ©dicaments).
  • Amazon Reviews - Contient environ 35 millions d'avis d'Amazon depuis 18 ans. Les donnĂ©es incluent les informations sur le produit et l'utilisateur, les notes et le texte de la revue elle-mĂŞme.

Liens utiles pour rechercher des jeux de données:


  • SĂ»rement Kaggle - lieu de rencontre pour tous les fans de compĂ©titions d'apprentissage automatique.
  • Recherche de jeux de donnĂ©es Google - Recherchez des jeux de donnĂ©es sur Internet. De plus, si nĂ©cessaire, vous pouvez ajouter vos propres ensembles de donnĂ©es .
  • RĂ©fĂ©rentiel d'apprentissage automatique - un ensemble de bases de donnĂ©es, de thĂ©ories de domaine et de gĂ©nĂ©rateurs de donnĂ©es qui sont utilisĂ©s par la communautĂ© d'apprentissage automatique pour l'analyse empirique des algorithmes d'apprentissage automatique.
  • VisualData - recherche de jeux de donnĂ©es pour la vision industrielle , avec une classification pratique par catĂ©gorie.
  • DATA USA - ensemble complet de donnĂ©es amĂ©ricaines accessibles au public avec visualisation, description et infographie.

Sur ce point, notre courte sélection a pris fin. Si quelqu'un a quelque chose à ajouter ou à partager - écrivez dans les commentaires.

Merci!

Source: https://habr.com/ru/post/fr452740/


All Articles