Une sélection de jeux de données d'apprentissage automatique

Bonjour lecteur!

Voici un guide d'articles sur les jeux de données ouverts pour l'apprentissage automatique. Dans ce document, pour commencer, je vais collecter une sélection d'ensembles de données intéressants et frais (relativement). Et en bonus, à la fin de l'article, je vais attacher des liens utiles pour les jeux de données d'auto-recherche.

Moins de mots, plus de données.

image

Une sélection d'ensembles de données pour l'apprentissage automatique:


  • Game of Thrones morts et batailles - cet ensemble de donnĂ©es combine trois sources de donnĂ©es, chacune basĂ©e sur des informations provenant d'une sĂ©rie de livres.
  • Base de donnĂ©es mondiale sur le terrorisme - Plus de 180 000 attaques terroristes dans le monde, 1970-2017.
  • Bitcoin, donnĂ©es historiques - DonnĂ©es Bitcoin avec un intervalle de 1 minute Ă  partir des Ă©changes sĂ©lectionnĂ©s, janvier 2012 - mars 2019.
  • Ensemble complet de donnĂ©es FIFA 19 - 18k + joueurs FIFA 19, ~ 90 attributs rĂ©cupĂ©rĂ©s dans la dernière base de donnĂ©es FIFA.
  • Statistiques sur les vidĂ©os YouTube - Statistiques de tendances quotidiennes pour les vidĂ©os YouTube.
  • Aperçu des indicateurs de suicide de 1985 Ă  2016 - Comparaison des informations socio-Ă©conomiques avec les taux de suicide par annĂ©e et par pays.
  • Énorme ensemble de donnĂ©es boursières - prix et volumes quotidiens historiques de toutes les actions et ETF amĂ©ricains.
  • Indicateurs du dĂ©veloppement dans le monde - indicateurs du dĂ©veloppement des pays du monde entier.
  • Kaggle Machine Learning & Data Science Survey 2017 - Grand aperçu de l'Ă©tat de la science des donnĂ©es et de l'apprentissage automatique.
  • DonnĂ©es sur la violence et les armes - Un rapport complet de plus de 260 000 incidents d'armes aux États-Unis en 2013-2018.
  • Radiographie pulmonaire (pneumonie) - 5 863 images, 2 catĂ©gories.
  • Reconnaissance vocale par la voix - Cette base de donnĂ©es a Ă©tĂ© créée pour identifier la voix en tant qu'homme ou femme en fonction des propriĂ©tĂ©s acoustiques de la voix et de la parole. L'ensemble de donnĂ©es comprend 3 168 Ă©chantillons de voix enregistrĂ©s recueillis auprès d'hommes et de femmes.
  • Consommation d'alcool des Ă©lèves - Les donnĂ©es ont Ă©tĂ© obtenues Ă  partir d'une enquĂŞte auprès des Ă©lèves en mathĂ©matiques et en portugais dans les cours du secondaire. Il contient de nombreuses informations sociales, de genre et Ă©ducatives intĂ©ressantes sur les Ă©tudiants.
  • Ensemble de donnĂ©es sur les cellules du paludisme - images cellulaires pour dĂ©tecter le paludisme.
  • EnquĂŞtes auprès des jeunes - donnĂ©es sur les prĂ©fĂ©rences, les intĂ©rĂŞts, les habitudes, les opinions et les peurs des jeunes.
  • Classements mondiaux des universitĂ©s - Explorez les meilleures universitĂ©s du monde.
  • DĂ©tection de fraude par carte de crĂ©dit - Ensembles de donnĂ©es de transaction de carte de crĂ©dit anonymes marquĂ©s comme frauduleux ou authentiques.
  • Date de maladie cardiaque - cette base de donnĂ©es contient 76 attributs, tels que l'âge, le sexe, le type de douleur thoracique, la pression artĂ©rielle au repos et autres.
  • Base de football europĂ©enne - plus de 25 000 matchs, attributs des joueurs et des Ă©quipes pour le football professionnel europĂ©en.
  • Commentaires sur le vin - 130k commentaires sur le vin avec variĂ©tĂ©, emplacement, Ă©tablissement vinicole, prix et description.
  • Baidu Apolloscapes . Un grand ensemble de donnĂ©es pour reconnaĂ®tre 26 objets sĂ©mantiquement diffĂ©rents comme les voitures, les vĂ©los, les piĂ©tons, les bâtiments, les lampadaires, etc.
  • Comma.ai . Plus de sept heures sur l'autoroute. L'ensemble de donnĂ©es comprend des informations sur la vitesse du vĂ©hicule, l'accĂ©lĂ©ration, l'angle de braquage et les coordonnĂ©es GPS.
  • Reconnaissance des couleurs - Cet ensemble de donnĂ©es contient 4242 images en couleur. La collecte de donnĂ©es est basĂ©e sur des donnĂ©es flicr, des images Google, des images Yandex.
  • Le prix de marchĂ© quotidien de chaque crypto - monnaie est le prix historique de la crypto-monnaie pour tous les jetons.
  • Cote de chocolat - Une cote d'expert de plus de 1 700 barres de chocolat.
  • MarchĂ© de l'assurance maladie - DonnĂ©es sur les plans de santĂ© et de mĂ©decine dentaire sur le marchĂ© amĂ©ricain de l'assurance maladie.
  • Sons du rythme cardiaque - une classification des anomalies du rythme cardiaque selon un stĂ©thoscope.
  • Base de donnĂ©es de recommandations d'anime - recommandations de 76 000 utilisateurs sur myanimelist.net
  • Images de cellules sanguines - 12 500 images: 4 types de cellules diffĂ©rents.
  • Radiographie thoracique - plus de 112 000 radiographies thoraciques de plus de 30 000 patients uniques.
  • Rapports de meurtre 1980-2014 - Le projet Killing Responsibility est la base de donnĂ©es de tueries la plus complète aux États-Unis actuellement disponible.
  • Base de donnĂ©es de voitures d'occasion - Plus de 370 000 voitures d'occasion. Le contenu des donnĂ©es est en allemand, vous devez donc d'abord le traduire si vous ne parlez pas allemand.
  • Open Data House du gouvernement amĂ©ricain - donnĂ©es, outils et ressources pour la recherche, le dĂ©veloppement d'applications Web et mobiles et la visualisation des donnĂ©es.
  • Centre national de prĂ©vention des maladies chroniques et de promotion de la santĂ© (NCCDPHP). Le centre travaille sur la rĂ©duction des facteurs de risque de maladies chroniques.
  • La plus grande collection britannique de ressources sociales, Ă©conomiques et dĂ©mographiques.
  • EconData - plusieurs milliers de sĂ©ries chronologiques Ă©conomiques, prĂ©parĂ©es par un certain nombre d'organismes gouvernementaux amĂ©ricains et distribuĂ©es dans divers formats et mĂ©dias.
  • Centre de recherche cĂ´tière - donnĂ©es intĂ©ressantes sur la mer et sa composition biologique. Ici vous pouvez trouver des ensembles de donnĂ©es allant de l'analyse des donnĂ©es du modèle de la mer Rouge Ă  l'Ă©tude de la tempĂ©rature et des courants sur l'Ă©troit plateau sud de la Californie.
  • Ensemble de donnĂ©es de chiffres en langue des signes - Turquie, Ankara, Ayranji, Anadolu. Ensemble de donnĂ©es de langue des signes du lycĂ©e.
  • La qualitĂ© du vin rouge est un ensemble de donnĂ©es pratiques simples et comprĂ©hensibles pour la modĂ©lisation de rĂ©gression ou de classification.
  • Tableaux de la Premier League anglaise de football (1968-2019).
  • HotspotQA Dataset - un ensemble de donnĂ©es avec des questions et des rĂ©ponses, qui vous permet de crĂ©er des systèmes pour rĂ©pondre aux questions d'une manière plus comprĂ©hensible.
  • xView est l'un des plus grands ensembles d'imagerie aĂ©rienne de la terre disponibles au public. Il contient des images de diverses scènes du monde entier, annotĂ©es Ă  l'aide de boĂ®tes englobantes.
  • Labelme - Grand ensemble de donnĂ©es d'images annotĂ©es.
  • ImageNet - Ensemble de donnĂ©es d'images pour de nouveaux algorithmes, organisĂ©s selon la hiĂ©rarchie WordNet, dans lequel des centaines et des milliers d'images reprĂ©sentent chaque nĹ“ud de la hiĂ©rarchie.
  • LSUN. - ensemble de donnĂ©es d'images ventilĂ©es par scène et catĂ©gorie avec un balisage partiel des donnĂ©es.
  • MS COCO est un ensemble de donnĂ©es Ă  grande Ă©chelle pour dĂ©tecter et segmenter des objets.
  • COIL100 - 100 objets diffĂ©rents, reprĂ©sentĂ©s sous tous les angles dans une rĂ©volution circulaire.
  • GĂ©nome visuel - ensemble de donnĂ©es avec environ 100 000 images annotĂ©es dĂ©taillĂ©es.
  • Images ouvertes de Google. - Une collection de 9 millions d'URL d'images "qui ont Ă©tĂ© marquĂ©es dans plus de 6 000 catĂ©gories" sous une licence Creative Commons.
  • Visages Ă©tiquetĂ©s dans la nature - Une collection de 13 000 images faciales Ă©tiquetĂ©es de personnes Ă  utiliser des applications qui impliquent l'utilisation de la technologie de reconnaissance faciale.
  • Stanford Dogs Dataset - Contient 20 580 images de 120 races de chiens.
  • Reconnaissance de scène intĂ©rieure. - ensemble de donnĂ©es pour la reconnaissance de l'intĂ©rieur des bâtiments. Contient 15 620 images et 67 catĂ©gories.
  • Oxford's Robotic Car - Plus de 100 rĂ©pĂ©titions d'une route d'Oxford capturĂ©es au cours de l'annĂ©e. DiffĂ©rentes combinaisons de conditions mĂ©tĂ©orologiques, de circulation et de piĂ©tons, ainsi que des changements Ă  plus long terme comme les travaux routiers, ont Ă©tĂ© intĂ©grĂ©s dans l'ensemble de donnĂ©es.
  • Cityscape Dataset est un grand ensemble de donnĂ©es contenant des enregistrements d'une centaine de scènes de rue dans 50 villes.
  • KUL Belgium Traffic Sign Dataset - plus de 10 000 annotations de milliers de feux de signalisation diffĂ©rents en Belgique.
  • LISA Laboratory for Intelligent & Safe Automobiles - un ensemble de donnĂ©es avec des panneaux de signalisation, des feux de circulation, des vĂ©hicules reconnus et des trajectoires.
  • Bosch Small Traffic Light Dataset - ensemble de donnĂ©es avec 24 000 feux de circulation annotĂ©s.
  • Jeux de donnĂ©es WPI - jeu de donnĂ©es pour la reconnaissance des feux de circulation, des piĂ©tons et des marquages ​​routiers.
  • Berkeley DeepDrive - un Ă©norme ensemble de donnĂ©es pour les pilotes automatiques. Il contient plus de 100 000 vidĂ©os avec plus de 1 100 heures d'enregistrements de conduite Ă  diffĂ©rents moments de la journĂ©e et dans diverses conditions mĂ©tĂ©orologiques.
  • MIMIC-III - ensemble de donnĂ©es contenant des donnĂ©es anonymes sur l'Ă©tat de santĂ© d'environ 40 000 patients en soins intensifs (donnĂ©es dĂ©mographiques, signes vitaux, tests de laboratoire et mĂ©dicaments).
  • Avis Amazon - Contient environ 35 millions d'avis Amazon sur 18 ans. Les donnĂ©es incluent les informations sur le produit et l'utilisateur, les Ă©valuations et le texte de rĂ©vision lui-mĂŞme.

Liens utiles pour trouver des jeux de données:


  • Bien sĂ»r, Kaggle est le lieu de rencontre pour tous les amateurs de compĂ©titions d'apprentissage automatique.
  • Recherche de jeux de donnĂ©es Google - Recherchez des jeux de donnĂ©es sur Internet. De plus, si nĂ©cessaire, vous pouvez ajouter vos propres ensembles de donnĂ©es .
  • Le rĂ©fĂ©rentiel d'apprentissage automatique est un ensemble de bases de donnĂ©es, de thĂ©ories thĂ©matiques et de gĂ©nĂ©rateurs de donnĂ©es qui sont utilisĂ©s par la communautĂ© d'apprentissage automatique pour analyser empiriquement des algorithmes d'apprentissage automatique.
  • VisualData - recherchez des ensembles de donnĂ©es pour la vision industrielle , avec une catĂ©gorisation pratique.
  • DATA USA - un ensemble complet de donnĂ©es accessibles au public des États-Unis c visualisation, description et infographie.

Sur ce, notre courte sélection a pris fin. Si quelqu'un a quelque chose à compléter ou à partager - écrivez dans les commentaires.

Toutes les connaissances!
Abonnez-vous à la chaîne Neuron dans Telegram (@neurondata) - de nouveaux articles et nouvelles du monde de la science des données apparaissent chaque semaine. Merci à tous ceux qui aident avec des liens utiles, en particulier Igor Mariarty, Andrey Bondarenko et Matvey Kochergin.

Source: https://habr.com/ru/post/fr452392/


All Articles