52 jeu de données pour les projets de formation

  1. Ensemble de données des clients du centre commercial - données des visiteurs du magasin: identifiant, sexe, âge, revenu, note de dépense. ( Cas d' utilisation: projet de segmentation client avec apprentissage automatique )
  2. Iris Dataset - ensemble de données pour les débutants, contenant les tailles de sépales et de pétales pour diverses fleurs.
  3. MNIST Dataset - ensemble de données de nombres manuscrits. 60 000 images d'entraînement et 10 000 images de test.
  4. Le Boston Housing Dataset est un ensemble de données de reconnaissance de formes populaire. Il contient des informations sur les maisons à Boston: nombre d'appartements, prix de location, indice de criminalité.
  5. Fake News Detection Dataset - contient 7796 entrées avec un balisage d'actualités: vrai ou faux. ( Cas d'utilisation avec la source Python: Fake News Detection Python Project )
  6. Ensemble de données sur la qualité du vin - contient des informations sur le vin: 4898 enregistrements avec 14 paramètres.
  7. Données SOCR - L'ensemble de données Heights and Weights est un bon début. Contient 25 000 enregistrements de taille et de poids de jeunes de 18 ans.
    Logiciel EDISON - développement web
    Cet article a été traduit avec le soutien d'EDISON Software, une société qui effectue d'excellentes commandes depuis le sud de la Chine , et développe également des applications et des sites Web .
  8. Parkinson Dataset - 195 enregistrements de patients atteints de la maladie de Parkinson, avec 25 paramètres d'analyse. Il peut être utilisé pour une évaluation préliminaire de la différence entre les personnes malades et les personnes en bonne santé. ( Cas d'utilisation avec une source Python: Projet d'apprentissage automatique sur la détection de la maladie de Parkinson )
  9. Titanic Dataset - contient des informations sur les passagers (âge, sexe, parents à bord, etc.) 891 dans le kit de formation et 418 dans le kit de test.
  10. Uber Pickups Dataset - informations sur 4,5 millions de voyages vers Uber 2014 et 14 millions 2015. ( Cas d'utilisation avec source sur R: Uber Data Analysis Project dans R )
  11. Jeu de données Chars74k - contient des images de caractères britanniques et canadiens de 64 classes: 0-9, AZ, az. 7700 images naturelles 7,7k, 3400k manuscrites, 62000 polices synthétisées par ordinateur.
  12. Ensemble de données de détection de fraude par carte de crédit - contient des informations sur les transactions de cartes de crédit compromises. ( Cas d'utilisation avec source: Projet d'apprentissage automatique de détection de fraude par carte de crédit )
  13. Chatbot Intents Dataset - Fichier JSON contenant diverses balises: salutations, au revoir, hospital_search, pharmacy_search, etc. Contient un ensemble de modèles de questions et réponses. ( Cas d' utilisation avec source en Python: Chatbot Project en Python )
  14. Enron Email Dataset - Contient un demi-million d'e-mails de 150 gestionnaires Enron.
  15. L'ensemble de données Yelp - contient 1,2 million de recommandations de 1,6 million d'utilisateurs sur environ 1,2 million d'organisations.
  16. Jeu de données Jeopardy - Plus de 200 000 entrées Q&R d'un jeu télévisé populaire.
  17. Recommender Systems Dataset est un portail avec une collection d'ensembles de données de l'Université UCSD. Contient des critiques de critiques sur des sites populaires (Goodreads, Amazon). Idéal pour créer des systèmes de recommandation. ( Cas d'utilisation avec source sur R: Projet de système de recommandation de films dans R )
  18. UCI Spambase Dataset - ensemble de données de formation pour la détection du spam. Contient 4601 lettres avec 57 paramètres de métadonnées.
  19. Flickr 30k Dataset - Plus de 30 000 images et légendes. ( Dataset Flickr 8k - 8000 images. Projet avec source en Python: Projet Python Générateur de légendes d'images )
  20. Critiques IMDB - 25 000 critiques de films dans l'ensemble de formation et 25 000 dans l'ensemble de test. ( Cas d'utilisation avec source sur le projet R: Sentiment Analysis Data Science )
  21. Ensemble de données MS COCO - 1,5 million d'images balisées.
  22. Ensemble de données CIFAR-10 et CIFAR-100 - CIFAR-10 contient 60000 petites images de 32 * 32 pixels de nombres 0-9. CIFAR-100 - respectivement, 0-100.
  23. GTSRB (référentiel de reconnaissance des panneaux de signalisation allemands) - 50 000 images de 43 panneaux routiers. ( Cas d'utilisation avec la source Python: Traffic Python Recognition Python Project )
  24. Ensemble de données ImageNet - contient plus de 100 000 phrases et environ 1 000 images par phrase.
  25. Ensemble de données d'images d' histopathologie mammaire - L'ensemble de données contient des images d'échantillons de cancer du sein. ( Cas d'utilisation avec source sur le projet Python de classification du cancer du sein )
  26. Jeu de données Cityscapes - contient des annotations de haute qualité de séquences vidéo de rues de différentes villes.
  27. Ensemble de données cinétiques - contient un lien URL vers environ 6,5 millions de vidéos de haute qualité.
  28. Jeu de données de pose humaine MPII - Le jeu de données contient 25 000 images de poses humaines avec des annotations pour les articulations.
  29. 20BN-quelque chose-quelque chose ensemble de données v2 est un ensemble de vidéos de haute qualité qui montrent comment une personne effectue certaines actions.
  30. Object 365 Dataset - ensemble de données d'images de haute qualité avec des boîtes englobantes d'objets.
  31. Ensemble de données d'esquisse de photos - contient plus de 1000 images avec leurs dessins de contour.
  32. Ensemble de données CQ500 - L'ensemble de données contient 491 tomodensitogrammes de la tête avec 193 317 tranches.
  33. Ensemble de données IMDB-Wiki - ensemble de données avec plus de 5 millions d'images de personnes marquées par le sexe et l'âge. ( Cas d'utilisation avec source sur le projet Python de détection de genre et d'âge )
  34. Youtube 8M Dataset - Un jeu de données vidéo étiqueté qui contient 6,1 millions d'identifiants vidéo Youtube
  35. Ensemble de données Urban Sound 8K - un ensemble de données audio de ville (contient 8732 sons de ville de 10 classes).
  36. LSUN Dataset est un ensemble de données de millions d'images couleur de scènes et d'objets (environ 59 millions d'images, 10 catégories différentes de scènes et 20 catégories différentes d'objets).
  37. RAVDESS Dataset est une base de données audiovisuelle de la parole émotionnelle. ( Cas d'utilisation avec source sur le projet Python de reconnaissance des émotions vocales )
  38. Ensemble de données Librispeech - L'ensemble de données contient 1000 heures de discours en anglais avec différents accents.
  39. Baidu Apolloscape Dataset - ensemble de données pour le développement de la technologie de conduite autonome.
  40. Quandl Data Portal - un référentiel de données économiques et financières (il y a du contenu gratuit et payant).
  41. Le portail de données ouvertes de la Banque mondiale - Informations sur les prêts accordés par la Banque mondiale aux pays en développement.
  42. Le FMI Data Portal est un portail international de fonds monétaires qui publie des données sur la finance internationale, les taux d'endettement, les investissements, les réserves de change et les biens.
  43. Le portail de données de l'American Economic Association (AEA) est une ressource pour trouver des données macroéconomiques américaines.
  44. Portail de données Google Trends - Les données Google Trends peuvent être utilisées pour examiner et analyser visuellement les données.
  45. Financial Times Market Data Portal - une ressource pour obtenir des informations à jour sur les marchés financiers du monde entier.
  46. Data.gov Portal est un portail de données ouvertes du gouvernement américain (agriculture, santé, climat, éducation, énergie, finance, science et recherche, etc.).
  47. Portail de données: Open government data (India) est la plate-forme de données ouverte du gouvernement indien .
  48. Environnement alimentaire Atlas Data Portal - Contient des données de recherche sur la nutrition aux États-Unis.
  49. Le portail de données sur la santé est un portail du ministère américain de la Santé et des Services sociaux.
  50. Portail de données des Centers for Disease Control and Prevention - Contient un large éventail de données relatives à la santé.
  51. London Datastore Portal - données sur la vie des habitants de Londres.
  52. Portail des données ouvertes du gouvernement du Canada - un portail pour ouvrir des données sur les Canadiens (agriculture, art, musique, éducation, gouvernement, santé, etc.)


Lire la suite





Lisez aussi le blog
Société EDISON:


20 bibliothèques pour
application iOS spectaculaire

Source: https://habr.com/ru/post/fr480408/


All Articles