52 conjunto de dados para projetos de treinamento

  1. Conjunto de dados de clientes do shopping - dados dos visitantes da loja: identificação, sexo, idade, renda, classificação de gastos. ( Caso de uso: Projeto de segmentação de clientes com aprendizado de máquina )
  2. Conjunto de dados Iris - conjunto de dados para iniciantes, contendo os tamanhos de sépalas e pétalas para várias flores.
  3. Conjunto de dados MNIST - conjunto de dados de números manuscritos. 60.000 imagens de treinamento e 10.000 imagens de teste.
  4. O Boston Housing Dataset é um popular conjunto de dados de reconhecimento de padrões. Ele contém informações sobre as casas em Boston: número de apartamentos, preço do aluguel, índice de criminalidade.
  5. Conjunto de dados de detecção de notícias falsas - contém 7796 entradas com marcação de notícias: verdadeira ou falsa. ( Caso de uso com fonte Python: Projeto Python de Detecção de Notícias Falsas )
  6. Conjunto de dados de qualidade do vinho - contém informações sobre o vinho: 4898 registros com 14 parâmetros.
  7. Dados SOCR - O conjunto de dados de alturas e pesos é um bom começo. Contém 25.000 registros de altura e peso de pessoas de 18 anos.
    EDISON Software - desenvolvimento web
    Este artigo foi traduzido com o suporte da EDISON Software, uma empresa que realiza excelentes pedidos do sul da China e também desenvolve aplicativos e sites da web .
  8. Conjunto de dados Parkinson - 195 registros de pacientes com doença de Parkinson, com 25 parâmetros de análise. Pode ser usado para uma avaliação preliminar da diferença entre pessoas doentes e pessoas saudáveis. ( Caso de uso com fonte Python: Projeto de aprendizado de máquina para detectar a doença de Parkinson )
  9. Conjunto de dados do Titanic - contém informações sobre passageiros (idade, sexo, parentes a bordo etc.) 891 no conjunto de treinamento e 418 no conjunto de teste.
  10. Uber Pickups Dataset - informações sobre 4,5 milhões de viagens ao Uber 2014 e 14 milhões de 2015. ( Caso de uso com origem no R: Uber Data Analysis Project em R )
  11. Conjunto de dados Chars74k - contém imagens de caracteres britânicos e canadenses de 64 classes: 0-9, AZ, az. 7700 imagens naturais de 7,7 mil, 3400 mil manuscritas e 62 mil de fontes sintetizadas por computador.
  12. Conjunto de dados de detecção de fraude de cartão de crédito - contém informações sobre as transações de cartões de crédito comprometidos. ( Caso de uso com fonte: Projeto de aprendizado de máquina para detecção de fraudes com cartão de crédito )
  13. Conjunto de dados de intenções do Chatbot - arquivo JSON que contém várias tags: saudações, adeus, hospital_search, pharmacy_search etc. Contém um conjunto de modelos de perguntas e respostas. ( Caso de uso com fonte em Python: Projeto Chatbot em Python )
  14. Conjunto de dados de email da Enron - Contém meio milhão de emails de 150 gerentes da Enron.
  15. O conjunto de dados do Yelp - contém 1,2 milhão de recomendações de 1,6 milhão de usuários, cerca de 1,2 milhão de organizações.
  16. Conjunto de dados Jeopardy - Mais de 200.000 perguntas e respostas de um popular jogo de televisão.
  17. O Recomendender Systems Dataset é um portal com uma coleção de conjuntos de dados da Universidade UCSD. Contém resenhas de resenhas em sites populares (Goodreads, Amazon). Ótimo para criar sistemas de recomendação. ( Caso de uso com origem no R: Projeto de Sistema de Recomendação de Filmes em R )
  18. Conjunto de dados UCI Spambase - conjunto de dados de treinamento para detecção de spam. Contém 4601 letras com 57 parâmetros de metadados.
  19. Flickr 30k Dataset - Mais de 30.000 imagens e legendas. ( Conjunto de dados Flickr 8k - 8000 imagens. Projeto com fonte em Python: Projeto Python do Image Caption Generator )
  20. Revisões do IMDB - 25.000 críticas de filmes no conjunto de treinamento e 25.000 no conjunto de testes. ( Caso de uso com origem no R: Projeto de Ciência de Dados de Análise de Sentimento )
  21. Conjunto de dados MS COCO - 1,5 milhão de imagens marcadas.
  22. Conjunto de dados CIFAR-10 e CIFAR-100 - O CIFAR-10 contém 60.000 imagens pequenas 32 * 32 pixels dos números de 0 a 9. CIFAR-100 - respectivamente, 0-100.
  23. GTSRB (referência alemã de reconhecimento de sinais de trânsito) Conjunto de dados - 50.000 imagens de 43 sinais de trânsito. ( Caso de uso com fonte Python: Projeto Python de Reconhecimento de Sinais de Tráfego )
  24. Conjunto de dados ImageNet - contém mais de 100.000 frases e cerca de 1000 imagens por frase.
  25. Conjunto de dados de imagens de histopatologia da mama - O conjunto de dados contém imagens de amostras de câncer de mama. ( Caso de uso com fonte no Projeto Python de Classificação do Câncer de Mama )
  26. Conjunto de dados de paisagens urbanas - contém anotações de alta qualidade de sequências de vídeo de ruas de diferentes cidades.
  27. Conjunto de dados Kinetics - contém um link de URL para cerca de 6,5 milhões de vídeos de alta qualidade.
  28. Conjunto de dados de pose humana MPII - O conjunto de dados contém 25.000 imagens de poses humanas com anotações para as articulações.
  29. O conjunto de dados 20BN-something-something v2 é um conjunto de vídeos de alta qualidade que mostram como uma pessoa executa determinadas ações.
  30. Conjunto de dados do Object 365 - conjunto de dados de imagens de alta qualidade com caixas delimitadoras de objetos.
  31. Conjunto de dados de desenho de fotos - contém mais de 1000 imagens com seus desenhos de contorno.
  32. Conjunto de dados CQ500 - O conjunto de dados contém 491 tomografias computadorizadas da cabeça com 193.317 fatias.
  33. Conjunto de dados IMDB-Wiki - conjunto de dados com mais de 5 milhões de imagens de pessoas marcadas com sexo e idade. ( Caso de uso com fonte no Projeto Python de Detecção de Gênero e Idade )
  34. Conjunto de dados do YouTube 8M - Um conjunto de dados de vídeo rotulado que contém 6,1 milhões de identificadores de vídeo do YouTube
  35. Conjunto de dados Urban Sound 8K - um conjunto de dados de áudio da cidade (contém 8732 sons da cidade de 10 classes).
  36. O LSUN Dataset é um conjunto de dados de milhões de imagens coloridas de cenas e objetos (cerca de 59 milhões de imagens, 10 categorias diferentes de cenas e 20 categorias diferentes de objetos).
  37. O RAVDESS Dataset é um banco de dados audiovisual de fala emocional. ( Caso de uso com fonte no projeto Python de reconhecimento de fala )
  38. Conjunto de dados Librispeech - O conjunto de dados contém 1000 horas de fala em inglês com sotaques diferentes.
  39. Conjunto de dados Baidu Apolloscape - conjunto de dados para o desenvolvimento da tecnologia autônoma.
  40. Quandl Data Portal - um repositório de dados econômicos e financeiros (existe conteúdo gratuito e pago).
  41. Portal de Dados Abertos do Banco Mundial - Informações sobre empréstimos emitidos pelo Banco Mundial para países em desenvolvimento.
  42. O Portal de Dados do FMI é um portal internacional de fundos monetários que publica dados sobre finanças internacionais, taxas de dívida, investimentos, reservas e mercadorias em moeda estrangeira.
  43. O Portal de Dados da Associação Econômica Americana (AEA) é um recurso para encontrar dados macroeconômicos dos EUA.
  44. Portal de dados do Google Trends - Os dados do Google Trends podem ser usados ​​para examinar e analisar visualmente os dados.
  45. Portal de Dados de Mercado do Financial Times - um recurso para obter informações atualizadas sobre os mercados financeiros de todo o mundo.
  46. O Data.gov Portal é um portal de dados abertos do governo dos EUA (agricultura, saúde, clima, educação, energia, finanças, ciência e pesquisa, etc.).
  47. Portal de dados: dados abertos do governo (Índia) é a plataforma de dados abertos do governo da Índia .
  48. Ambiente de alimentos Atlas Data Portal - Contém dados de pesquisa nutricional dos EUA.
  49. O Health Data Portal é um portal do Departamento de Saúde e Serviços Humanos dos EUA.
  50. Portal de Centros de Controle e Prevenção de Doenças - Contém uma ampla variedade de dados relacionados à saúde.
  51. London Datastore Portal - dados sobre a vida das pessoas em Londres.
  52. Portal de dados abertos do governo do Canadá - um portal para abrir dados sobre os canadenses (agricultura, arte, música, educação, governo, saúde, etc.)


Ler mais





Leia também o blog
Empresa EDISON:


20 bibliotecas para
aplicação iOS espetacular

Source: https://habr.com/ru/post/pt480408/


All Articles