52 conjunto de dados para projetos de treinamento
- Conjunto de dados de clientes do shopping - dados dos visitantes da loja: identificação, sexo, idade, renda, classificação de gastos. ( Caso de uso: Projeto de segmentação de clientes com aprendizado de máquina )
- Conjunto de dados Iris - conjunto de dados para iniciantes, contendo os tamanhos de sépalas e pétalas para várias flores.
- Conjunto de dados MNIST - conjunto de dados de números manuscritos. 60.000 imagens de treinamento e 10.000 imagens de teste.
- O Boston Housing Dataset é um popular conjunto de dados de reconhecimento de padrões. Ele contém informações sobre as casas em Boston: número de apartamentos, preço do aluguel, índice de criminalidade.
- Conjunto de dados de detecção de notícias falsas - contém 7796 entradas com marcação de notícias: verdadeira ou falsa. ( Caso de uso com fonte Python: Projeto Python de Detecção de Notícias Falsas )
- Conjunto de dados de qualidade do vinho - contém informações sobre o vinho: 4898 registros com 14 parâmetros.
- Dados SOCR - O conjunto de dados de alturas e pesos é um bom começo. Contém 25.000 registros de altura e peso de pessoas de 18 anos.

Este artigo foi traduzido com o suporte da EDISON Software, uma empresa que realiza excelentes pedidos do sul da China e também desenvolve aplicativos e sites da web .
- Conjunto de dados Parkinson - 195 registros de pacientes com doença de Parkinson, com 25 parâmetros de análise. Pode ser usado para uma avaliação preliminar da diferença entre pessoas doentes e pessoas saudáveis. ( Caso de uso com fonte Python: Projeto de aprendizado de máquina para detectar a doença de Parkinson )
- Conjunto de dados do Titanic - contém informações sobre passageiros (idade, sexo, parentes a bordo etc.) 891 no conjunto de treinamento e 418 no conjunto de teste.
- Uber Pickups Dataset - informações sobre 4,5 milhões de viagens ao Uber 2014 e 14 milhões de 2015. ( Caso de uso com origem no R: Uber Data Analysis Project em R )
- Conjunto de dados Chars74k - contém imagens de caracteres britânicos e canadenses de 64 classes: 0-9, AZ, az. 7700 imagens naturais de 7,7 mil, 3400 mil manuscritas e 62 mil de fontes sintetizadas por computador.
- Conjunto de dados de detecção de fraude de cartão de crédito - contém informações sobre as transações de cartões de crédito comprometidos. ( Caso de uso com fonte: Projeto de aprendizado de máquina para detecção de fraudes com cartão de crédito )
- Conjunto de dados de intenções do Chatbot - arquivo JSON que contém várias tags: saudações, adeus, hospital_search, pharmacy_search etc. Contém um conjunto de modelos de perguntas e respostas. ( Caso de uso com fonte em Python: Projeto Chatbot em Python )
- Conjunto de dados de email da Enron - Contém meio milhão de emails de 150 gerentes da Enron.
- O conjunto de dados do Yelp - contém 1,2 milhão de recomendações de 1,6 milhão de usuários, cerca de 1,2 milhão de organizações.
- Conjunto de dados Jeopardy - Mais de 200.000 perguntas e respostas de um popular jogo de televisão.
- O Recomendender Systems Dataset é um portal com uma coleção de conjuntos de dados da Universidade UCSD. Contém resenhas de resenhas em sites populares (Goodreads, Amazon). Ótimo para criar sistemas de recomendação. ( Caso de uso com origem no R: Projeto de Sistema de Recomendação de Filmes em R )
- Conjunto de dados UCI Spambase - conjunto de dados de treinamento para detecção de spam. Contém 4601 letras com 57 parâmetros de metadados.
- Flickr 30k Dataset - Mais de 30.000 imagens e legendas. ( Conjunto de dados Flickr 8k - 8000 imagens. Projeto com fonte em Python: Projeto Python do Image Caption Generator )
- Revisões do IMDB - 25.000 críticas de filmes no conjunto de treinamento e 25.000 no conjunto de testes. ( Caso de uso com origem no R: Projeto de Ciência de Dados de Análise de Sentimento )
- Conjunto de dados MS COCO - 1,5 milhão de imagens marcadas.
- Conjunto de dados CIFAR-10 e CIFAR-100 - O CIFAR-10 contém 60.000 imagens pequenas 32 * 32 pixels dos números de 0 a 9. CIFAR-100 - respectivamente, 0-100.
- GTSRB (referência alemã de reconhecimento de sinais de trânsito) Conjunto de dados - 50.000 imagens de 43 sinais de trânsito. ( Caso de uso com fonte Python: Projeto Python de Reconhecimento de Sinais de Tráfego )
- Conjunto de dados ImageNet - contém mais de 100.000 frases e cerca de 1000 imagens por frase.
- Conjunto de dados de imagens de histopatologia da mama - O conjunto de dados contém imagens de amostras de câncer de mama. ( Caso de uso com fonte no Projeto Python de Classificação do Câncer de Mama )
- Conjunto de dados de paisagens urbanas - contém anotações de alta qualidade de sequências de vídeo de ruas de diferentes cidades.
- Conjunto de dados Kinetics - contém um link de URL para cerca de 6,5 milhões de vídeos de alta qualidade.
- Conjunto de dados de pose humana MPII - O conjunto de dados contém 25.000 imagens de poses humanas com anotações para as articulações.
- O conjunto de dados 20BN-something-something v2 é um conjunto de vídeos de alta qualidade que mostram como uma pessoa executa determinadas ações.
- Conjunto de dados do Object 365 - conjunto de dados de imagens de alta qualidade com caixas delimitadoras de objetos.
- Conjunto de dados de desenho de fotos - contém mais de 1000 imagens com seus desenhos de contorno.
- Conjunto de dados CQ500 - O conjunto de dados contém 491 tomografias computadorizadas da cabeça com 193.317 fatias.
- Conjunto de dados IMDB-Wiki - conjunto de dados com mais de 5 milhões de imagens de pessoas marcadas com sexo e idade. ( Caso de uso com fonte no Projeto Python de Detecção de Gênero e Idade )
- Conjunto de dados do YouTube 8M - Um conjunto de dados de vídeo rotulado que contém 6,1 milhões de identificadores de vídeo do YouTube
- Conjunto de dados Urban Sound 8K - um conjunto de dados de áudio da cidade (contém 8732 sons da cidade de 10 classes).
- O LSUN Dataset é um conjunto de dados de milhões de imagens coloridas de cenas e objetos (cerca de 59 milhões de imagens, 10 categorias diferentes de cenas e 20 categorias diferentes de objetos).
- O RAVDESS Dataset é um banco de dados audiovisual de fala emocional. ( Caso de uso com fonte no projeto Python de reconhecimento de fala )
- Conjunto de dados Librispeech - O conjunto de dados contém 1000 horas de fala em inglês com sotaques diferentes.
- Conjunto de dados Baidu Apolloscape - conjunto de dados para o desenvolvimento da tecnologia autônoma.
- Quandl Data Portal - um repositório de dados econômicos e financeiros (existe conteúdo gratuito e pago).
- Portal de Dados Abertos do Banco Mundial - Informações sobre empréstimos emitidos pelo Banco Mundial para países em desenvolvimento.
- O Portal de Dados do FMI é um portal internacional de fundos monetários que publica dados sobre finanças internacionais, taxas de dívida, investimentos, reservas e mercadorias em moeda estrangeira.
- O Portal de Dados da Associação Econômica Americana (AEA) é um recurso para encontrar dados macroeconômicos dos EUA.
- Portal de dados do Google Trends - Os dados do Google Trends podem ser usados para examinar e analisar visualmente os dados.
- Portal de Dados de Mercado do Financial Times - um recurso para obter informações atualizadas sobre os mercados financeiros de todo o mundo.
- O Data.gov Portal é um portal de dados abertos do governo dos EUA (agricultura, saúde, clima, educação, energia, finanças, ciência e pesquisa, etc.).
- Portal de dados: dados abertos do governo (Índia) é a plataforma de dados abertos do governo da Índia .
- Ambiente de alimentos Atlas Data Portal - Contém dados de pesquisa nutricional dos EUA.
- O Health Data Portal é um portal do Departamento de Saúde e Serviços Humanos dos EUA.
- Portal de Centros de Controle e Prevenção de Doenças - Contém uma ampla variedade de dados relacionados à saúde.
- London Datastore Portal - dados sobre a vida das pessoas em Londres.
- Portal de dados abertos do governo do Canadá - um portal para abrir dados sobre os canadenses (agricultura, arte, música, educação, governo, saúde, etc.)
Ler mais

Leia também o blog
Empresa EDISON:
20 bibliotecas para
aplicação iOS espetacularSource: https://habr.com/ru/post/pt480408/
All Articles