Oi pessoal
Antes de você, é um guia do artigo para abrir conjuntos de dados para aprendizado de máquina. Nele, eu, para começar, coletarei uma seleção de conjuntos de dados interessantes e recentes (relativamente). E como bônus, no final do artigo, anexarei links úteis na pesquisa independente de conjuntos de dados.
Menos palavras, mais dados.

Uma seleção de conjuntos de dados para aprendizado de máquina:
- Mortes e batalhas de dados do jogo dos tronos - Esse conjunto de dados combina três fontes de dados, cada uma com base nas informações de uma série de livros.
- Global Terrorism Database - Mais de 180.000 ataques terroristas em todo o mundo, 1970-2017.
- Bitcoin, dados históricos - dados de Bitcoin com intervalo de 1 minuto em trocas selecionadas, janeiro de 2012 - março de 2019
- Conjunto completo de dados de jogadores de FIFA 19 - 18k + jogadores de FIFA 19, ~ 90 atributos, extraídos do banco de dados mais recente da FIFA.
- Estatísticas de vídeos do YouTube - estatísticas diárias de vídeos de tendências no YouTube.
- Pesquisa de taxas de suicídio de 1985 a 2016 - Comparação de informações socioeconômicas com taxas de suicídio por ano e país.
- Enorme conjunto de dados do mercado de ações - preços e volumes diários históricos de todas as ações e ETFs dos EUA.
- Indicadores de Desenvolvimento Mundial - indicadores de desenvolvimento de países de todo o mundo.
- Pesquisa de Aprendizado de Máquina e Ciência de Dados da Kaggle 2017 - Ótima percepção do estado da ciência de dados e do aprendizado de máquina.
- Dados sobre violência e armas - um relatório completo sobre mais de 260 mil incidentes de armas americanos em 2013-2018
- Radiografia de tórax (pneumonia) - 5.863 imagens, 2 categorias.
- Reconhecimento de gênero por voz - Esse banco de dados foi criado para identificar a voz como masculino ou feminino, com base nas propriedades acústicas da voz e da fala. O conjunto de dados consiste em 3168 amostras de voz gravadas coletadas de homens e mulheres.
- Consumo de álcool por aluno - os dados foram obtidos em uma pesquisa com alunos de cursos de matemática e língua portuguesa no ensino médio. Ele contém muitas informações sociais, de gênero e educacionais interessantes sobre os alunos.
- Conjunto de dados de células da malária - imagens celulares para detectar a malária.
- Pesquisas de jovens - dados sobre preferências, interesses, hábitos, opiniões e medos dos jovens.
- World University Rankings - explore as melhores universidades do mundo.
- Detecção de fraude no cartão de crédito - As transações anônimas com cartão de crédito são marcadas como fraudulentas ou autênticas.
- Doença cardíaca do conjunto de dados - Este banco de dados contém 76 atributos, como idade, sexo, tipo de dor no peito, pressão arterial em repouso e outros.
- European Football Base - Mais de 25.000 partidas, atributos de jogadores e equipes para o futebol profissional europeu.
- Críticas sobre vinhos - 130k críticas sobre vinhos com variedade, localização, vinícola, preço e descrição.
- Baidu Apolloscapes . Um grande conjunto de dados para o reconhecimento de 26 objetos semanticamente diferentes, como carros, bicicletas, pedestres, prédios, luminárias etc.
- Comma.ai . Mais de sete horas dirigindo na estrada. O conjunto de dados inclui informações sobre a velocidade do veículo, aceleração, ângulo de direção e coordenadas GPS.
- Reconhecimento de cores - Este conjunto de dados contém 4242 imagens coloridas. A coleta de dados é baseada em dados flicr, imagens do Google, imagens Yandex.
- Preço diário de mercado de cada criptomoeda - preços históricos de criptomoeda para todos os tokens.
- Classificação de chocolate - Avaliação especializada de mais de 1.700 barras de chocolate.
- Mercado de seguros médicos - dados sobre planos de saúde e odontológicos para o mercado de seguros de saúde nos EUA.
- Sons de batimentos cardíacos - classificação das anormalidades dos batimentos cardíacos pelo estetoscópio.
- Anime Recommendations Database - recomendações de 76.000 usuários em myanimelist.net
- Imagens de células sanguíneas - 12.500 imagens: 4 tipos diferentes de células.
- Radiografia de tórax - mais de 112.000 radiografias de tórax de mais de 30.000 pacientes únicos.
- Relatórios de assassinatos, 1980-2014 - O Kill Responsibility Project é o banco de dados de homicídios mais abrangente dos Estados Unidos atualmente disponível.
- Banco de dados de carros usados - mais de 370.000 carros usados. O conteúdo dos dados está em alemão, portanto, você deve primeiro traduzi-lo se não falar alemão.
- Open Data House do governo dos EUA - dados, ferramentas e recursos para conduzir pesquisas, desenvolver aplicativos da Web e aplicativos móveis, desenvolver visualizações de dados.
- Centro Nacional de prevenção de doenças crônicas e promoção da saúde (NCCDPHP). O centro está trabalhando para reduzir os fatores de risco para doenças crônicas.
- Maior no Reino Unido, uma coleção de recursos sociais, econômicos e demográficos.
- EconData - nVárias mil séries econômicas, preparadas por várias agências governamentais dos EUA e distribuídas em vários formatos e mídias.
- Centro de Pesquisa Costeira - dados interessantes sobre o mar e sua composição biológica. Aqui você pode encontrar conjuntos de dados da análise de dados do modelo do Mar Vermelho ao estudo de temperatura e correntes na estreita plataforma do sul da Califórnia.
- Conjunto de dados de dígitos da linguagem de sinais - Turquia, Ancara, Ayranji, Anadolu. Conjunto de dados de linguagem de sinais do ensino médio.
- Vinho tinto de qualidade - conjunto de dados práticos simples e claros para modelagem de regressão ou classificação.
- Planilhas English Football Premier League (1968-2019).
- Conjunto de dados HotspotQA - Conjunto de dados com perguntas e respostas, permitindo criar um sistema para responder a perguntas de uma maneira mais compreensível.
- xView - um dos maiores conjuntos publicamente disponíveis de imagens aéreas da Terra. Ele contém imagens de várias cenas de todo o mundo, anotadas com caixas delimitadoras.
- Labelme - grande conjunto de dados de imagens anotadas.
- ImageNet - Conjunto de dados de imagens para novos algoritmos, organizado de acordo com a hierarquia do WordNet, no qual centenas e milhares de imagens representam cada nó da hierarquia.
- LSUN. - Conjuntos de dados de imagens, divididos em cenas e categorias com dados de marcação parcial.
- MS COCO - conjunto de dados em larga escala para detecção e segmentação de objetos.
- COIL100 - 100 objetos diferentes representados em todos os ângulos em uma rotação circular.
- Visual Genome - conjunto de dados com ~ 100 mil. Imagens anotadas detalhadas.
- Imagens abertas do Google. - uma coleção de 9 milhões de URLs para imagens "marcadas com mais de 6.000 categorias" sob a licença Creative Commons.
- Rostos rotulados na natureza - um conjunto de 13.000 imagens de rosto marcadas de pessoas para uso de aplicativos que envolvem o uso da tecnologia de reconhecimento de rosto.
- Stanford Dogs Dataset - contém 20.580 imagens de 120 raças de cães.
- Reconhecimento de cena em ambiente interno. - Conjunto de dados para reconhecer o interior dos edifícios. Contém 15.620 imagens e 67 categorias.
- Carro Robótico de Oxford - mais de 100 repetições de uma rota por Oxford, filmadas durante o ano. Várias combinações de condições climáticas, tráfego e pedestres, além de mudanças mais longas, como obras na estrada, entraram em conjuntos de dados.
- Cityscape Dataset - um grande conjunto de dados contendo registros de cem cenas de rua em 50 cidades.
- Conjunto de dados de sinais de trânsito da Bélgica da KUL - mais de 10.000 anotações de milhares de diferentes semáforos na Bélgica.
- Laboratório LISA para Automóveis Inteligentes e Seguros - Conjunto de dados com sinais de trânsito, semáforos, veículos reconhecidos e trajetórias de movimento.
- Conjunto de dados de semáforos pequenos da Bosch - datas com 24.000 semáforos anotados.
- Conjuntos de dados WPI - conjunto de dados para reconhecimento de semáforos, pedestres e marcações nas estradas.
- Berkeley DeepDrive - enorme conjunto de dados para pilotos automáticos. Ele contém mais de 100.000 vídeos com mais de 1.100 horas de registros de condução em diferentes momentos do dia e em diferentes condições climáticas.
- MIMIC-III - Conjuntos de dados com dados impessoais sobre o estado de saúde de ~ 40.000 pacientes em terapia intensiva (dados demográficos, sinais vitais, exames laboratoriais e medicamentos).
- Comentários da Amazon - Contém cerca de 35 milhões de comentários da Amazon por 18 anos. Os dados incluem informações sobre o produto e o usuário, classificações e o texto da própria revisão.
Links úteis para pesquisar conjuntos de dados:
- Certamente Kaggle - local de encontro para todos os fãs de competições de aprendizado de máquina.
- Pesquisa de conjuntos de dados do Google - Pesquise conjuntos de dados na Internet. Além disso, se necessário, você pode adicionar conjuntos de dados próprios .
- Repositório de aprendizado de máquina - um conjunto de bancos de dados, teorias de domínio e geradores de dados usados pela comunidade de aprendizado de máquina para análise empírica de algoritmos de aprendizado de máquina.
- VisualData - pesquisa de conjunto de dados para visão de máquina, com classificação conveniente por categoria.
- DATA USA - conjunto completo de dados publicamente disponíveis nos EUA com visualização, descrição e infográficos.
Com isso, nossa curta seleção chegou ao fim. Se alguém tiver algo a acrescentar ou compartilhar - escreva nos comentários.
Obrigado!