Uma seleção de conjuntos de dados para aprendizado de máquina

Oi pessoal

Antes de você, é um guia do artigo para abrir conjuntos de dados para aprendizado de máquina. Nele, eu, para começar, coletarei uma seleção de conjuntos de dados interessantes e recentes (relativamente). E como bônus, no final do artigo, anexarei links úteis na pesquisa independente de conjuntos de dados.

Menos palavras, mais dados.

imagem

Uma seleção de conjuntos de dados para aprendizado de máquina:


  • Mortes e batalhas de dados do jogo dos tronos - Esse conjunto de dados combina três fontes de dados, cada uma com base nas informações de uma série de livros.
  • Global Terrorism Database - Mais de 180.000 ataques terroristas em todo o mundo, 1970-2017.
  • Bitcoin, dados históricos - dados de Bitcoin com intervalo de 1 minuto em trocas selecionadas, janeiro de 2012 - março de 2019
  • Conjunto completo de dados de jogadores de FIFA 19 - 18k + jogadores de FIFA 19, ~ 90 atributos, extraídos do banco de dados mais recente da FIFA.
  • Estatísticas de vídeos do YouTube - estatísticas diárias de vídeos de tendências no YouTube.
  • Pesquisa de taxas de suicídio de 1985 a 2016 - Comparação de informações socioeconômicas com taxas de suicídio por ano e país.
  • Enorme conjunto de dados do mercado de ações - preços e volumes diários históricos de todas as ações e ETFs dos EUA.
  • Indicadores de Desenvolvimento Mundial - indicadores de desenvolvimento de países de todo o mundo.
  • Pesquisa de Aprendizado de Máquina e Ciência de Dados da Kaggle 2017 - Ótima percepção do estado da ciência de dados e do aprendizado de máquina.
  • Dados sobre violência e armas - um relatório completo sobre mais de 260 mil incidentes de armas americanos em 2013-2018
  • Radiografia de tórax (pneumonia) - 5.863 imagens, 2 categorias.
  • Reconhecimento de gênero por voz - Esse banco de dados foi criado para identificar a voz como masculino ou feminino, com base nas propriedades acústicas da voz e da fala. O conjunto de dados consiste em 3168 amostras de voz gravadas coletadas de homens e mulheres.
  • Consumo de álcool por aluno - os dados foram obtidos em uma pesquisa com alunos de cursos de matemática e língua portuguesa no ensino médio. Ele contém muitas informações sociais, de gênero e educacionais interessantes sobre os alunos.
  • Conjunto de dados de células da malária - imagens celulares para detectar a malária.
  • Pesquisas de jovens - dados sobre preferências, interesses, hábitos, opiniões e medos dos jovens.
  • World University Rankings - explore as melhores universidades do mundo.
  • Detecção de fraude no cartão de crédito - As transações anônimas com cartão de crédito são marcadas como fraudulentas ou autênticas.
  • Doença cardíaca do conjunto de dados - Este banco de dados contém 76 atributos, como idade, sexo, tipo de dor no peito, pressão arterial em repouso e outros.
  • European Football Base - Mais de 25.000 partidas, atributos de jogadores e equipes para o futebol profissional europeu.
  • Críticas sobre vinhos - 130k críticas sobre vinhos com variedade, localização, vinícola, preço e descrição.
  • Baidu Apolloscapes . Um grande conjunto de dados para o reconhecimento de 26 objetos semanticamente diferentes, como carros, bicicletas, pedestres, prédios, luminárias etc.
  • Comma.ai . Mais de sete horas dirigindo na estrada. O conjunto de dados inclui informações sobre a velocidade do veículo, aceleração, ângulo de direção e coordenadas GPS.
  • Reconhecimento de cores - Este conjunto de dados contém 4242 imagens coloridas. A coleta de dados é baseada em dados flicr, imagens do Google, imagens Yandex.
  • Preço diário de mercado de cada criptomoeda - preços históricos de criptomoeda para todos os tokens.
  • Classificação de chocolate - Avaliação especializada de mais de 1.700 barras de chocolate.
  • Mercado de seguros médicos - dados sobre planos de saúde e odontológicos para o mercado de seguros de saúde nos EUA.
  • Sons de batimentos cardíacos - classificação das anormalidades dos batimentos cardíacos pelo estetoscópio.
  • Anime Recommendations Database - recomendações de 76.000 usuários em myanimelist.net
  • Imagens de células sanguíneas - 12.500 imagens: 4 tipos diferentes de células.
  • Radiografia de tórax - mais de 112.000 radiografias de tórax de mais de 30.000 pacientes únicos.
  • Relatórios de assassinatos, 1980-2014 - O Kill Responsibility Project é o banco de dados de homicídios mais abrangente dos Estados Unidos atualmente disponível.
  • Banco de dados de carros usados - mais de 370.000 carros usados. O conteúdo dos dados está em alemão, portanto, você deve primeiro traduzi-lo se não falar alemão.
  • Open Data House do governo dos EUA - dados, ferramentas e recursos para conduzir pesquisas, desenvolver aplicativos da Web e aplicativos móveis, desenvolver visualizações de dados.
  • Centro Nacional de prevenção de doenças crônicas e promoção da saúde (NCCDPHP). O centro está trabalhando para reduzir os fatores de risco para doenças crônicas.
  • Maior no Reino Unido, uma coleção de recursos sociais, econômicos e demográficos.
  • EconData - nVárias mil séries econômicas, preparadas por várias agências governamentais dos EUA e distribuídas em vários formatos e mídias.
  • Centro de Pesquisa Costeira - dados interessantes sobre o mar e sua composição biológica. Aqui você pode encontrar conjuntos de dados da análise de dados do modelo do Mar Vermelho ao estudo de temperatura e correntes na estreita plataforma do sul da Califórnia.
  • Conjunto de dados de dígitos da linguagem de sinais - Turquia, Ancara, Ayranji, Anadolu. Conjunto de dados de linguagem de sinais do ensino médio.
  • Vinho tinto de qualidade - conjunto de dados práticos simples e claros para modelagem de regressão ou classificação.
  • Planilhas English Football Premier League (1968-2019).
  • Conjunto de dados HotspotQA - Conjunto de dados com perguntas e respostas, permitindo criar um sistema para responder a perguntas de uma maneira mais compreensível.
  • xView - um dos maiores conjuntos publicamente disponíveis de imagens aéreas da Terra. Ele contém imagens de várias cenas de todo o mundo, anotadas com caixas delimitadoras.
  • Labelme - grande conjunto de dados de imagens anotadas.
  • ImageNet - Conjunto de dados de imagens para novos algoritmos, organizado de acordo com a hierarquia do WordNet, no qual centenas e milhares de imagens representam cada nó da hierarquia.
  • LSUN. - Conjuntos de dados de imagens, divididos em cenas e categorias com dados de marcação parcial.
  • MS COCO - conjunto de dados em larga escala para detecção e segmentação de objetos.
  • COIL100 - 100 objetos diferentes representados em todos os ângulos em uma rotação circular.
  • Visual Genome - conjunto de dados com ~ 100 mil. Imagens anotadas detalhadas.
  • Imagens abertas do Google. - uma coleção de 9 milhões de URLs para imagens "marcadas com mais de 6.000 categorias" sob a licença Creative Commons.
  • Rostos rotulados na natureza - um conjunto de 13.000 imagens de rosto marcadas de pessoas para uso de aplicativos que envolvem o uso da tecnologia de reconhecimento de rosto.
  • Stanford Dogs Dataset - contém 20.580 imagens de 120 raças de cães.
  • Reconhecimento de cena em ambiente interno. - Conjunto de dados para reconhecer o interior dos edifícios. Contém 15.620 imagens e 67 categorias.
  • Carro Robótico de Oxford - mais de 100 repetições de uma rota por Oxford, filmadas durante o ano. Várias combinações de condições climáticas, tráfego e pedestres, além de mudanças mais longas, como obras na estrada, entraram em conjuntos de dados.
  • Cityscape Dataset - um grande conjunto de dados contendo registros de cem cenas de rua em 50 cidades.
  • Conjunto de dados de sinais de trânsito da Bélgica da KUL - mais de 10.000 anotações de milhares de diferentes semáforos na Bélgica.
  • Laboratório LISA para Automóveis Inteligentes e Seguros - Conjunto de dados com sinais de trânsito, semáforos, veículos reconhecidos e trajetórias de movimento.
  • Conjunto de dados de semáforos pequenos da Bosch - datas com 24.000 semáforos anotados.
  • Conjuntos de dados WPI - conjunto de dados para reconhecimento de semáforos, pedestres e marcações nas estradas.
  • Berkeley DeepDrive - enorme conjunto de dados para pilotos automáticos. Ele contém mais de 100.000 vídeos com mais de 1.100 horas de registros de condução em diferentes momentos do dia e em diferentes condições climáticas.
  • MIMIC-III - Conjuntos de dados com dados impessoais sobre o estado de saúde de ~ 40.000 pacientes em terapia intensiva (dados demográficos, sinais vitais, exames laboratoriais e medicamentos).
  • Comentários da Amazon - Contém cerca de 35 milhões de comentários da Amazon por 18 anos. Os dados incluem informações sobre o produto e o usuário, classificações e o texto da própria revisão.

Links úteis para pesquisar conjuntos de dados:


  • Certamente Kaggle - local de encontro para todos os fãs de competições de aprendizado de máquina.
  • Pesquisa de conjuntos de dados do Google - Pesquise conjuntos de dados na Internet. Além disso, se necessário, você pode adicionar conjuntos de dados próprios .
  • Repositório de aprendizado de máquina - um conjunto de bancos de dados, teorias de domínio e geradores de dados usados ​​pela comunidade de aprendizado de máquina para análise empírica de algoritmos de aprendizado de máquina.
  • VisualData - pesquisa de conjunto de dados para visão de máquina, com classificação conveniente por categoria.
  • DATA USA - conjunto completo de dados publicamente disponíveis nos EUA com visualização, descrição e infográficos.

Com isso, nossa curta seleção chegou ao fim. Se alguém tiver algo a acrescentar ou compartilhar - escreva nos comentários.

Obrigado!

Source: https://habr.com/ru/post/pt452740/


All Articles