Uma seleção de conjuntos de dados de aprendizado de máquina

Olá leitor!

Aqui está um guia do artigo sobre conjuntos de dados abertos para aprendizado de máquina. Nele, para começar, vou coletar uma seleção de conjuntos de dados interessantes e recentes (relativamente). E um bônus: no final do artigo, anexarei links úteis para conjuntos de dados de pesquisa automática.

Menos palavras, mais dados.

imagem

Uma seleção de conjuntos de dados para aprendizado de máquina:


  • Mortes e batalhas de Game of Thrones - Este conjunto de dados combina três fontes de dados, cada uma com base nas informações de uma série de livros.
  • Global Terrorism Database - Mais de 180.000 ataques terroristas em todo o mundo, 1970-2017.
  • Bitcoin, dados históricos - dados de Bitcoin com intervalo de 1 minuto em trocas selecionadas, janeiro de 2012 - março de 2019
  • Conjunto completo de dados de jogadores de FIFA 19 - 18k + jogadores de FIFA 19, ~ 90 atributos recuperados do banco de dados mais recente da FIFA.
  • Estatísticas dos vídeos do YouTube - Estatísticas de tendências diárias dos vídeos do YouTube.
  • Visão geral dos indicadores de suicídio de 1985 a 2016 - Comparação de informações socioeconômicas com taxas de suicídio por ano e país.
  • Enorme conjunto de dados do mercado de ações - preços e volumes diários históricos de todas as ações e ETFs dos EUA.
  • Indicadores de desenvolvimento mundial - indicadores do desenvolvimento de países de todo o mundo.
  • Pesquisa de Aprendizado de Máquina e Ciência de Dados da Kaggle 2017 - Ótima percepção do estado da ciência de dados e do aprendizado de máquina.
  • Dados sobre violência e armas - Um relatório completo de mais de 260.000 incidentes de armas nos EUA em 2013-2018.
  • Radiografia de tórax (pneumonia) - 5.863 imagens, 2 categorias.
  • Reconhecimento de voz por voz - Esse banco de dados foi criado para identificar a voz como masculino ou feminino com base nas propriedades acústicas da voz e da fala. O conjunto de dados consiste em 3.168 amostras de voz gravadas, coletadas de homens e mulheres.
  • Consumo de Álcool nos Estudantes - Os dados foram obtidos em uma pesquisa com alunos de matemática e português nos cursos do ensino médio. Ele contém muitas informações sociais, de gênero e educacionais interessantes sobre os alunos.
  • Conjunto de dados de células da malária - imagens de células para a detecção da malária.
  • Pesquisas de jovens - dados sobre preferências, interesses, hábitos, opiniões e medos dos jovens.
  • Classificação Mundial das Universidades - Explore as melhores universidades do mundo.
  • Detecção de fraude no cartão de crédito - conjuntos de dados de transações de cartão de crédito anônimos marcados como fraudulentos ou genuínos.
  • Data da doença cardíaca - esse banco de dados contém 76 atributos, como idade, sexo, tipo de dor no peito, pressão arterial em repouso e outros.
  • Base de futebol europeia - mais de 25.000 partidas, atributos de jogadores e equipes para o futebol profissional europeu.
  • Críticas sobre vinhos - 130k críticas sobre vinhos com variedade, localização, vinícola, preço e descrição.
  • Baidu Apolloscapes . Um grande conjunto de dados para o reconhecimento de 26 objetos semanticamente diferentes, como carros, bicicletas, pedestres, prédios, luminárias etc.
  • Comma.ai . Mais de sete horas na estrada. O conjunto de dados inclui informações sobre velocidade do veículo, aceleração, ângulo de direção e coordenadas GPS.
  • Reconhecimento de cores - Este conjunto de dados contém 4242 imagens coloridas. A coleta de dados é baseada em dados flicr, imagens do Google, imagens Yandex.
  • O preço diário de mercado de cada criptomoeda é o preço histórico da criptomoeda para todos os tokens.
  • Avaliação de Chocolate - Uma avaliação especializada de mais de 1.700 barras de chocolate.
  • Mercado de seguros de saúde - Dados sobre planos de saúde e odontologia no mercado de seguros de saúde dos EUA.
  • Sons de batimentos cardíacos - uma classificação de anormalidades dos batimentos cardíacos de acordo com um estetoscópio.
  • Banco de dados de recomendações de anime - recomendações de 76.000 usuários em myanimelist.net
  • Imagens de células sanguíneas - 12.500 imagens: 4 tipos diferentes de células.
  • Radiografia de tórax - mais de 112.000 radiografias de tórax de mais de 30.000 pacientes únicos.
  • Relatórios de assassinatos 1980-2014 - O projeto Killing Responsibility é o banco de dados de assassinatos mais abrangente dos Estados Unidos atualmente disponível.
  • Banco de dados de carros usados - Mais de 370.000 carros usados. O conteúdo dos dados está em alemão, portanto, é necessário traduzi-lo primeiro, se você não fala alemão.
  • Open Data House do governo dos EUA - dados, ferramentas e recursos para pesquisa, desenvolvimento de aplicativos para web e dispositivos móveis e visualização de dados.
  • Centro Nacional de Prevenção de Doenças Crônicas e Promoção da Saúde (NCCDPHP). O centro está trabalhando na redução dos fatores de risco para doenças crônicas.
  • A maior coleção britânica de recursos sociais, econômicos e demográficos.
  • EconData - milhares de séries econômicas, preparadas por várias agências do governo dos EUA e distribuídas em vários formatos e mídias.
  • Centro de Pesquisa Costeira - dados interessantes sobre o mar e sua composição biológica. Aqui você pode encontrar conjuntos de dados que vão desde a análise de dados do modelo do Mar Vermelho até o estudo de temperatura e correntes na estreita plataforma do sul da Califórnia.
  • Conjunto de dados de dígitos da linguagem de sinais - Turquia, Ancara, Ayranji, Anadolu. Conjunto de dados de linguagem de sinais do ensino médio.
  • A qualidade do vinho tinto é um conjunto de dados práticos simples e compreensíveis para modelagem de regressão ou classificação.
  • Tabelas da Liga Inglesa de Futebol Premier (1968-2019).
  • Conjunto de dados HotspotQA - um conjunto de dados com perguntas e respostas, que permite criar sistemas para responder a perguntas de uma maneira mais compreensível.
  • O xView é um dos maiores conjuntos públicos de imagens aéreas da Terra. Ele contém imagens de várias cenas de todo o mundo, anotadas usando caixas delimitadoras.
  • Labelme - Grande conjunto de dados de imagens anotadas.
  • ImageNet - conjunto de dados de imagens para novos algoritmos, organizado de acordo com a hierarquia do WordNet, no qual centenas e milhares de imagens representam cada nó na hierarquia.
  • LSUN. - conjunto de dados de imagens discriminadas por cena e categoria com marcação parcial de dados.
  • O MS COCO é um conjunto de dados em larga escala para detectar e segmentar objetos.
  • COIL100 - 100 objetos diferentes, representados em todos os ângulos em uma revolução circular.
  • Visual Genome - conjunto de dados com ~ 100 mil imagens anotadas detalhadas.
  • Imagens abertas do Google. - Uma coleção de 9 milhões de URLs de imagem "que foram marcados em mais de 6.000 categorias" sob uma licença Creative Commons.
  • Rostos rotulados na natureza - Uma coleção de 13.000 imagens faciais rotuladas de pessoas para usar aplicativos que envolvem o uso da tecnologia de reconhecimento de rosto.
  • Stanford Dogs Dataset - Contém 20.580 imagens de 120 raças de cães.
  • Reconhecimento de cena em ambiente interno. - conjunto de dados para reconhecimento do interior dos edifícios. Contém 15 620 imagens e 67 categorias.
  • Carro Robótico de Oxford - Mais de 100 repetições de uma rota de Oxford capturadas durante o ano. Diferentes combinações de condições climáticas, tráfego e pedestres, além de mudanças a longo prazo, como obras na estrada, entraram no conjunto de dados.
  • Cityscape Dataset é um grande conjunto de dados que contém registros de cem cenas de rua em 50 cidades.
  • Conjunto de dados de sinais de trânsito da Bélgica da KUL - mais de 10.000 anotações de milhares de diferentes semáforos na Bélgica.
  • Laboratório LISA para automóveis inteligentes e seguros - um conjunto de dados com sinais de trânsito, semáforos, veículos e trajetórias reconhecidas.
  • Conjunto de dados pequeno para semáforos Bosch - conjunto de dados com 24.000 semáforos anotados.
  • Conjuntos de dados WPI - conjunto de dados para o reconhecimento de semáforos, pedestres e marcações nas estradas.
  • Berkeley DeepDrive - um enorme conjunto de dados para pilotos automáticos. Ele contém mais de 100.000 vídeos com mais de 1.100 horas de gravações de condução em diferentes momentos do dia e em várias condições climáticas.
  • MIMIC-III - conjunto de dados com dados anônimos sobre o estado de saúde de ~ 40.000 pacientes em terapia intensiva (dados demográficos, sinais vitais, exames laboratoriais e medicamentos).
  • Comentários da Amazon - Contém cerca de 35 milhões de comentários da Amazon há mais de 18 anos. Os dados incluem informações sobre o produto e o usuário, classificações e o próprio texto da revisão.

Links úteis para encontrar conjuntos de dados:


  • Obviamente, o Kaggle é o ponto de encontro de todos os amantes de competições de aprendizado de máquina.
  • Pesquisa de conjuntos de dados do Google - Pesquise conjuntos de dados na Internet. Além disso, se necessário, você pode adicionar seus próprios conjuntos de dados .
  • O Machine Learning Repository é um conjunto de bancos de dados, teorias de assuntos e geradores de dados usados ​​pela comunidade de aprendizado de máquina para analisar empiricamente os algoritmos de aprendizado de máquina.
  • VisualData - pesquise conjuntos de dados para visão de máquina, com categorização conveniente.
  • DATA USA - um conjunto completo de dados publicamente disponíveis nos Estados Unidos, visualização, descrição e infográficos.

Com isso, nossa curta seleção chegou ao fim. Se alguém tiver algo para complementar ou compartilhar - escreva nos comentários.

Todo conhecimento!
Inscreva-se no canal Neuron no Telegram (@neurondata) - há novos artigos e notícias do mundo da ciência de dados que aparecem toda semana. Obrigado a todos que ajudam com links úteis, especialmente Igor Mariarty, Andrey Bondarenko e Matvey Kochergin.

Source: https://habr.com/ru/post/pt452392/


All Articles