Olá leitor!
Aqui está um guia do artigo sobre conjuntos de dados abertos para aprendizado de máquina. Nele, para começar, vou coletar uma seleção de
conjuntos de dados interessantes e recentes (relativamente). E um bônus: no final do artigo, anexarei links úteis para conjuntos de dados de pesquisa automática.
Menos palavras, mais dados.

Uma seleção de conjuntos de dados para aprendizado de máquina:
- Mortes e batalhas de Game of Thrones - Este conjunto de dados combina três fontes de dados, cada uma com base nas informações de uma série de livros.
- Global Terrorism Database - Mais de 180.000 ataques terroristas em todo o mundo, 1970-2017.
- Bitcoin, dados históricos - dados de Bitcoin com intervalo de 1 minuto em trocas selecionadas, janeiro de 2012 - março de 2019
- Conjunto completo de dados de jogadores de FIFA 19 - 18k + jogadores de FIFA 19, ~ 90 atributos recuperados do banco de dados mais recente da FIFA.
- Estatísticas dos vídeos do YouTube - Estatísticas de tendências diárias dos vídeos do YouTube.
- Visão geral dos indicadores de suicídio de 1985 a 2016 - Comparação de informações socioeconômicas com taxas de suicídio por ano e país.
- Enorme conjunto de dados do mercado de ações - preços e volumes diários históricos de todas as ações e ETFs dos EUA.
- Indicadores de desenvolvimento mundial - indicadores do desenvolvimento de países de todo o mundo.
- Pesquisa de Aprendizado de Máquina e Ciência de Dados da Kaggle 2017 - Ótima percepção do estado da ciência de dados e do aprendizado de máquina.
- Dados sobre violência e armas - Um relatório completo de mais de 260.000 incidentes de armas nos EUA em 2013-2018.
- Radiografia de tórax (pneumonia) - 5.863 imagens, 2 categorias.
- Reconhecimento de voz por voz - Esse banco de dados foi criado para identificar a voz como masculino ou feminino com base nas propriedades acústicas da voz e da fala. O conjunto de dados consiste em 3.168 amostras de voz gravadas, coletadas de homens e mulheres.
- Consumo de Álcool nos Estudantes - Os dados foram obtidos em uma pesquisa com alunos de matemática e português nos cursos do ensino médio. Ele contém muitas informações sociais, de gênero e educacionais interessantes sobre os alunos.
- Conjunto de dados de células da malária - imagens de células para a detecção da malária.
- Pesquisas de jovens - dados sobre preferências, interesses, hábitos, opiniões e medos dos jovens.
- Classificação Mundial das Universidades - Explore as melhores universidades do mundo.
- Detecção de fraude no cartão de crédito - conjuntos de dados de transações de cartão de crédito anônimos marcados como fraudulentos ou genuínos.
- Data da doença cardíaca - esse banco de dados contém 76 atributos, como idade, sexo, tipo de dor no peito, pressão arterial em repouso e outros.
- Base de futebol europeia - mais de 25.000 partidas, atributos de jogadores e equipes para o futebol profissional europeu.
- Críticas sobre vinhos - 130k críticas sobre vinhos com variedade, localização, vinícola, preço e descrição.
- Baidu Apolloscapes . Um grande conjunto de dados para o reconhecimento de 26 objetos semanticamente diferentes, como carros, bicicletas, pedestres, prédios, luminárias etc.
- Comma.ai . Mais de sete horas na estrada. O conjunto de dados inclui informações sobre velocidade do veículo, aceleração, ângulo de direção e coordenadas GPS.
- Reconhecimento de cores - Este conjunto de dados contém 4242 imagens coloridas. A coleta de dados é baseada em dados flicr, imagens do Google, imagens Yandex.
- O preço diário de mercado de cada criptomoeda é o preço histórico da criptomoeda para todos os tokens.
- Avaliação de Chocolate - Uma avaliação especializada de mais de 1.700 barras de chocolate.
- Mercado de seguros de saúde - Dados sobre planos de saúde e odontologia no mercado de seguros de saúde dos EUA.
- Sons de batimentos cardíacos - uma classificação de anormalidades dos batimentos cardíacos de acordo com um estetoscópio.
- Banco de dados de recomendações de anime - recomendações de 76.000 usuários em myanimelist.net
- Imagens de células sanguíneas - 12.500 imagens: 4 tipos diferentes de células.
- Radiografia de tórax - mais de 112.000 radiografias de tórax de mais de 30.000 pacientes únicos.
- Relatórios de assassinatos 1980-2014 - O projeto Killing Responsibility é o banco de dados de assassinatos mais abrangente dos Estados Unidos atualmente disponível.
- Banco de dados de carros usados - Mais de 370.000 carros usados. O conteúdo dos dados está em alemão, portanto, é necessário traduzi-lo primeiro, se você não fala alemão.
- Open Data House do governo dos EUA - dados, ferramentas e recursos para pesquisa, desenvolvimento de aplicativos para web e dispositivos móveis e visualização de dados.
- Centro Nacional de Prevenção de Doenças Crônicas e Promoção da Saúde (NCCDPHP). O centro está trabalhando na redução dos fatores de risco para doenças crônicas.
- A maior coleção britânica de recursos sociais, econômicos e demográficos.
- EconData - milhares de séries econômicas, preparadas por várias agências do governo dos EUA e distribuídas em vários formatos e mídias.
- Centro de Pesquisa Costeira - dados interessantes sobre o mar e sua composição biológica. Aqui você pode encontrar conjuntos de dados que vão desde a análise de dados do modelo do Mar Vermelho até o estudo de temperatura e correntes na estreita plataforma do sul da Califórnia.
- Conjunto de dados de dígitos da linguagem de sinais - Turquia, Ancara, Ayranji, Anadolu. Conjunto de dados de linguagem de sinais do ensino médio.
- A qualidade do vinho tinto é um conjunto de dados práticos simples e compreensíveis para modelagem de regressão ou classificação.
- Tabelas da Liga Inglesa de Futebol Premier (1968-2019).
- Conjunto de dados HotspotQA - um conjunto de dados com perguntas e respostas, que permite criar sistemas para responder a perguntas de uma maneira mais compreensível.
- O xView é um dos maiores conjuntos públicos de imagens aéreas da Terra. Ele contém imagens de várias cenas de todo o mundo, anotadas usando caixas delimitadoras.
- Labelme - Grande conjunto de dados de imagens anotadas.
- ImageNet - conjunto de dados de imagens para novos algoritmos, organizado de acordo com a hierarquia do WordNet, no qual centenas e milhares de imagens representam cada nó na hierarquia.
- LSUN. - conjunto de dados de imagens discriminadas por cena e categoria com marcação parcial de dados.
- O MS COCO é um conjunto de dados em larga escala para detectar e segmentar objetos.
- COIL100 - 100 objetos diferentes, representados em todos os ângulos em uma revolução circular.
- Visual Genome - conjunto de dados com ~ 100 mil imagens anotadas detalhadas.
- Imagens abertas do Google. - Uma coleção de 9 milhões de URLs de imagem "que foram marcados em mais de 6.000 categorias" sob uma licença Creative Commons.
- Rostos rotulados na natureza - Uma coleção de 13.000 imagens faciais rotuladas de pessoas para usar aplicativos que envolvem o uso da tecnologia de reconhecimento de rosto.
- Stanford Dogs Dataset - Contém 20.580 imagens de 120 raças de cães.
- Reconhecimento de cena em ambiente interno. - conjunto de dados para reconhecimento do interior dos edifícios. Contém 15 620 imagens e 67 categorias.
- Carro Robótico de Oxford - Mais de 100 repetições de uma rota de Oxford capturadas durante o ano. Diferentes combinações de condições climáticas, tráfego e pedestres, além de mudanças a longo prazo, como obras na estrada, entraram no conjunto de dados.
- Cityscape Dataset é um grande conjunto de dados que contém registros de cem cenas de rua em 50 cidades.
- Conjunto de dados de sinais de trânsito da Bélgica da KUL - mais de 10.000 anotações de milhares de diferentes semáforos na Bélgica.
- Laboratório LISA para automóveis inteligentes e seguros - um conjunto de dados com sinais de trânsito, semáforos, veículos e trajetórias reconhecidas.
- Conjunto de dados pequeno para semáforos Bosch - conjunto de dados com 24.000 semáforos anotados.
- Conjuntos de dados WPI - conjunto de dados para o reconhecimento de semáforos, pedestres e marcações nas estradas.
- Berkeley DeepDrive - um enorme conjunto de dados para pilotos automáticos. Ele contém mais de 100.000 vídeos com mais de 1.100 horas de gravações de condução em diferentes momentos do dia e em várias condições climáticas.
- MIMIC-III - conjunto de dados com dados anônimos sobre o estado de saúde de ~ 40.000 pacientes em terapia intensiva (dados demográficos, sinais vitais, exames laboratoriais e medicamentos).
- Comentários da Amazon - Contém cerca de 35 milhões de comentários da Amazon há mais de 18 anos. Os dados incluem informações sobre o produto e o usuário, classificações e o próprio texto da revisão.
Links úteis para encontrar conjuntos de dados:
- Obviamente, o Kaggle é o ponto de encontro de todos os amantes de competições de aprendizado de máquina.
- Pesquisa de conjuntos de dados do Google - Pesquise conjuntos de dados na Internet. Além disso, se necessário, você pode adicionar seus próprios conjuntos de dados .
- O Machine Learning Repository é um conjunto de bancos de dados, teorias de assuntos e geradores de dados usados pela comunidade de aprendizado de máquina para analisar empiricamente os algoritmos de aprendizado de máquina.
- VisualData - pesquise conjuntos de dados para visão de máquina, com categorização conveniente.
- DATA USA - um conjunto completo de dados publicamente disponíveis nos Estados Unidos, visualização, descrição e infográficos.
Com isso, nossa curta seleção chegou ao fim. Se alguém tiver algo para complementar ou compartilhar - escreva nos comentários.
Todo conhecimento!
Inscreva-se no canal Neuron no Telegram (@neurondata) - há novos artigos e notícias do mundo da ciência de dados que aparecem toda semana. Obrigado a todos que ajudam com links úteis, especialmente Igor Mariarty, Andrey Bondarenko e Matvey Kochergin.