Hola lector
Aquí hay una guía de artículo sobre conjuntos de datos abiertos para el aprendizaje automático. En él, para empezar, recopilaré una selección de
conjuntos de datos interesantes y frescos (relativamente). Y una ventaja adicional, al final del artículo, adjuntaré enlaces útiles para conjuntos de datos de búsqueda automática.
Menos palabras, más datos.

Una selección de conjuntos de datos para el aprendizaje automático:
- Muertes y batallas de Game of Thrones : este conjunto de datos combina tres fuentes de datos, cada una basada en información de una serie de libros.
- Base de datos mundial sobre terrorismo : más de 180,000 ataques terroristas en todo el mundo, 1970-2017.
- Bitcoin, datos históricos: datos de Bitcoin con un intervalo de 1 minuto de los intercambios seleccionados, enero de 2012 - marzo de 2019.
- Conjunto completo de datos de jugadores de FIFA 19: 18k + jugadores de FIFA 19, ~ 90 atributos recuperados de la última base de datos de FIFA.
- Estadísticas de video de YouTube : estadísticas de tendencias diarias para videos de YouTube.
- Descripción general de los indicadores de suicidio de 1985 a 2016 - Comparación de la información socioeconómica con las tasas de suicidio por año y país.
- Enorme conjunto de datos del mercado de valores : precios diarios históricos y volúmenes de todas las acciones y ETF de EE. UU.
- Indicadores del desarrollo mundial : indicadores del desarrollo de países de todo el mundo.
- Kaggle Machine Learning & Data Science Survey 2017 - Gran conocimiento del estado de la ciencia de datos y el aprendizaje automático.
- Datos sobre violencia y armas : un informe completo de más de 260,000 incidentes de armas de EE. UU. En 2013-2018.
- Radiografía de tórax (neumonía) : 5.863 imágenes, 2 categorías.
- Reconocimiento de voz por voz : esta base de datos se creó para identificar la voz como masculina o femenina en función de las propiedades acústicas de la voz y el habla. El conjunto de datos consta de 3.168 muestras de voz grabadas recolectadas de hombres y mujeres.
- Consumo de alcohol de los estudiantes : los datos se obtuvieron de una encuesta de estudiantes de matemáticas y portugués en cursos de secundaria. Contiene mucha información social, de género y educativa sobre los estudiantes.
- Conjunto de datos de células de malaria : imágenes de células para detectar la malaria.
- Encuestas de jóvenes : datos sobre las preferencias, intereses, hábitos, opiniones y temores de los jóvenes.
- Ranking mundial de universidades : explora las mejores universidades del mundo.
- Detección de fraude con tarjeta de crédito: conjuntos de datos anónimos de transacciones con tarjeta de crédito marcados como fraudulentos o genuinos.
- Fecha de enfermedad cardíaca : esta base de datos contiene 76 atributos, como edad, sexo, tipo de dolor en el pecho, presión arterial en reposo y otros.
- Base de fútbol europea : más de 25,000 partidos, atributos de jugadores y equipos para el fútbol profesional europeo.
- Reseñas de vinos : 130.000 reseñas de vinos con variedad, ubicación, bodega, precio y descripción.
- Baidu Apolloscapes . Un gran conjunto de datos para reconocer 26 objetos semánticamente diferentes, como automóviles, bicicletas, peatones, edificios, farolas, etc.
- Coma.ai. Más de siete horas en la carretera. El conjunto de datos incluye información sobre la velocidad del vehículo, la aceleración, el ángulo de dirección y las coordenadas GPS.
- Reconocimiento de color : este conjunto de datos contiene 4242 imágenes en color. La recopilación de datos se basa en datos flicr, imágenes de Google, imágenes de Yandex.
- El precio de mercado diario de cada criptomoneda es el precio histórico de la criptomoneda para todos los tokens.
- Chocolate Rating : una calificación experta de más de 1,700 barras de chocolate.
- Mercado de seguros de salud : datos sobre planes de salud y odontología en el mercado de seguros de salud de EE. UU.
- Sonidos de latidos cardíacos: una clasificación de las anomalías de los latidos cardíacos según un estetoscopio.
- Base de datos de recomendaciones de anime : recomendaciones de 76,000 usuarios en myanimelist.net
- Imágenes de células sanguíneas - 12,500 imágenes: 4 tipos diferentes de células.
- Radiografía de tórax : más de 112,000 radiografías de tórax de más de 30,000 pacientes únicos.
- Informes de asesinatos 1980-2014 - El proyecto Killing Responsability es la base de datos de asesinatos más completa en los Estados Unidos actualmente disponible.
- Base de datos de autos usados : más de 370,000 autos usados. El contenido de los datos está en alemán, por lo que debe traducirlo primero si no habla alemán.
- Casa de datos abiertos del gobierno de EE. UU.: Datos , herramientas y recursos para investigación, desarrollo de aplicaciones web y móviles, y visualización de datos.
- Centro Nacional de Prevención de Enfermedades Crónicas y Promoción de la Salud (NCCDPHP). El centro está trabajando para reducir los factores de riesgo de enfermedades crónicas.
- La mayor colección de recursos sociales, económicos y demográficos del Reino Unido.
- EconData : varios miles de series de tiempo económicas, preparadas por varias agencias del gobierno de los Estados Unidos y distribuidas en varios formatos y medios.
- Centro de investigación costera : datos interesantes sobre el mar y su composición biológica. Aquí puede encontrar conjuntos de datos que van desde el análisis de datos del modelo del Mar Rojo hasta el estudio de la temperatura y las corrientes sobre la estrecha plataforma del sur de California.
- Conjunto de datos de dígitos del lenguaje de señas - Turquía, Ankara, Ayranji, Anadolu. Conjunto de datos de lenguaje de señas de secundaria.
- La calidad del vino tinto es un conjunto de datos prácticos simples y comprensibles para el modelo de regresión o clasificación.
- Tablas de la Premier League inglesa de fútbol (1968-2019).
- Conjunto de datos HotspotQA : un conjunto de datos con preguntas y respuestas, que le permite crear sistemas para responder preguntas de una manera más comprensible.
- xView es uno de los mayores conjuntos de imágenes aéreas de la tierra disponibles públicamente. Contiene imágenes de varias escenas de todo el mundo, anotadas usando cuadros delimitadores.
- Labelme : gran conjunto de datos de imágenes anotadas.
- ImageNet : conjunto de datos de imágenes para nuevos algoritmos, organizado de acuerdo con la jerarquía de WordNet, en el que cientos y miles de imágenes representan cada nodo de la jerarquía.
- LSUN. - conjunto de datos de imágenes desglosadas por escena y categoría con marcado parcial de datos.
- MS COCO es un conjunto de datos a gran escala para detectar y segmentar objetos.
- COIL100 : 100 objetos diferentes, representados en cada ángulo en una revolución circular.
- Visual Genome : conjunto de datos con ~ 100 mil imágenes detalladas anotadas.
- Imágenes abiertas de Google. - Una colección de 9 millones de URL de imágenes "que se han etiquetado en más de 6,000 categorías" bajo una licencia Creative Commons.
- Rostros etiquetados en la naturaleza: una colección de 13,000 imágenes faciales etiquetadas de personas para usar aplicaciones que implican el uso de tecnología de reconocimiento facial.
- Conjunto de datos de Stanford Dogs : contiene 20.580 imágenes de 120 razas de perros.
- Reconocimiento de escena interior. - conjunto de datos para el reconocimiento del interior de los edificios. Contiene 15 620 imágenes y 67 categorías.
- Coche robótico de Oxford : más de 100 repeticiones de una ruta de Oxford capturada durante el año. Se incorporaron al conjunto de datos diferentes combinaciones de condiciones climáticas, tráfico y peatones, así como cambios a más largo plazo, como obras viales.
- Cityscape Dataset es un gran conjunto de datos que contiene registros de cien escenas callejeras en 50 ciudades.
- KUL Belgium Traffic Sign Dataset : más de 10,000 anotaciones de miles de diferentes semáforos en Bélgica.
- Laboratorio LISA para automóviles inteligentes y seguros : un conjunto de datos con señales de tránsito, semáforos, vehículos reconocidos y trayectorias.
- Conjunto de datos de semáforos pequeños de Bosch: conjunto de datos con 24,000 semáforos anotados.
- Conjuntos de datos WPI : conjunto de datos para el reconocimiento de semáforos, peatones y marcas viales.
- Berkeley DeepDrive : un gran conjunto de datos para pilotos automáticos. Contiene más de 100,000 videos con más de 1,100 horas de grabaciones de manejo en diferentes momentos del día y en diversas condiciones climáticas.
- MIMIC-III : conjunto de datos con datos anónimos sobre el estado de salud de ~ 40,000 pacientes sometidos a cuidados intensivos (datos demográficos, signos vitales, pruebas de laboratorio y medicamentos).
- Amazon Reviews : contiene alrededor de 35 millones de reseñas de Amazon durante 18 años. Los datos incluyen información del producto y del usuario, calificaciones y el texto de revisión en sí.
Enlaces útiles para encontrar conjuntos de datos:
- Por supuesto, Kaggle es el lugar de encuentro para todos los amantes de las competencias de aprendizaje automático.
- Búsqueda de conjuntos de datos de Google : busca conjuntos de datos en Internet. Además, si es necesario, puede agregar sus propios conjuntos de datos .
- Machine Learning Repository es un conjunto de bases de datos, teorías temáticas y generadores de datos que son utilizados por la comunidad de aprendizaje automático para analizar empíricamente algoritmos de aprendizaje automático.
- VisualData : busca conjuntos de datos para visión artificial, con una categorización conveniente.
- DATA USA : un conjunto completo de datos disponibles públicamente de la visualización, descripción e infografía de los Estados Unidos.
En esto nuestra corta selección llegó a su fin. Si alguien tiene algo para complementar o compartir, escriba en los comentarios.
Todo el conocimiento!
Suscríbase al canal Neuron en Telegram (@neurondata): cada semana aparecen nuevos artículos y noticias del mundo de la ciencia de datos. Gracias a todos los que ayudan con enlaces útiles, especialmente Igor Mariarty, Andrey Bondarenko y Matvey Kochergin.