Hola chicos
Antes de usted hay una guía de artículo para abrir conjuntos de datos para el aprendizaje automático. En él, yo, para empezar, recopilaré una selección de conjuntos de datos interesantes y frescos (relativamente). Y como beneficio adicional, al final del artículo, adjuntaré enlaces útiles para la búsqueda independiente de conjuntos de datos.
Menos palabras, más datos.

Una selección de conjuntos de datos para el aprendizaje automático:
- Muertes y batallas de datos del juego de tronos : este conjunto de datos combina tres fuentes de datos, cada una basada en información de una serie de libros.
- Base de datos mundial sobre terrorismo : más de 180,000 ataques terroristas en todo el mundo, 1970-2017.
- Bitcoin, datos históricos: datos de Bitcoin con un intervalo de 1 minuto de los intercambios seleccionados, enero de 2012 - marzo de 2019
- Conjunto completo de datos de jugadores de FIFA 19: 18k + jugadores de FIFA 19, ~ 90 atributos, extraídos de la última base de datos de FIFA.
- Estadísticas de videos de YouTube: estadísticas diarias de videos de tendencias en YouTube.
- Encuesta de tasas de suicidio de 1985 a 2016 - Comparación de información socioeconómica con tasas de suicidio por año y país.
- Gran conjunto de datos del mercado de valores : precios diarios históricos y volúmenes de todas las acciones y ETF de EE. UU.
- Indicadores del desarrollo mundial : indicadores de desarrollo de países de todo el mundo.
- Kaggle Machine Learning & Data Science Survey 2017 - Gran conocimiento del estado de la ciencia de datos y el aprendizaje automático.
- Datos sobre violencia y armas : un informe completo sobre más de 260 mil incidentes de armas estadounidenses en 2013-2018
- Radiografía de tórax (neumonía) : 5.863 imágenes, 2 categorías.
- Reconocimiento de género por voz : esta base de datos se creó para identificar la voz como masculina o femenina, en función de las propiedades acústicas de la voz y el habla. El conjunto de datos consta de 3168 muestras de voz grabadas recolectadas de hombres y mujeres.
- Consumo de alcohol de los estudiantes : los datos se obtuvieron en una encuesta de estudiantes de matemática y cursos de portugués en la escuela secundaria. Contiene mucha información social, de género y educativa sobre los estudiantes.
- Malaria Cell Dataset : imágenes celulares para detectar la malaria.
- Encuestas de jóvenes : datos sobre las preferencias, intereses, hábitos, opiniones y temores de los jóvenes.
- Ranking mundial de universidades : explore las mejores universidades del mundo.
- Detección de fraude con tarjeta de crédito: las transacciones anónimas de tarjeta de crédito se marcan como fraudulentas o auténticas.
- Dataset heart disease : esta base de datos contiene 76 atributos, como edad, sexo, tipo de dolor en el pecho, presión arterial en reposo y otros.
- European Football Base : más de 25,000 partidos, atributos de jugadores y equipos para el fútbol profesional europeo.
- Reseñas de vinos : 130.000 reseñas de vinos con variedad, ubicación, bodega, precio y descripción.
- Baidu Apolloscapes . Un gran conjunto de datos para reconocer 26 objetos semánticamente diferentes, como automóviles, bicicletas, peatones, edificios, farolas, etc.
- Coma.ai. Más de siete horas conduciendo por la autopista. El conjunto de datos incluye información sobre la velocidad del vehículo, la aceleración, el ángulo de dirección y las coordenadas GPS.
- Reconocimiento de color : este conjunto de datos contiene 4242 imágenes en color. La recopilación de datos se basa en datos flicr, imágenes de Google, imágenes de Yandex.
- Precio de mercado diario de cada criptomoneda : precios históricos de criptomonedas para todos los tokens.
- Calificación de chocolate: calificación experta de más de 1,700 barras de chocolate.
- Mercado de seguros médicos : datos sobre planes de salud y dentales para el mercado de seguros de salud de EE. UU.
- Sonidos de latidos cardíacos: clasificación de las anormalidades de los latidos cardíacos con el estetoscopio.
- Base de datos de recomendaciones de anime : recomendaciones de 76,000 usuarios en myanimelist.net
- Imágenes de células sanguíneas - 12,500 imágenes: 4 tipos diferentes de células.
- Radiografía de tórax : más de 112,000 radiografías de tórax de más de 30,000 pacientes únicos.
- Informes de asesinatos, 1980-2014 - El Proyecto de Responsabilidad de matar es la base de datos de homicidios más completa en los Estados Unidos actualmente disponible.
- Base de datos de autos usados : más de 370,000 autos usados. El contenido de los datos está en alemán, por lo que primero debe traducirlo si no habla alemán.
- Casa de datos abiertos del gobierno de los Estados Unidos : datos, herramientas y recursos para realizar investigaciones, desarrollar aplicaciones web y aplicaciones móviles, desarrollar visualizaciones de datos.
- Centro Nacional de prevención de enfermedades crónicas y promoción de la salud (NCCDPHP). El centro está trabajando para reducir los factores de riesgo de enfermedades crónicas.
- La colección de recursos sociales, económicos y demográficos más grande del Reino Unido.
- EconData : n Varias miles de series de tiempo económicas, preparadas por varias agencias gubernamentales de EE. UU. Y distribuidas en varios formatos y medios.
- Coast Research Center : datos interesantes sobre el mar y su composición biológica. Aquí puede encontrar conjuntos de datos desde el análisis de datos del modelo del Mar Rojo hasta el estudio de la temperatura y las corrientes sobre la estrecha plataforma del sur de California.
- Conjunto de datos de dígitos del lenguaje de señas - Turquía, Ankara, Ayranji, Anadolu. Conjunto de datos de lenguaje de señas de secundaria.
- Vino tinto de calidad : conjunto de datos prácticos simples y claros para modelos de regresión o clasificación.
- Hojas de cálculo English Football Premier League (1968-2019).
- Conjunto de datos HotspotQA: conjunto de datos con preguntas y respuestas, que le permite crear un sistema para responder preguntas de una manera más comprensible.
- xView : uno de los conjuntos de imágenes aéreas de la tierra más grandes disponibles públicamente. Contiene imágenes de varias escenas de todo el mundo, anotadas con cuadros delimitadores.
- Labelme : gran conjunto de datos de imagen anotada.
- ImageNet : conjunto de datos de imágenes para nuevos algoritmos, organizado de acuerdo con la jerarquía de WordNet, en el que cientos y miles de imágenes representan cada nodo de la jerarquía.
- LSUN. - Conjuntos de datos de imágenes, divididos en escenas y categorías con datos de marcado parcial.
- MS COCO : conjunto de datos a gran escala para la detección y segmentación de objetos.
- COIL100 - 100 objetos diferentes representados en cada ángulo en una rotación circular.
- Genoma visual : conjunto de datos con ~ 100 mil. Imágenes detalladas anotadas.
- Imágenes abiertas de Google. - una colección de 9 millones de URL a imágenes "etiquetadas con más de 6,000 categorías" bajo la licencia Creative Commons.
- Rostros etiquetados en la naturaleza: un conjunto de 13,000 imágenes de rostros marcados de personas para el uso de aplicaciones que implican el uso de tecnología de reconocimiento de rostros.
- Conjunto de datos de Stanford Dogs : contiene 20,580 imágenes de 120 razas de perros.
- Reconocimiento de escena interior. - Conjunto de datos para reconocer el interior de los edificios. Contiene 15,620 imágenes y 67 categorías.
- El automóvil robótico de Oxford : más de 100 repeticiones de una ruta a través de Oxford, filmadas durante el año. Diversas combinaciones de condiciones climáticas, tráfico y peatones, así como cambios más largos, como obras viales, entraron en conjuntos de datos.
- Conjunto de datos de paisaje urbano : un gran conjunto de datos que contiene registros de cien escenas de calles en 50 ciudades.
- KUL Belgium Traffic Sign Dataset : más de 10,000 anotaciones de miles de diferentes semáforos en Bélgica.
- Laboratorio LISA para automóviles inteligentes y seguros : conjunto de datos con señales de tráfico, semáforos, vehículos reconocidos y trayectorias de movimiento.
- Conjunto de datos de semáforos pequeños de Bosch : fechas con 24,000 semáforos anotados.
- Conjuntos de datos WPI : conjunto de datos para el reconocimiento de semáforos, peatones y marcas viales.
- Berkeley DeepDrive : gran conjunto de datos para pilotos automáticos. Contiene más de 100,000 videos con más de 1,100 horas de registros de manejo en diferentes momentos del día y en diferentes condiciones climáticas.
- MIMIC-III - Conjuntos de datos con datos impersonales sobre el estado de salud de ~ 40,000 pacientes en cuidados intensivos (datos demográficos, signos vitales, pruebas de laboratorio y medicamentos).
- Amazon Reviews : contiene alrededor de 35 millones de reseñas de Amazon durante 18 años. Los datos incluyen información del producto y del usuario, calificaciones y el texto de la revisión en sí.
Enlaces útiles para buscar conjuntos de datos:
- Seguramente Kaggle : lugar de encuentro para todos los fanáticos de las competencias de aprendizaje automático.
- Búsqueda de conjuntos de datos de Google : busca conjuntos de datos en Internet. Además, si es necesario, puede agregar conjuntos de datos propios .
- Repositorio de aprendizaje automático : un conjunto de bases de datos, teorías de dominio y generadores de datos que utiliza la comunidad de aprendizaje automático para el análisis empírico de algoritmos de aprendizaje automático.
- VisualData : búsqueda de conjunto de datos para visión artificial, con clasificación conveniente por categoría.
- DATA USA : conjunto completo de datos de los EE . UU . Disponibles públicamente con visualización, descripción e infografías.
Sobre esto, nuestra corta selección llegó a su fin. Si alguien tiene algo que agregar o compartir, escriba en los comentarios.
Gracias