52 conjuntos de datos para proyectos de capacitación
- Conjunto de datos de clientes del centro comercial : datos de los visitantes de la tienda: identificación, género, edad, ingresos, calificación de gastos. ( Caso de uso: Proyecto de segmentación de clientes con Machine Learning )
- Iris Dataset : conjunto de datos para principiantes, que contiene los tamaños de sépalos y pétalos para varias flores.
- Conjunto de datos MNIST : conjunto de datos de números escritos a mano. 60,000 imágenes de entrenamiento y 10,000 imágenes de prueba.
- El conjunto de datos de vivienda de Boston es un conjunto de datos de reconocimiento de patrones popular. Contiene información sobre las casas en Boston: número de apartamentos, precio de alquiler, índice de criminalidad.
- Conjunto de datos de detección de noticias falsas : contiene 7796 entradas con marcado de noticias: verdadero o falso. ( Caso de uso con fuente de Python: Proyecto de Python de detección de noticias falsas )
- Conjunto de datos de calidad del vino: contiene información sobre el vino: 4898 registros con 14 parámetros.
- Datos SOCR: el conjunto de datos de alturas y pesos es un buen comienzo. Contiene 25,000 registros de altura y peso de jóvenes de 18 años.

Este artículo fue traducido con el apoyo de EDISON Software, una compañía que realiza excelentes pedidos desde el sur de China , y también desarrolla aplicaciones y sitios web .
- Conjunto de datos de Parkinson : 195 registros de pacientes con enfermedad de Parkinson, con 25 parámetros de análisis. Se puede utilizar para una evaluación preliminar de la diferencia entre personas enfermas y personas sanas. ( Caso de uso con fuente de Python: Proyecto de aprendizaje automático para detectar la enfermedad de Parkinson )
- Conjunto de datos Titanic : contiene información sobre pasajeros (edad, sexo, parientes a bordo, etc.) 891 en el conjunto de entrenamiento y 418 en el conjunto de prueba.
- Conjunto de datos de Uber Pickups : información sobre 4,5 millones de viajes a Uber 2014 y 14 millones de 2015. ( Caso de uso con fuente en R: Proyecto de análisis de datos de Uber en R )
- Conjunto de datos Chars74k : contiene imágenes de caracteres británicos y canadienses de 64 clases: 0-9, AZ, az. 7700 7.7k imágenes naturales, 3400k manuscritas, 62000 fuentes sintetizadas por computadora.
- Conjunto de datos de detección de fraude con tarjeta de crédito : contiene información sobre las transacciones de tarjetas de crédito comprometidas. ( Caso de uso con fuente: Proyecto de aprendizaje automático de detección de fraude con tarjeta de crédito )
- Chatbot Intents Dataset : archivo JSON que contiene varias etiquetas: saludos, adiós, hospital_search, pharmacy_search, etc. Contiene un conjunto de plantillas de preguntas y respuestas. ( Caso de uso con fuente en Python: Proyecto Chatbot en Python )
- Conjunto de datos de correo electrónico de Enron : contiene medio millón de correos electrónicos de 150 gerentes de Enron.
- El conjunto de datos de Yelp : contiene 1,2 millones de recomendaciones de 1,6 millones de usuarios sobre 1,2 millones de organizaciones.
- Jeopardy Dataset : más de 200,000 entradas de preguntas y respuestas de un popular juego de televisión.
- Recomendador Systems Dataset es un portal con una colección de conjuntos de datos de la Universidad UCSD. Contiene reseñas de reseñas en sitios populares (Goodreads, Amazon). Ideal para crear sistemas de recomendación. ( Caso de uso con fuente en R: Proyecto de sistema de recomendación de películas en R )
- Conjunto de datos UCI Spambase : conjunto de datos de capacitación para detectar spam. Contiene 4601 letras con 57 parámetros de metadatos.
- Flickr 30k Dataset : más de 30,000 imágenes y subtítulos. ( Flickr 8k Dataset - 8000 imágenes. Proyecto con fuente en Python: Proyecto de Python de Image Caption Generator )
- Reseñas de IMDB : 25,000 críticas de películas en el set de entrenamiento y 25,000 en el set de prueba. ( Caso de uso con fuente en R: Proyecto de ciencia de datos de análisis de sentimientos )
- Conjunto de datos MS COCO : 1,5 millones de imágenes etiquetadas.
- Conjunto de datos CIFAR-10 y CIFAR-100 : CIFAR-10 contiene 60,000 imágenes pequeñas 32 * 32 píxeles de números 0-9. CIFAR-100 - respectivamente, 0-100.
- Conjunto de datos GTSRB (punto de referencia alemán de reconocimiento de señales de tráfico) : 50,000 imágenes de 43 señales de tráfico. ( Caso de uso con fuente de Python: Proyecto de Python de reconocimiento de señales de tráfico )
- Conjunto de datos ImageNet : contiene más de 100,000 frases y alrededor de 1000 imágenes por frase.
- Conjunto de datos de imágenes de histopatología mamaria : el conjunto de datos contiene imágenes de muestras de cáncer de mama. ( Caso de uso con fuente en el Proyecto Python de Clasificación del Cáncer de Mama )
- Conjunto de datos de paisajes urbanos : contiene anotaciones de alta calidad de secuencias de video de calles de diferentes ciudades.
- Conjunto de datos cinéticos : contiene un enlace URL a aproximadamente 6.5 millones de videos de alta calidad.
- Conjunto de datos de pose humana MPII: el conjunto de datos contiene 25,000 imágenes de poses humanas con anotaciones para las articulaciones.
- El conjunto de datos 20BN-something-something v2 es un conjunto de videos de alta calidad que muestran cómo una persona realiza ciertas acciones.
- Conjunto de datos Object 365 : conjunto de datos de imágenes de alta calidad con cuadros delimitadores de objetos.
- Conjunto de datos de dibujo de fotos : contiene más de 1000 imágenes con sus dibujos de contorno.
- Conjunto de datos CQ500: el conjunto de datos contiene 491 tomografías computarizadas de la cabeza con 193,317 cortes.
- Conjunto de datos IMDB-Wiki: conjunto de datos con más de 5 millones de imágenes de personas marcadas con género y edad. ( Caso de uso con fuente en el Proyecto Python de Detección de Género y Edad )
- Conjunto de datos de Youtube 8M : un conjunto de datos de video etiquetado que contiene 6.1 millones de identificadores de video de Youtube
- Conjunto de datos Urban Sound 8K : un conjunto de datos de audio de la ciudad (contiene 8732 sonidos de la ciudad de 10 clases).
- LSUN Dataset es un conjunto de datos de millones de imágenes en color de escenas y objetos (alrededor de 59 millones de imágenes, 10 categorías diferentes de escenas y 20 categorías diferentes de objetos).
- RAVDESS Dataset es una base de datos audiovisual de discurso emocional. ( Caso de uso con fuente en el Proyecto de Python de Reconocimiento de Emociones del Habla )
- Conjunto de datos Librispeech: el conjunto de datos contiene 1000 horas de habla inglesa con diferentes acentos.
- Conjunto de datos Baidu Apolloscape : conjunto de datos para el desarrollo de tecnología de conducción autónoma.
- Quandl Data Portal : un repositorio de datos económicos y financieros (hay contenido gratuito y de pago).
- Portal de datos abiertos del Banco Mundial : información sobre préstamos emitidos por el Banco Mundial a países en desarrollo.
- IMF Data Portal es un portal internacional de fondos monetarios que publica datos sobre finanzas internacionales, tasas de deuda, inversiones, reservas de divisas y bienes.
- El Portal de datos de la American Economic Association (AEA) es un recurso para encontrar datos macroeconómicos de los Estados Unidos.
- Portal de datos de Google Trends: los datos de Google Trends se pueden usar para examinar y analizar visualmente los datos.
- Financial Times Market Data Portal : un recurso para obtener información actualizada sobre los mercados financieros de todo el mundo.
- Data.gov Portal es un portal de datos abiertos del gobierno de los Estados Unidos (agricultura, salud, clima, educación, energía, finanzas, ciencia e investigación, etc.).
- Portal de datos: los datos de gobierno abierto (India) es la plataforma de datos de gobierno abierto de India .
- Portal de datos de Atlas de medio ambiente alimentario : contiene datos de investigación nutricional de EE. UU.
- Health Data Portal es un portal del Departamento de Salud y Servicios Humanos de EE. UU.
- Portal de datos de los Centros para el Control y la Prevención de Enfermedades : contiene una amplia gama de datos relacionados con la salud.
- Portal de datos de Londres : datos sobre la vida de las personas en Londres.
- Portal de datos abiertos del gobierno de Canadá : un portal para abrir datos sobre los canadienses (agricultura, arte, música, educación, gobierno, salud, etc.)
Leer mas

Lee también el blog
Empresa EDISON:
20 bibliotecas para
espectacular aplicación para iOSSource: https://habr.com/ru/post/480408/
All Articles