Hola
El 10 de noviembre (¡mañana!) En Moscú, el centro de cine de octubre organizará la gran conferencia del
Día de la Ciencia de Datos de Sberbank , donde se otorgarán los ganadores de SDSJ 2018, discursos de un gran número de expertos internacionales y rusos en el campo de la Ciencia de Datos, una sección sobre ML y el uso de la inteligencia artificial en la ciencia y negocios. ¡Y mucho más interesante!
Puedes ver la transmisión en vivo
aquí . Bajo katom y
en el sitio web el programa. También describimos cómo se calificó a los ganadores del Sberbank Data Science Journey.
El programa
La conferencia se divide en varios bloques temáticos, aquí está el calendario:
Sala principal11:00 - 11:30. La apertura de la conferencia.
11:30 - 12:30. Mesa redonda "Tecnologías de análisis de datos e inteligencia artificial en la economía digital"
12:30 - 13:15. "Métodos y arquitecturas biológicamente condicionados en el aprendizaje profundo". Sergey Bartunov, mente profunda
13:15 - 14:00. "Agentes conversacionales como compañero digital inteligente para comprender la emoción humana y expresar su emoción". Soo-Young Lee, KAIST
15:00 - 15:45. "Aprendizaje automático escalable". Andrey Spiridonov, H2O
15:45 - 16:30. Mesa redonda "Innovación de tendencias: uso de DS / AI y mejora de la experiencia del cliente"
17:15 - 18:00 Entrega solemne de los ganadores de las competiciones Sberbank Data Science Journey y
Classic AI (competencia en versificación utilizando inteligencia artificial)
Salón "Ciencia"12:30 - 13:45 Tecnología .DS / AI: AutoML
13:45 - 14:45. Tecnología DS / AI: Visión por computadora
14:45 - 15:45 Tecnología .DS / AI: Procesamiento del lenguaje natural (PNL)
15:45 - 16:30 Tecnología .DS / AI: aprendizaje por refuerzo
16:30 - 17:15 Tecnologías .DS / AI: Speech Analytics
Sala "Negocios" (sala 1)12:30 - 13:45. Aplicación DS / AI en banca y finanzas
13:45 - 15:00. El uso de DS / AI en medicina y bioinformática
15:00 - 16:15 Aplicación de DS / AI en los sectores bancario y financiero
16:15 - 17:15 .Escritura: creación de una plataforma para la investigación de IA
Salón de negocios (Hall 2)12:30 - 14:45. El uso de DS / AI en el comercio minorista
14:45 - 16:30. Aplicaciones industriales DS / AI
16:30 - 17:15. Aplicación DS / AI en medios y telecomunicaciones
Salón Comunitario12:30 - 13:15. Presentación de carteles "Sesión de póster Lightning Talk"
13:15 - 15:00. Presentación de proyectos abiertos en el campo de DS / AI "AI Open Projects"
15:00 - 15:45. Toma de decisiones de la competencia clásica de IA
15:45 - 17:15. Análisis de competencia del viaje de ciencia de datos de Sberbank
Ganadores del viaje de ciencia de datos de Sberbank
Este año, propusimos resolver problemas utilizando la tecnología AutoML. Hasta finales del 3 de noviembre, los participantes cargaron sus decisiones, en las siguientes 12 horas seleccionaron lo mejor de sus decisiones. Ahora la elección es para el jurado. En la conferencia, premiaremos a los ganadores del Sberbank Data Science Journey.
Los participantes recibieron conjuntos de datos ya preparados de Sberbank. Los 24 conjuntos de datos involucrados en la competencia fueron reunidos por varios departamentos: unidad minorista, unidad de riesgo y unidad de tecnología. Todos ellos fueron especialmente entrenados y despersonalizados. La base era información como:
- Cuota límite aprobada
- Tiempo de entrega de tarjeta
- Diferentes tipos de puntuación
- Comentarios de oferta de tarjeta
- Respuesta a otras ofertas de productos.
- Desgloses de cajeros automáticos
- Información de retiro de efectivo en cajeros automáticos
- Saldos de cuenta y otra información
Para evaluar las decisiones, se seleccionaron grupos de conjuntos de datos: verificar (abierto a los participantes), público (oculto a los participantes, pero puede ver el resultado durante la competencia), privado (conjunto en el que se resumen los resultados de la competencia)
En cada conjunto de este tipo, hay tres problemas de regresión y cinco problemas de clasificación binaria. Las soluciones funcionaron en conjuntos de datos de varios tamaños: desde 1 MB y 300 líneas hasta 1 GB y 1 mln. Antes del comienzo de la competencia, el jurado preparó conjuntos de datos, el sistema de prueba ya los verificó en modo automático y
ahora puede ver los resultados en el sitio web (teniendo en cuenta las limitaciones asociadas con la intriga).
Las decisiones se tomaron en formato de archivos con un código. Los participantes debían crear un algoritmo que implementara el ciclo completo de resolución automática del problema de aprendizaje automático, recibiendo datos como entrada y devolviendo una respuesta lista en la salida.
Las decisiones de los participantes tuvieron que encajar en las restricciones dadas:
- recursos disponibles
- la solución no tiene acceso a los recursos de Internet
- El tamaño máximo de un archivo empaquetado y desempaquetado con una solución: 1 GB
- el archivo se descomprime en un sistema de archivos ubicado en la memoria de acceso aleatorio (ramfs), disponible para la solución de escritura
- el resto del contenido del contenedor es de solo lectura
- CSV con conjunto de datos no supera los 3 GB
- Se necesitan limitaciones para lograr comparaciones justas al colocar a los participantes en condiciones técnicas iguales.
Este es el sistema de calificación en esta competencia:
- Para cada tarea (conjunto de datos), la métrica específica de la tarea (RMSE para regresión, ROC-AUC para clasificación binaria) se considera en la parte de prueba de la muestra.
- Para cada tarea (conjunto de datos), las métricas de los participantes se traducen a una escala común de acuerdo con el siguiente esquema. Para la mejor solución métrica (entre todas las soluciones enviadas y probadas con éxito) se da 1 punto, la solución de línea base se estima en 0 puntos. Los participantes que se encuentran en la métrica entre las mejores y las soluciones de línea de base reciben un número proporcional de puntos entre 0 y 1. Las decisiones sobre la calidad del fondo de la línea de base se estiman en 0 puntos. Si la mejor solución y la decisión de referencia son las mismas, entonces todos los participantes obtienen 0 puntos. Si la solución del participante da un error en la tarea o no pasa el límite de tiempo, entonces obtiene 0 puntos por esta tarea.
- El resultado final de cada participante se considera como la suma de los resultados de cada tarea después de la conversión a una escala común. En la tabla de clasificación general, los participantes se clasifican por el resultado final.
Los resultados de la competencia están disponibles
aquí .
Además de la clasificación principal, los participantes compitieron por un premio en la nominación "Mejor decisión pública". A lo largo de la competencia, publicaron sus enfoques para resolver el problema de AutoML en GitHub, y los ganadores fueron determinados por el número de estrellas de GItHub.
La conferencia tendrá una sección separada dedicada a SDSJ'18, donde los ganadores hablarán sobre sus decisiones y responderán todas las preguntas.
Una vez más, deje un enlace a la
transmisión en línea de la conferencia, para que todos los interesados puedan ver el Día de la Ciencia de Datos de Sberbank.