Nuevo campeonato ML Boot Camp VI. Predicción de la respuesta del público a la encuesta en línea.



Hoy, 25 de junio, ML Boot Camp VI comienza con la tarea de "Pronosticar la respuesta de la audiencia a una encuesta en línea" (si de repente escuchas por primera vez qué es ML Boot Camp, ve bajo el spoiler).

Spoiler
ML Boot Camp es un campeonato de aprendizaje automático. Esquema de trabajo: asignamos la tarea y los participantes la resuelven en un mes y envían soluciones. Los autores de las mejores soluciones reciben premios. La última vez le dimos al MacBook Pro el primer lugar, el NVIDIA 1080ti, el segundo, el NVIDIA 1060, el tercero, y el WD My Cloud 6 TB para 4-6 lugares. Por tradición, enviamos camisetas con los símbolos del campeonato a los 50 mejores participantes.

Con cada nueva competencia, la audiencia de ML Boot Camp está creciendo significativamente (actualmente 7,000 participantes de más de 20 países ya están registrados).

Al principio, los participantes reciben las condiciones de la tarea y una descripción verbal de los datos disponibles: una muestra de capacitación. La muestra consta de ejemplos etiquetados: vectores de descripción de cada objeto con una respuesta conocida. Los participantes, utilizando los métodos de aprendizaje automático que conocen, entrenan la computadora y prueban el sistema entrenado en una muestra de prueba, que se divide en dos partes: calificación y final. El ganador es el que obtiene los mejores resultados en los datos finales.

El último día del campeonato, el participante puede elegir dos decisiones que lo representarán en la final. Lo mejor de ellos contará para la clasificación.

Puedes encontrar las reglas y materiales útiles en el sitio web del campeonato .

Esta vez, le ofrecemos sumergirse en el oscuro abismo del marketing: como parte de la próxima competencia ML Boot Camp, puede predecir el comportamiento del usuario en uno de los estudios de marketing a gran escala.

Ofrecemos una tarea del nivel apropiado, mientras tratamos de hacerla interesante tanto para profesionales como para principiantes. En este campeonato encontrarás trabajo de investigación real.

El formato de la competencia no ha cambiado: el campeonato durará un mes, del 25 de junio al 25 de julio de 2018. Lea más sobre los premios y la tarea a continuación.

Tarea "Pronosticar la respuesta del público a una encuesta en línea"


Hay resultados de una encuesta en línea. Se sabe que parte de la audiencia pasó la encuesta completa y correctamente. La otra parte completó la encuesta parcialmente, con errores, o se negó por completo a participar. Es necesario predecir con la mayor precisión posible cuál de los encuestados pertenece al primer grupo, es decir, ha aprobado el estudio por completo y sin errores.

El archivo de datos principal contiene 19 528 597 líneas (10 GB) y consta de 6 columnas:

1) Cuid es un identificador. Un archivo puede contener varias entradas para un identificador;
2) cat_feature es alguna variable categórica. Rango de valores: {0,1,2,3,4,5};
3-5 . medidores recolectados basados ​​en el comportamiento humano en Internet. Formato: {w_1: c_1, w_2: c_2, ...}, donde w_i es el token codificado y c_i es la frecuencia de este token;
6) dt_diff: el número de días antes de la fecha en que se recibió el valor de la variable objetivo.



Un pequeño dato como ejemplo:

00000d2994b6df9239901389031acaac 5 {"809001":2,"848545":2,"565828":1,"490363":1} {"85789":1,"238490":1,"32285":1,"103987":1,"16507":2,"6477":1,"92797":2} {} 39

Se deben hacer predicciones para 181 mil usuarios. El conjunto de datos para entrenar el modelo contiene una tabla con identificadores y valores de la variable objetivo (427 995 registros).

La métrica de la tarea es el ROC AUC. Esto significa que la respuesta es una evaluación de la pertenencia a la clase que se encuentra en el rango [0; 1] para cada cuid. Esta métrica, de hecho, evalúa la corrección del orden por parte del clasificador de objetos en relación con una de las clases. En este caso, no estamos interesados ​​en la etiqueta de clase específica que dará el algoritmo, o la probabilidad específica para cada objeto. Estamos interesados ​​en la corrección del orden en sí.

Por supuesto, sucede que en el contexto de una aplicación específica, con el mismo roc_auc, una solución puede resultar mejor que otra, pero decidimos no complicar la tarea.

Premios


La distribución de seis premios esta vez se ve así:

Top1: Apple MacBook Pro 13
Top2: Apple MacBook Air 13
Top3: Western Digital My Cloud Mirror
Top4-5-6: Western Digital My Passport 4 TB

Como siempre, los 50 mejores participantes recibirán camisetas con los símbolos del campeonato, y los participantes con las soluciones más interesantes serán invitados a una entrevista en el Grupo Mail.Ru en el puesto de Científicos de Datos.

Community MLBootCamp


Únete a nuestra comunidad en Telegram. Siempre puede hacer preguntas, obtener asesoramiento experto en el campo de la ciencia de datos. Además, la comunidad de campeones del Grupo Mail.Ru es una red donde es fácil encontrar personas con ideas afines.

Registro


El campeonato comienza hoy, a las 19:00 hora de Moscú. El registro está abierto. ¡Estamos esperando a todos y buena suerte!

Source: https://habr.com/ru/post/es415191/


All Articles