
A principios de noviembre, se lanzó el
Campeonato de Aprendizaje Automático y Análisis de Datos, con nombre en código
Telecom Data Cup , organizado por Mail.Ru Group y MegaFon.
La competencia se lanza en la ya famosa plataforma
ML Boot Camp . Intentamos llevar a cabo la mayoría de sus concursos de análisis de datos. Esta competencia es la segunda consecutiva este año y la séptima para toda la existencia del proyecto. Los campeonatos anteriores están abiertos en modo sandbox, lo que te permite entrenar para resolver tareas pasadas en cualquier momento del día o de la noche.
Más de 2500 usuarios se registraron para la competencia actual, 1700 personas descargaron el conjunto de datos, se cargaron 7800 diversas soluciones y la comunidad de
chat cruzó la marca de 1600 participantes. La competencia finalizará el 16 de diciembre, por lo que es hora de unirse al club de lucha, si aún no está en él. Damos la bienvenida y ayudamos a todos. Café o algo propio y estimulante para ayudarte :)
En el pie de página del artículo, encontrará enlaces y materiales útiles sobre este y anteriores concursos. Lo principal es que ahora mismo te sumergirás en el mundo de la tarea Telecom Data Cup, lo que te permitirá involucrarte rápidamente en el proceso y disfrutar de una investigación real.
Brevemente sobre la tarea
Aquellos que ya saben lo que está sucediendo en el campeonato pueden pasar a la siguiente sección.
Todos nos cansamos de las obsesivas encuestas telefónicas y de Internet de los "vendedores". Imagínese cómo lo llaman y pregunte si está viendo la televisión ahora, qué canal, cuántos dispositivos están encendidos actualmente y qué tipo de programas de televisión están pasando. Dios, realmente quiero dejar caer el teléfono (lo hacemos a menudo). Los usuarios están indignados, muy reacios a compartir comentarios, lo que afecta negativamente la calidad de los servicios prestados. El problema necesita una solución.
En esta competencia, debe sumergirse en el mundo de las telecomunicaciones, de modo que, sobre la base de los datos de usuario anónimos proporcionados por el operador de telecomunicaciones MegaFon y obtenidos durante las encuestas de clientes reales, para predecir si los suscriptores están satisfechos con la calidad de la comunicación.
Se encuestó a 9443 suscriptores. El resultado de la encuesta es un índice de satisfacción para cada suscriptor, igual a cero (0 - satisfecho) o uno (1 - no satisfecho). Es necesario identificar a los clientes insatisfechos con la mayor precisión posible.
La métrica que evalúa sus decisiones es ROC AUC. La predicción debe hacerse para 5221 suscriptores en el mismo orden que en el archivo
subs_csi_test.csv . Los datos se pueden descargar desde el sitio web de la plataforma. Los resultados preliminares serán generados por las respuestas para 2088 suscriptores, y los resultados finales por las respuestas para 3133 suscriptores (40/60). El número máximo de descargas de soluciones por día es 5, y el número de soluciones seleccionadas es 2.
Graal
El desafío despertó la curiosidad de la comunidad. Los participantes eligen diferentes soluciones. Algunos generan modelos N, los ven, fluyen hacia abajo y hacia abajo, y ... listo, ya está. Otros generan características, estudian la disciplina "Sistemas y tecnologías de la información" a través de conferencias publicadas en el
repositorio , y todo parece estar bien también. Y algunos confían en al azar con buena semilla.
Para que la tabla de clasificación se vuelva más bella al final del concurso, queremos compartir contigo algunos Griales en la tarea.
Grial número 0.

Presta atención al
chat y al repositorio de
Github con conferencias. Hay mucha información útil. Muchos de nosotros tenemos poca idea de cómo funciona la red. ¡El que busca siempre encontrará! Se agregó una breve presentación al repositorio con una descripción del funcionamiento de la BS y un archivo con la distribución de características por servicios.


En una conversación, los participantes torturan a los organizadores. Tratando de contenerse, pero con fuerza.

Grial número 1
En los datos propuestos, el campo
cell_lac_id indica una celda. Cada celda pertenece a una sola generación de comunicación: 2G, 3G, 4G (LTE). Recomendamos tratar de determinar para cada célula a qué generación pertenece.
Grial №2
Cada teléfono tiene la máxima tecnología de transferencia de datos que admite: 2G, 3G, 4G. La información sobre esto está contenida en el campo INTERNET_TYPE_ID de la tabla
subs_features . El campo está codificado. Considere cómo puede determinar cuál de los valores en este campo corresponde a qué tecnología.
Grial número 3
Tenga en cuenta: si algún cliente tiene un teléfono con soporte 4G, pero a partir del historial vemos que a menudo descarga tráfico a través de células 3G o incluso 2G, ¿cómo puede este hecho afectar su percepción de la calidad de la comunicación?
Grial №4
Los clientes tienen panales en los que visitan a menudo y con regularidad (hogar, trabajo, carretera, tienda, etc.), y panales en los que rara vez son pocos. ¿Qué opinas, la calidad de qué células pueden ser más importantes para el cliente? ¿Cómo puedes identificar células importantes?
Grial №5
La tabla
subs_bs_consumo para el tráfico de Internet contiene información tanto sobre la cantidad de datos transferidos (SUM_DATA_MB) como sobre el tiempo dedicado a ella (SUM_DATA_MIN). ¿Qué información sobre la experiencia del cliente en la celda se puede extraer de estos datos?
Grial №6
En las tablas
bs_avg_kpi y
bs_chnn_kpi hay información sobre una gran cantidad de características de celdas tanto en promedio por día como en la hora punta (CNN), además, con un historial de varios meses. Intente seleccionar grupos de celdas que sean similares entre sí en términos de estas características. ¿Quizás hay células que son muy diferentes de la masa total? ¿Qué les sucede a los clientes que visitan estas celdas con frecuencia?
En este Grial de los organizadores terminó. Estamos seguros de que lo ayudarán a lograr una mejor conversación privada. No funciona: cargar al azar, nunca se sabe, volará sobre una camiseta. Todo lo más interesante por delante. Al final del campeonato, la tabla de clasificación se quemará :) ¡Recuerda los cinco primeros!

Horario
El campeonato expira el 16 de diciembre y el 22 de diciembre se otorga en la oficina de MegaFon.
Presenta
1er lugar: 400,000 rublos;
2do lugar: 200,000 rublos;
3er lugar: 100,000 rublos.
Tradicionalmente, los 200 mejores recibirán camisetas con los símbolos del campeonato.
Además, hay nominaciones especiales:
- Para los más "vkhuh" en privado: SSD Kingston 120 Gb.
- Cada participante que tome un múltiplo de 50 recibirá una camiseta con una pegatina del paquete de la comunidad.
Comunidad
Únete a nuestra comunidad en Telegram. Siempre puede hacer preguntas, obtener asesoramiento experto en el campo de la ciencia de datos. La Comunidad del Campeonato del Grupo Mail.Ru es una red en la que es fácil encontrar personas de ideas afines.
Enlaces utiles
- ML Boot Camp I ( Boot Camp de aprendizaje automático: cómo fue ... )
- ML Boot Camp II ( ML Boot Camp 2016. Nuevo en el Top 10 , "Evaluación del rendimiento". Muy simple ... )
- ML Boot Camp III. Datos binarios ( como lo hicimos ML Boot Camp III , Ganador del concurso ML Boot Camp I ... , ML Boot Camp III: predicción de dejar la mitad ... )
- ML Boot Camp IV. Tarea secreta ( ML Boot Camp IV. Cuarto. Secreto. T ... , ML Boot Camp IV. De 1 en público a 35 en ... , procesos de estabilización y Dirichlet en solución ... )
- ML Boot Camp V. Predicción de CVDs ( AgeHack - el primer hackathon en línea para extendido ... , ML Boot Camp V, historial de decisiones de 3 meses ... , Meetup basado en los resultados del campeonato ML Boot Camp )
- ML Boot Camp VI. Predicción de la respuesta de la audiencia a la encuesta en línea ( ML Boot Camp VI. Previsión de la respuesta de la audiencia ... , Historia del primer lugar en ML Boot Camp VI ).