Compétition Grail Telecom Data Cup. Le plus chaud à venir



Début novembre, le championnat Machine Learning and Data Analysis, baptisé Telecom Data Cup , a été lancé, organisé par Mail.Ru Group et MegaFon.

Le concours est lancé sur la déjà célÚbre plateforme ML Boot Camp . Nous essayons de mener la plupart de ses concours d'analyse de données à ce sujet. Ce concours est le deuxiÚme d'affilée cette année et le septiÚme pour toute l'existence du projet. Les championnats précédents sont ouverts en mode bac à sable, ce qui vous permet de vous entraßner à résoudre les tùches passées à tout moment de la journée ou de la nuit.

Plus de 2500 utilisateurs inscrits au concours actuel, 1700 personnes ont tĂ©lĂ©chargĂ© l'ensemble de donnĂ©es, 7800 solutions diffĂ©rentes ont Ă©tĂ© tĂ©lĂ©chargĂ©es et la communautĂ© de chat a franchi la barre des 1600 participants. La compĂ©tition se terminera le 16 dĂ©cembre, il est donc temps de rejoindre le club de combat, si vous n'y ĂȘtes pas dĂ©jĂ . Nous accueillons et aidons tout le monde. Du cafĂ© ou quelque chose de vous-mĂȘme et revigorant pour vous aider :)



Dans le pied de page de l'article, vous trouverez des liens et des documents utiles sur ce concours et les précédents. L'essentiel est qu'en ce moment, vous plongerez dans le monde de la tùche Telecom Data Cup, ce qui vous permettra de vous impliquer rapidement dans le processus et de profiter d'une vraie recherche.

En bref sur la tĂąche


Ceux qui sont déjà au courant de ce qui se passe dans le championnat peuvent passer à la section suivante.

Nous sommes tous fatigués des sondages obsessionnels par téléphone et Internet des «spécialistes du marketing». Imaginez comment ils vous appellent et vous demandent si vous regardez la télévision maintenant, quelle chaßne, combien d'appareils sont actuellement allumés et quel genre d'émissions de télévision se déroulent. Dieu, je veux vraiment laisser tomber le téléphone (nous le faisons souvent). Les utilisateurs sont indignés, trÚs réticents à partager des commentaires, ce qui affecte négativement la qualité des services fournis. Le problÚme a besoin d'une solution.

Dans ce concours, vous devez vous plonger dans le monde des tĂ©lĂ©communications, afin que, sur la base de donnĂ©es utilisateur anonymisĂ©es fournies par l'opĂ©rateur de tĂ©lĂ©communications MegaFon et obtenues lors d'enquĂȘtes auprĂšs de vrais clients en direct, pour prĂ©dire si les abonnĂ©s sont satisfaits de la qualitĂ© de la communication.

9443 abonnĂ©s ont Ă©tĂ© interrogĂ©s. Le rĂ©sultat de l'enquĂȘte est un indice de satisfaction pour chaque abonnĂ©, Ă©gal Ă  zĂ©ro (0 - satisfait) ou un (1 - non satisfait). Il est nĂ©cessaire d'identifier les clients mĂ©contents avec la plus grande prĂ©cision possible.

La mĂ©trique qui Ă©value vos dĂ©cisions est ROC AUC. La prĂ©diction doit ĂȘtre effectuĂ©e pour 5221 abonnĂ©s dans le mĂȘme ordre que dans le fichier subs_csi_test.csv . Les donnĂ©es peuvent ĂȘtre tĂ©lĂ©chargĂ©es Ă  partir du site Web de la plateforme. Les rĂ©sultats prĂ©liminaires seront gĂ©nĂ©rĂ©s par les rĂ©ponses pour 2088 abonnĂ©s, et les rĂ©sultats finaux par les rĂ©ponses pour 3133 abonnĂ©s (40/60). Le nombre maximal de tĂ©lĂ©chargements de solutions par jour est de 5 et le nombre de solutions sĂ©lectionnĂ©es est de 2.

Graal




Le défi a éveillé la curiosité de la communauté. Les participants choisissent différentes solutions. Certains génÚrent N modÚles, les voient, coulent et descendent, et ... le tour est joué. D'autres génÚrent des fonctionnalités, étudient la discipline "SystÚmes et technologies de l'information" à travers des conférences postées dans le référentiel , et tout semble bien se passer aussi. Et certains comptent sur le hasard avec de bonnes graines.

Afin que le classement devienne plus beau Ă  la fin du concours, nous voulons partager avec vous quelques Graals sur la tĂąche.

Numéro du Graal 0.




Faites attention au chat et au référentiel Github avec des conférences. Il y a beaucoup d'informations utiles. Beaucoup d'entre nous ont peu d'idée du fonctionnement du réseau. Celui qui cherche trouvera toujours! Une brÚve présentation a été ajoutée au référentiel avec une description du fonctionnement de la BS et un fichier avec la répartition des fonctionnalités par services.





Lors d'un chat, les participants torturent les organisateurs. Essayer de se retenir, mais dur.



Graal numéro 1


Dans les données proposées, le champ cell_lac_id indique une cellule. Chaque cellule appartient à une seule génération de communication: 2G, 3G, 4G (LTE). Nous vous recommandons d'essayer de déterminer pour chaque cellule à quelle génération elle appartient.

Graal №2


Chaque téléphone possÚde la technologie de transfert de données maximale qu'il prend en charge: 2G, 3G, 4G. Des informations à ce sujet sont contenues dans le champ INTERNET_TYPE_ID de la table subs_features . Le champ est codé. Réfléchissez à la façon dont vous pouvez déterminer laquelle des valeurs de ce champ correspond à quelle technologie.

Graal numéro 3


Remarque: si un client possĂšde un tĂ©lĂ©phone avec prise en charge 4G, mais d'aprĂšs l'historique, nous constatons qu'il tĂ©lĂ©charge souvent du trafic via des cellules 3G ou mĂȘme 2G, comment cela peut-il affecter sa perception de la qualitĂ© de la communication?

Graal №4


Les clients ont des nids d'abeilles sur lesquels ils visitent souvent et rĂ©guliĂšrement (maison, travail, route, magasin, etc.), et des nids d'abeilles sur lesquels ils sont rarement et peu nombreux. Que pensez-vous de la qualitĂ© des cellules qui peuvent ĂȘtre plus importantes pour le client? Comment identifier les cellules importantes?

Graal №5


La table subs_bs_consumption pour le trafic Internet contient des informations Ă  la fois sur la quantitĂ© de donnĂ©es transfĂ©rĂ©es (SUM_DATA_MB) et le temps consacrĂ© Ă  cela (SUM_DATA_MIN). Quelles informations sur l'expĂ©rience client sur la cellule peuvent ĂȘtre extraites de ces donnĂ©es?

Graal №6


Dans les tableaux bs_avg_kpi et bs_chnn_kpi, il y a des informations sur un grand nombre de caractĂ©ristiques de cellule Ă  la fois en moyenne par jour et Ă  l'heure chargĂ©e (CNN), avec en plus une histoire de plusieurs mois. Essayez de sĂ©lectionner des groupes de cellules qui sont similaires les uns aux autres en termes de ces caractĂ©ristiques. Peut-ĂȘtre y a-t-il des cellules trĂšs diffĂ©rentes de la masse totale? Qu'arrive-t-il aux clients qui visitent souvent ces cellules?

Sur ce Graal des organisateurs terminĂ©. Nous sommes sĂ»rs qu'ils vous aideront Ă  obtenir une meilleure conversation privĂ©e. Cela ne fonctionne pas - charger au hasard, on ne sait jamais, volera sur un T-shirt. Tous les plus intĂ©ressants Ă  venir. À la fin du championnat, le classement brĂ»lera :) Rappelez-vous les cinq premiers!



Horaire


Le championnat expire le 16 décembre et le 22 décembre, il est décerné au bureau MegaFon.

Présente


1Ăšre place: 400 000 roubles;
2e place: 200 000 roubles;
3e place: 100 000 roubles.

Traditionnellement, les 200 premiers recevront des T-shirts avec les symboles du championnat.
De plus, il y a des nominations spéciales:

  • Pour le plus «vkhuh» sur le privĂ© - SSD Kingston 120 Go.
  • Chaque participant qui en prend un multiple de 50 recevra un T-shirt avec un autocollant du pack communautaire.



Communauté


Rejoignez notre communautĂ© sur Telegram. Vous pouvez toujours poser des questions, obtenir des conseils d'experts dans le domaine de la science des donnĂ©es. La communautĂ© de championnat de groupe Mail.Ru est un rĂ©seau oĂč il est facile de trouver des personnes partageant les mĂȘmes idĂ©es.

Liens utiles


  1. ML Boot Camp I ( Machine Learning Boot Camp - comment c'Ă©tait ... )
  2. ML Boot Camp II ( ML Boot Camp 2016. Nouveau dans le Top 10 , «Évaluation des performances». TrĂšs simple ... )
  3. ML Boot Camp III. Données binaires ( Comme nous l'avons fait ML Boot Camp III , Gagnant du concours ML Boot Camp I ... , ML Boot Camp III: prédiction de quitter la moitié ... )
  4. ML Boot Camp IV. TĂąche secrĂšte ( ML Boot Camp IV. QuatriĂšme. Secret. T ... , ML Boot Camp IV. De 1 en public Ă  35 en ... , Processus de stabilisation et de Dirichlet en solution ... )
  5. ML Boot Camp V.Prédiction de CVD ( AgeHack - le premier hackathon en ligne pour prolongé ... , ML Boot Camp V, historique des décisions sur 3 mois ... , Meetup basé sur les résultats du championnat ML Boot Camp )
  6. ML Boot Camp VI. PrĂ©diction de la rĂ©ponse du public Ă  l'enquĂȘte en ligne ( ML Boot Camp VI. PrĂ©vision de la rĂ©ponse du public ... , Historique de la premiĂšre place sur ML Boot Camp VI ).

Source: https://habr.com/ru/post/fr432046/


All Articles