Neues Meisterschafts-ML-Bootcamp VI. Vorhersage der Publikumsreaktion auf Online-Umfragen



Heute, am 25. Juni, beginnt ML Boot Camp VI mit der Aufgabe, die Reaktion des Publikums auf eine Online-Umfrage vorherzusagen (wenn Sie plötzlich zum ersten Mal hören, was ML Boot Camp ist, gehen Sie unter den Spoiler).

Spoiler
ML Boot Camp ist eine Meisterschaft für maschinelles Lernen. Arbeitsschema: Wir geben die Aufgabe und die Teilnehmer lösen sie innerhalb eines Monats und senden Lösungen. Autoren der besten Lösungen erhalten Preise. Das letzte Mal gaben wir dem MacBook Pro den ersten Platz, dem NVIDIA 1080ti - dem zweiten, dem NVIDIA 1060 - dem dritten und dem WD My Cloud 6 TB 4-6 Plätze. Traditionell haben wir T-Shirts mit den Symbolen der Meisterschaft an die 50 besten Teilnehmer geschickt.

Mit jedem neuen Wettbewerb wächst das Publikum des ML Boot Camp erheblich (derzeit sind bereits 7.000 Teilnehmer aus mehr als 20 Ländern registriert).

Zu Beginn erhalten die Teilnehmer die Bedingungen der Aufgabe und eine mündliche Beschreibung der verfügbaren Daten - ein Trainingsmuster. Die Stichprobe besteht aus beschrifteten Beispielen - Beschreibungsvektoren jedes Objekts mit einer bekannten Antwort. Die Teilnehmer trainieren mit den ihnen bekannten Methoden des maschinellen Lernens den Computer und testen das trainierte System an einem Testmuster, das in zwei Teile unterteilt ist: Bewertung und Abschluss. Der Gewinner ist derjenige, der die besten Ergebnisse mit den endgültigen Daten erzielt.

Am letzten Tag der Meisterschaft kann der Teilnehmer zwei Entscheidungen treffen, die ihn im Finale vertreten. Die besten von ihnen zählen zur Bestenliste.

Die Regeln und nützlichen Materialien finden Sie auf der Website der Meisterschaft .

Dieses Mal bieten wir Ihnen an, in den dunklen Abgrund des Marketings einzutauchen: Im Rahmen des nächsten ML Boot Camp-Wettbewerbs können Sie das Nutzerverhalten in einer der groß angelegten Marketingstudien vorhersagen.

Wir bieten eine Aufgabe des entsprechenden Niveaus an, während wir versuchen, sie sowohl für Profis als auch für Anfänger interessant zu machen. In dieser Meisterschaft finden Sie echte Forschungsarbeit.

Das Format des Wettbewerbs hat sich nicht geändert: Die Meisterschaft dauert einen Monat vom 25. Juni bis 25. Juli 2018. Lesen Sie unten mehr über Preise und die Aufgabe.

Aufgabe "Prognose der Publikumsreaktion auf eine Online-Umfrage"


Es gibt Ergebnisse einer Online-Umfrage. Es ist bekannt, dass ein Teil des Publikums die Umfrage vollständig und korrekt bestanden hat. Der andere Teil hat die Umfrage teilweise fehlerhaft abgeschlossen oder die Teilnahme vollständig abgelehnt. Es ist mit größtmöglicher Genauigkeit vorherzusagen, welcher der Befragten zur ersten Gruppe gehört, dh die Studie vollständig und fehlerfrei bestanden hat.

Die Hauptdatendatei enthält 19 528 597 Zeilen (10 GB) und besteht aus 6 Spalten:

1 . cuid ist eine Kennung. Eine Datei kann mehrere Einträge für einen Bezeichner enthalten.
2 . cat_feature ist eine kategoriale Variable. Wertebereich: {0,1,2,3,4,5};
3-5 . Zähler, die aufgrund menschlichen Verhaltens im Internet gesammelt wurden. Format: {w_1: c_1, w_2: c_2, ...}, wobei w_i das codierte Token und c_i die Häufigkeit dieses Tokens ist;
6 . dt_diff - Die Anzahl der Tage vor dem Datum, an dem der Wert der Zielvariablen empfangen wurde.



Ein kleines Datenelement als Beispiel:

00000d2994b6df9239901389031acaac 5 {"809001":2,"848545":2,"565828":1,"490363":1} {"85789":1,"238490":1,"32285":1,"103987":1,"16507":2,"6477":1,"92797":2} {} 39

Für 181.000 Benutzer müssen Vorhersagen getroffen werden. Der Datensatz zum Trainieren des Modells enthält eine Tabelle mit Bezeichnern und Werten der Zielvariablen (427 995 Datensätze).

Die Aufgabenmetrik ist die ROC-AUC. Dies bedeutet, dass die Antwort eine Bewertung der Klassenzugehörigkeit im Bereich [0; 1] für jede cuid. Diese Metrik bewertet tatsächlich die Richtigkeit der Reihenfolge von Objekten relativ zu einer der Klassen durch den Klassifizierer. In diesem Fall interessiert uns weder die spezifische Klassenbezeichnung, die der Algorithmus ausgibt, noch die spezifische Wahrscheinlichkeit für jedes Objekt. Wir sind an der Richtigkeit der Bestellung selbst interessiert.

Natürlich kann es vorkommen, dass sich im Kontext einer bestimmten Anwendung mit gleichem roc_auc eine Lösung als besser als eine andere herausstellt, aber wir haben beschlossen, die Aufgabe nicht zu komplizieren.

Preise


Die Verteilung von sechs Preisen sieht diesmal so aus:

Top1: Apple MacBook Pro 13
Top2: Apple MacBook Air 13
Top3: Western Digital My Cloud Mirror
Top4-5-6: Western Digital My Passport 4 TB

Wie immer erhalten die 50 besten Teilnehmer T-Shirts mit den Symbolen der Meisterschaft, und Teilnehmer mit den interessantesten Lösungen werden zu einem Interview bei der Mail.Ru Group als Data Scientists eingeladen.

Community MLBootCamp


Treten Sie unserer Community per Telegramm bei. Sie können jederzeit Fragen stellen und sich auf dem Gebiet der Datenwissenschaft kompetent beraten lassen. Darüber hinaus vernetzt sich die Mail.Ru Group-Meisterschaftsgemeinschaft, in der es leicht ist, Gleichgesinnte zu finden.

Registrierung


Die Meisterschaft beginnt heute um 19:00 Uhr Moskauer Zeit. Die Registrierung ist offen. Wir warten auf alle und viel Glück!

Source: https://habr.com/ru/post/de415191/


All Articles