Es besteht die Meinung, dass Sie nur ein Rechenzentrum mit einer angemessenen Hochschulausbildung oder vielmehr einem Abschluss werden können.
Die Welt verändert sich jedoch, Technologie wird nur für Sterbliche verfügbar. Vielleicht werde ich jemanden überraschen, aber heute ist jeder Business Analyst in der Lage, Technologien für maschinelles Lernen zu beherrschen und Ergebnisse zu erzielen, die mit professionellen Mathematikern und möglicherweise sogar den besten konkurrieren.
Um nicht unbegründet zu sein, erzähle ich Ihnen meine Geschichte - als Ökonom wurde ich Datenanalyst, nachdem ich das notwendige Wissen durch Online-Kurse erhalten und an Wettbewerben für maschinelles Lernen teilgenommen hatte.

Jetzt bin ich ein führender Analyst in der Big-Data-Gruppe bei QIWI, aber vor drei Jahren war ich ziemlich weit von Datenbanken entfernt und habe nur in den Nachrichten von künstlicher Intelligenz gehört. Aber dann hat sich alles geändert, zum großen Teil dank Coursera und Kaggle.
Also, das Wichtigste zuerst.
Über mich
Ich bin Wirtschaftswissenschaftler und habe einige Zeit als Unternehmensberater gearbeitet. Meine Spezialisierung ist die Entwicklung einer Budgetierungs- und Berichtsmethode für die nachfolgende Automatisierung. Wenn auf einfache Weise - hier geht es darum, den Prozess zuerst normal aufzubauen, damit später ein Ergebnis der Automatisierung entsteht.
Vor 3 Jahren, mit 42 Jahren, als ich das Gefühl hatte, dass ich nach dem Erfolg in der Beratung anfing, Bronze zu schreiben, begann ich über die Notwendigkeit von Veränderungen nachzudenken. Über die nächste Karriere. Ich hatte bereits Erfahrung damit, eine Karriere von Grund auf neu zu beginnen (mit 30 Jahren habe ich das ruhige Leben des Ökonomen in Beratung geändert), sodass mich die Änderungen nicht erschreckten.
Es fällt mir nicht sofort ein, aber wenn Sie darüber nachdenken, wird klar, dass trotz der Tatsache, dass ich bereits 20 Jahre gearbeitet habe, noch etwa 25 Jahre vor der Pensionierung liegen (es ist seit langem klar, dass wir uns auf die Pensionierung mit 70 oder sogar später konzentrieren müssen ) Im Allgemeinen ist die Straße länger als die bereits vorbeifahrende, und es wäre schön, mit einer tatsächlichen Spezialität zu fahren. Es hat sich also gelohnt zu lernen. Zu dieser Zeit war ich freiberuflich tätig und habe im Interesse der Zukunft die Anzahl der Projekte reduziert und konnte genügend Zeit für das Studium zur Verfügung stellen.
Während ich überlegte, wohin ich mich weiter bewegen sollte, entdeckte ich Coursera. Die westliche Herangehensweise an Bildung, bei der zunächst die Bedeutung, die allgemeine Idee und erst dann die Details erklärt wurden, erwies sich als nah an mir. Im Gegensatz zum brutalen sowjetischen Bildungssystem, das davon ausgeht, dass nur die Würdigen auftauchen werden, geben sie Menschen wie mir, die Lücken in der Grundbildung haben, eine Chance.
Ich habe mit Business Analytics-Kursen begonnen. Dies hat mir als Berater sehr geholfen. Dieselben Kurse haben mir geholfen, die Rolle von KI-Technologien für die Geschäftsentwicklung besser zu verstehen und vor allem meine Rolle darin zu sehen. Dies ist das gleiche wie bei anderen Technologien - es ist überhaupt nicht erforderlich, dass diejenigen, die neue Technologien entwickeln, die besten in ihrer Anwendung sind. Damit Technologie einem Unternehmen wirklich hilft, ist es wichtig, dieses Unternehmen zu verstehen. Fachwissen in Geschäftsprozessen ist nicht weniger wichtig als das Verständnis der Technologien des maschinellen Lernens, der Big-Data-Verarbeitung usw.
Und ich stürzte mich in Kurse über Daten, Statistik und Programmierung.
Mit Unterbrechungen habe ich im Laufe eines Jahres mehr als 30 Kurse bei Coursera gemeistert und mich in der Welt der Bigdates und des maschinellen Lernens nicht mehr wie ein Außerirdischer gefühlt.
Kaggle
Einige Kurse haben Kaggle als großartigen Ort zum Üben empfohlen. Wiederholen Sie meinen Fehler nicht - ich kam erst dorthin, als ich bereits das Gefühl hatte, genug Wissen angesammelt zu haben. Und es hat sich sechs Monate zuvor gelohnt, als das erste Verständnis dafür, was und wie erschien. Es wäre sechs Monate lang kühler. Schließlich ist dies nicht nur einer der Austragungsorte von Wettbewerben, sondern die derzeit beste Plattform, um maschinelles Lernen in der Praxis zu beherrschen, was sowohl für Anfänger als auch für Superguru nützlich ist. Und da wächst man, wie man so sagt, einen Tag in zwei - nur Kurse ohne Übung haben keine solche Wirkung.
Mein erster Wettbewerb war ein
Wettbewerb der Santander Bank, bei dem die Kundenzufriedenheit vorhergesagt wurde. Ich war ein Anfänger und wollte meinen Kenntnisstand in der Wirtschaft überprüfen. Ich kombinierte meine Erfahrung als Bankkunde, die Fähigkeiten zur Analyse von Geschäftsfällen und Technologien für maschinelles Lernen und machte ein ziemlich gutes Modell, mit dem ich auf einer öffentlichen Rangliste in die Top 50 aufstieg. Dies war viel höher als meine Erwartungen vom ersten Wettbewerb, da mehr als 5.000 Menschen daran teilgenommen haben.
Aber nicht alles war so einfach. Ich habe mir kein schönes Wochenende verdient. Anfänger haben ein so häufiges Problem wie die „Umschulung des Modells“, die ich in der Praxis kennengelernt habe. Die lokale Validierung war schlecht organisiert, ich war zu sehr auf die Öffentlichkeit konzentriert, und als Ergebnis flog ich im geschlossenen Teil des Tests mehr als 500 Positionen nach unten. Natürlich war ich verärgert, aber die Lektion ging in die Zukunft: Eine gute Validierung ist die Grundlage für maschinelles Lernen und muss ernsthaft angegangen werden. Jetzt ist diese Komponente eine der Stärken meiner Modelle.
Trotz des schwachen ersten Ergebnisses bestand die Zuversicht, dass es real ist, an die Spitze zu gelangen. Sie benötigen mehr Übung und zusätzliches Wissen.
Für diejenigen, die nicht wissen, wofür Cuggle gut ist, ist die Community bereit, Anfängern dabei zu helfen, Gags zu überwinden, Ideen zu diskutieren und Beispiele dafür zu teilen, wie es funktioniert. Gut und nicht weniger wichtig - am Ende des Wettbewerbs besteht die Möglichkeit, die Entscheidungen der Führungskräfte zu studieren. Wenn Sie aus den Erfahrungen anderer lernen, können Sie schnelle Fortschritte erzielen. Es ist nicht notwendig, alle Rechen selbst zu betreten.
Ich kann mich sofort an OpenDataSaines (ods.ai) erinnern, die russischsprachige Community von Datenwissenschaftlern. Die von ods organisierten maschinellen Lerntrainings sind eine weitere Möglichkeit, mehr über das Thema zu erfahren. Nun, als Plattform für die Kommunikation zu allen Themen hilft es auch sehr. Wenn Sie bei Datasines über Ihre Zukunft nachdenken und sich noch nicht bei ods registriert haben, ist dies ein schwerwiegender Fehler.
Da die Erwartungen an hohe Ergebnisse bei Cuggle häufig in Stellenangeboten für Datacientist-Positionen erwähnt wurden, sah ich eine Chance dafür - zusätzlich zum Sammeln von Erfahrung ist es möglich, einen leeren Lebenslauf mit mehr oder weniger relevanter Erfahrung auszufüllen. Ich fing an, Cuggle als einen Job zu behandeln, bei dem ein Karrierestart ein Bonus sein könnte.
Sobald Freizeit zur Verfügung stand, baute ich Modelle auf Cuggle und mit jedem Wettbewerb wurde das Ergebnis besser.
Ich hatte etwas, das die meisten Teilnehmer nicht hatten - die Fähigkeit, Geschäftsfälle zu analysieren, und meine Erfahrung in der Beratung haben mir beim Erstellen von Modellen sehr geholfen. Sechs Monate später belegte ich beim nächsten Wettbewerb der Santander Bank den 7. Platz und holte meine erste Goldmedaille.
Wenn Sie beharrlich nach einem bestimmten Ziel streben, werden Sie es erreichen - im Juni 2017, ein Jahr später, mit einigen meiner Kämpfe bei Cuggle, haben wir zusammen mit dem lettischen Entwickler Agnis Lukis einen Wettbewerb der Sberbank für die Vorhersage der Wohnungspreise in Moskau gewonnen.

Unsere Stärken waren das Verständnis des Falls (dies ist eine komplexe Aufgabe, deren Lösung nicht wie die Mehrheit in der Stirn hätte angegangen werden dürfen) und eine starke lokale Validierung. Wir haben den Wettbewerb in der Öffentlichkeit als Zweiter beendet, aber unser Modell litt nicht unter Umschulungen und sackte bei geschlossenen Daten nicht stark ab - im Finale waren wir die Ersten mit einem großen Vorsprung.
Dieser Sieg warf mich in die Top 50 des globalen Kaggle-Rankings, was zu Stellenangeboten führte. Nachdem ich die Optionen studiert hatte, wählte ich die Bank als einen Ort, an dem es viele Aufgaben gibt, bei denen man Fähigkeiten pumpen und bei der Entwicklung von Modellen die ganze Wahrheit des Lebens spüren kann - dennoch sind die Bedingungen bei Wettbewerben eher ein Treibhaus.
Meine Karrierepläne waren ehrgeizig und die Option „mehrere Jahre nicht zur Arbeit zu eilen, um auf die nächste Stufe zu gelangen“ wurde nicht in Betracht gezogen. Es war notwendig, sich bei der Arbeit zu vertiefen und in der zweiten Schicht Cuggle nicht zu vergessen. Es ist nicht einfach, aber für wen ist es jetzt einfach? Und dies führte zu Ergebnissen - weitere 3 Goldmedaillen und ich haben Großmeister-Schulterklappen bei Cuggle verdient und mich in der globalen Spitze (jetzt die 23.) festgesetzt.
Wie eine Kirsche auf einem Kuchen - der 3. Preis bei Bankwettbewerben, das habe ich im letzten Jahr professionell gemacht. Und anscheinend ging es ihm gut.
Leider ist die Wahrheit des Lebens in der Bank auch ein sehr konservativer und schneller Entscheidungsprozess. Die Einführung meiner Modelle ging langsam voran. Es gab keinen Plan, die Arbeit der gesamten Bank wieder aufzubauen, daher war es einfacher, wenn auch mit Bedauern, den Arbeitsplatz zu wechseln.
Dies stellte sich als überhaupt nicht schwierig heraus - dank der Ergebnisse bei Cuggle nahm die Suche nicht viel Zeit in Anspruch, und seit einigen Monaten grabe ich Milliarden von Tabellen in QIWI. Wir haben eine
Reihe interessanter Aufgaben , ich bin sicher, dass wir bald in der Lage sein werden, unsere Daten in Gewinn für das Unternehmen umzuwandeln - der Hintergrund des Ökonomen hilft dabei sehr. Caggloop landete hier in mehreren Fällen auch an der Abendkasse.
Und jetzt darüber, wie man in Wettbewerben erfolgreich ist
Der wichtigste Teil ist, das Problem zu verstehen und alle Treiber zu finden, die das Ergebnis beeinflussen können. Je besser Sie den Fall verstehen, desto größer sind die Chancen, ihn cool zu machen. Jeder kann Hunderte oder sogar Tausende von Statistikfunktionen generieren, aber er kann diejenigen entwickeln, die speziell auf diese Aufgabe zugeschnitten sind, und das Ziel, das viel komplizierter ist, gut erklären. Investieren Sie darin und finden Sie sich schnell an der Spitze wieder. Es lohnt sich, relevante Erfahrungen (Geschäft, Haushalt usw.) anzuwenden - es hilft sehr.
Dann - lokale Validierung. Ihr Hauptfeind ist die Umschulung, insbesondere wenn Sie eine so leistungsstarke Technologie wie die Erhöhung des Gradienten verwenden. Ich weiß, wie psychologisch schwierig es ist, sich nicht mehr auf die öffentliche Rangliste zu konzentrieren, aber wenn Sie keine Enttäuschungen wünschen, ist die richtige Antwort, eine Kreuzvalidierung zu verwenden und die verspätete Auswahl mit "Nein" zu beantworten. Natürlich gibt es Ausnahmen, aber selbst bei Problemen mit Zeitreihen können Sie eine Kreuzvalidierung durchführen, was die Zuverlässigkeit des Modells erheblich erhöht. Das lokale Validierungsschema wird nicht immer einfach sein, aber es lohnt sich, Zeit damit zu verbringen - sowohl bei Wettbewerben als auch im wirklichen Leben. Die Belohnung werden stabile Modelle sein.
Natürlich müssen Sie die grundlegenden Werkzeuge gut studieren. Wenn Sie die Prinzipien verschiedener Technologien kennen, können Sie das beste Werkzeug zur Lösung eines bestimmten Problems angemessen auswählen. Bei tabellarischen Daten ist die Gradientenverstärkung jetzt führend, insbesondere Lightgbm. Es ist jedoch wichtig, andere Methoden anwenden zu können, von der Protokollierung bis hin zu neuronalen Netzen - im Leben und bei Wettbewerben sind sie nicht überflüssig.
Übrigens ist der beste Weg zu verstehen, welche Technologien jetzt fahren, wenn sich alles schnell ändert, zu sehen, welche Bibliotheken die Wettbewerbsführer verwenden. In den letzten Jahren sind durch Cuggle viele lohnende Technologien in die Welt gekommen.
Hyperparameter Es ist wichtig, die wichtigsten Hyperparameter der verwendeten Tools zu kennen. Normalerweise müssen nicht viele Parameter geändert werden. Meiner Meinung nach sollten Sie nicht viel Zeit mit der Auswahl von Hyperparametern verbringen. Natürlich ist es notwendig, gute Hyperparameter zu finden, aber Sie sollten nicht in Zyklen darin gehen.
Wenn das Modell skizziert wird, wähle ich normalerweise einen mehr oder weniger stabilen Parametersatz aus und kehre erst kurz vor dem Ende zu ihrer Abstimmung zurück, wenn andere Ideen ausgegangen sind. Der gesunde Menschenverstand legt nahe, dass die Zeit, die für das Erstellen und Testen neuer Variablen, Bibliotheken und nicht standardmäßiger Ideen aufgewendet wird, zu einer viel größeren Modellsteigerung führen kann als die Verbesserung von einem guten Satz von Hyperparametern zu einem idealen.
Wenn Sie sich auf Kaggle als eine Funktion verlassen, die Ihren Lebenslauf aufpeppt - betrachten Sie dies als einen Job, Sie werden es nicht bereuen. Es hat mir geholfen, es wird dir helfen.
Na und wieder über die Konkurrenz. Sie ist hier sehr hoch, daher ist es sehr, sehr schwierig, alleine zu gewinnen. Teamwork ist sehr nützlich, die Synergie der Ideen ermöglicht es Ihnen, über Ihren Kopf zu springen. Fühlen Sie sich frei, es zu benutzen.
Insgesamt
Nun, ein bisschen Motivation am Ende. Zunächst habe ich mir selbst bewiesen, dass ich mit 44 Jahren ein Rechenzentrum werden kann. Das Rezept erwies sich als überraschend einfach - Online-Bildung, geschäftsorientiertes Denken, Leistung und Entschlossenheit.

Jetzt ermutige ich meine Freunde in jeder Hinsicht, den gleichen Weg zu gehen. Die neue digitale Wirtschaft braucht (und wird) erstklassige Fachkräfte. Coursera + Kaggle ist einfach ein guter Anfang.
Es war einmal, Excel war ein neues und unverständliches Werkzeug (ich erinnere mich sogar, wie schwierig die ersten Kämpfe mit dem traditionellen Taschenrechner waren). Und jetzt hat schließlich niemand Zweifel daran, dass ein Spezialist, der sich mit seinem Geschäft auskennt, viel mehr echte Vorteile aus Excel ziehen kann als die Excel-Entwickler selbst.
Ein wenig Zeit wird vergehen, und der Besitz von Werkzeugen für maschinelles Lernen wird ebenso obligatorisch wie der Besitz von Excel. Warum also nicht im Voraus darauf vorbereiten und jetzt den Wettbewerb auf dem Arbeitsmarkt gewinnen?
Darüber hinaus lohnt sich der Wettbewerb nicht. Je mehr Leute von der Geschäftsseite zu Datenbanken kommen, desto mehr Geld. Die Einführung neuer Technologien in traditionellen Wirtschaftssektoren kann ein Unternehmen beschleunigen, und dafür sollte ein Unternehmen beginnen, die Chancen zu verstehen, die neue Technologien heute eröffnen. Tatsächlich kann jeder Business Analyst, der mehrere Kurse gemeistert hat, an der Spitze des Fortschritts stehen und seinem Unternehmen helfen, konservative Konkurrenten zu überholen.
Ich hoffe, meine Erfahrung wird jemandem helfen, eine wichtige Entscheidung zu treffen.
Wenn Sie Fragen zu Kaggle haben, schreiben Sie, ich werde diese gerne in den Kommentaren beantworten.