Il y a une opinion que vous ne pouvez devenir un centre de données qu'avec un enseignement supérieur approprié, ou plutôt un diplôme.
Cependant, le monde change, la technologie devient accessible aux simples mortels. Je vais peut-être surprendre quelqu'un, mais aujourd'hui, tout analyste d'entreprise est capable de maîtriser les technologies d'apprentissage automatique et d'obtenir des résultats qui rivalisent avec les mathématiciens professionnels, et peut-être même les meilleurs.
Afin de ne pas être sans fondement, je vais vous raconter mon histoire - en tant qu'économiste, je suis devenu analyste de données, après avoir reçu les connaissances nécessaires grâce à des cours en ligne et participé à des concours de machine learning.

Maintenant, je suis un analyste de premier plan dans le groupe Big Data de QIWI, mais il y a trois ans, j'étais assez loin des bases de données et je n'ai entendu parler de l'intelligence artificielle que par les nouvelles. Mais tout a changé, grâce en grande partie à Coursera et Kaggle.
Alors, tout d'abord.
À propos de moi
Je suis économiste, j'ai travaillé comme consultant en affaires pendant un certain temps. Ma spécialisation est le développement d'une méthodologie de budgétisation et de reporting pour l'automatisation ultérieure. Si d'une manière simple - il s'agit d'abord de construire le processus normalement, de sorte que plus tard, il y aura un résultat de l'automatisation.
Il y a 3 ans, à 42 ans, quand j'ai senti que grâce au succès dans le conseil, je commençais à bronzer et j'ai commencé à penser au besoin de changement. À propos de la prochaine carrière. Je savais déjà comment démarrer une carrière à partir de zéro (à 30 ans, j'ai changé la vie tranquille de l'économiste en consultant), donc les changements ne m'ont pas effrayé.
Cela ne me vient pas tout de suite à l'esprit, mais quand on y pense, il devient évident que malgré le fait que je travaille déjà depuis 20 ans, il y a encore environ 25 ans avant la retraite (il est depuis longtemps entendu que nous devons nous concentrer sur la retraite à 70 ans ou plus tard ) En général, le chemin à parcourir est plus long que celui qui a déjà passé, et il serait bien de choisir une véritable spécialité. Donc, ça valait la peine d'apprendre. A cette époque, je travaillais en freelance, et pour l'avenir, j'ai réduit le nombre de projets et j'ai pu allouer suffisamment de temps pour étudier.
Pendant que je réfléchissais où aller plus loin, j'ai découvert Coursera. L'approche occidentale de l'éducation, quand ils expliquent d'abord le sens, l'idée générale et ensuite seulement les détails, s'est avérée proche de moi. Contrairement au système d'éducation soviétique brutal, qui suppose que seuls les dignes viendront, ils donnent une chance à des gens comme moi, qui ont des lacunes dans l'éducation de base.
J'ai commencé avec des cours d'analyse commerciale. Cela m'a été extrêmement utile en tant que consultant. Les mêmes cours m'ont aidé à mieux comprendre le rôle des technologies de l'IA pour le développement des affaires et, surtout, à voir mon rôle dans ce domaine. C'est la même chose qu'avec d'autres technologies - il n'est pas du tout nécessaire que ceux qui développent de nouvelles technologies soient les meilleurs dans leur application. Pour que la technologie aide vraiment une entreprise, il est important de comprendre cette entreprise. L'expertise dans les processus métier n'est pas moins importante que la compréhension des technologies de l'apprentissage automatique, du traitement des mégadonnées, etc.
Et j'ai plongé dans des cours sur les bases de données, les statistiques, la programmation.
Avec des interruptions, au cours d'une année, j'ai maîtrisé plus de 30 cours à Coursera et ne me sentais plus comme un étranger dans le monde des grands rendez-vous et de l'apprentissage automatique.
Kaggle
Certains cours ont recommandé Kaggle comme un excellent endroit pour pratiquer. Ne répétez pas mon erreur - je n'y suis venu que lorsque j'ai déjà senti que j'avais accumulé suffisamment de connaissances. Et cela en valait la peine six mois plus tôt, lorsque la première compréhension de quoi et comment est apparue. Ce serait plus frais pendant six mois. Après tout, ce n'est pas seulement l'un des lieux de compétition, c'est la meilleure plate-forme (actuellement) pour maîtriser l'apprentissage automatique dans la pratique, ce qui est utile pour les débutants et les super-gourous. Et là, vous grandissez, comme on dit, une journée sur deux - seuls les cours sans pratique n'auront pas un tel effet.
Mon premier concours était un
concours de la Banque Santander - prédisant la satisfaction des clients. J'étais débutant et je voulais vérifier le niveau de mes connaissances en affaires. J'ai combiné mon expérience en tant que client de banque, les compétences d'analyse de cas commerciaux et de technologies d'apprentissage automatique et j'ai fait un assez bon modèle avec lequel je suis monté dans le top 50 sur un leaderbord public. C'était beaucoup plus que mes attentes lors du premier concours, étant donné que plus de 5 000 personnes y ont participé.
Mais tout n'était pas si simple. Je n'ai pas gagné un bon week-end. Il y a un problème commun chez les débutants comme la «reconversion du modèle», que j'ai rencontrée dans la pratique. La validation locale était mal organisée, j'étais trop concentré sur le public, et en conséquence - sur la partie fermée du test, j'ai décroché plus de 500 positions. Bien sûr, j'étais bouleversé, mais la leçon est allée pour l'avenir: une bonne validation est la base de l'apprentissage automatique et doit être abordée sérieusement. Maintenant, ce composant est l'une des forces de mes modèles.
Malgré le premier résultat faible, il était certain que monter en haut est réel, vous avez besoin de plus de pratique et de connaissances supplémentaires.
Pour ceux qui ne savent pas à quoi Cuggle est bon, la communauté est prête à aider les débutants à surmonter certains types de gags, à discuter d'idées, à partager des exemples de "comment cela fonctionne". Eh bien et non moins important - à la fin de la compétition, il est possible d'étudier les décisions des dirigeants. En apprenant de l'expérience de quelqu'un d'autre, vous pouvez progresser rapidement. Il n'est pas nécessaire de monter vous-même sur tous les râteaux.
Immédiatement, je ne peux pas m'empêcher de rappeler OpenDataSaines (ods.ai), la communauté russophone des datacientists. Les formations d'apprentissage automatique organisées par ods sont une autre façon d'en apprendre davantage sur le sujet. Eh bien, en tant que plate-forme de communication sur tous les problèmes, cela aide également beaucoup. Si vous songez à votre avenir dans les bases de données et que vous ne vous êtes pas encore inscrit avec ods, c'est une grave erreur.
Étant donné que les attentes concernant les résultats élevés chez Cuggle étaient souvent mentionnées dans les postes vacants pour les postes de centre de données, j'ai vu une chance pour cela - outre le fait que j'acquière de l'expérience, il y a la possibilité de remplir un CV vide avec une expérience plus ou moins pertinente. J'ai commencé à traiter Cuggle comme un travail où un début de carrière pourrait être un bonus.
Dès que le temps libre est apparu, j'ai construit des modèles sur Cuggle, et à chaque compétition, le résultat s'est amélioré.
J'avais quelque chose que la plupart des participants n'avaient pas - la capacité d'analyser les analyses de rentabilisation et mon expérience en conseil, cela m'a beaucoup aidé lors de la construction de modèles. Six mois plus tard, j'ai pris la 7e place au concours suivant de la Banque Santander et j'ai remporté ma première médaille d'or.
Si vous vous efforcez constamment d'atteindre un objectif spécifique, vous l'atteindrez - en juin 2017, un an plus tard, avec un peu de mes combats à Cuggle, nous, avec le développeur letton Agnis Lukis, avons remporté un concours de la Sberbank pour prédire les prix des appartements à Moscou.

Nos points forts étaient la compréhension du cas (il s'agit d'une tâche complexe, dont la solution n'aurait pas dû être abordée dans le front, comme la plupart l'ont fait) et une forte validation locale. Nous avons terminé la compétition deuxième en public, mais notre modèle n'a pas beaucoup souffert du recyclage et n'a pas beaucoup fléchi sur les données fermées - en finale, nous étions les premiers avec une énorme marge.
Cette victoire m'a propulsé dans le top 50 du classement mondial Kaggle, ce qui s'est traduit par des offres d'emploi. Après avoir étudié les options, j'ai choisi la banque comme un endroit où il y a de nombreuses tâches sur lesquelles vous pouvez pomper des compétences, ainsi que ressentir toute la vérité de la vie lors du développement de modèles - néanmoins, les conditions sont plutôt à effet de serre dans les compétitions.
Mes plans de carrière étaient ambitieux et l'option «ne pas se précipiter pour travailler pendant plusieurs années pour passer au niveau supérieur» n'a pas été envisagée. Il fallait creuser au travail, et dans le deuxième quart de travail, ne pas oublier Cuggle. Ce n’est pas facile, mais pour qui est-ce facile maintenant? Et cela a donné des résultats - 3 autres médailles d'or et j'ai gagné les épaulettes de Grand Maître sur Cuggle plus retranchées dans le sommet mondial (maintenant le 23e).
Comme une cerise sur le gâteau - le 3e prix des concours de notation bancaire, c'est ce que j'ai fait professionnellement l'année dernière. Et, apparemment, il allait bien.
Hélas, la vérité de la vie en banque est également un processus décisionnel très conservateur et rapide. L'introduction de mes modèles avançait lentement. Il n'était pas prévu de reconstruire le travail de toute la banque, il était donc plus facile, bien qu'avec regret, de changer d'emploi.
Cela ne s'est pas du tout révélé difficile - grâce aux résultats sur Cuggle, la recherche n'a pas pris beaucoup de temps, et depuis plusieurs mois maintenant, je creuse des milliards de tables dans QIWI. Nous avons un
tas de tâches intéressantes , je suis sûr que très bientôt, nous serons en mesure de transformer nos données en profit pour l'entreprise - les antécédents de l'économiste y contribuent beaucoup. Caggloop ici a également fini au box-office sur plusieurs cas.
Et maintenant comment réussir dans les compétitions
La partie la plus importante est de comprendre le problème et de trouver tous les pilotes pouvant affecter le résultat. Mieux vous comprenez le cas, plus il y a de chances de le rendre cool. Tout le monde peut générer des centaines voire des milliers de fonctionnalités de statistiques, mais ils peuvent proposer celles qui sont spécialement conçues pour cette tâche et bien expliquer la cible, ce qui est beaucoup plus compliqué. Investissez-y et retrouvez-vous rapidement au sommet. Cela vaut la peine d'appliquer toute expérience pertinente (entreprise, ménage, etc.) - cela aide beaucoup.
Ensuite - validation locale. Votre ennemi principal est en train de se recycler, surtout si vous utilisez une technologie aussi puissante que le boost de gradient. Je sais combien il est psychologiquement difficile d'arrêter de se concentrer sur le classement public, mais si vous ne voulez pas de déceptions, la bonne réponse est d'utiliser la validation croisée, dites «non» à la sélection retardée. Bien sûr, il existe des exceptions, mais même dans les problèmes de séries chronologiques, vous pouvez visser la validation croisée, ce qui augmente considérablement la fiabilité du modèle. Le schéma de validation local ne sera pas toujours simple, mais il vaut la peine d'y consacrer du temps - à la fois dans les compétitions et dans la vie réelle. La récompense sera des modèles stables.
Bien sûr, vous devez bien étudier les outils de base. Connaissant les principes des différentes technologies, vous pouvez choisir adéquatement le meilleur outil pour résoudre un problème spécifique. Pour les données tabulaires, le renforcement du gradient est désormais le leader, en particulier Lightgbm. Mais il est important de pouvoir utiliser d'autres méthodes, de l'exploitation forestière aux réseaux de neurones - dans la vie et dans les compétitions, elles ne seront pas superflues.
Soit dit en passant, la meilleure façon de comprendre quelles technologies sont en train de conduire maintenant, lorsque tout change rapidement, est de voir quelles bibliothèques les chefs de file de la concurrence utilisent. Ces dernières années, de nombreuses technologies intéressantes ont fait irruption dans le monde grâce à Cuggle.
Hyperparamètres Il est important de connaître les hyperparamètres clés des outils utilisés. En règle générale, peu de paramètres doivent être modifiés. Ma conviction est que vous ne devriez pas consacrer beaucoup de temps à la sélection d'hyperparamètres. Bien sûr, il est nécessaire de trouver de bons hyperparamètres, mais vous ne devez pas y faire de cycles.
Habituellement, lorsque le modèle est décrit, je sélectionne un ensemble de paramètres plus ou moins stable et ne reviens à leur réglage que plus près de la fin, lorsque d'autres idées sont épuisées. Le bon sens suggère que le temps consacré à la création et au test de nouvelles variables, bibliothèques et idées non standard peut donner une augmentation du modèle beaucoup plus importante que le passage d'un bon ensemble d'hyperparamètres à un idéal.
Si vous comptez sur Kaggle comme une fonctionnalité qui stimulera votre CV - considérez cela comme un travail, vous ne le regretterez pas. Cela m'a aidé, cela vous aidera.
Et bien sur la compétition. Elle est très élevée ici, il est donc très, très difficile de gagner seul. Le travail d'équipe est très utile, la synergie des idées vous permet de sauter au-dessus de votre tête. N'hésitez pas à l'utiliser.
Total
Enfin, un peu de motivation au final. Tout d'abord, je me suis prouvé que je pouvais devenir datacenter à 44 ans. La recette s'est avérée être étonnamment simple - éducation en ligne, réflexion commerciale, performance et détermination.

Maintenant, j'encourage de toutes les manières mes amis à faire de même. La nouvelle économie numérique a besoin (et aura besoin) de professionnels de premier ordre. Coursera + Kaggle est juste un excellent endroit pour commencer.
Il était une fois, Excel était un outil nouveau et incompréhensible (je me souviens même de la difficulté des premières batailles avec la calculatrice traditionnelle). Et maintenant, après tout, personne n'a le moindre doute qu'un spécialiste qui est versé dans son entreprise peut tirer beaucoup plus d'avantages réels d'Excel que les développeurs d'Excel eux-mêmes.
Un peu de temps passera et la possession d'outils d'apprentissage automatique deviendra aussi obligatoire que la possession d'Excel, alors pourquoi ne pas s'y préparer à l'avance et gagner la concurrence sur le marché du travail maintenant?
De plus, la concurrence n'en vaut pas la peine. Plus les gens du monde des affaires viennent aux bases de données - plus il y a d'argent. L'introduction de nouvelles technologies dans les secteurs traditionnels de l'économie peut accélérer une entreprise, et pour cela, une entreprise devrait commencer à comprendre les opportunités que les nouvelles technologies ouvrent aujourd'hui. En fait, tout analyste d'affaires, ayant maîtrisé plusieurs cours, peut être à la pointe du progrès et aider son entreprise à dépasser ses concurrents conservateurs.
J'espère que mon expérience aidera quelqu'un à prendre une décision importante.
Si vous avez des questions sur Kaggle, écrivez, je serai heureux de répondre dans les commentaires.