Je m'appelle Azat Bulyakkulov. Je travaille en tant qu'analyste des risques au sein de la fintech ID Finance. J'ai commencé par l'analytique, la création de rapports pour les départements des risques, du marketing et des finances. Dans notre entreprise relativement petite, j'ai dû interagir avec tous les départements. En conséquence, j'ai réussi à acquérir une expérience professionnelle diversifiée. J'ai participé au calcul des réserves financières, comparé les performances aux tests A / B, segmenté les clients marketing, etc. En moins d'un an de travail, j'ai rejoint le développement des cartes de notation. Et j'ai réalisé que je voulais mieux comprendre l'analyse et le traitement des données.

Nous avons utilisé des régressions logistiques classiques pour prédire les défauts des clients. L'une des sources de nos données est les transactions financières, auxquelles, si vous le souhaitez, les clients nous donnent accès. Travailler avec eux a nécessité une approche créative, car de nombreuses informations utiles ont pu être extraites de cet entrepôt de données. Comme je l'ai appris plus tard, ce processus s'appelle l'ingénierie des fonctionnalités. Cela m'a captivé - je suis devenu encore plus intéressé par la science des données.
En travaillant avec d'autres départements, j'ai vu que les possibilités d'application du BC sont énormes. Pas le moindre rôle dans mon intérêt pour DS a été joué par le fait que nous développions dans le lourd SAS-e. Il n'a pas l'interface la plus pratique et les fonctionnalités incomplètes. Je voulais travailler avec un outil plus flexible.
J'ai réalisé que l'autoformation de la science des données, par exemple, à Coursera, nécessite une forte volonté et une autodiscipline, ce que je n'ai pas assez. Par conséquent, j'ai commencé à regarder non pas vers des cours en ligne, mais vers des cours «en direct» avec des conférences, des discussions et des devoirs.
J'ai informé mon supérieur au travail de la direction dans laquelle je souhaite évoluer. La direction est venue me rencontrer et m'a proposé de payer les cours, puis de me rendre au service de science des données de l'exploitation.
J'ai donc commencé à choisir des cours. Curieusement, les cours en ligne prévalent sur le marché éducatif DS. Même à Moscou, il n'y a pas un grand choix de cours sérieux qui ne sont pas dans le style "nous vous enseignerons la science des données dans 21 jours". J'ai compris qu'une formation de qualité devait durer au moins six mois. Je n'ai pas considéré Yandex SHAD, car il nécessite une immersion totale et des activités quotidiennes. Travaillant à plein temps, il serait difficile d'absorber et de traiter le matériel éducatif de manière de haute qualité. Pour l’avenir, je dirai que dans le cours choisi, j’ai eu des problèmes avec le temps d’étudier, sans parler du cours gratuit. En conséquence, je me suis arrêté au cours Data Scientist d'une des écoles populaires d'une durée de six mois: 5 mois de formation intensive + un mois pour la rédaction d'un diplôme.
À propos du cours
La formation a coûté environ 200 000 roubles. Il y avait de nombreux cours - 3 fois par semaine pendant 3 heures. Après environ 2 cours sur 3, il y avait des devoirs. Le programme était classique et comprenait les méthodes de base de l'apprentissage automatique, les systèmes de recommandation, la reconnaissance d'image, la vision industrielle, le traitement du langage naturel (PNL), les séries chronologiques. De plus, il y avait plusieurs hackathons et un diplôme pour ceux qui remettraient le minimum de devoirs.

Des cours ont eu lieu à Baumanskaya, 30 personnes étaient inscrites dans le groupe, mais elles ont marché régulièrement 15-20. J'ai pratiqué deux fois le soir en semaine et le samedi de 10h00 à 13h00. Il est curieux que des personnes de domaines différents, pas nécessairement liés à l'informatique, soient venues aux cours. Oui, il y avait des développeurs front / backend, mais la moitié du cours était liée à l'analyse de produit / entreprise ou de risque. Et pour presque tout le monde, ces cours signifiaient un changement de profession. Certains sont venus parce qu'il y a maintenant un certain battage médiatique autour de la science des données, d'autres s'ennuient avec leurs activités actuelles, tandis que d'autres envisagent d'utiliser DS dans leur travail. Presque tout le monde a payé pour la formation par ses propres moyens, donc le niveau d'intérêt était assez élevé.
Mes impressions
Tout a commencé avec des connaissances de base et des compétences en programmation en python, en visualisation de données. Ensuite, nous sommes passés au galop et avons commencé à suivre une méthode d'apprentissage automatique dans une leçon: arbres cruciaux, régression linéaire / logistique, forêts aléatoires, boosters. Personnellement, je pense qu'il faut plus de temps pour apprendre ces méthodes classiques.
Ce que j'ai aimé
- Nous avons étudié presque toutes les méthodes et approches modernes d'apprentissage automatique.
- Il y avait un bloc distinct sur l'ingénierie des fonctionnalités - jusqu'à 3 leçons. Ce sont des informations utiles, mais, malheureusement, le professeur n'a pas lu cette partie de la meilleure façon.
- Une partie des devoirs provenait du concours Kaggle. Après avoir soumis les résultats, vous pouvez voir votre position. Après cela, il y avait une motivation pour améliorer votre modèle, ajuster ses paramètres, et pas seulement faire les devoirs sur l'enfer.
- Il y avait des cours approfondis sur les systèmes de recommandation, la PNL et la vision par ordinateur, chacun avec 6-8 classes. Et, à mon avis, il y avait les meilleurs conférenciers.
- Après les blocs sur la vision par ordinateur et les séries chronologiques, il y a eu 2 hackathons.
Cela s'est avéré être un exercice très utile. La nécessité d'obtenir un résultat acceptable en un minimum de temps active et charge le cerveau au maximum. De plus, lorsque vous travaillez en équipe, vous voyez les approches des autres.
- Dans mon compte personnel, il y avait une évaluation des étudiants, où j'ai vu les progrès de mes camarades de classe dans les devoirs. C'était utile. Depuis la pause, j'ai approché les «nerds» et leur ai demandé comment ils faisaient tel ou tel devoir.
- L'avantage des cours «en direct» réside dans les questions posées pendant la leçon.
- Dans le public, sur les instructions du conférencier, nous avons fait de petits exercices immédiatement en python
- Communauté étudiante - communication avec les camarades de classe, échange d'opinions, il était intéressant d'entendre les autres sur leur motivation et leurs domaines d'intérêt ML.
Ce qui n'a pas aimé
- Haute densité dans l'aperçu des principales méthodes - une seule leçon par méthode.
- En général, j'aimerais 2 cours par semaine, pas 3. Personnellement, pour moi, étudier était difficile, j'ai mangé presque tout mon temps libre. Une partie de mes camarades de classe, à mon envie, pouvait étudier au travail.
- Pour des raisons inconnues, l'unité a été transférée via la PNL et conduite en vision par ordinateur (CV). En conséquence, à la PNL, nous avons dû utiliser des réseaux de neurones, qui ont été décrits plus en détail uniquement en termes de CV.
- Il y avait des conférenciers aux capacités pédagogiques extrêmement faibles. De plus, ils n'ont pas vérifié les devoirs à temps.
Le champ de la science des données s'est récemment élargi.Total
J'ai eu 5 mois d'entraînement intensif, où j'ai plongé assez profondément dans le monde du ML. J'ai appris à écrire du traitement de données en Python, à les visualiser, à construire différents modèles. Également généré du texte à l'aide de réseaux de neurones, d'images classifiées.
Je pense que j'ai eu une bonne expérience pour commencer. Mon mentor diplômé a dit que nos connaissances sont tirées par un scientifique des données intermédiaires et l'expérience par un junior. Eh bien, nous verrons dans quelques mois. Depuis que je passe au département data science de notre entreprise pendant deux semaines.