Dans Netology, la direction de la Data Science est apparue en 2016. Lorsque nous avons commencé, il y avait des craintes: le domaine est nouveau, la demande de dates de scientifiques pour les entreprises, bien que décente, mais il n'y avait pas un grand nombre de personnes souhaitant entrer dans la sphère, et il y a aussi beaucoup de ressources gratuites en anglais pour l'auto-formation sur le réseau, c'est pourquoi nous avons pris des risques.
Mais aujourd'hui, il existe déjà 10 cours dans différentes spécialisations dans le travail avec les données, et le nombre de diplômés est supérieur à 800. Nous avons décidé de demander à l'un de ces diplômés son travail avec les données, comment il est arrivé sur le terrain, comment le Machine Learning se développe en Loco Bank et quel genre de personnes il recherche dans son équipe.
Vyacheslav Potapov, responsable de l'analyse des données et de l'apprentissage automatique à Loko Bank et diplômé du cours Data Scientist :
Je suis diplômé de l'Université technique d'État de Moscou. Bauman dans la spécialité "Spacecraft" et étages supérieurs en 2011. Après cela, il a travaillé pendant 7 ans dans divers endroits en tant qu'analyste, développeur de base de données et architecte d'entrepôt. Pendant ce temps, j'ai beaucoup appris sur le traitement et le stockage des données, mais à un moment donné, j'ai voulu approfondir l'analyse - pour comprendre ce que signifient tous ces chiffres, ce que je stocke et traite.
J'ai commencé à chercher des directions de croissance: j'ai étudié des postes connexes en informatique, regardé quel niveau de salaires dans l'industrie et ce qui était le plus en demande. Il y avait de nombreux articles sur Habr et des vidéos sur Youtube, dans une certaine mesure, ils m'ont aidé à comprendre l'essence du travail avec les données et comment mes compétences existantes à l'époque pouvaient être utiles.
J'ai ensuite rencontré Data Science (DS) et Machine Learning (ML), mais les bases fondamentales n'étaient pas suffisantes. Le domaine est très large et lorsque vous regardez des vidéos ou des articles, vous n'obtenez que des connaissances fragmentaires, mais en général, vous ne comprenez pas l'essence de la spécialité, quelles sont les directions, les méthodes, les outils. Voici comment lire un manuel épais sur les mathématiques pour les universités, mais sans explication ni pratique, il sera difficile d'appliquer les connaissances acquises.
Un collègue m'a parlé de Netologiya, où il y avait un grand programme à plein temps en science des données, et je n'ai pas rencontré de telles offres adaptées sur le marché russophone. En conséquence, il a réussi à désapprendre et à défendre sa thèse sur le sujet «Reconnaissance d'images à l'aide de réseaux de neurones». Comme je m'en souviens maintenant, c'était très difficile, je n'avais pas l'habitude de résoudre des tâches à part entière, et je voulais vraiment faire non seulement un travail éducatif, mais un projet pleinement fonctionnel.
Parallèlement à ses études, il a essayé de résoudre des problèmes avec Kaggle et de réaliser des projets de travail.
Et juste après le cours, j'ai commencé à chercher un endroit où je pourrais m'engager pleinement dans l'analyse des données, car il est difficile de combiner le travail de l'architecte de système de BI et la pratique dans DS.
Après une série d'entretiens, il a choisi Loko-Bank et la direction de DS.
Il me semble que la Data Science, en tant qu'analogue de l'institut de recherche, a besoin de confiance, de patience et de compréhension des perspectives de la direction.
À Loko-Bank, ils ont vu ces perspectives - j'ai donc commencé à travailler dans le bloc Digital Business, qui développe la direction de l'analytique.
Ce que les analystes et Data Scientist font à Loko Bank
Maintenant, la banque dispose d'un département informatique classique qui est responsable de l'infrastructure et du stockage des données, d'autres départements utilisent ces sources de données et fixent des exigences pour l'intégration de nouvelles. Au total, environ 40 employés travaillent dans l'entreprise avec des analyses.
Chez Loko Bank, l'automatisation des processus, l'analyse des données et la construction d'une économie basée sur les données deviennent les priorités de l'entreprise. J'espère que sur la base des informations, nous serons en mesure de générer plus correctement les ventes, d'effectuer des évaluations des risques et de l'ensemble de l'entreprise.
Dans l'unité commerciale, le travail avec l'analyse est divisé en deux domaines: l'analyse classique - BI, dont les spécialistes analysent les indicateurs prévus et réels de l'entreprise, préparent des rapports sur les ventes, les soldes, les revenus et les dépenses et la direction du ML.
Le Machine Learning se concentre sur la création d'algorithmes qui font des prédictions basées sur les données réelles des analystes classiques, génèrent de nouvelles données et recherchent les dépendances et anomalies cachées. C'est le département dont je suis responsable.
Le ML dans la banque commence tout juste à se développer. Mais j'ai un objectif - construire un système afin qu'il aide l'entreprise et vous permette d'utiliser toutes les approches modernes pour augmenter les revenus et réduire les coûts. Nous devons changer complètement les processus commerciaux et chercher des moyens de mettre en œuvre des outils d'apprentissage automatique dans l'architecture informatique existante. Cela peut être difficile, car l'architecture n'a pas été conçue hier et certaines des exigences n'y étaient tout simplement pas énoncées.
Par exemple, les exigences de collecte de journaux pour que les clients puissent entrer dans une banque mobile. Pour les analyses classiques, elles ne sont pas nécessaires, elles n'ont donc jamais été collectées ou stockées. J'ai expliqué que sur la base de ces journaux, nous pouvons former le modèle pour faire des prédictions sur la charge de la plate-forme et voir la relation entre l'utilisation d'une banque mobile et la rentabilité du client. Et sans le développement du ML, de telles analyses n'existeraient tout simplement pas, car personne ne traiterait de ce problème. Ce qu'il fallait, c'était un guide qui expliquerait pourquoi et pourquoi, donnerait des instructions, comment construire l'architecture, comment collecter des données, comment construire des modèles, où les appliquer.
Avec l'introduction du machine learning, je souhaite construire une culture de travail avec les données dans l'ensemble de la banque: leur collecte, leur traitement ainsi que l'intégration de nouvelles sources. Dans le même temps, nous résolvons déjà les tâches d'analyse prédictive pour les clients, nous nous engageons dans leur segmentation afin d'optimiser les tarifs et d'augmenter les ventes de l'entreprise.
Nous sommes également engagés dans le suivi financier, nous analysons les transactions et clients suspects. Aujourd'hui, l'entreprise consacre une énorme quantité de ressources humaines et financières à cette tâche. Et nous voulons simplifier et rendre ces processus plus efficaces.
Si nous parlons de ce qui a déjà été fait, nous avons commencé à collecter et à stocker des données, en particulier des journaux d'utilisateurs, dont j'ai parlé ci-dessus. Maintenant, nous stockons des informations sur l'historique des modifications de la carte client dans le Service fédéral des impôts.
En ce moment, nous développons un modèle pour déterminer le comportement négatif des clients (personnes morales et entrepreneurs individuels) et avons déjà reçu les premiers bons résultats. Le score pour l'une des mesures populaires est de 0,86. Parmi les algorithmes, nous utilisons l'augmentation du gradient. Dans un proche avenir, nous prévoyons d'assurer la stabilité de ses travaux, notamment en connectant des sources supplémentaires. Ce modèle devrait permettre de réduire les risques de l'entreprise et d'optimiser les coûts de recherche de clients malhonnêtes.
Quels types de spécialistes sont nécessaires pour la direction du ML
Notre équipe ne fait que se former, alors maintenant j'essaie de prendre les généralistes. Bien sûr, une personne peut être plus encline à développer ou, inversement, à l'analyse commerciale, mais néanmoins elle doit comprendre le processus de création d'une solution dans son ensemble, comprendre son rôle dans celle-ci. C'est une bonne option pour ceux qui veulent s'essayer dans différents rôles.
Il est important qu'une personne sache comment résoudre de vrais problèmes pratiques, au moins peut expliquer l'approche et l'ensemble des étapes. Lors des entretiens, j'essaie de donner des problèmes de logique, et je demande une compréhension générale des algorithmes et des techniques, sans mathématiques.
Comme je suis moi-même ingénieur, j'essaie de rechercher des personnes ayant une formation d'ingénieur dans mon équipe, bien que ce ne soit pas un tabou. Je connais des exemples de personnes qui sont entrées dans la profession sans formation technique.
La création d'une solution ML est loin d'être une tâche triviale, il ne suffit donc pas de prendre toutes les données, de les jeter dans l'algorithme et d'attendre un miracle. Vous devez être capable de vous immerger dans le domaine, de pouvoir communiquer, demander et écouter, quelque part ces compétences peuvent s'avérer encore plus précieuses que les compétences techniques.
Plus précisément, le département s'intéresse désormais principalement aux ingénieurs Big Data. Les réseaux de neurones et les xgboosts sont bons, mais vous devez d'abord trouver des spécialistes capables de collecter les données correctes et préparées en grande quantité. Sans eux, aucun apprentissage automatique ne fonctionnera. J'ai besoin d'au moins deux personnes dans cette direction. Mais l'entreprise a de nombreuses exigences: elle doit connaître les outils ETL, SQL et avoir de l'expérience dans la construction de vitrines et d'entrepôts de données, ainsi que pouvoir résoudre les problèmes d'optimisation.
Il serait également intéressant de compléter le personnel avec deux analystes, de préférence avec une expérience dans le secteur bancaire. Et bien que la science des données soit une priorité, le domaine peut être n'importe lequel.
Le principal problème du marché est le manque de personnes capables de traduire les besoins de l'entreprise en tâche ML significative et parfois de proposer une solution de manière proactive.
Pour résoudre ce problème, vous devez comprendre l'entreprise elle-même et les outils existants, ainsi que posséder de bonnes compétences générales pour présenter correctement la solution au problème. Et il est extrêmement difficile d'en trouver.
Où se développer
Étant donné que nous n'introduisons que le ML dans les entreprises, nous devons mettre en œuvre un certain nombre de décisions dont dépendra davantage la confiance dans l'ensemble du domaine. Ces décisions sont liées à la justification de l'existence d'un département des affaires. L'apprentissage automatique est désormais bien connu de tous, il présente donc un intérêt particulier.
Après la mise en œuvre réussie des outils ML au sein de mon département, nous prévoyons d'élargir le pool de tâches et le personnel de spécialistes à travers la banque.
Une banque, c'est d'abord de gros flux de données, une large clientèle et, par conséquent, une énorme responsabilité.
D'une part, il y a des clients qui veulent obtenir un bon service et sauvegarder leurs données, et d'autre part, il y a toujours des gens qui veulent accéder aux installations de stockage d'informations confidentielles.
À mon avis, avec la charge de travail croissante et la complexité des processus, la délégation de certaines responsabilités et fonctions aux machines est la seule condition possible pour la croissance stable de l'entreprise.
Et une personne qui veut se diriger vers le Machine Learning dans le secteur bancaire doit être en mesure de corréler les tâches de travail ML avec les principaux objectifs de la banque en premier lieu.
Conseils pour ceux qui souhaitent entrer dans le domaine du Machine Learning
Tout d'abord, cela vaut la peine de vous répondre à la question de savoir exactement ce que vous voulez faire, et seulement après cela, regardez ce qui est nécessaire pour cela. DS est un énorme domaine de développement, et d'une part, c'est bien, mais d'autre part, vous pouvez vous promener très longtemps et ne pas arriver à quelque chose de spécifique.
Au début, je ne recommanderais pas de plonger profondément dans les mathématiques. Concentrez-vous sur la résolution de problèmes et d'outils pratiques (bibliothèques, méthodes). J'ai été grandement aidé par l'expérience du développement de bases de données, du nettoyage et du traitement des données et de l'analyse initiale. Dans le travail réel, ce sont la collecte et la préparation des données qui occupent la plupart du temps, et un travail de haute qualité dans ce sens améliorera considérablement la qualité des solutions ML à l'avenir.
C'est formidable que nous vivions à une époque où toute information peut être facilement trouvée. Le réseau propose de nombreux cours dans divers domaines, des communautés (SAO), des conférences et des ateliers sont organisés périodiquement. Mais vous devez comprendre que le ML est une jeune discipline, elle est en train de se former et il n'y a pas d'approche fondamentale de l'apprentissage. Par conséquent, les voies de développement doivent être choisies avec soin: étudier différents programmes de formation, définir les bons accents pour vous-même. J'ai eu de la chance - j'ai choisi un cours qui répondait à mes exigences et à mes attentes, et a conduit au développement d'une direction énorme et prometteuse à Loko-Bank.
Des éditeurs