Na Netology, a direção da Data Science apareceu em 2016. Quando começamos, havia receios: o campo era novo, embora a demanda pelas datas dos cientistas fosse decente, não havia um grande fluxo de pessoas que desejassem entrar na esfera e também havia muitos recursos gratuitos em inglês para auto-treinamento na rede - por isso assumimos riscos.
Hoje, porém, já existem 10 cursos em várias especializações no trabalho com dados, e o número de graduados é superior a 800. Decidimos perguntar a um desses graduados sobre seu trabalho com dados, como ele chegou ao campo, como o Machine Learning se desenvolve. Loco Bank e que tipo de pessoas ele procura em sua equipe.
Vyacheslav Potapov, chefe de análise de dados e aprendizado de máquina do Loko Bank e formado no curso Data Scientist :
Eu me formei na Universidade Técnica do Estado de Moscou. Bauman na especialidade "Nave espacial" e estágios superiores em 2011. Depois disso, ele trabalhou por 7 anos em vários lugares como analista, desenvolvedor de banco de dados e arquiteto de armazém. Durante esse período, aprendi muito sobre processamento e armazenamento de dados, mas em algum momento eu queria aprofundar a análise - para entender o que todos esses números significam, o que eu armazeno e processo.
Comecei a procurar orientações para o crescimento: estudei posições relacionadas em TI, verifiquei qual o nível de salários no setor e o que é mais demandado. Havia muitos artigos sobre Habr e vídeos no Youtube, até certo ponto, eles me ajudaram a entender a essência do trabalho com dados e como minhas habilidades existentes naquele momento poderiam ser úteis.
Então eu me encontrei com Data Science (DS) e Machine Learning (ML), mas a base fundamental não foi suficiente. O campo é muito amplo e, quando você assiste a alguns vídeos ou artigos, obtém apenas conhecimento fragmentário, mas, em geral, não há entendimento sobre qual é a essência da especialidade, quais são as orientações, métodos, ferramentas. É assim que se lê um livro grosso de matemática para universidades, mas sem explicações e práticas, será difícil aplicar o conhecimento adquirido.
Um colega me contou sobre Netologiya, onde havia um grande programa em tempo integral em Data Science, e eu não recebi ofertas tão adequadas no mercado de língua russa. Como resultado, ele desaprendeu e defendeu com sucesso sua tese sobre o tópico "Reconhecimento de imagens usando redes neurais". Pelo que me lembro agora, era muito difícil, não tinha a prática de resolver tarefas completas e realmente queria fazer não apenas um trabalho educacional, mas um projeto totalmente funcional.
Paralelamente a seus estudos, ele tentou resolver problemas com Kaggle e realizar projetos de trabalho.
E logo após o curso, comecei a procurar um lugar onde pudesse me envolver totalmente na análise de dados, pois é difícil combinar o trabalho do arquiteto do sistema de BI e praticar no DS.
Após uma série de entrevistas, ele escolheu o Loko-Bank e a direção do DS.
Parece-me que a Data Science, como analógica do instituto de pesquisa, precisa de confiança, paciência e compreensão das perspectivas da gerência.
No Loko-Bank, eles viram essas perspectivas - então comecei a trabalhar no bloco de negócios digitais, que está desenvolvendo a direção da análise.
O que analistas e Data Scientist estão fazendo no Loko Bank
Agora, o banco possui um departamento de TI clássico que é responsável pela infraestrutura e pelo armazenamento de dados, outros departamentos usam essas fontes de dados e definem requisitos para a integração de novas. No total, cerca de 40 funcionários trabalham na empresa com análises.
No Loko Bank, automação de processos, análise de dados e construção de uma economia orientada a dados estão se tornando as prioridades da empresa. Espero que, com base nas informações, possamos construir vendas de maneira mais correta, realizar avaliações de risco e todo o negócio.
Na unidade de negócios, o trabalho com análise é dividido em duas áreas: análise clássica - BI, cujos especialistas analisam os indicadores planejados e reais da empresa, preparam relatórios de vendas, saldos, receitas e despesas e direção de ML.
O Machine Learning se concentra na criação de algoritmos que fazem previsões baseadas em dados reais de analistas clássicos, geram novos dados e procuram dependências e anomalias ocultas. Este é o departamento pelo qual estou encarregado.
ML no banco está apenas começando a se desenvolver. Mas eu tenho um objetivo - criar um sistema para ajudar os negócios e permitir que você use todas as abordagens modernas para aumentar as receitas e reduzir custos. Temos que mudar completamente os processos de negócios e procurar maneiras de implementar ferramentas de aprendizado de máquina na arquitetura de TI existente. Pode ser difícil com isso, já que a arquitetura não foi projetada ontem e alguns dos requisitos simplesmente não foram estabelecidos nela.
Por exemplo, requisitos para coletar logs para os clientes entrarem em um banco móvel. Para análises clássicas, elas não são necessárias e nunca foram coletadas ou armazenadas. Expliquei que, com base nesses logs, podemos treinar o modelo para fazer previsões sobre a carga da plataforma e ver a relação entre o uso de um banco móvel e a lucratividade do cliente. E se não fosse o desenvolvimento do ML, essas análises simplesmente não existiriam, porque ninguém lidaria com esse problema. O que era necessário era um guia que explicasse o porquê e o porquê, dando instruções, como construir arquitetura, como coletar dados, como construir modelos, onde aplicá-los.
Com a introdução do aprendizado de máquina, quero construir uma cultura de trabalho com dados no banco como um todo: coleta, processamento e integração de novas fontes. Ao mesmo tempo, já estamos resolvendo as tarefas de análise preditiva para clientes, estamos envolvidos em sua segmentação para otimizar tarifas e aumentar as vendas da empresa.
Também estamos envolvidos no monitoramento financeiro, analisamos clientes e transações suspeitas. Agora, a empresa gasta uma enorme quantidade de recursos humanos e financeiros nessa tarefa. E queremos simplificar e tornar esses processos mais eficientes.
Se falamos sobre o que já foi feito, começamos a coletar e armazenar dados, em particular os logs do usuário, sobre os quais escrevi acima. Agora, armazenamos informações sobre o histórico de alterações no cartão do cliente no Serviço Fiscal Federal.
No momento, estamos desenvolvendo um modelo para determinar o comportamento negativo dos clientes (pessoas jurídicas e empreendedores individuais) e já recebemos os primeiros bons resultados. A pontuação de uma das métricas populares é 0,86. Dos algoritmos, usamos o aumento de gradiente. Em um futuro próximo, planejamos obter estabilidade em seu trabalho, inclusive conectando fontes adicionais. Esse modelo deve ajudar a reduzir os riscos da empresa e otimizar os custos para encontrar clientes desonestos.
Que tipo de especialistas são necessários para a direção do ML
Nossa equipe está apenas sendo formada, então agora tento levar os generalistas. Obviamente, uma pessoa pode estar mais inclinada a desenvolver ou, inversamente, a análise de negócios, mas, no entanto, precisa entender o processo de criação de uma solução como um todo, entender seu papel nela. Esta é uma boa opção para aqueles que querem experimentar a si mesmos em diferentes funções.
É importante que uma pessoa saiba como resolver problemas práticos reais, pelo menos possa explicar a abordagem e o conjunto de etapas. Nas entrevistas, tento dar problemas lógicos e peço uma compreensão geral de algoritmos e técnicas, sem matemática.
Como sou engenheiro, tento procurar pessoas com formação em engenharia em minha equipe, embora isso não seja um tabu. Conheço exemplos de pessoas que ingressaram na profissão sem formação técnica.
Criar uma solução de ML está longe de ser uma tarefa trivial, portanto, não basta apenas pegar todos os dados, jogá-los no algoritmo e aguardar um milagre. Você precisa ser capaz de mergulhar na área de assunto, ser capaz de se comunicar, perguntar e ouvir, em algum lugar essas habilidades podem se tornar ainda mais valiosas do que as técnicas.
Mais especificamente, o departamento agora está interessado principalmente nos engenheiros de Big Data. Redes neurais e xgboosts são boas, mas primeiro você precisa encontrar especialistas que possam coletar os dados corretos e preparados em grandes quantidades. Sem eles, nenhum aprendizado de máquina funcionará. Eu preciso de pelo menos duas pessoas nessa direção. Mas a empresa possui muitos requisitos para eles: eles devem conhecer ferramentas ETL, SQL e ter experiência na construção de fachadas de lojas e data warehouses, além de poder resolver problemas de otimização.
Também seria bom complementar a equipe com dois analistas, de preferência com experiência no setor bancário. E embora a Ciência de Dados seja uma prioridade, o campo pode ser qualquer.
O principal problema do mercado é a falta de pessoas capazes de traduzir as necessidades dos negócios em uma tarefa significativa de ML e, às vezes, propor uma solução proativamente.
Para resolver esse problema, você precisa entender o próprio negócio e as ferramentas existentes, além de ter boas habilidades para apresentar corretamente a solução para o problema. E é extremamente difícil encontrá-lo.
Onde desenvolver
Como estamos apenas introduzindo o ML em empresas comerciais, precisamos implementar uma série de decisões das quais dependerá mais confiança em toda a área. Essas decisões estão relacionadas à justificativa para a existência de um departamento de negócios. O Machine Learning agora é bem conhecido por todos, portanto é de particular interesse.
Após a implementação bem-sucedida das ferramentas de ML no meu departamento, planejamos expandir o conjunto de tarefas e a equipe de especialistas em todo o banco.
Um banco é, antes de tudo, grandes fluxos de dados, uma grande base de clientes e, consequentemente, uma enorme responsabilidade.
Por um lado, existem clientes que desejam obter um bom serviço e salvar seus dados e, por outro lado, sempre há pessoas que desejam acessar as instalações de armazenamento para obter informações confidenciais.
Na minha opinião, com a crescente carga de trabalho e complexidade dos processos, a delegação de algumas responsabilidades e funções às máquinas é a única condição possível para o crescimento estável da empresa.
E uma pessoa que deseja ir na direção do Machine Learning no setor bancário deve ser capaz de correlacionar as tarefas de trabalho de ML com os principais objetivos do banco em primeiro lugar.
Dicas para quem deseja entrar no campo Machine Learning
Antes de tudo, vale a pena responder a si mesmo sobre o que exatamente você quer fazer e, depois disso, veja o que você precisa fazer. O DS é uma área enorme para o desenvolvimento e, por um lado, é bom, mas, por outro lado, você pode perambular por muito tempo e não chegar a algo específico.
No começo, eu não recomendaria mergulhar profundamente na matemática. Foco na resolução de problemas e ferramentas práticas (bibliotecas, métodos). Fui muito ajudado pela experiência no desenvolvimento de bancos de dados, limpeza e processamento de dados e análise inicial. No trabalho real, são a coleta e a preparação de dados que ocupam a maior parte do tempo, e o trabalho de alta qualidade nessa direção melhorará significativamente a qualidade das soluções de ML no futuro.
É ótimo vivermos em uma época em que qualquer informação pode ser facilmente encontrada. A rede possui muitos cursos em vários campos, comunidades (ODS), conferências e workshops são realizados periodicamente. Mas você precisa entender que o ML é uma disciplina jovem, só está sendo formada e não existe uma abordagem fundamental para o aprendizado. Portanto, os caminhos de desenvolvimento devem ser escolhidos com cuidado: estudar diferentes programas de treinamento, definir os acentos certos para si mesmo. Tive sorte - escolhi um curso que atendesse aos meus requisitos e expectativas e levou ao desenvolvimento de uma direção enorme e promissora no Loko-Bank.
Dos editores