Sou cientista de dados da equipe da Data Lake Platform no Raiffeisenbank. Há três anos, o banco não possuía uma linha de Big Data e agora temos uma plataforma separada para trabalhar com big data e uma comunidade em desenvolvimento ativo. À medida que a cultura orientada a dados se desenvolve, enfrentamos muitas perguntas: técnica, comunicação e muito mais.
No artigo, quero contar como nossa comunidade Raiffeisen Data University ajuda a resolver alguns deles.

Problemas de escalabilidade
Há alguns anos, todos os cientistas de dados viviam separadamente, cada um em suas próprias tarefas - ninguém pensava em nenhuma comunidade. Há cada vez mais idéias que exigem conhecimento no campo da análise de dados, bem como unidades com cientistas de dados no estado.
Várias dificuldades começaram a aparecer:
- Comunicação entre DS:
- não se sabe com quais casos de negócios os colegas trabalham agora;
- cada equipe está vendo sua própria bicicleta para implementar a mesma funcionalidade.
- Lado técnico:
- a pesquisa de dados de entrada para modelagem é opaca;
- o código não toca em novos dados;
- os recursos do cluster não são usados da melhor maneira;
- o processo de saída de um modelo para um produto não é unificado.
- Interação com clientes comerciais:
- nem todos os clientes têm uma idéia do que pode ser resolvido com
aprendizado de máquina, quais são as limitações e como definir a tarefa.
De que lado abordar esses problemas e iniciar o caminho de desenvolvimento para uma empresa madura orientada por dados? Você pode criar estratégias diferentes: reunir todos os cientistas de dados em um grande departamento ou adicionar Chief a todas as equipes e contratar outro Chief Chief que construa um vetor de desenvolvimento. Decidimos seguir para o outro lado.
Assim nasceu a idéia da Universidade de Dados Raiffeisen - RDU. Esta não é uma universidade em seu entendimento padrão, é um mecanismo flexível que ajuda os Cientistas de Dados a resolver seus problemas através da organização de várias atividades. Como ele consegue?
Todo engenhoso é simples
Primeiro, era necessário apresentar e sincronizar pessoas de diferentes divisões de negócios. A coisa mais simples que vem à mente é marcar uma reunião.
O primeiro ocorreu cerca de dois anos atrás, encontrou cientistas de dados de diferentes departamentos, que então não sabiam da existência um do outro. Agora, as mitaps se tornaram comuns. Conhecemos novos colegas, compartilhamos casos resolvidos ou o que está em processo. Você pode enviar suas idéias ao orador, fazer perguntas complicadas sobre métricas ou qualidade dos dados. Ou você pode organizar um workshop sobre ferramentas práticas incluídas no projeto. Vários tópicos específicos são levantados: como o modelo de CI / CD é organizado no produto, a arquitetura do modelo do caso resolvido, a declaração do problema dos negócios e a complexidade da solução, entre muitos outros. Anteriormente, tudo era realizado em uma audiência secreta, onde só permitiam aqueles que haviam passado o rito de passagem.
Agora já acumulamos experiência útil que pode ser compartilhada. As mitaps internas nos ajudam a resolver dificuldades técnicas e de comunicação. E, juntamente com o projeto
ML REPA ,
foi realizada a primeira
reunião aberta para todos.
"Caffe" forte no café da manhã
Mitapas requerem alguma preparação e acontecem aproximadamente uma vez por mês ou dois. E algo novo e interessante acontece o tempo todo, é por isso que nos reunimos no café da manhã da Data Science para manter as comunicações. O número de participantes varia
quem acordou a tempo .
No café da manhã, além de brindes e emoções positivas ao conversar com pessoas que pensam da mesma forma, você obtém um monte de informações úteis sobre novas bibliotecas e algoritmos, resolve seu problema com a arquitetura do aplicativo ou descobre quais recursos serão lançados em breve no cluster. O lucro dessas reuniões breves às vezes não é menor do que as grandes mitaps.
Aprimoramento da taxa de aprendizado
"Ainda mais lucro, ainda mais conhecimento!" Nós desejamos abertamente. Portanto, havia um elemento competitivo - lacunas, como as chamamos. Eles foram inspirados pela idéia de treinamento de aprendizado de máquina no Yandex, personalizando de acordo com suas necessidades e capacidades. A competição de dados abertos começa por aproximadamente três semanas:
- na primeira semana, todos conhecemos e apresentamos possíveis idéias para uma solução (muito semelhante às oficinas esportivas da DMIA);
- na segunda semana - uma reunião interina: analisamos quem tem que tipo de plugues, somos motivados a decidir mais;
- seguido de uma discussão, anúncio dos vencedores, uma discussão sobre o que aconteceu e o que não aconteceu.
No âmbito de uma competição, tentamos nos concentrar em um tópico: dados sujos, séries temporais, análise de texto. Todo mundo escolhe as ferramentas que ele está interessado em experimentar, mas ainda hesitou, ou o que deve trazer o máximo de resultados na tabela de classificação. A parte mais legal foi sobre o aprendizado de reforço - você tinha que treinar seu agente para interagir com o ambiente Atari. Para resumir, os organizadores da competição nos deram uma batalha entre bots e pessoas em três jogos - Packman, Break out, Space Invaders.
Como resultado, as pessoas venceram em Packman por uma larga margem, no resto - a humanidade perdeu para a Skynet.

Descubra o cientista de dados
Os gerentes também não foram deixados sozinhos. Um hackathon interno de um dia para todos aqueles que estão conectados à análise, mas com um entendimento fraco de como os dados são organizados, é uma boa oportunidade para mergulhar rapidamente na cozinha das tarefas de Ciência de Dados. No início do dia, é realizada uma palestra de revisão sobre conceitos, algoritmos e as métricas mais comuns em problemas de classificação e regressão. Depois disso, é considerado um caso real, que os participantes são convidados a resolver em nossos dados. O tempo para uma solução é de aproximadamente 4 horas; portanto, para fazer as coisas funcionarem, um Data Scientist é enviado para ajudar cada equipe.
Eu estava em um desses hackathons como as mãos que implementarão as idéias propostas pelos gerentes, bem como o raciocínio direto em uma direção construtiva. A tarefa necessária para construir um modelo de saída do cliente com base em dados reais por seis meses (a condição da saída foi especificada), bem como estimar que efeito econômico esse modelo traria. Tudo deu errado durante a decisão, partes do código foram quebradas do começo ao começo - isso permitiu à equipe sentir toda a complexidade da engenharia de recursos, mas havia muitas idéias que o Data Scientist pode não ter adivinhado ao mesmo tempo devido à falta de experiência nos negócios .
Graças a esses eventos, os gerentes aprendem a avaliar mais objetivamente os prazos para concluir as tarefas do DS, aprendem sobre as armadilhas e a importância da métrica de qualidade definida originalmente. E o Data Scientist permite que você entenda a visão da tarefa através dos olhos do gerente, para determinar quais pontos devem ser destacados imediatamente no início da colaboração.
Os mais fortes sobreviverão
Mas a coisa mais interessante geralmente acontece em setembro, quando a equipe do DS parte para um hackathon de dois dias na natureza, em um local muito pitoresco com infraestrutura conveniente. Os organizadores convidam mentores externos experientes para o hackathon. No ano passado, Emeli Dral e Alexander Gushchin prepararam uma tarefa para determinar o gênero de um filme a partir de um diálogo dele. Quase 40 mil diálogos da amostra de treinamento, 20 gêneros diferentes de 438 filmes - tratavam-se de filmes com legendas em inglês.
Ouvimos uma breve excursão sobre o tema da PNL: métodos de pré-processamento de texto, abordagens simples e mais complicadas de aprendizado usando DL; Falamos separadamente sobre o trabalho em equipe em projetos de ML - como organizar o código e como ele economiza tempo. Enquanto ouviam as apresentações, os mais ativos já baixaram o texto rápido e as luvas para seus laptops.
Após a palestra, iniciou-se uma competição no formato kaggle inclass com uma classificação pública / privada. Nós dividimos as equipes - o embaralhamento máximo para que a equipe nem tivesse duas pessoas do mesmo departamento. Havia 24 horas para tudo sobre tudo.
Alguém começou um servidor doméstico remoto, alguém correu para implantar o ambiente nas nuvens, houve até quem arrastou a unidade de sistema com eles - eles tentaram da melhor maneira possível! Durante o dia, as equipes geraram uma ampla variedade de idéias para resolver: do uso da Pesquisa elástica para encontrar textos semelhantes aos resultados vidrados de conjuntos de modelos que não podem ser reproduzidos sobriamente no dia seguinte.
Para resumir e comparar o trabalho dos modelos, além da pontuação em uma tabela de classificação privada, decidimos organizar uma demonstração interativa - veja como os modelos envolvidos nos serviços funcionam. Os organizadores abordaram isso com humor e incluíram um fragmento do filme "O Quinto Elemento", onde o texto parece ser algo terrível, mas, de fato, há uma cena engraçada com
Chris Tucker . A maioria dos modelos cometeu um erro e previu um suspense, drama, mas não comédia.

Como resultado, com o conjunto de modelos lineares, aprimoramentos com recursos artesanais com base em agrupamentos e outras transformações xamanísticas, os neurônios estavam presentes nas soluções 2 e 3 do local. Além dos prêmios interessantes (o prêmio principal é uma viagem ao NIPS ou outra conferência interessante), você volta do hackathon com novos amigos que testou em batalha, que compartilharão conhecimentos e habilidades com você. No final, eu nem queria sair deste lugar com natureza pitoresca e uma companhia aconchegante.
Em vez de uma conclusão
Neste artigo, compartilhei os desafios de se tornar uma cultura de ciência de dados em uma empresa e como a Universidade de Dados Raiffeisen ajuda os cientistas de dados ao longo do caminho.
Obviamente, nem todos os problemas foram resolvidos, mas agora temos uma comunidade de dados mais coesa e madura do que há alguns anos atrás e estamos prontos para resolver novos desafios que nos confrontam.
É muito interessante saber se houve problemas semelhantes em seu trabalho, quem os resolveu e como?
Talvez alguém compartilhe hacks de vida com a experiência deles? ;)