🈶 🏙️ 👩🏻‍🍳 Por que as equipes de ciência de dados precisam de especialistas universais e não especialistas ⬅️ 🐐 🌡️

IMAGENS DE HIROSHI WATANABE / GETTY

Em A riqueza das nações, Adam Smith mostra como a divisão do trabalho se torna uma importante fonte de ganhos de produtividade. Um exemplo é a linha de montagem de uma fábrica para a produção de pinos: "Um trabalhador puxa o fio, o outro o endireita, o terceiro corta, o quarto afia a ponta, o quinto esmerilha a outra ponta para encaixar na cabeça". Graças à especialização focada em determinadas funções, cada funcionário se torna um especialista altamente qualificado em sua tarefa restrita, o que leva a um aumento na eficiência do processo. A produção por trabalhador aumenta muitas vezes e a planta se torna mais eficiente na produção de pinos.

Essa divisão do trabalho pela funcionalidade está tão enraizada em nossas mentes ainda hoje que organizamos rapidamente nossas equipes de acordo. A ciência de dados não é exceção. As oportunidades de negócios algorítmicos complexos exigem muitas funções trabalhistas; portanto, as empresas geralmente criam equipes de especialistas: pesquisadores, engenheiros de análise de dados, engenheiros de aprendizado de máquina, cientistas envolvidos em relações de causa e efeito e assim por diante. O trabalho dos especialistas é coordenado pelo gerente de produto com a transferência de funções de uma maneira que se assemelha a uma fábrica de pinos: “uma pessoa recebe os dados, os outros modelam, os terceiros os executam, as quarta medidas” e assim por diante,

Infelizmente, não devemos otimizar nossas equipes de ciência de dados para melhorar o desempenho. No entanto, você faz isso quando entende o que está produzindo: alfinetes ou outra coisa e simplesmente se esforça para aumentar a eficiência. O objetivo das linhas de montagem é concluir a tarefa. Sabemos exatamente o que queremos - esses são pinos (como no exemplo de Smith), mas você pode mencionar qualquer produto ou serviço em que os requisitos descrevam completamente todos os aspectos do produto e seu comportamento. O papel dos funcionários é atender a esses requisitos da maneira mais eficiente possível.

Mas o objetivo da ciência de dados não é concluir tarefas. Em vez disso, o objetivo é explorar e desenvolver novas e fortes oportunidades de negócios. Produtos e serviços algorítmicos, como sistemas de recomendação, interações com clientes, preferências de estilo, dimensionamento, design de roupas, otimização logística, detecção de tendências sazonais e muito mais, não podem ser desenvolvidos com antecedência. Eles devem ser estudados. Não há desenhos para reproduzir, esses são novos recursos com sua incerteza inerente. Coeficientes, modelos, tipos de modelo, hiperparâmetros, todos os elementos necessários devem ser estudados usando experimentos, tentativa e erro, e também repetição. Com pinos, o treinamento e o design são feitos com antecedência, até serem fabricados. Com a Data Science, você aprende no processo, não antes dele.

Em uma fábrica de pinos, quando o treinamento é realizado em primeiro lugar, não esperamos e não queremos que os trabalhadores improvisem em nenhuma propriedade do produto, além de aumentar a eficiência da produção. A especialização de tarefas faz sentido, pois leva à eficiência dos processos e à coordenação da produção (sem fazer alterações no produto final).

Mas quando o produto ainda está em desenvolvimento e o objetivo é o treinamento, a especialização interfere em nossos objetivos nos seguintes casos:

1. Isso aumenta os custos de coordenação.

Ou seja, os custos acumulados durante o tempo gasto em comunicação, discussão, justificação e priorização do trabalho que precisa ser realizado. Esses custos variam de forma linear com o número de pessoas envolvidas. (Como J. Richard Hackman nos ensinou, o número de relações r cresce de maneira semelhante à função do número de membros n de acordo com esta equação: r = (n ^ 2-n) / 2. E cada relação revela uma certa quantidade da relação de custo). Quando os especialistas em análise de dados são organizados por função, em cada estágio, com cada alteração, cada transferência de serviço, etc. Muitos especialistas são necessários, o que aumenta os custos de coordenação. Por exemplo, estatísticos que desejam experimentar novos recursos terão que se coordenar com os engenheiros de processamento de dados que complementam seus conjuntos de dados toda vez que desejam experimentar algo novo. Da mesma forma, cada novo modelo treinado significa que o desenvolvedor do modelo precisará de alguém com quem coordenar suas ações para colocá-lo em operação. Os custos de coordenação atuam como pagamento pela iteração, o que os torna mais difíceis, dispendiosos e com maior probabilidade de forçar o estudo a ser abandonado. Isso pode interferir no aprendizado.

2. Isso complica o tempo de espera.

Ainda mais assustador do que o custo da coordenação é o tempo perdido entre os turnos. Enquanto os custos de coordenação são geralmente medidos em horas: o tempo necessário para realizar reuniões, discussões, revisões de projetos - os tempos de espera são geralmente medidos em dias, semanas ou até meses! Os cronogramas dos especialistas funcionais são difíceis de alinhar, pois cada especialista deve ser distribuído por vários projetos. Uma reunião de uma hora para discutir mudanças pode levar várias semanas para otimizar o fluxo de trabalho. E depois de concordar com as mudanças, é necessário planejar o trabalho real em si, no contexto de muitos outros projetos que ocupam horas de trabalho de especialistas. O trabalho envolvido na correção de um código ou pesquisa que leva apenas algumas horas ou dias para ser concluído pode levar muito mais tempo antes que os recursos sejam disponibilizados. Até então, a iteração e o aprendizado são pausados.

3. Estreita o contexto.

A divisão do trabalho pode artificialmente limitar o aprendizado recompensando as pessoas por permanecerem em sua especialização. Por exemplo, um cientista pesquisador que deve permanecer dentro do escopo de sua funcionalidade concentrará sua energia em experimentos com vários tipos de algoritmos: regressão, redes neurais, floresta aleatória e assim por diante. Obviamente, uma boa escolha de algoritmo pode levar a melhorias graduais, mas, como regra, muito mais pode ser aprendido com outras atividades, como a integração de novas fontes de dados. Da mesma forma, ajudará a desenvolver um modelo que use todo o poder explicativo inerente aos dados. No entanto, sua força pode estar na alteração da função objetivo ou no relaxamento de certas restrições. É difícil ver ou fazer quando o trabalho dela é limitado. Como um cientista especialista é especializado em otimizar algoritmos, é muito menos provável que ele faça qualquer outra coisa, mesmo que traga benefícios significativos.

Vamos citar os sinais que aparecem quando as equipes de ciência de dados funcionam como fábricas de pinos (por exemplo, em simples atualizações de status): "aguardando alterações no pipeline de dados" e "aguardando recursos do ML Eng", que são bloqueadores comuns. No entanto, acredito que um efeito mais perigoso é o que você não percebe, porque não pode se arrepender do que ainda não sabe. O cumprimento impecável dos requisitos e a complacência alcançada como resultado da eficiência do processo podem obscurecer a verdade de que as organizações não estão familiarizadas com os benefícios do aprendizado que perdem.

A solução para esse problema, é claro, é se livrar do método de pinos de fábrica. Para estimular o aprendizado e a iteração, os papéis da ciência de dados devem ser comuns, mas com responsabilidades amplas, independentes da função técnica, ou seja, organizar especialistas em dados para que sejam otimizados para o aprendizado. Isso significa que é necessário contratar "especialistas em pilha completa" - especialistas gerais que podem executar várias funções: do conceito à modelagem, da implementação à medição. É importante observar que não presumo que, ao contratar especialistas em pilha completa, o número de funcionários diminua. Provavelmente, assumirei que, quando eles são organizados de maneira diferente, seus incentivos estão melhor alinhados com os benefícios do treinamento e da eficácia. Por exemplo, você tem uma equipe de três pessoas com três qualidades de negócios. Na fábrica para a produção de alfinetes, cada especialista dedica um terço do tempo a cada tarefa profissional, já que ninguém mais pode fazer seu trabalho. Em uma pilha cheia, todo funcionário universal é totalmente dedicado a todo o processo de negócios, escalonamento de tarefas e treinamento.

Com menos pessoas apoiando o ciclo de produção, a coordenação é reduzida. O vagão se move suavemente entre as funções, expandindo o pipeline de dados, para adicionar mais dados, experimentando novas funções nos modelos, implantando novas versões na produção para medições causais e repetindo etapas assim que novas idéias surgirem. Obviamente, a caminhonete executa diferentes funções sequencialmente, e não em paralelo. Afinal, esta é apenas uma pessoa. No entanto, a tarefa geralmente leva apenas uma pequena parte do tempo necessário para acessar outro recurso especializado. Portanto, o tempo de iteração é reduzido.

Nossa caminhonete pode não ser tão qualificada como especialista em uma função específica, mas não nos esforçamos por excelência funcional ou pequenas melhorias incrementais. Em vez disso, nos esforçamos para estudar e descobrir novos desafios profissionais com um impacto gradual. Com um contexto holístico para uma solução completa, ele vê oportunidades que um especialista restrito perderá. Ele tem mais idéias e mais oportunidades. Ele também falha. No entanto, o custo do fracasso é baixo e os benefícios do aprendizado são altos. Essa assimetria promove iteração rápida e recompensa o aprendizado.

É importante observar que essa é a escala de autonomia e a variedade de habilidades fornecidas aos cientistas que trabalham com pilhas completas, depende em grande parte da confiabilidade da plataforma de dados na qual você pode trabalhar. Uma plataforma de dados bem projetada abstrai os cientistas de dados das complexidades da conteinerização, processamento distribuído, transferência automática para outro recurso e outros conceitos avançados de computador. Além da abstração, uma plataforma de dados confiável pode fornecer conectividade sem obstáculos à infraestrutura experimental, automatizar os sistemas de monitoramento e geração de relatórios e dimensionar e visualizar automaticamente os resultados algorítmicos e a depuração. Esses componentes são projetados e criados pelos engenheiros da plataforma de dados, ou seja, eles não são transferidos do especialista em Ciência de Dados para a equipe de desenvolvimento da plataforma de dados. É o especialista em ciência de dados que é responsável por todo o código usado para iniciar a plataforma.

Também já me interessei pela divisão funcional do trabalho usando a eficiência do processo, mas por tentativa e erro (não há melhor maneira de aprender), descobri que papéis típicos contribuem melhor para o aprendizado e a inovação e fornecem os indicadores certos: descobrindo e construindo um número muito maior de oportunidades de negócios do que abordagem especializada. (Uma maneira mais eficaz de aprender sobre essa abordagem da organização do que o método de tentativa e erro que eu passei é ler o livro de Amy Edmondson, Interação da equipe: como as organizações aprendem, criam inovação e competem na economia do conhecimento.)

Existem algumas suposições importantes que podem tornar essa organização mais ou menos confiável em algumas empresas. O processo de iteração reduz o custo de tentativa e erro. Se o custo do erro for alto, convém reduzi-lo (mas isso não é recomendado para aplicações ou produção médica). Além disso, se você estiver lidando com petabytes ou exabytes de dados, poderá ser necessária uma especialização em design de dados. Da mesma forma, se a manutenção de oportunidades de negócios on-line e sua acessibilidade é mais importante do que melhorá-las, a excelência funcional pode superar o aprendizado. Finalmente, o modelo de pilha cheia é baseado nas opiniões de pessoas que o conhecem. Eles não são unicórnios; eles podem ser encontrados ou preparados por você mesmo. No entanto, eles estão em alta demanda e para atraí-los e retê-los na empresa exigirá uma compensação financeira competitiva, valores corporativos sustentáveis e um trabalho interessante. Verifique se a sua cultura corporativa pode fornecer essas condições.

Mesmo com tudo isso dito, acredito que o modelo de pilha cheia oferece as melhores condições para iniciar. Comece com eles e, conscientemente, avance para a divisão funcional do trabalho apenas quando for absolutamente necessário.

Existem outras desvantagens da especialização funcional. Isso pode levar a uma perda de responsabilidade e passividade por parte dos trabalhadores. O próprio Smith critica a divisão do trabalho, sugerindo que ela leva a um embotamento do talento, ou seja, os trabalhadores ficam sem noção e se retiram, pois seus papéis são limitados a algumas tarefas repetitivas. Embora a especialização possa garantir a eficiência do processo, é menos provável inspirar os trabalhadores.

Por sua vez, os papéis universais fornecem tudo o que estimula a satisfação no trabalho: autonomia, habilidade e determinação. Autonomia é que eles não dependem de nada para alcançar o sucesso. O domínio reside em fortes vantagens competitivas. E determinação é a capacidade de influenciar os negócios que eles criam. Se conseguirmos que as pessoas se empolguem com seu trabalho e tenham um grande impacto na empresa, tudo o resto se encaixará.

Por que as equipes de ciência de dados precisam de especialistas universais e não especialistas

More articles: