Não confie na inteligência artificial,
a menos que você tenha uma compreensão profunda do processo.
Ray DalioNa Jet Infosystems, introduzimos o aprendizado de máquina em uma ampla variedade de setores e, com base em nossa experiência, destacamos os componentes necessários para uma implementação bem-sucedida:
- declaração do problema que visa otimizar a métrica de prioridade para os negócios;
- uma equipe de cientistas de dados que possuem competências e estão prontos para mergulhar profundamente no processo;
- dados relevantes para a tarefa de negócios;
- escolha adequada do método.
Na prática, todos esses elementos são extremamente raros juntos, segundo as estatísticas, apenas 7% dos projetos com ML são considerados bem-sucedidos. Projetos com todos esses componentes podem ser classificados com segurança como inovadores! Para ilustrar, formulamos vários pontos que podem ser chamados de dicas prejudiciais sobre a introdução do aprendizado de máquina nos negócios.
Mau conselho nº 1: “A tarefa é simplesmente implementar o ML”
Freqüentemente, o cliente formula a tarefa como "apenas para introduzir o aprendizado de máquina para alguma otimização", sem nenhuma conexão com as métricas de negócios e a priorização de tarefas de negócios.
Nesse caso, podemos ver vários cenários negativos. Por exemplo, os destinos mudarão à medida que funcionam, mas isso significa que todo o pré-processamento e a escolha dos métodos de otimização serão alterados, porque estão diretamente relacionados ao significado do destino. Ou um cientista de dados escolherá alguma métrica do aprendizado de máquina, por exemplo, auc, e a aprimorará, trazendo todas as estruturas e bibliotecas de hype, com base em seu senso de beleza - aprimore a “quinta casa decimal” na métrica escolhida. Ao mesmo tempo, para os negócios, esse trabalho pode ser completamente sem importância e não levar a uma implementação bem-sucedida. Ou algum pequeno problema comercial começará a ser resolvido, quando na verdade houver um potencial muito maior para a introdução de aprendizado de máquina nas proximidades.
Como resultado, você pode encontrar consequências negativas:
- é impossível prever o tempo e os custos trabalhistas;
- os modelos são aprimorados isoladamente das métricas de negócios;
- fez um investimento em uma tarefa menor.
Mau conselho 2: "Qualquer cientista de dados fará"
Há uma opinião de que você pode tirar qualquer cientista de dados do mercado, colocá-lo em isolamento com excelência e ele descobrirá magicamente o que precisa ser otimizado. Em nossa opinião, a mentalidade dos cientistas de dados envolvidos na otimização da produção é extremamente importante. Isso significa que eles devem estar prontos para mergulhar profundamente em processos tecnológicos (por exemplo, eletrólise de alumínio, tratamento com celulose alcalina oxigênio, produção de alto-forno, etc.). A disposição dos cientistas de dados de viajar em viagens de negócios distantes com o objetivo de conversar pessoalmente com tecnólogos e operadores da fábrica também é importante, a fim de entender como tudo realmente funciona. Sem isso, provavelmente, eles estarão condenados a um grande número de iterações impensadas de enumerar modelos, e você nunca poderá alcançar uma implementação útil.
Mau conselho nº 3: “O trabalho deve ser feito de retalhos”
A ideologia da organização mais fragmentada do trabalho com a divisão máxima do trabalho para minimizar custos é atendida regularmente. Por exemplo, existe um analista que entende o processo, se comunica com clientes e tecnólogos. Há um engenheiro de data - ele processa os dados, gera recursos. E, finalmente, existe um cientista de dados - ele apenas importa o sklearn e se encaixa / prevê. Assim, o trabalho de um cientista de dados ocorre isoladamente das realidades da vida, extremamente laboratoriais, e existe um alto risco de cometer um grande número de erros e perder aspectos importantes da tarefa original.
Mau conselho nº 4: “Não explique aos cientistas de dados como os dados são coletados”
Nem sempre é óbvio que os cientistas de dados precisam entender como e onde os dados são coletados. Há até casos em que os contratos de implementação de ML são assinados sem primeiro revisar os dados e, nessas condições, existe o risco de nunca atingir os valores-alvo das métricas descritas no contrato. Com essa abordagem, surgirão inevitavelmente problemas com a avaliação da qualidade dos modelos e com a possibilidade de sua aplicação real.
Muitas propriedades dos dados influenciam a escolha dos métodos: média de dados e erros de medição, amostragem desigual de exemplos, intervalo de tempo nas medições. É importante limpar corretamente os dados de ruído em fatores e metas, as causas do ruído podem ser diferentes: erros de digitalização, outlier, duplicação de variáveis, erros de instrumento, etc.
A empresa deve estar interessada no fato de que os cientistas de dados compreendem completamente a natureza dos dados; caso contrário, o processamento de dados será longo e não levará a modelagem bem-sucedida. Sem uma compreensão profunda das especificidades do processo de coleta e armazenamento de dados, os seguintes problemas podem ser encontrados:
- o pré-processamento de dados levará muito tempo;
- o modelo pode não ser aplicável em condições reais;
- os termos do contrato podem ser inatingíveis.
Mau conselho 5: “Tornar a coleta de dados um processo complicado e incompreensível para que ninguém saiba como funciona. Após a introdução dos modelos, faça alterações no processo ”
Freqüentemente, paralelamente ao desenvolvimento e implementação do modelo, os processos tecnológicos mudam que afetam a coleta de dados. Imagine que é necessário otimizar o processo tecnológico e, após a introdução do modelo, algumas unidades são reconfiguradas e isso afeta a coleta de dados: os recursos “flutuam”, as distribuições mudam, a amostra de treinamento deixa de ser representativa. Claro, ninguém sabe disso com antecedência. Como resultado: o modelo para de funcionar e tudo precisa ser refeito. Por exemplo, em casos com árvores, pode ocorrer um problema fora do domínio.
É importante coordenar previamente com os cientistas de dados todas as mudanças nos processos tecnológicos para que eles possam adaptar rapidamente os modelos às novas condições.
Mau conselho # 6: “Média dos sinais”
Alguns tipos de média levam a problemas, por exemplo:
- a tarefa é prever o consumo de energia por hora, mas, ao mesmo tempo, os dados de consumo de energia são armazenados apenas por meses - nessa situação, nada pode ser feito antes do acúmulo de dados brutos;
- a média ocorre sobre características que são medidas em momentos significativamente diferentes no tempo;
- usando médias móveis que capturam o período de previsão (o que leva a um problema de vazamento de dados e distorção do modelo);
- o pior de tudo, quando os dados são de alguma forma calculados e esse fato permanece desconhecido.
Nesses casos, a tarefa pode não receber uma solução adequada até que os dados brutos relevantes sejam exibidos.
Mau conselho nº 7: "Não forneça dados adicionais"
Existem vários cenários em que os cientistas de dados solicitam dados adicionais:
- dados brutos adicionais necessários;
- é necessário adicionar novos sinais ao conjunto de dados. Por exemplo, nas tarefas do setor bancário e nas recomendações de produtos, é útil usar o maior número possível de atributos sociodemográficos;
- aumentar o tamanho do conjunto de dados
- a quantidade de dados é limitada, mas pode ser expandida devido a dados históricos ou é possível criar dados adicionais, como em tarefas de processamento de imagem e vídeo.
Os cientistas de dados solicitam dados adicionais quando têm experiência em solucionar problemas semelhantes, nos quais o uso desses dados produz um resultado positivo; caso contrário, a qualidade dos modelos pode ser muito pior do que o potencialmente possível.
Mau conselho 8: "A precisão da marcação manual não é importante"
É necessário prever a qualidade dos produtos com base na marcação manual, ou seja, Os operadores de produção registram manualmente os valores-alvo. Se, ao mesmo tempo, os operadores receberem bônus por bons resultados e punição por maus, então:
- é provável que o alvo contenha um deslocamento;
- como resultado do treinamento, esse viés entrará no modelo;
- o modelo não preverá a distribuição real da variável de destino.
Problemas semelhantes podem surgir com o uso de soluções de crowdsourcing (por exemplo, Yandex.Toloka), onde especialistas recebem recompensas pela marcação de dados. Nesse caso, você precisa validar cuidadosamente a marcação resultante. Existem várias abordagens para isso:
- Sobreposição: marcação de vários especialistas independentes;
- Conjunto Dourado: exemplos com resultados pré-conhecidos são adicionados aos dados para avaliar a precisão dos operadores e sua seleção;
- Votação por maioria: algoritmos de seleção de veredicto com base na marcação de sobreposição.
Conclusão: se houver uma marcação manual dos dados - você precisa verificá-los, caso contrário, erros sistemáticos podem ocorrer.
Mau conselho 9: "Use as roupas da moda"
Leia artigos populares e exija que a solução do problema seja baseada em um método moderno.
Hoje, a ciência de dados é um campo da moda, muitos artigos são publicados, conferências são realizadas quase todos os dias, um número crescente de métodos está sendo criado. No entanto, isso não significa que um método popular adotado arbitrariamente seja ideal em tarefas industriais. Geralmente, não é necessário usar o LSTM na tarefa de otimizar a produção de ferro-gusa, nem é necessário usar o RL em pequenos conjuntos de dados de marketing ou mineração. Nessas tarefas, é aconselhável começar com métodos tradicionais (por exemplo, aumento de gradiente), que podem ser bastante difíceis de convencer os clientes. Os métodos de ML na moda nem sempre são adequados para as tarefas da indústria e geralmente são caros de implementar.
Moral
O conjunto de dicas fornecido não é exaustivo, mas todos são atendidos regularmente na prática. Com essa abordagem, é provável que a ML não esteja funcionando no setor e seja simplesmente um desperdício de dinheiro.
Resumindo, podemos dizer que os casos verdadeiramente inovadores são projetos de ML, implementados no prazo e trazendo lucro mensurável aos negócios de maneira estável. Para conseguir isso, as competências de análise de dados e aprendizado de máquina são importantes e as condições em que os cientistas de dados compreendem bem todo o cenário de um problema de negócios.
Postado por Irina Pimenova, chefe de mineração, Jet Infosystems