Como implementar a tecnologia de aprendizado de máquina em seus negócios

Segundo o Gartner, o aprendizado de máquina está no auge. Estando engajados no desenvolvimento e implementação de soluções no campo de análise de dados e aprendizado de máquina, nossa equipe DATA4 ganhou experiência em estágios e armadilhas importantes, os quais compartilharei no artigo.



Considere os estágios de implementação:


1. Declaração do problema


Qualquer tecnologia deve resolver problemas comerciais específicos. Um artigo separado será necessário para descrever todas as aplicações do aprendizado de máquina, mas várias áreas principais podem ser distinguidas. Trata-se de análise preditiva (pontuação, vazão, determinação da melhor oferta, produtos relacionados etc.), análise de texto (análises na Internet, moderação de conteúdo, tópicos de referências etc.), análise de fala e análise de vídeo.

Para uma implementação bem-sucedida, é necessário determinar quais negócios de KPI estamos melhorando, como e por que métrica medimos o resultado.

2. Coleta, armazenamento e pré-processamento de dados


Quando a tarefa é definida, é necessário criar uma amostra de treinamento (infelizmente, a maioria das tarefas de negócios é resolvida "aprendendo com um professor"). Em nossa experiência, a amostragem é o passo mais longo. Para reduzi-lo, a empresa deve ter uma cultura de trabalho com dados.

Além de coletar dados, é necessário limpá-los e determinar os recursos que afetam o resultado final.

3. Treinamento de algoritmo


O desenvolvimento da parte algorítmica é o estágio mais interessante, mas também o mais rápido. Geralmente, leva de várias horas a várias semanas de trabalho.

4. Desenvolvimento de cintas de alto nível


A solução deve ser clara não apenas para o especialista em análise de dados, mas também para o programador ou administrador que implementará essa solução. E se essa é uma solução altamente carregada, ou uma solução com maiores requisitos de segurança, pode ser necessário reescrevê-la do Python para outro idioma.

5. Integração


Como regra, leva muito tempo devido à necessidade de comunicações e aprovações adicionais. Essa etapa é melhor executada pelas forças internas da equipe do cliente.

6. Coleta de feedback, ajuste do modelo


O mundo está mudando constantemente, nem todos os recursos podem ser levados em consideração no início do desenvolvimento. A coleta de feedback ajuda a treinar os modelos em tempo hábil. Idealmente, nesta fase, o ciclo recomeça, mas com menos tempo.

Recursos de soluções baseadas em aprendizado de máquina:


  1. O aprendizado de máquina é baseado em estatísticas e, quando o algoritmo fornece uma previsão incorreta - isso é normal. É melhor explicar imediatamente ao cliente de negócios por quais métricas a qualidade é avaliada, o que essas métricas significam (nem todo mundo sabe o que são as medidas F e Roc-Auc) e que, manualmente, definir três exemplos e analisar o resultado é interessante, mas não é estatisticamente significativo .
  2. Resultado mal previsto. Os dados nem sempre contêm um sinal útil e é impossível prever com precisão o resultado com antecedência. Geralmente, coletamos dados, construímos modelos simples e, com base neles, dizemos que tipo de resultado é possível alcançar. Esse problema não se aplica a algumas tarefas clássicas (reconhecimento de rosto, reconhecimento de fala etc.).
  3. O aprendizado de máquina é uma tecnologia de última milha, não uma bala de prata para todos os problemas. Se os vendedores não atenderem o telefone de um cliente e não ligarem de volta, haverá muito pouco sentido na introdução da análise de voz.
  4. A maior parte do tempo é gasta em integração, coleta e processamento de dados e não no treinamento do algoritmo (com raras exceções).

Opções para trabalhar com desenvolvedores de terceiros:


  1. Pagamento por hora. Apenas adequado para prototipagem rápida e MVP. Mas não é adequado para soluções que requerem suporte adicional.
  2. Desenvolvimento de contrato. A propriedade intelectual passa para o cliente, o suporte é possível, mas a TK deve ser prescrita com cuidado.
  3. Pagamento com eficácia comprovada. Por experiência pessoal no DATA4, um caso muito complicado em termos de aprovações, que praticamente não é aplicado na prática.

Como alternativa, você pode usar plataformas prontas da IBM, Microsoft, etc., mas, na prática, sai caro com o uso constante, nem sempre é possível implementar um caso específico usando ferramentas prontas, e há restrições sobre quais dados podem ser enviados para lá.

Conclusão


As tecnologias de aprendizado de máquina aumentam a eficiência dos negócios, mas devemos lembrar que, para tomar uma decisão completa, não basta treinar o algoritmo, mas é necessário preparar os dados e integrar a solução aos sistemas internos. E esteja preparado para que o resultado dependa da qualidade da amostra de treinamento.

Source: https://habr.com/ru/post/pt417009/


All Articles